Moja lekcja

 0    100 schede    klaus1
Scarica mp3 Stampa Gioca Testa il tuo livello
 
Domanda Risposta
1. Omów mechanizmy łączenia danych z wielu tabel.
inizia ad imparare
-LEFT JOIN ON A. KEY=B. KEY(WHERE B. KEY IS NULL), INNER JOIN, RIGHT JOIN ON A. KEY=B. KEY(WHERE A. KEY IS NULL), FULL OUTER JOIN ON A. KEY=B. KEY(WHERE A. KEY IS NULL OR B. KEY IS NULL)
2. Omów klasyfikację funkcji działających na pojedynczych wierszach.
inizia ad imparare
f-cje działające na jednym wierszu, gdzie wynikiem zawsze będzie również jeden wiersz, SQL: numeryczne (ABS), znakowe (VARCHAR), konwertujące (CONVERT), datowe (NOW)
3. W jakim celu buduje się perspektywy? Omów możliwe klauzule polecenia do tworzenia perspektyw
inizia ad imparare
inaczej widoki-wirtualne tabele tw. na podst. zapytań, nie przechowują danych, tylko definicja widoku i metadane, zapewniają bezp. danych przez ogr. dostępu do danych zapisanych w tabelach. CREATE VIEW, SELECT, FROM, WHERE
4. Operacje na zbiorach – omów składnię poleceń i znaczenie uzyskanych wyników.
inizia ad imparare
UNION-usuwa duplikaty, UNION ALL-zostawia, INTERSECT-zostawia tylko wspólne wiersze, EXCEPT- tylko np. wiersze z 1 zbioru
5. Przedstaw podzapytania – typy w których mogą wystąpić operatory.
inizia ad imparare
Podzapytania dzielą się na: skalarne (z operatorami =, <, >), listowe (IN, NOT IN, ANY, ALL), skorelowane (EXISTS, NOT EXISTS) oraz tabelowe w klauzuli FROM. Różnią się liczbą zwracanych wartości i sposobem użycia operatorów.
6. Omów typowe rozwiązania Big Data w obszarze baz/repozytoriów danych.
inizia ad imparare
- rozproszone systemy plików (HDFS), hurtownie danych SQL w dużej skali (Hive, BigQuery), bazy NoSQL (MongoDB, Cassandra, DynamoDB), data lake/lakehouse (S3, Delta Lake) oraz systemy streamingowe (Kafka, Flink).
7. Przedstaw specyfikę środowisk analitycznych stosowanych w Big Data.
inizia ad imparare
-skalowalność pozioma (wiecej węzłów niż większych), -przetw. równoległe, -obsługa danych masowych, -analiza streaming, -elastyczne przechowywanie (data lake) oraz integracja narzędzi ML i SQL dla szybkiego przetw.
8. Omów wybrany algorytm stosowany w analityce Big Data.
inizia ad imparare
k-średnich-1) wybór k klastrów 2) losowy wybór K punktów jako centra klastrów 3) przypis. kazdego pkt do najbliższego klastra 4) akt. środków klastrów 5) powtarzanie 3-4 az klastry przestana się zmieniać (zbieżność)
9. Na czym polega MapReduce?
inizia ad imparare
model przetw. Big Data, w którym faza Map dzieli dane i przekształca je w pary klucz–wartość, a faza Reduce agreguje wyniki według kluczy. Umożliwia równoległe, skalowalne i odporne na awarie przetw. dużych zbiorów danych.
10. Co to jest Deep Learning, podaj przykład.
inizia ad imparare
uczenie maszyn., mózg, oparte na wielowarstwowych sieciach neuronowych, które samodzielnie uczą się złożonych wzorców z dużych zbiorów danych. Przykład: sieć CNN rozpoznająca obiekty na zdjęciach, np. wykrywanie twarzy czy klasyfikacja obrazów.
11. Jakimi cechami charakteryzują się typowe problemy Big Data?
inizia ad imparare
5V Variety (różnorodność typów danych), Volume (ilośc - nowe i ważne dane), Velocity(prędkość przesyłania danych), Veracity (wiarygodność - potwierdzone źródła)), Value (wartość, odkrywanie wzorców)+skalowalność, bezp., integracja danych, koszty infr.
12. Omów przykładowe techniki stosowane w rozpoznawaniu wzorców.
inizia ad imparare
-klasyfikacja (SVM, drzewa, sieci neuronowe), klasteryzacja (k-means, DBSCAN), redukcja wymiarów (PCA), ekstrakcja cech (HOG, SIFT) oraz metody głębokiego uczenia, np. CNN do analizy obrazów.
13. Na czym polega przetwarzanie rozproszone?
inizia ad imparare
Polega na jednoczesnym wykonywaniu zad. obliczen./przetw. danych na wielu nzal. j. obliczen. Kluczowe cechy:-skalowalność, odp. na awarie, -współbieżność,-dzieli zadania,-lokalne dane
14. Omów wybraną metodykę opisującą sposób realizacji procesu wytwórczego modelu analitycznego.
inizia ad imparare
CRIPSM-DM 1) BU-cele projektu,2) DU-zebranie danych, 3) DP-selekcja i czyszczenie,4) M-modelowanie,5) E-ewaluacja/wer. wyników,6) D-wdrożenie
15. Wymień kluczowe założenia będące warunkami zastosowania modeli predykcyjnych do wspomagania procesów decyzyjnych.
inizia ad imparare
- dostępne i jakościowe dane,-stabilność związków w czasie,-odpowiednia definicja zmiennej celu,-zrozumiały i interpretowalny model,-ocena jakości predykcji, - zgodny z obecnymi regulacjami i etyką,- możliwość wdrożenia i monitorowania
16. Jak mierzymy jakość modelu prognostycznego?
inizia ad imparare
na zb. testowym, zależy od rodzaju problemu i celu modelowania: regresyjne - prognozujące wart. liczbowe(MSE, RMSE, MAE, R2), klasyfikacyjne (accuracy, F1-score, precision, recall czułość))
17. Omów w jaki sposób wykorzystanie systemu kontroli wersji wpływa na efektywność procesu wytwórczego rozwiązań analitycznych.
inizia ad imparare
GIT - współpraca zespołowa, -śledzenie zmian i historii, -bezpieczeństwo danych,-automatyzacja i integracja testów. Zastosowanie: wersjonowanie notatników, kontrola zmian w zapytaniach, śledzenie metryk i wyników
18. Wyjaśnij co to jest reprodukowalność procesu analitycznego i dlaczego jest ona ważna w praktyce gospodarczej.
inizia ad imparare
zdolność do odtw. wyników analizy na podst. tych samych danych, narzędzi i metod. Dlaczego? zaufanie i przejrzystość, weryfikacja i kontrola jakości, współpraca zespołowa,
19. Omów podstawowe sposoby zapewnienia reprodukowalności procesu analitycznego.
inizia ad imparare
-wersjonowanie kodu -sys. kontrli wersji (Git), -zapis wyników i metadanych, -ustalony zestaw d. test, -automatyzacja proc. anal- tw. pipeline, -dokumentacja i komentarz, -zarz. śr. anal.(użycie Docker do utrw. zal.)
20. Wyjaśnij co to jest próg odcięcia w modelach klasyfikacyjnych oraz omów od czego zależy jego optymalna wartość w przypadku wykorzystania takiego modelu do wspomagania podejmowania decyzji.
inizia ad imparare
CUTOFF THRESHOLD- wart. graniczna, powyżej której wykrywane jest oszustwo (fraud), domyślnie 0.5, opt. wart. zależy od: celów biznesowych i kosztów błędów,-charakterystyki danych,-pref. metryki jakości,-analiza krzywej ROC
21. Wyjaśnij do czego wykorzystywana jest regularyzacja w procesie budowy modeli predykcyjnych.
inizia ad imparare
zapobiega przeuczeniu m. predyk. Dodaje do f-cji błędu kary za zbyt duże wart. param. Dzięki temu model jest prost­szy, b. uogólniony i lepiej działa na nowych danych. W praktyce stabilizuje współcz., ogranicza szum i poprawia zdoln. generalizacji.
22. Wyjaśnij różnicę pomiędzy wnioskowaniem obserwacyjnym i kontrfaktycznym.
inizia ad imparare
Wnioskowanie obs. opisuje zal. widoczne w danych rzeczywistych. Wnioskowanie kontrfakt. dot. scenariuszy „co by było, gdyby”, analizując alternatywne wersje rzeczywistości. Jedno opisuje fakty, a drugie hipotetyczne sytuacje.
23. Wyjaśnij na czym polega paradoks Simpsona.
inizia ad imparare
przypadek w statystyce, gdzie trend obecny w kilku oddzielnych grupach znika lub odwraca się w trakcie połączenia ze sobą grup, może prowadzić do błędnych wniosków a uśr. wniosków może ukrywać ważne zależności i czasem warto skupić się na podgrupach
24. Przedstaw korzyści ekonomiczne z przetwarzania danych w chmurze.
inizia ad imparare
-wszystko w jednym miejscu, -model płatności tylko za wielkość zużycia pay-as-you-go, -elastyczne skalowanie,-niższe koszty utrzymania,-brak inw. kapitał.-automatyczne akt.,-szybsze wdrażanie projektów
25. Omów technologie serveless w gromadzeniu i przetwarzaniu danych na potrzeby procesów analitycznych.
inizia ad imparare
umożliwia gromadzenie i przetw. danych bez zarz. serwerami. Usługi jak AWS Lambda, Azure czy Google Cloud Functions skalują się automatycznie, reagują na zd., pobierają i transformują dane, wspierając analitykę w sposób elastyczny i kosztowo efektywny.
26. Przedstaw metody przechowywania danych dużych rozmiarów w chmurze.
inizia ad imparare
- data lake (S3, Azure Data Lake), -rozproszonych systemach plików (HDFS),- hurtowniach danych (BigQuery, Snowflake), -bazach NoSQL (Cassandra, DynamoDB) oraz w formacie lakehouse (Delta Lake, Iceberg).
27. Omów skalowanie dokumentowych baz danych typu noSQL w chmurze na przykładzie DynamoDB.
inizia ad imparare
Skaluje się automatycznie przez partycjonowanie danych wg klucza oraz dynamiczne zwiększ. przepustowość. Dzięki modelowi key–value, replikacji i trybom on-demand lub provisioned obsługuje duży ruch bez zarz. serwerami przez co szybki i stabilny dostęp.
28. Omów skalowanie procesów analitycznych w chmurze.
inizia ad imparare
dynamiczne dobieranie mocy obliczeniowej do potrzeb. Usługi jak Spark, BigQuery czy Databricks automatycznie zwiększ. zasoby, równolegle przetw. dane, oddzielają storage od compute i umożliwiają szybkie, elastyczne analizy dużych zb.
29. Omów Function as a service - model przetwarzania oparty o architekturę Lambda.
inizia ad imparare
model, w którym uruchamiane są krótkie f-cje reagujące na zd., bez zarz. serwerami. W arch. Lambda chmura automatycznie skaluje wykonania i rozlicza tylko czas działania, co umożliwia elastyczne, zdarzeniowe przetw. danych.
30. Omów tworzenie i zarządzanie bezpieczeństwem środowisk analitycznych dla języków Python i R w chmurze.
inizia ad imparare
-odizolowane środowisko pracy analityka(Docker), kontrolę dostępu (IAM), szyfrowanie danych, zarz. zależnościami, monitoring
31. Omów zarządzanie bezpieczeństwem użytkownicy polityki i grupy
inizia ad imparare
opiera się na IAM: użytkownicy mają ind. konta, grupy łączą ich o podobnych zad., role nadają tymczasowe uprawnienia usługom lub osobom, a polityki def. szczegółowe zasady dostępu, kontrolując kto i do czego ma dostęp.
32. Przedstaw systemy zarządzania relacyjną bazą danych w chmurze i ich zastosowania w analityce danych.
inizia ad imparare
1. MySQL(Amazon RDS),2. MSC SQL (Azure SQL) i 3. PostgreSQL(Cloud SQL), oferują automat. skalowanie, kopie zapasowe i dost., łatwą integr. z innymi usługami. Służą do analityki transak., raportowania, integracji z BI oraz jako źródło danych dla hurtowni
33. Przedstaw modele przetwarzania danych w chmurze: IaaS (Infrastructure-as-a-Service) PaaS (Platform-as-a-Service) oraz SaaS (Software-as-a-Service).
inizia ad imparare
Iaas-udost. podst. infrastrukturę IT(maszyny wirt, sieci), duża elastycznośc i kontrola, PaaS-środowisko do tw. i wdrażania aplikacji, ogr. kontrolę nad infrskt, SaaS-gotowe apl. dostępne przez internet, msc365, ogr. personalizacji
34. Omów kwestie etyczne związane z Big Data.
inizia ad imparare
-naruszenie prywatności,-brak przejrzystości,-dyskryminacja algorytmiczna,-małe bezpieczeństwo,-możliwość handlu danymi
35. Omów cechy danych istotne w procesie analizy danych.
inizia ad imparare
-jakość(kompletne, spójne, wiarygodne), -typ danych(ilość/jakość),-struktura(tabele vs. obrazy), -skala i format(liczby vs. tekst), -źródło (zaufane i opisane)
36. Przedstaw na czym polega zmienność danych i jak ją uwzględnić w wizualizacji danych.
inizia ad imparare
zjawisko polegające na zmianie danych w czasie, przestrzeni lub między grupami, może wynikać z sezonowości, trendów, pozwala zrozumieć dynamikę zjawisk, identyf. nietypowe zachowania, wykres liniowy, pudełkowy, historgram, cieplne, punktowe
37. Przedstaw na czym polega niepewność w analizie danych i jak można wpływać na jej wielkość
inizia ad imparare
stopień, w jakim wyniki różnią się od rzeczywistości. wynika z różnych źródeł: braków danych, błędów pom, uproszczeń modeli. Jej zrozum. pozwala na oc. wiarygodn. wniosków. W celu zmn. -zw.l. obs., st. dokł. narz., elim. obs. odst.
38. Jakie znaczenie mają metadane w analizie danych.
inizia ad imparare
dane o danych, dostarczają kontekstu, struktury i znaczenia. Znaczenie: ułatwiają wyszukiwanie i org. danych, zw. jakość i wiarygodność, wsp. integr. danych i umożliwiają automatyzację. pomagają w zgodności z regulaminami
39. Wymień i omów układy współrzędnych stosowane przy wizualizacji danych.
inizia ad imparare
-układ kartezjański, biegunowy(wykresy kołowe i radarowe), geograficzny(szerokość i długośc geogr)
40. Wymień i omów metody wizualizacji proporcji.
inizia ad imparare
wykres kołowy, donut chart, słupkowy, skumulowany słupkowy
41. Wymień i omów metody wizualizacji relacji.
inizia ad imparare
wykres rozrzutu, liniowy, bąbelkowy, macierz korelacji
42. Wymień i omów metody wizualizacji danych geolokalizacyjnych.
inizia ad imparare
mapa cieplna, przepływu, kartogram
43. Wymień obiekty bazy danych i omów ich przeznaczenie.
inizia ad imparare
tabele (przechowywanie danych), widoki (wirtualne zestawy danych), indeksy (przyspieszanie wyszukiwania), klucze (integralność), procedury i f-cje (logika), triggery (automat. akcje) oraz schematy (organizacja).
44. Wymień i omów metody wizualizacji szeregów czasowych.
inizia ad imparare
liniowe wykresy trendu, wykresy sezonowości (np. boxplot wg msc), wykresy autokorelacji ACF/PACF, heatmapy kalendarzowe, dekompozycje trend–sezonowość, rolling plots oraz forecasts vs actuals do oceny prognoz.
45. Przedstaw na czym polega uwzględnienie kontekstu w analizie danych.
inizia ad imparare
polega na zrozumieniu okoliczności, źródła, celu i warunków w jakie dane zostały zebrane oraz ich właściwej interpretacji, w celu uniknięcia błędnych wniosków, zwiększenia wiarygodności i użyteczności rezultatów
46. Wyjaśnij co to jest system kontroli wersji na przykładzie systemu Git i zaproponuj typowy workflow
inizia ad imparare
Git to system zapisujący historię zmian i umożliwiający pracę wielu osób. Typowy workflow: tworzenie branch, wpr. zmian i robienie commity, wysłanie gałęzi na repozytorium, tworzenie pull request, po review łączenie z main i akt. lokalną kopię.
47. Omów wybraną technikę redukcji wymiaru danych
inizia ad imparare
PCA redukuje wymiar danych, przekształcając je do nowych osi (składowych), które max wariancję. Usuwa korelacje między cechami i zachowuje najważniejsze inf., ułatwiając wizualizację, uczenie modeli i przyspieszając obliczenia przy dużej liczbie zm.
48. Omów pojęcie obliczeń równoległych i podstawowe problemy, które pojawiają się w obliczeniach równoległych
inizia ad imparare
polegają na podziale zadania na części wyk. jedn. na wielu rdzeniach/maszynach. Problemy to modyfik. danych przez kilka procesów jedn., zakleszczenie(czek nawzajem), zagłodzenie(nieuż proc), koszty komunikacji
49. Omów pojęcie estymatora odpornego na wybranym przykładzie.
inizia ad imparare
nie zmienia wyniku pod wpływem wart. odstających. Przykład: mediana w przeciwieństwie do śr. pozostaje stabilna, gdy w danych pojawią się ekstremalne wart., dlatego lepiej opisuje typowy poziom zm.
50. Omów technikę regularyzacji na wybranym przykładzie np. regresji LASSO
inizia ad imparare
stosuje regularyzację L1, dodając karę za sumę wart. bezwzgl. współcz. „Ściska” je do zera, dzięki czemu model jest prostszy, mniej podatny na przeuczenie i jednocześnie wykonuje selekcję zm., wybierając tylko najważniejsze cechy.
51. Co oznacza określenie 3V oraz 5V w kontekście problematyki Big Data?
inizia ad imparare
3V Variety (różnorodność typów danych), Volume (ilośc - nowe i ważne dane), Velocity(prędkość przesyłania danych), Veracity (wiarygodność - potwierdzone źródła)), Value (wartość, odkrywanie wzorców)
52. Wyjaśnij pojęcia danych ustrukturyzowanych i nieustrukturyzowanych.
inizia ad imparare
mają uporządkowany format (tabele, kolumny), łatwo je analizować SQL. Dane nieustrukt. nie mają sztywnej struktury (tekst, obrazy, audio), wymagają metod NLP lub przetw. multimediów. Różnią się formą i sposobem analizy.
53. Przedstaw architektury: Lambda i Kappa.
inizia ad imparare
Lambda - elastyczny wzorzec architektoniczny, przetwarzanie danych w sposób skalowalny, niezawodny i w czasie rzeczywistym, Batch+Speed+Serving Layer równocześnie. Kappa - uproszczony wzorzec, Apache Kafka, przetwarzanie strumieniowe, tryb ciągły,
54. Przedstaw kluczowe cechy uczenia i predykcji w trybie wsadowym (offline learning) i przyrostowym (online learning)
inizia ad imparare
uczenie wsadowe najpierw zbiera się wszystkie dane, i model trenowany jest jednorazowo, po zakończeniu można go używać do predykcji. Uczenie przyrostowe do modelu dodawane są stopniowo kolejne dane i model uczy się na bieżąco i szybko się aktualizuje
55. Podaj przykład i omów w jakich sytuacjach wskazane jest zastosowanie modelu przetwarzania OLTP
inizia ad imparare
Online Transaction Processing - stos. w sys. wym. szybkich, częstych i małych trans., np. w bankowości. Przykład: system sprzedaży online zapisujący zamówienia w cz rzecz. Zapewnia spójność, niskie opóźnienia i obsługę wielu jedn. użytk.
56. Podaj przykład i omów w jakich sytuacjach wskazane jest zastosowanie modelu przetwarzania OLAP
inizia ad imparare
Online Analytical Processing - stos się do szybk. i wielowym. analizy dużych zb. danych, np. raportów sprzedaży/trendów fin. Umożliwia szybką agreg. i dane hist. Przykład: hurt. danych wsp. raport. KPI. Służy do strategii, nie do transakcji.
57. Wyjaśnij pojęcie i zastosowania biznesowe hurtowni danych.
inizia ad imparare
System zoptymalizowany pod kątem danych strukturalnych, które są już oczyszczone i uporządkowane, przykład: Snowflake, Amazon Redshift, działają w chmurze i są wysoko skalowane i elastyczne ale mniej niż Data Lake
58. Omów problem czasu w strumieniowym przetwarzaniu danych czym jest watermark
inizia ad imparare
wynika z opóźnionych zdarzeń. Watermark to znacznik inf. system, że wszystkie zd. starsze niż okr. czas powinny już nadejść. Pozwala zamykać okna czasowe, agregować dane i ogr. opóźnienia wyników.
59. Przedstaw różnicę pomiędzy wsadowym i strumieniowym sposobem przetwarzania danych
inizia ad imparare
wsd. działa na dużych zb. danych z opóźnieniem i jest opt dla raportów i ETL. Strumieniowe przetwarza dane na bieżąco, zd. po zd., zapewniając natychmiastowe wyniki idealne do monitoringu, alertów i analityki w cz. rzeczywistym.
60. Opisz dwa biznesowe zastosowania analizy danych w czasie rzeczywistym
inizia ad imparare
wspiera np. wykrywanie fraudów, gdzie transakcje są natychmiast oceniane pod kątem podejrzanych wzorców Apache Kafka, oraz dynamiczne rekomendacje i ceny w e-commerce, dostosowujące ofertę do zachowań użytk., awaria maszyn
61. Wymień i omów metodyki procesu eksploracji danych.
inizia ad imparare
CRISP-DM (etapy: biznes, dane, przygotowanie, modelowanie, ewaluacja, wdrożenie), KDD (od selekcji danych do odkrywania wiedzy) oraz SEMMA (Sample, Explore, Modify, Model, Assess). Pomagają uporządkować cały proces analityczny.
62. Omów dwie główne grupy metod eksploracji danych.
inizia ad imparare
nadzorowane (klasyfikacja, regresja), gdzie model uczy się na danych z etykietami, oraz nienadzorowane (klasteryzacja, redukcja wymiarów), które odkrywają ukryte struktury bez znanych klas. Każda służy innym celom analitycznym.
63. Omów metody selekcji zmiennych i obserwacji do modelowania data mining.
inizia ad imparare
- oparta na wiedzy eksperckiej, - ocena każdej zmiennej niezależnie od modelu, - w trakcie trenowania modelu,- obserwacji odstających. Jest często implementowana na etapie zapytań ETL w celu opt. przetwarzania dalszych etapów analizy
64. Metody klasyfikacji danych - przedstaw różnice i podobieństwa pomiędzy nimi.
inizia ad imparare
różnią się złożonością, interpretowalnością i sposobem uczenia: drzewa są czytelne, SVM tworzy granice, sieci neuronowe uczą złożone wzorce, a kNN klasyfikuje po sąsiadach. Wszystkie jednak przypisują dane do klas na podst. wzorców z treningu.
65. Przedstaw model drzewa decyzyjnego.
inizia ad imparare
model, który dzieli dane na kolejne gałęzie wg pytań o cechy, aż do uzyskania liści reprezentujących decyzje lub klasy. Jest łatwe do interpretacji, obsługuje dane nieliniowe i wybiera podziały max zmn. nieczystość (np. Gini).
66. Omów modele lasów losowych.
inizia ad imparare
tworzą wiele drzew decyzyjnych trenowanych na losowych podzbiorach danych i cech. Każde drzewo głosuje, a wynik to agregacja decyzji. Model jest stabilny, odporny na przeuczenie, dobrze działa na danych nieliniowych i ocenia ważność zm.
67. Przedstaw modele sztucznych sieci neuronowych.
inizia ad imparare
modele z warstwami połączonych neuronów, które uczą się z danych, modyfikując wagi połączeń. Potrafią wykrywać złożone, nieliniowe wzorce. Obejmują MLP, CNN do obrazów i RNN/LSTM do sekwencji, osiągając wysoką skuteczność w wielu zad.
68. Omów metody grupowania danych.
inizia ad imparare
klastr., obejmują k-means, które dzieli dane na k klastrów wg odległości, DBSCAN wykrywające skupiska o różnej gęstości przestrzennej. Wszystkie odkrywają struktury bez etykiet.
69. Omów metody analizy danych transakcyjnych.
inizia ad imparare
reguły asocjacyjne (Apriori, FP-Growth) wykrywające współwyst. produktów, analizę koszykową do rekomendacji, segmentację klientów oraz detekcję anomalii identyfikującą nietypowe lub podejrzane transakcje.
70. Omów metody konstrukcji tablic trwania życia oraz podaj przykłady ich wykorzystania.
inizia ad imparare
kohortowe (rzecz. i na przestrzeni) lub przekrojowe(jeden okres), obliczając pr-stwa zgonu i przeżycia w kolejnych okresach. Stosuje się je w demografii, ubezpieczeniach, medycynie i analizie ryzyka do prognozowania dł. życia.
71. Porównaj modele nieparametryczne i modele parametryczne analizy czasu trwania.
inizia ad imparare
nieparam. (np. Kaplan–Meier) nie zakładają kształtu rozkładu czasu trwania i są elastyczne. Modele param. (Weibull) zakładają konkretny rozkład, co daje większą precyzję i możliwość ekstrapolacji. Różnią się więc założ. i zakresem zastosowań.
72. Scharakteryzuj modele proporcjonalnych hazardów oraz podaj przykłady takich modeli.
inizia ad imparare
m. prop. hazard. zakładają, że zm. obj. wpływ. na ryzyko przez st. mnożnik, a kształt f-cji hazardu jest skalowalny. Stos. ryzyka m. 2 jedn. niezm. niezal. od momentu zd. Najpop. model Coxa, a param. odpowiedniki to m.in. model Weibulla. ACT
73. Scharakteryzuj modele przyspieszonej porażki oraz podaj przykłady takich modeli.
inizia ad imparare
M. przyspieszonej porażki (AFT) opisują wpływ zm. jako przyspieszanie lub opóźnianie czasu do zd.-działają więc na osi czasu, nie na hazardzie. Przykłady to modele log-normalne, Weibulla AFT i log-logisticzne, stosowane m.in. w niezawodności i medycynie.
74. Scharakteryzuj modele semiparametryczne analizy czasu trwania.
inizia ad imparare
m. semiparam łączą część param i nieparam. W analizie czasu trwania głównym przykładem jest model Coxa, gdzie wpływ zm. opisuje część param., a bazowy hazard pozostaje nieokr. Zapewnia elastyczność bez silnych założeń o rozkł.
75. Wymień różnice pomiędzy podejściem klasycznym a bayesowskim w kontekście estymacji parametrów modeli analizy czasu trwania.
inizia ad imparare
Klasyczne podejście estymuje param. wyłącznie na podst. danych i daje pkt wyniki. Bayesowskie łączy dane z wcześniejszą wiedzą (priory), zwraca rozkł. a nie pkt oraz umożliwia pełne ujęcie niepewności. Różnią się więc interpretacją i sp. estymacji.
76. Omów modele ryzyk konkurencyjnych w analizie czasu trwania.
inizia ad imparare
M. ryzyk konkurencyjnych opisują sytuacje, gdy kilka typów zd. może zakończyć czas trwania, a wyst. jednego uniemożliwia inne. Stosuje się f-cje hazardów specyficznych dla przyczyn i modele Fine-Gray, aby szacować wpływ zm. na poszczególne ryzyka.
77. Omów ideę metod Monte Carlo bazujących na łańcuchach Markowa (MCMC) w kontekście estymacji parametrów modeli analizy czasu trwania.
inizia ad imparare
MCMC służy do estymacji parametrów modeli bez określonego rozkładu pr-stwa, losuje wiele kolejnych kroków (akc/odrz) tak że każdy krok zależy tylko od poprzedniego (tworzy łańcuch), z czasem mamy pożądany rozkład
78. Jakość danych w analizach biznesowych. Znaczenie i metody oceny.
inizia ad imparare
-dec. o wiarygodności analiz. -Ocenia się ją przez kompletność, spójność, dokładność, aktualność i unikalność. Met. obejmują profile danych, reg. walidacji, wykrywanie duplikatów, spr źródeł oraz monitor. błędów, co zapewnia rzetelne decyzje biznesowe.
79. Imputacja danych. Istota i znaczenie.
inizia ad imparare
uzupełnianie brak. wartości w zb, aby umożliwić poprawną analizę. Zapobiega utracie inf. i zniekształceniu wyników. Może być prosta (średnia, mediana) lub zaawansowana (KNN, MICE). Jej celem jest zwiększ. jakości i wiarygodności modeli.
80. Imputacja wielokrotna: opis metody wybór modelu do imputacji oraz estymacja parametrów
inizia ad imparare
tworzy kilka wersji danych z różnymi uzupeł. braków, by odzwierciedlić niepewność. Model imputacji dobiera się do typu zm. (np. regresja, logit, drzewa). Param. estymuje się osobno dla każdej wersji, a wyniki łączy reg Rubina.
81. Porównaj modele z efektami stałymi oraz modele z efektami losowymi. Przedstaw podstawowe różnice i zastosowania obu typów modeli.
inizia ad imparare
m. z ef. stałymi kontrolują wpływ jedn. poprzez stałe param., skupiając się na różnicach w obrębie jedn.Ef. losowe traktują zróżnicowanie jako losowe i uogólniają wyniki na populację. 1 są b. restrykcyjne, 2 elastyczniejsze i wymagają mniej param.
82. Regresja kwantylowa: opis i zastosowania w analityce biznesowej.
inizia ad imparare
modeluje wybrane kwantyle zm zależnej, np. medianę lub 90. percentyl, zamiast średniej. Umożliwia analizę ef. w całym rozkładzie wyników. W biznesie służy m.in. do oceny ryzyka, prognoz skrajnych wart., wyceny nieruchomości i optym. kosztów.
83. Regresja adaptacyjna: model opis estymacji i zastosowania w analityce biznesowej.
inizia ad imparare
MARS- buduje model z lokalnych f-cji bazowych, dopasowując się do nieliniowych zal. Estymacja odbywa się w 2 krokach: dodawanie i przycinanie f-cji. W biznesie służy do prognoz, segmentacji i model. złożonych relacji.
84. Metoda k-średnich i jej zastosowanie w ocenie wartości klienta w czasie CLV.
inizia ad imparare
K-średnich grupuje klientów w klastry o podobnych cechach, min. odległość od centroidów. W analizie CLV pozwala wydzielić segm. o różnej wart. życiowej klienta, identyfikować grupy wysokomarżowe, przewidywać zachowania i wspierać personalizację ofert.
85. Wymień i omów zastosowania biznesowe modeli oceny wartości klienta w czasie CLV.
inizia ad imparare
wspierają segm. klientów, przewidywanie ich przyszłej wart, opt. budżetu marketingowego, personalizację ofert, identyfikację klientów wysokiego ryzyka odejścia oraz decyzje dotyczące retencji i akwizycji. Pozwalają zwiększać marżę i lojalność.
86. Jakie statystyki opisowe są odporne na wartości nietypowe?
inizia ad imparare
-mediana, moda, rozstęp międzykwartylowy
87. Jakie statystyki opisowe należy stosować w przypadku prób pobranych z populacji o rozkładzie innym niż rozkład normalny?
inizia ad imparare
-mediana, moda, rozstęp międzykwartylowy, miary pozycyjne, wskaźniki asymetrii(dodatnia-wydłużony ogon po prawej stronie) i kurtozy(koncentracja danych wokół średniej i obecność wartości skrajnych)
88. Omów trzy elementy bezpieczeństwa informacji: Poufność, Integralność, Dostępność
inizia ad imparare
Poufność chroni dane przed nieuprawnionym dost., integralność zapewnia ich poprawność i nienaruszalność, a dostępność gwarantuje, że uprawnieni użytk. mogą z nich korzystać wtedy, gdy potrzebują. Razem tworzą podst. bezpiecznego przetwarzania inf.
89. Co to jest Spear Phishing (ukierunkowany atak na osobę lub organizację)?
inizia ad imparare
atak, w którym cyberprzestępca podszywa się pod zaufaną osobę/inst., używając spersonalizowanych inf. o ofierze. Celem jest wyłudzenie danych, pieniędzy lub dost. do systemów. Ataki są precyzyjne i trudniejsze do wykrycia niż zwykły phishing.
90. Przedstaw podstawowe zasady cyberbezpieczeństwa dla MŚP (Małe i Średnie Przedsiębiorstwa)
inizia ad imparare
-silne i unikalne hasła, - MFA(uwierzytelnianie wieloskł.), -regularne aktualizacje,-szkolenie pracowników z cyberbezp.,-kopie zapasowe danych,-antywirusy, firewall,-polityka bezpieczeństwa i planu awaryjnego
91. Na czym polega interpretacja języka programowania, podaj przykłady języków interpretowalnych oraz kilka różnych interpretatorów
inizia ad imparare
polega na wyk. kodu linijka po linijce przez interpreter bez wcześniejszej kompilacji. Przykłady języków: Python, JavaScript, Ruby, PHP. Przykłady interpreterów: CPython, Node. js, Ruby MRI, PHP Engine, Lua Interpreter. Dzięki temu kod działa od razu.
92. Omów sposób instalacji i zarządzania bibliotekami (pakietami) w środowisku języka Python, podaj przykłady popularnych bibliotek
inizia ad imparare
PIP package, instalowane z poziomu terminala, BIBLIOTEKI:-numpy (obliczenia mat), -pandas(analiza danych),-matplotlib(wizualizacja), -scikit-learn(uczenie maszynowe), -TensorFlow(sieci neuronowe)
93. Omów techniki iterowania na przykładzie wybranego języka programowania, np. R, Python
inizia ad imparare
- for loop(do przeglądania list),-while loop(operacje aż do spełniania warunków),-enumerate(iterowanie z jednoczesnym dostępem do indeksu),-list comprehension (nowe listy za pomocą składni iteracyjnej),-zip(równoległa iteracja po wielu kolekcjach)
94. Omów koncepcję funkcji oraz zakresu ważności zmiennych na przykładzie wybranego języka programowania, np. R, Python
inizia ad imparare
f-cja to blok kodu wykonujący zadanie i przyjmujący arg. Zakres zm. obejmuje zm lokalne (widoczne tylko w f-cji) i globalne (dostępne w całym programie). F-cja tworzy własny scope, co zapobiega kolizjom nazw i ułatwia modularność.
95. Co to jest silnik decyzyjny? Wymień reguły procesu akceptacji kredytowej implementowane w silniku decyzyjnym.
inizia ad imparare
system automatyzujący podejm. decyzji na podst. zestawu reguł. W akceptacji kredytowej stosuje się reguły: scoring, weryfikacja dochodu, historii BIK, zadłużenia, limitów DTI, wieku, zatrudnienia, celu kredytu oraz blacklist/whitelist.
96. Omów pojęcia związane z przygotowaniem danych i zdarzeniem modelowym: punkt obserwacji, okres danych i okres obserwacji, wymień najczęstsze błędy modelowania (np. wzięcie danych z przyszłości) i problemy z doborem długości obu okresów.
inizia ad imparare
to moment tworz. cech; okr danych to czas, z którego je liczymy, a okr obserwacji to czas na ocenę zd. Błędy: użycie danych z przyszłości, zbyt krótkie okna, niestabilność cech. Problemem jest dobranie okien tak, by oddawały realne zachowania.
97. Omów przykładową kartę scoringową. Jak wyznacza się punkty cząstkowe? Jak interpretuje się kartę scoringową?
inizia ad imparare
narzędzie na regresji log., pkty w zależności od cech klienta, obl. z wag modelu (WOE). Wynik klienta ozn. pr-stwo spłaty zob. Wyższy score ozn niższe ryzyko. Kartę interpretuje się przez progi akc., odrzuceń i segmenty ryzyka.
98. W jaki sposób obliczana jest opłacalność procesu akceptacji kredytowej? Jaką rolę w tym odgrywa model scoringowy?
inizia ad imparare
ocenia się poprzez porównanie przychodów (odsetki, prowizje) z kosztami ryzyka i stratami z defaultów. Model scoringowy szacuje pr-stwo niewypłacalności, pozwala ustalić progi akceptacji i optymalnie dobrać klientów, max zysk portfela.
99. Co to jest analiza wpływu wniosków odrzuconych (Reject Inference)?
inizia ad imparare
tech. szac. ryzyka klientów odrz. w proc. kredyt., aby ogr. bias w modelu spr. pr-stwo czy byłby dobrym/złym klientem nie znając ich później. zach., stosuje się met. imputacji do obec. już modelu, by popr. jakość scoringu i decyzji akcept.
100. Omów wpływ ludzkiego czynnika na proces akceptacji kredytowej, czy można zwiększyć sprzedaż i zmniejszyć ryzyko kredytowe jednocześnie?
inizia ad imparare
Ludzki czynnik wpływa na błędy, odstęp. od reguł i niekonsekwencję decyzji. Automat. i scoring ogr. te ryzyka. Lepsze modele, segment. i opt. progi akcept. pozwalają zwięk. sprzedaż i zmn. ryzyko, kierując ofertę do właśc. klientów.

Devi essere accedere per pubblicare un commento.