Zaawansowana analityka, czyli o czym będę pisać przez najbliższe miesiące

Co w uczeniu maszynowym i statystyce jest zagadnieniem „zaawansowanym”? Gdzie leży granica pomiędzy tym, co proste, a tym, co wysublimowane?

Ostatni rok na blogu upłynął pod znakiem algorytmów grupowania. Pierwotnie planowałem poświęcić temu zagadnieniu tylko kwartał, lecz życie zweryfikowało moje plany. Omawiając jeden temat, na horyzoncie pojawiał się kolejny. Jak to mawiają: „im dalej w last, tym więcej drzew”.

W przeprowadzonej na blogu ankiecie zdecydowaliście, że cyklem wpisów, który zobaczylibyście najchętniej jest temat „Zaawansowane metody modelowania”. Postanowiłem nieco rozszerzyć ten temat i w ciągu najbliższych miesięcy będę omawiać temat zaawansowanej analityki.

Zaawansowana analityka vs zaawansowane metody modelowania

Różnica pomiędzy oboma tematami jest znaczna. Decydując się na zaawansowane metody modelowania (modelowanie konkursowe, a’la Kaggle) skupiałbym się na temacie, co do którego użyteczności mam znaczne wątpliwości (postaram się opisać ten problem w jednym z kolejnych wpisów). Znaczna część tych metod jest po prostu nieaplikowalna w realnym świecie, a ja chcę by wiedza, którą się dzielę była przede wszystkim praktyczna.

Ponadto zaawansowana analityka jest tematem szerszym niż zaawansowane metody modelowania skupiające się na finalnym etapie budowy modelu. Różnica jest zatem znacząca. W ciekawy sposób ukazuje ją poniższy diagram.

zaawansowana analityka, data science, przygotowanie danych

Za trafną uważam też definicję podaną przez Gartnera (źródło):

Advanced Analytics is the autonomous or semi-autonomous examination of data or content using sophisticated techniques and tools, typically beyond those of traditional business intelligence (BI), to discover deeper insights, make predictions, or generate recommendations. Advanced analytic techniques include those such as data/text mining, machine learning, pattern matching, forecasting, visualization, semantic analysis, sentiment analysis, network and cluster analysis, multivariate statistics, graph analysis, simulation, complex event processing, neural networks.

Podsumowując, zaawansowana analityka jest zatem dziedziną interdyscyplinarną. Łączy pozyskiwanie, obróbkę i wizualizację danych z wnioskowaniem opartym o wysublimowane metody zaczerpnięte ze statystyki i uczenia maszynowego.

Gdzie się kończy to, co proste, a zaczyna nietrywialne?

Długo się zastanawiałem nad odpowiedzią na powyższe pytanie. Nie ma jednej, słusznej odpowiedzi. Będzie się ona różnić w zależności od poziomu wyszkolenia i doświadczenia danej osoby. Postanowiłem więc, że skupię się na elementach wykraczających poza „standardowy” proces eksploracyjnej analizy danych i modelowania opisywany w większości tutoriali.

W moim odczuciu pod pojęciem „standardowy” kryją się następujące elementy:

  • podstawowa EDA (analiza rozkładów, typów zmiennych, korelacja pomiędzy zmiennymi),
  • analiza brakujących danych,
  • analiza obserwacji nietypowych (reguła 3 sigma, 1.5IQR),
  • podział zbioru (uczący, testowy, walidacyjny lub walidacja krzyżowa),
  • uzupełnianie braków medianą/średnią/wartością modalną,
  • uczenie modelu + ew. dobór parametrów,
  • walidacja,
  • klasyczna interpretacja podziałów drzewa, statystyk modelu regresji lub feature importance.

Co ta zmiana oznacza dla Was?

Zaplanowałem cykl wpisów, podczas których omówię niektóre z technik zaawansowanego modelowania. Nie zabraknie również takich tematów jak m.in.:

  • metody czyszczenia danych,
  • przygotowywanie danych (również nieustrukturyzowanych) do postaci ABT,
  • transformacje i budowa nowych zmiennych,
  • badanie interakcji pomiędzy zmiennymi,
  • modelowanie na próbach niezbalansowanych,
  • metody selekcji zmiennych.

Kiedy pierwszy wpis nowej serii i co dalej z kanałem YouTube?

Tak, wiem. Zapowiadałem, obiecywałem i nic z tego nie wyszło. Posypuję głowę popiołem i jeszcze w tym miesiącu wystartuję z nowym nagraniem na YouTube. Będzie to testowe wideo. Chciałbym przetestować tę platformę i sprawdzić, czy nagrania będą się cieszyły Waszym zainteresowaniem.

Z kanałem „Data Science Plus” mam związanych wiele obaw. Prym na YouTube wiodą treści relatywnie krótkie i łatwe w odbiorze. Niestety, ale bardzo trudno jest omówić w ciągu 10-15 minut jakikolwiek temat z tak skomplikowanej dziedziny, jaką jest Data Science. Nie mniej jednak zamierzam podjąć próbę. 🙂

Pierwszy merytoryczny wpis z serii „Zaawansowana analityka” pojawi się na blogu już w kolejny weekend. Do zobaczenia!

photo: pixabay.com (Engin_Akyurt)

PODOBAŁ CI SIĘ TEN ARTYKUŁ?

Jeśli tak, to zarejestruj się, by otrzymywać informacje o nowych wpisach.
Dodatkowo w prezencie wyślę Ci bezpłatny poradnik :-)

4 Komentarze

Dodaj komentarz

Twój adres email nie zostanie opublikowany.


*