Był ogłoszony konkurs i ankieta, teraz czas na wyniki i wnioski. Szczerze przyznam, że obserwując, jak rozkładają się głosy jeszcze w trakcie trwania ankiety, byłem mocno zaskoczony. 🙂
Z tego artykułu dowiesz się: 1. Kto wygrał konkurs? 2. Jak głosowali czytelnicy bloga? 3. Jak wyglądają moje pierwsze wnioski i plany na przyszłość?
Wyniki konkursu
Obiecałem, że spośród wszystkich osób, które wypełnią ankietę i podadzą swój adres e-mail, wylosuję jedną, która otrzyma ode mnie małą nagrodę. Maszyna losująca wylosowała adres e-mail należący do Izy i to ona wygrywa książkę. Serdecznie gratuluję! 🙂 Z Izą kontaktowałem się dzień po zakończeniu ankiety i w chwili, gdy czytasz te słowa, książka jest już u nowego właściciela.
Wyniki ankiety
Ankieta składała się z 9 zamkniętych pytań dotyczących bloga. Pytania wraz z odpowiedziami (dla przejrzystości posortowałem je w sposób malejący, według liczby Waszych głosów) wyglądały następująco:
- Wpisy na blogu powinny być…
- Są w sam raz. – 73%
- Dłuższe. – 22%
- Krótsze. – 5%
- Poziom trudności przedstawianych na blogu zagadnień jest…
- Jest w sam raz. – 73%
- Za niski (oczekuję nieco bardziej zaawansowanych zagadnień). – 17%
- Za wysoki (oczekuję nieco prostszych zagadnień). – 10%
- Jaki rodzaj problemów ML chciałbyś zobaczyć na blogu?
- Rekomendacje (silniki rekomendacyjne, reguły asocjacyjne, wzorce decyzyjne). – 21%
- Wykrywanie anomalii. – 20%
- Grupowanie (klasteryzacja). – 17%
- Klasyfikacja wieloklasowa. – 16%
- Regresja (prognozowanie wartości ciągłych). – 15%
- Klasyfikacja dwuklasowa. – 11%
- Jakiego typu wpisy najbardziej Cię interesują?
- Projekty opisujące wykorzystanie zestawu technik na realnym problemie i zbiorze danych (np. rozwiązanie problemu scoringu kredytowego). – 78%
- Techniczne, przedstawiające techniki wykorzystywane w uczeniu maszynowym (np. omówienie metod doboru zmiennych do modelu). – 22%
- Wpisy dotyczące umiejętności miękkich i ich zastosowania w codziennej pracy. – 0%
- Użycie jakiej chmury chciałbyś zobaczyć na łamach bloga?
- Azure. – 42%
- Google. – 35%
- AWS. – 23%
- Gdybym miał uruchomić nowy kanał komunikacji z czytelnikami, to powinien to być…
- Youtube. – 52%
- Podcast. – 33%
- Spotkania live (cykliczne spotkania i dyskusje w ramach Meetup-u). – 15%
- Które tematy interesują Cię najbardziej?
- Uczenie maszynowe (algorytmy i ich użycie do poszukiwania wzorców w danych). – 36%
- Data Mining (eksploracja danych, wydobywanie wiedzy z danych). – 29%
- Statystyka (testowanie hipotez, analiza statystyczna zbiorów danych). 18%
- Big Data. – 17%
- Jakie typy wpisów chciałbyś zobaczyć na blogu?
- Case study problemów, które napotkałem podczas pracy z danymi. – 45%
- Uczenie maszynowe z wykorzystaniem technologi chmurowych (API AWS, Azure, Google). – 34%
- Wywiady ze specjalistami ze świata Data Science. 13%
- Przybliżenie interesujących faktów historii uczenia maszynowego. – 8%
- Jaką serię wpisów chciałbyś zobaczyć na blogu?
- Zaawansowane metody modelowania (tzw. modelowanie konkursowe – Kaggle). – 28%
- Metody selekcji zmiennych do modelu predykcyjnego. – 22%
- Praca ze zbiorami niezbalansowanymi. – 19%
- XGBoost. – 16%
- Szeregi czasowe. – 15%
Wnioski z ankiety
Poniżej moje pierwsze wnioski, którymi chciałbym się z Wami podzielić:
- Pytania 1 i 2 – małe zaskoczenie. Miałem wrażenie, że niektóre z moich wpisów są zbyt długie i skomplikowane. Obawiałem się, że w realiach dzisiejszego internetu, w którym wszystko musi być podane szybko i w sposób prosty moje treści będą oceniane jako za długie i za trudne. Tak się jednak nie stało, co bardzo dobrze świadczy o Was drodzy czytelnicy. 🙂 W związku z tym nie zamierzam nic zmieniać w kwestii długości wpisów i ich poziomu trudności.
-
Pytanie 3 – wyraźną przewagę uzyskały dwa pierwsze tematy. Najwięcej Waszych głosów otrzymał temat, od którego się wszystko zaczęło – silniki rekomendacyjne. Chcąc spełnić Wasze oczekiwania, czekać mnie będzie powrót nie tylko do korzeni bloga, ale i czasów akademickich – to praktyczne zastosowanie silników rekomendacjyjnych było tematem mojej pracy magisterskiej i pierwszą miłością jeśli chodzi o uczenie maszynowe. 🙂 Nie oznacza to odgrzebywania nieco „zakurzonych” tematów. Od 2011 roku, gdy poznałem zbiory rozmyte i podejście Content Based Filtering sporo się zmieniło w dziedzinie rekomendacji. W konkursach rekomendacyjnych prym wiodą popularne Factorization Machines i Field Aware Factorization Machines. Jeszcze innym wystarcza sprawdzony Collaborative Filtering lub – w przypadku prostszych zagadnień – reguły asocjacyjne. Bo przecież nie liczy się stopień skomplikowania metody, a otrzymany wynik i wartość dodana przez rozwiązanie. Czasem nie warto strzelać z armaty do muchy. Będzie więc o czym pisać. Jeszcze kilka słów na temat drugiego miejsca. Detekcja anomalii otrzymała raptem 1% mniej głosów niż silniki rekomendacyjne. Co więcej, nie była jeszcze omawiana na łamach mojego bloga, dlatego poruszę ten temat tuż po rekomendacjach. Pozostałe zagadnienia z tej listy odkładam na razie na półkę.
-
Pytanie 4 – wygrana projektów nad artykułami. Cieszę się, że najwięcej osób jest zainteresowanych praktycznym zastosowaniem nauki o danych. 🙂
-
Pytanie 5 – wygrana Azure-a. Chciałem się skupić na jednej z dostępnych chmur i zgłębiając temat, dzielić się z Wami moimi wrażeniami i pomysłami na ich użycie w praktyce. Zgodnie z Waszymi głosami skupię się na Azurze.
-
Pytanie 6 – najwięcej z Was oczekuje użycia youtube jako kanału komunikacji. Muszę przyznać, że po cichu liczyłem na to, że zagłosujecie na podcasty, bo nieco ciekawiło mnie to medium. No ale będę musiał chyba przekonać się do nagrywania wideo. 😉
-
Pytanie 7 – najbardziej interesującym dla Was tematem jest nadal uczenie maszynowe. Nieco łączy się to z Waszymi odpowiedziami, w których wskazywaliście projekty jako najbardziej interesujący typ wpisu.
-
Pytanie 8 – w pytaniu numer 9 aż 79% Waszych głosów otrzymały dwie odpowiedzi: case studies i użycie technologii chmurowych. Te odpowiedzi również łączą się nieco z poprzednimi i pokazują, w jakim kierunku powinienem zmierzać, jeśli chodzi o rozwój bloga.
-
Pytanie 9 – wasze odpowiedzi wskazują, że Kaggle i modelowanie konkursowe wzbudzają Waszą ciekawość. Przed zobaczeniem wyników byłem pewien, że większość osób zagłosuje na XGBoost. Myliłem się i kolejna seria wpisów będzie dotyczyć zaawansowanych metod modelowania. 🙂
Najbliższe zmiany
Uważnie analizując Wasze odpowiedzi, nakreśliłem sobie plan działania na najbliższe tygodnie. Wygląda on następująco:
- Kończę rozpoczętą serię wpisów o algorytmach grupujących. Uwzględnię w niej Wasze sugestie i do wpisów, które miały być czysto teoretyczne będę dodawać „mini projekty” opisujące zastosowanie omawianych metod w praktyce.
- Zainwestuję nieco czasu i napiszę do Worpress-a rozszerzenie (ew. dostosuję już istniejące), które pozwoli mi publikować notatniki Jupyter. Projekty piszę w Jupyterze, następnie piszę tekst wpisu na blogu i kopiuję do niego kod. Wymaga to znacznego wysiłku i jest nieoptymalne. Do tej pory wszystkie rozszerzenia, które miały automatyzować ten proces, zawodziły podczas testów (strony się długo wczytywały, zmieniało się formatowanie, treść projektu nie była indeksowana przez Google, etc.). Zdecydowałem się zatem napisać coś swojego. Jeśli tylko się uda, to zabieg ten pozwoli mi zaoszczędzić wiele godzin pracy przy publikowaniu projektów, co przełoży się na więcej projektów udostępnianych dla Was. 🙂
- Zacznę cyklicznie publikować wpisy dotyczące praktycznego użycia chmury w tematach z zakresu uczenia maszynowego. Zgodnie z Waszymi głosami skupię się na Azure (pytanie nr 5). Pokażę również jak używać i czerpać korzyści z API, które udostępnia chmura Microsoft (pytanie 8).
- Niezależnie od omawianego tematu będę starał się dodawać do wpisów co nieco ze swojego doświadczenia. Będę dzielić się z Wami swoimi spostrzeżeniami podpartymi praktyką.
Dalsze plany
- Po zakończeniu serii wpisów o algorytmach grupujących rozpocznę serię o zaawansowanych metodach modelowania.
- Zacznę dywersyfikować wpisy pomiędzy te „tradycyjne” (projekty, artykuły) i nagrywane. Nie wiem jeszcze, czy założę kanał na youtube, czy też po prostu będę udostępniać nagrania na innej platformie. Muszę się jeszcze nad tym zastanowić.
- Następny w kolejności cykl wpisów będzie dotyczyć silników rekomendacji. Omówię w nim różne podejścia do wyznaczania rekomendacji. Szacuję, że stanie się to jednak dopiero w drugiej połowie roku.
- Po rekomendacjach skupię się prawdopodobnie na temacie wykrywania anomalii.
Podsumowanie
W podsumowaniu chciałbym jeszcze raz podziękować wszystkich, którzy poświęcili swój czas i wypełnili ankietę. Jest to dla mnie niezwykle ważne, bo zależy mi na tym, by dostarczać Wam to, czego rzeczywiście oczekujecie. Dziękuję!
Jeśli masz jakieś sugestie lub pytania, to możesz się nimi podzielić w komentarzu pod tym wpisem. A być może masz dla mnie jakieś pomysły na to, jak mógłbym udoskonalić bloga? Chętnie ich wysłucham. 🙂
photo: unsplash.com (Arnaud Jaegers)
PODOBAŁ CI SIĘ TEN ARTYKUŁ?
Jeśli tak, to zarejestruj się, by otrzymywać informacje o nowych wpisach.
Dodatkowo w prezencie wyślę Ci bezpłatny poradnik :-)
„publikować notatniki Jupyter” – ja co prawda piszę w R i sprawa wydaje się prostsza, ale ostatni wpis był też z Pythonem.
Polecam Rmarkdown w RStudio. W jednym dokumencie masz kod, jego wynik i treść tekstu. Można to wyeksponować do dowolnego (prawie) formatu. Na blogu sprawdza się oczywiście html (sam tego używam, wycinam trochę z wynikowego pliku html, poprawiam ścieżki do obrazków przez search & replace i wyrzucam do postu).
Sprawdź https://rmarkdown.rstudio.com/
Dzięki Łukasz za podpowiedź. Zanim jednak przeczytałem Twój komentarz, to zdążyłem przygotować swoje rozwiązanie „szyte na miarę”. 🙂 Efekty można podejrzeć tutaj: https://mateuszgrzyb.pl/grupowanie-hierarchiczne-praktyka/. 99% tego wpisu powstało w Jupyter. 🙂
Cześć, niestety nie załapałem się na konkurs, ale mam pytanie: czy planujesz może w przyszłości stworzyć wpis/wpisy na temat Algorytmów heurystycznych w poszukiwaniu rozwiązywań problemów optymalizacyjnych?
Cześć Łukasz! 🙂 Na ten moment nie mam takich planów. Jeśli takie wpisy miałyby się ukazać, to z pewnością nie w ciągu najbliższych 12 miesięcy. Być może kiedyś podejmę ten temat. 🙂