Jak w prosty sposób znaleźć się w czołówce rankingu wybranego konkursu na Kaggle?

Kaggle jest miejscem niemal mitycznym, gdzie bój między sobą toczą Data Scientist-ci z całego świata. Marzeniem każdego z nich jest znaleźć się w czołówce dowolnego konkursu, nie wspominając nawet o jego wygraniu. Wydawać by się mogło, że osiągnięcie tego celu graniczy z cudem i wymaga nie lada wysiłku. Okazuje się jednak, że istnieje droga na skróty. 🙂

Natknąłem się na bardzo ciekawe rozwiązanie, które w sposób automatyczny dopasowuje model do wybranego problemu. MLJAR, bo o nim mowa, jest platformą do automatycznego budowania modeli predykcyjnych, która nawet początkującym pomoże osiągnąć znakomite rezultaty 🙂 Budowanie eksperymentu w MLJAR jest banalnie proste i sprowadza się do kilku kroków:

Tworzenie nowego projektu.
Dodanie zbioru uczącego i testowego
Wybranie kolumn które będą brane pod uwagę przy budowaniu modelu predykcyjnego.
Wybranie parametrów eksperymentu:
1. Typ walidacji.
2. Metrykę według której model będzie optymalizowany.
3. Liczbę modeli do zbudowania.
4. Algorytmy do wykorzystania (Extreme Gradient Boosting, Radom Forrest, Regularized Greedy Forest, Extra Trees, KNN, Logistic Regression, Neural Network, Ensemble Averaging)
5. Limit czasu na uczenie pojedynczego modelu.
Rozpoczęcie eksperymentu eksperyment (w tym momencie mechanizm buduje wiele modeli opartych o parametry i algorytmy przez nas zdefiniowane).
Sprawdzenie wyników i wybranie najlepszego modelu.
Wyznaczenie predykcji w oparciu o najlepszy model.

Po kilkudziesięciu minutach przygotowań i kilku godzinach wykonywania eksperymentu możemy uzyskać wynik pozwalający nam znaleźć się w czołówce rankingu na Kaggle. Dowodem jest poniższe w wideo, w którym autor wziął udział (po terminie, w związku z czym nie widnieje w oficjalnym rankingu) w konkursie: Give Me Some Credit.

Kilka prostych kroków pozwoliło mu osiągnąć wynik AUC = 0.869097. Gdyby konkurs był ciągle aktywny plasowałoby go to na… 6 miejscu spośród ponad 900 zespołów! Całkiem nieźle jak na kilka minut zabawy 🙂

Autor porównał MLJAR do kilku innych rozwiązań umożliwiających budowanie rozwiązań ML, m.in. Google i Amazon (inspiracją do tego porównania był artykuł „Machine Learning Wars” z KDnuggets). O dziwo MLJAR na tle dużych konkurentów wypada zadziwiająco dobrze.

Jeżeli powyższy przykład wydał Ci się interesujący, to nieco więcej na temat tego rozwiązania możesz się dowiedzieć z oficjalnej strony MLJAR.

źródło grafiki: Kaggle.com

PODOBAŁ CI SIĘ TEN ARTYKUŁ?

Jeśli tak, to zarejestruj się, by otrzymywać informacje o nowych wpisach.
Dodatkowo w prezencie wyślę Ci bezpłatny poradnik :-)

Konrad
29 sierpnia 2018 o godz. 21:02

Ostatnio bawiłem się chwilę AutoKeras’em (https://autokeras.com) i nawet odpalając przykład, który jest w dokumentacji, wyniki były dosyć słabe…

Dzięki za wstawkę o tym projekcie, sprawdzę sobie w wolnej chwili 🙂

Pozdrawiam,
Konrad

Odpowiedz
- Mateusz Grzyb
  30 sierpnia 2018 o godz. 10:56
  
  Hej Konrad! 🙂 Nigdy nie słyszałem o AutoKeras, więc dziękuję za informację. Być może słabsze niż oczekiwałeś wyniki, to kwestia danych, lub charakterystyka problemu, który chciałeś rozwiązać? Tak czy inaczej, dodaję ją do listy bibliotek do przetestowania 😉
  
  Odpowiedz
Eve
23 maja 2024 o godz. 19:45

Dzień dobry! Panie Mateuszu, jestem kompletnym laikiem – nie rozumiem 80% tematu, wiec proszę o wyrozumiałość. Mam jedno pytanie: czy aby brać udział w konkursach na Kaggle trzeba umieć programować? Jeśli tak – w jakim języku/technologii? Chciałabym pracować w obszarze AI, automatyzacji itp. i szukam informacji, jak się za to zabrać i tak jakoś trafiłam na Pana blog 🙂

Odpowiedz
- Mateusz Grzyb
  25 maja 2024 o godz. 10:07
  
  Dzień dobry! 🙂 Tak, raczej trzeba umieć programować. Najlepiej język Python, lub R. Proszę rzucić okiem na moje przykładowe projekty wykonane w języku Python: https://mateuszgrzyb.pl/tag/projekt/
  Tłumaczę w nich krok po kroku, co należy zrobić, by zbudować model.
  
  Serdecznie pozdrawiam i trzymam za Panią kciuki! 🙂
  
  Odpowiedz

Jak w prosty sposób znaleźć się w czołówce rankingu wybranego konkursu na Kaggle?

PODOBAŁ CI SIĘ TEN ARTYKUŁ?

4 Komentarze

Skomentuj Mateusz Grzyb Anuluj pisanie odpowiedzi

PODOBAŁ CI SIĘ TEN ARTYKUŁ?

Podobne wpisy:

4 Komentarze

Skomentuj Mateusz Grzyb Anuluj pisanie odpowiedzi