Jak w prosty sposób znaleźć się w czołówce rankingu wybranego konkursu na Kaggle?

Kaggle jest miejscem niemal mitycznym, gdzie bój między sobą toczą Data Scientist-ci z całego świata. Marzeniem każdego z nich jest znaleźć się w czołówce dowolnego konkursu, nie wspominając nawet o jego wygraniu. Wydawać by się mogło, że osiągnięcie tego celu graniczy z cudem i wymaga nie lada wysiłku. Okazuje się jednak, że istnieje droga na skróty. 🙂

Natknąłem się na bardzo ciekawe rozwiązanie, które w sposób automatyczny dopasowuje model do wybranego problemu. MLJAR, bo o nim mowa, jest platformą do automatycznego budowania modeli predykcyjnych, która nawet początkującym pomoże osiągnąć znakomite rezultaty 🙂 Budowanie eksperymentu w MLJAR jest banalnie proste i sprowadza się do kilku kroków:

Tworzenie nowego projektu.
Dodanie zbioru uczącego i testowego
Wybranie kolumn które będą brane pod uwagę przy budowaniu modelu predykcyjnego.
Wybranie parametrów eksperymentu:
1. Typ walidacji.
2. Metrykę według której model będzie optymalizowany.
3. Liczbę modeli do zbudowania.
4. Algorytmy do wykorzystania (Extreme Gradient Boosting, Radom Forrest, Regularized Greedy Forest, Extra Trees, KNN, Logistic Regression, Neural Network, Ensemble Averaging)
5. Limit czasu na uczenie pojedynczego modelu.
Rozpoczęcie eksperymentu eksperyment (w tym momencie mechanizm buduje wiele modeli opartych o parametry i algorytmy przez nas zdefiniowane).
Sprawdzenie wyników i wybranie najlepszego modelu.
Wyznaczenie predykcji w oparciu o najlepszy model.

Po kilkudziesięciu minutach przygotowań i kilku godzinach wykonywania eksperymentu możemy uzyskać wynik pozwalający nam znaleźć się w czołówce rankingu na Kaggle. Dowodem jest poniższe w wideo, w którym autor wziął udział (po terminie, w związku z czym nie widnieje w oficjalnym rankingu) w konkursie: Give Me Some Credit.

Kilka prostych kroków pozwoliło mu osiągnąć wynik AUC = 0.869097. Gdyby konkurs był ciągle aktywny plasowałoby go to na… 6 miejscu spośród ponad 900 zespołów! Całkiem nieźle jak na kilka minut zabawy 🙂

Autor porównał MLJAR do kilku innych rozwiązań umożliwiających budowanie rozwiązań ML, m.in. Google i Amazon (inspiracją do tego porównania był artykuł „Machine Learning Wars” z KDnuggets). O dziwo MLJAR na tle dużych konkurentów wypada zadziwiająco dobrze.

Jeżeli powyższy przykład wydał Ci się interesujący, to nieco więcej na temat tego rozwiązania możesz się dowiedzieć z oficjalnej strony MLJAR.

źródło grafiki: Kaggle.com

Konrad
29 sierpnia 2018 o godz. 21:02

Ostatnio bawiłem się chwilę AutoKeras’em (https://autokeras.com) i nawet odpalając przykład, który jest w dokumentacji, wyniki były dosyć słabe…

Dzięki za wstawkę o tym projekcie, sprawdzę sobie w wolnej chwili 🙂

Pozdrawiam,
Konrad

Odpowiedz
- Mateusz Grzyb
  30 sierpnia 2018 o godz. 10:56
  
  Hej Konrad! 🙂 Nigdy nie słyszałem o AutoKeras, więc dziękuję za informację. Być może słabsze niż oczekiwałeś wyniki, to kwestia danych, lub charakterystyka problemu, który chciałeś rozwiązać? Tak czy inaczej, dodaję ją do listy bibliotek do przetestowania 😉
  
  Odpowiedz

Jak w prosty sposób znaleźć się w czołówce rankingu wybranego konkursu na Kaggle?

Podobał Ci się ten artykuł?

2 Komentarze

Dodaj komentarz Anuluj pisanie odpowiedzi

Podobał Ci się ten artykuł?

Podobne wpisy:

2 Komentarze

Dodaj komentarz Anuluj pisanie odpowiedzi