Jak w prosty sposób znaleźć się w czołówce rankingu wybranego konkursu na Kaggle?

Kaggle jest miejscem niemal mitycznym, gdzie bój między sobą toczą Data Scientist-ci z całego świata. Marzeniem każdego z nich jest znaleźć się w czołówce dowolnego konkursu, nie wspominając nawet o jego wygraniu. Wydawać by się mogło, że osiągnięcie tego celu graniczy z cudem i wymaga nie lada wysiłku. Okazuje się jednak, że istnieje droga na skróty. 🙂

 

Natknąłem się na bardzo ciekawe rozwiązanie, które w sposób automatyczny dopasowuje model do wybranego problemu. MLJAR, bo o nim mowa, jest platformą do automatycznego budowania modeli predykcyjnych, która nawet początkującym pomoże osiągnąć znakomite rezultaty 🙂 Budowanie eksperymentu w MLJAR jest banalnie proste i sprowadza się do kilku kroków:

  1. Tworzenie nowego projektu.
  2. Dodanie zbioru uczącego i testowego
  3. Wybranie kolumn które będą brane pod uwagę przy budowaniu modelu predykcyjnego.
  4. Wybranie parametrów eksperymentu:
    1. Typ walidacji.
    2. Metrykę według której model będzie optymalizowany.
    3. Liczbę modeli do zbudowania.
    4. Algorytmy do wykorzystania (Extreme Gradient Boosting, Radom Forrest, Regularized Greedy Forest, Extra Trees, KNN, Logistic Regression, Neural Network, Ensemble Averaging)
    5. Limit czasu na uczenie pojedynczego modelu.
  5. Rozpoczęcie eksperymentu eksperyment (w tym momencie mechanizm buduje wiele modeli opartych o parametry i algorytmy przez nas zdefiniowane).
  6. Sprawdzenie wyników i wybranie najlepszego modelu.
  7. Wyznaczenie predykcji w oparciu o najlepszy model.

Po kilkudziesięciu minutach przygotowań i kilku godzinach wykonywania eksperymentu możemy uzyskać wynik pozwalający nam znaleźć się w czołówce rankingu na Kaggle. Dowodem jest poniższe w wideo, w którym autor wziął udział (po terminie, w związku z czym nie widnieje w oficjalnym rankingu) w konkursie: Give Me Some Credit.

Kilka prostych kroków pozwoliło mu osiągnąć wynik AUC = 0.869097. Gdyby konkurs był ciągle aktywny plasowałoby go to na… 6 miejscu spośród ponad 900 zespołów! Całkiem nieźle jak na kilka minut zabawy 🙂

Autor porównał MLJAR do kilku innych rozwiązań umożliwiających budowanie rozwiązań ML, m.in. Google i Amazon (inspiracją do tego porównania był artykuł „Machine Learning Wars” z KDnuggets). O dziwo MLJAR na tle dużych konkurentów wypada zadziwiająco dobrze.

Jeżeli powyższy przykład wydał Ci się interesujący, to nieco więcej na temat tego rozwiązania możesz się dowiedzieć z oficjalnej strony MLJAR.

źródło grafiki: Kaggle.com

PODOBAŁ CI SIĘ TEN ARTYKUŁ?

Jeśli tak, to zarejestruj się, by otrzymywać informacje o nowych wpisach.
Dodatkowo w prezencie wyślę Ci bezpłatny poradnik :-)

4 Komentarze

    • Hej Konrad! 🙂 Nigdy nie słyszałem o AutoKeras, więc dziękuję za informację. Być może słabsze niż oczekiwałeś wyniki, to kwestia danych, lub charakterystyka problemu, który chciałeś rozwiązać? Tak czy inaczej, dodaję ją do listy bibliotek do przetestowania 😉

  1. Dzień dobry! Panie Mateuszu, jestem kompletnym laikiem – nie rozumiem 80% tematu, wiec proszę o wyrozumiałość. Mam jedno pytanie: czy aby brać udział w konkursach na Kaggle trzeba umieć programować? Jeśli tak – w jakim języku/technologii? Chciałabym pracować w obszarze AI, automatyzacji itp. i szukam informacji, jak się za to zabrać i tak jakoś trafiłam na Pana blog 🙂

Dodaj komentarz

Twój adres email nie zostanie opublikowany.


*