Relacja z październikowego Warsaw Data Science Meetup

W ubiegłym tygodniu miałem okazje wziąć udział w pierwszym po wakacjach spotkaniu „Data Science Warsaw„. Było to moje pierwsze spotkanie z tą grupą i będąc szczerym muszę przyznać, że byłem pozytywnie zaskoczony zarówno atmosferą panują na spotkaniu, jak i poziomem prezentacji.

Dla tych którzy nie wiedzą, Data Science Warsaw jest spotkaniem organizowanym przez Dominika Batorskiego, skupiającym osoby pasjonujące się Machine Learning, Data Mining i wszystkim co związane z szeroko pojętym Data Science. Spotkanie ma charakter otwarty i przyjść na nie może dosłownie każdy. Kto jednak rzeczywiście chodzi na warszawskie meetup’y Data Science, starał się odkryć pierwszy z prelegentów 🙂

Pierwsza sesja – Kto chodzi na warszawskie meetupy data science?

Fundamentalne pytanie. Sam mocno się zastanawiałem kim są ci ludzie. Czy są to osoby z biznesu, pasjonaci, przedstawiciele vendorów zajmujący się rozwiązaniami służącymi do analizy i przetwarzania danych? Na te pytania odpowiedzi szukał Paweł Przytuła z firmy Appsilon. Na początku 2016 roku wpadł on na pomysł zbadania profilu osób z grupy Warsaw Data Science. Podczas weekendowego projektu pobrał on imiona i nazwiska osób ze strony Meetup.com, zarówno z grupy Warsaw Data Science, jak i z grup pokrewnych, np. SER, Hadoop User Group, QlikView, a następnie zmatchował je profilami LinkedIn i wykonał analizę opisową i porównawczą. Cały proces, który przeprowadził Paweł można by podzielić na kilka etapów:

Parsowanie strony Meetup.com w celu pobrania imion, nazwisk i grup do których jest zapisana osoba.
Skrypt napisany w Pythonie, oparty o jedną z popularnych bibliotek i rozszerzenie do Chrome + Scrappy.
Usunięcie duplikatów, oraz profili z niepełnymi informacjami.
Założeniem tego kroku było usunięcie z bazy wszystkich profili, których nazwa miała mniej niż jedno słowo (np. samo imię, lub pseudonim).
Parsowanie LinkedIn w celu matchowania osób z ich profilami zawodowymi.
Tu pojawiło się dla Pawła największe wyzwanie. LinkedIn nie pozwala na parsowanie swojej strony w tradycyjny sposób. Parsując LinkedIn za pomocą Pythona będziemy niemile zaskoczeni. Skrypt zwróci nam ciąg kodu JS, z którym niewiele będziemy mogli zrobić. By uporać się z tym wyzwaniem Paweł użył narzędzia Data-Miner.io. Zgodnie z opisem, Data Miner jest rozwiązaniem, które pozwala pobrać najważniejsze dane z profili linkedIn w „3 minuty”. Z użyciem sesji opartej o swoje dane do logowania Paweł znalazł osoby wykorzystując imiona i nazwiska, które pobrał w kroku 1.
Pobranie słów kluczowych opisujących daną osobę na profilu LinkedIn.
Dla każdej z osób zostały przypisane słowa kluczowe z ich profilu LinkedIn. Tu również użyty został Data Miner, oraz Python.
Klasyfikacja osób.
Wyodrębniono 6 grup:
1. Business – wszystkie nietechniczne osoby. W praktyce autor przyjął że są to wszyscy ci, którzy nie zasiadają na technicznych stanowiskach.
2. Developers – mówi samo za siebie 🙂
3. Data Scientist.
4. Academic – pracownicy uczelni wyższych.
5. Student
6. Other – wszystkie osoby, które nie zostały sklasyfikowane w powyższych pięciu grupach.
Analiza opisowa i porównawcza.
W tym kroku autor przedstawił zestawienie badanych osób. Co mi się bardzo podobało, Paweł nie skupił się jedynie na użytkownikach Warsaw Data Science. Mogliśmy podejrzeć również profil użytkowników, m.in. Hadoop User Group, Big Data, Qlik i wielu innych. Za pomocą Shinny Apps i kilku bibliotek R, mieliśmy okazję obejrzeć dane przestawionej w bardzo fajnej formie.

źródło: https://pawelp.shinyapps.io/meetup-analysis/
Przedstawienie wniosków.
Jak się okazało największą grupą osób uczęszczających na spotkania Warsaw Data Science są deweloperzy. Ogromnym zaskoczeniem dla mnie było miejsce drugie – ludzie związani z biznesem. Jeśli ktoś chciałby poznać najwięcej ludzi z biznesu (a w zasadzie to największy odsetek na danych spotkaniu), powinien bez dwóch zdań udać się na spotkania Qlik-a.

Prezentacja w moim odczuciu bardzo udana. Ciekawy, weekendowy projekt, bardzo fajnie zrealizowany i mimo kilku uproszczeń przedstawiający interesujące wnioski. Kudos dla Pawła.
Dashboard przygotowany przez autora, wraz z finalną analizą można podejrzeć pod linkiem: klik.
Narzędzia wykorzystane w procesie: Data-Miner.io, Scrappy.org, Splash, Shinny, R.
Tych, którzy chcieliby śledzić poczynania Pawła, odsyłam do jego profilu na Twitter.

Druga sesja – Co warto wiedzieć o Factorization Machines?

Drugi prelegent – Bartłomiej Twardowski, doktorant Politechniki Warszawskiej, starał się nas przekonać do mało popularnego (na uczelniach i w literaturze) modelu predykcyjnego Factorization Machines.

Co bardzo ciekawe, model będący tematem prezentacji nie ma nawet swojego opisu na wikipedii. Na próżno szukać go również w popularnych książkach dotyczących ML. Nie usłyszymy o nim również na zajęciach akademickich dotyczących Data Miningu, czy ML. Pomimo swojej niewielkiej popularności jest dosyć często używany przez osoby zajmujące czołowe lokaty w konkursach predykcyjnych.

FM bazuje na faktoryzacji macierzy i jest wykorzystywany głównie przy rekomendacjach, jako alternatywa dla innych metod posiadających wykładniczą złożoność obliczeniową. To złożoność obliczeniowa jest jedną z głównych zalet tej metody. Nie wchodząc w szczegóły, dzięki wspomnianej „faktoryzacji” złożoność algorytmu wynosi $O(kn)$ , zamiast $O(kn^2)$ . Bartek przedstawił również przykładową implementacja modelu, w silniku rekomendacyjnych filmów.

Jako bonus, w ostatnich 10 minutach Bartek podzielił się swoimi wspomnieniami z tegorocznej, Bostońskiej konferencji RecSys.

Prezentacja mocno techniczna, ale przy tym odkrywcza, przedstawiająca mało popularny model. Ja wyniosłem z niej namiar na byłego CDSO Netflixa – Xavier’a Amatriain (warto dodać do obserwowanych na Twitterze :))

Profil Bartka na Twitter.

Podsumowanie

Obie sesje równie ciekawe, choć pokazujące nieco inne podejście do procesu Data Mining. Merytoryczne prezentacje, trafne pytania od uczestników sprawiły że po każdej z prezentacji nawiązywała się żywna dyskusja. Dodatkowym plusem jest klimat panujący na bibliotece UW, dodający uroku całemu spotkaniu. Jeśli tylko interesujesz się Data Science, lubisz spędzać czas z ludźmi „mówiącymi tym samym językiem” co Ty, to spotkania Warsaw Data Science są właśnie dla Ciebie.