Mateusz Grzyb
Warsaw Data Science Meetup #26 – maj 2017
9 maja miałem okazję zaprezentować w ramach meetupu Warsaw Data Science koncepcję budowy silników rekomendacyjnych. Na realnym przykładzie zbioru filmów omawiałem krok po kroku kolejne etapy budowy mechanizmu rekomendacyjnego wykorzystującego techniki zaczerpnięte z teorii zbiorów rozmytych i logiki rozmytej.
Wykorzystanie zbiorów rozmytych w silnikach rekomendacji
Dla większości osób przy budowaniu mechanizmu rekomendacji algorytmami pierwszego wyboru będą popularne klasyfikatory. Niestety mało kto jednak zna i na co dzień wykorzystuje techniki rozmyte, które dają świetne rezultaty w przypadkach filtrowania opartego o indywidualne preferencje użytkownika (Content-based filtering). Już w najbliższy wtorek podczas prezentacji na Warsaw Data Science #26 omówię ideę działania silnika rekomendacji … Dowiedz się więcej
Zaawansowana analityka w chmurze hybrydowej – darmowy webinar
Statystyki pokazują, że wykorzystanie chmury publicznej w ostatnich 5 latach wzrosło o niemal 50%. Nie oznacza to jednak, że firmy przenoszą swoje dane w 100% do chmury. Zazwyczaj mamy do czynienia z podejściem hybrydowym. Firmy korzystają z korzyści jakie niesie chmura, a przy tym zachowują swoje krytyczne dane OnPremises.
Jak działają sieci neuronowe?
Sieć neuronowa jest jednym z podstawowych algorytmów uczenia maszynowego. Mimo iż została wynaleziona ponad 70 lat temu, to do dziś pozostaje na topie jako jeden z najbardziej wyrafinowanych algorytmów. Ma to szczególne znaczenie dziś. Coraz częściej mówimy o głębokim uczeniem (ang. deep learning) i jego zastosowaniu. U jego podstaw leżą właśnie sieci neuronowe, które dzięki … Dowiedz się więcej
Relacja z Data Science Meetup #23 – luty 2017
W 28 lutego miałem okazję uczestniczyć w 23-cim spotkaniu grupy Warsaw Data Science. Meetup był podzielony na dwie prezentacje, które miały wspólny motyw przewodni: wykrywanie anomalii. Co ciekawe prezentowały one inne podejścia do podobnego problemu, w zupełnie różnych branżach (bankowość i sprzedaż online), z użyciem różnych technologii. Po spotkaniu byłem mocno zaskoczony i miałem dwa … Dowiedz się więcej
Wybór odpowiedniego algorytmu. Część 2 – algorytmy klasyfikacyjne
W dzisiejszym wpisie biorę na tapetę chyba najpopularniejszą kategorię algorytmów – algorytmy klasyfikacyjne. Rozwiązują one problemy klasyfikacji danych i należą do moich ulubionych algorytmów. Jeśli chcesz wiedzieć jak działają najpopularniejsze klasyfikatory i czym się kierować przy ich wyborze, to zapraszam do czytania.
Wybór odpowiedniego algorytmu. Część 1 – wprowadzenie
Dobór algorytmu to w przypadku Machine Learningu jedna z kluczowych kwestii. Niekiedy może ona zaważyć nad powodzeniem całego projektu, a w większości przypadków będzie mieć kluczowy wpływ na osiągane przez nasz model wyniki. Źle dobrany algorytm może spowodować wyciąganie niewłaściwych wniosków z danych, czego następstwem mogą być fatalne w skutkach decyzje biznesowe. Właśnie dlatego postanowiłem dogłębnie rozpracować temat i podzielić się moimi przemyśleniami na łamach bloga.
Klasyfikacja pasażerów Titanica
Projekt ten jest kontynuacją wpisu wprowadzającego do Microsoft Azure Machine Learning. W oparciu o rzeczywisty zbiór danych, zbuduję przykładowy model predykcyjny. Przy poprzednim projekcie założyłem, iż kolejny eksperyment będzie pokazywać inną technologię. Po epizodzie z open source, dziś czas na rozwiązanie Microsoft.
Jako motyw przewodni tego projektu wybrałem jeden z najpopularniejszych konkursów Kaggle. Jako że jest to oficjalny konkurs, to będę mógł „sprawdzić się” w rywalizacji z ponad 6000 zespołów które wzięły w nim udział.
Niezbędnik każdego Data Scientist – Data Wrangling CheatSheet
Czy dokładnie pamiętasz wszystkie najpopularniejsze funkcje wykorzystywane w R do EDA? No właśnie, ja też nie. A przecież eksploracyjna analiza danych powinna być jednym z pierwszych kroków pracy z danymi. To dzięki niej poznajemy strukturę danych, wykonujemy badania przygotowawcze i stawiamy hipotezę będącą clou całego projektu. Bez wątpienia jest ona „fundamentem” każdego procesu badania danych. … Dowiedz się więcej