Data Science | Mateusz Grzyb

Grupowanie hierarchiczne – wprowadzenie teoretyczne

9 lutego 202628 lutego 2019 przez Mateusz Grzyb

klastrowanie hierarchiczne, klastrowanie wstępujące, aglomeracyjne, zstępujące, grupowanie, analiza skupień

Po krótkim wstępie do problemu grupowania dziś biorę na tapetę pierwszą grupę algorytmów grupujących – algorytmy hierarchiczne.

Dowiedz się więcej

Wstęp do problemu grupowania

9 lutego 202621 lutego 2019 przez Mateusz Grzyb

grupowanie, klasteryzacja, analiza skupień, data mining

Ten wpis jest wstępem do dość specyficznego problemu, z jakim spotykamy się w uczeniu maszynowym – problemu grupowania obserwacji.

Dowiedz się więcej

Konkurs + ankieta: zdecyduj o przyszłości bloga

9 lutego 202614 lutego 2019 przez Mateusz Grzyb

Pierwszy konkurs i pierwsza ankieta w historii bloga. Planuję spore zmiany, w związku z tym chciałbym prosić Cię o małą pomoc. 🙂

Dowiedz się więcej

Blogi, które polecam

9 lutego 202610 listopada 2018 przez Mateusz Grzyb

data science, książki, blogi, polecane, serwisy, polecane blogi, polecane strony, uczenie maszynowe

Kontynuuję temat rozpoczęty przy okazji wpisu: Książki, które polecam i dziś dzielę się z Wami moimi ulubionymi blogami.

Dowiedz się więcej

Klasyfikacja wniosków o wydanie karty kredytowej

9 lutego 202617 kwietnia 2018 przez Mateusz Grzyb

klasyfikacja, data science, karta kredytowa

Być może zastanawiałeś się kiedyś nad tym, jakie korzyści niesie ze sobą wdrożenie w organizacji rozwiązania opartego o uczenie maszynowe. Optymalizacja kosztów, przewaga nad konkurencją i możliwość zarządzania ryzykiem to te, które jako pierwsze przychodzą mi do głowy. Jest jednak jeszcze jeden szalenie ważny aspekt, który choć bardzo podstawowy, często jest zapominany.

Dowiedz się więcej

Jak przyspieszyć Pythona jedną linijką kodu?

9 lutego 202629 marca 2018 przez Mateusz Grzyb

Chyba każda osoba pracująca z danymi chociaż raz w swoim życiu spotkała się z tym problemem: powolne ładowanie danych, które znacząco spowalnia proces analizy danych. Na niewiele zda się tu moc obliczeniowa, która nie rośnie aż tak szybko, jak wolumeny danych, z którymi pracujemy. Co zatem zrobić, jeśli nie chcemy wydawać górki pieniędzy na rozbudowę własnej infrastruktury, a usługi chmurowe nie wchodzą w grę? Okazuje się, że już wkrótce może się pojawić na to proste rozwiązanie.

Dowiedz się więcej

Python Data Science Handbook

9 lutego 202615 października 2017 przez Mateusz Grzyb

Wertując otchłanie internetu w poszukiwaniu inspiracji i ciekawych treści natknąłem się ostatnio na interesującą książkę podejmującą temat szeroko pojętej nauki o danych. „Python Data Science Handbook” bo o niej mowa, została wydana przez znane i cenione w światku badaczy danych wydawnictwo O’Reilly. Jej autorem jest dr Jake VanderPlas (btw. autora całkiem ciekawego bloga) pełniący na … Dowiedz się więcej

Microsoft Azure User Group #15

9 lutego 202622 czerwca 2017 przez Mateusz Grzyb

Jakiego narzędzia powinienem użyć do tego projektu? Które z nich zapewni mi odpowiednią skalowalność i szybkość? – te pytania powtarzane są na forach związanych z analizą i przetwarzaniem danych. I nic dziwnego. Liczba rozwiązań z rodziny uczenia maszynowego, które są dostępne na rynku potrafi przyprawić o zawrót głowy.

Dowiedz się więcej

Klasyfikacja pasażerów Titanica

9 lutego 20268 lutego 2017 przez Mateusz Grzyb

Projekt ten jest kontynuacją wpisu wprowadzającego do Microsoft Azure Machine Learning. W oparciu o rzeczywisty zbiór danych, zbuduję przykładowy model predykcyjny. Przy poprzednim projekcie założyłem, iż kolejny eksperyment będzie pokazywać inną technologię. Po epizodzie z open source, dziś czas na rozwiązanie Microsoft.

Jako motyw przewodni tego projektu wybrałem jeden z najpopularniejszych konkursów Kaggle. Jako że jest to oficjalny konkurs, to będę mógł „sprawdzić się” w rywalizacji z ponad 6000 zespołów które wzięły w nim udział.

Dowiedz się więcej

Niezbędnik każdego Data Scientist – Data Wrangling CheatSheet

9 lutego 202627 stycznia 2017 przez Mateusz Grzyb

Czy dokładnie pamiętasz wszystkie najpopularniejsze funkcje wykorzystywane w R do EDA? No właśnie, ja też nie. A przecież eksploracyjna analiza danych powinna być jednym z pierwszych kroków pracy z danymi. To dzięki niej poznajemy strukturę danych, wykonujemy badania przygotowawcze i stawiamy hipotezę będącą clou całego projektu. Bez wątpienia jest ona „fundamentem” każdego procesu badania danych. … Dowiedz się więcej