Po krótkim wstępie do problemu grupowania dziś biorę na tapetę pierwszą grupę algorytmów grupujących – algorytmy hierarchiczne.
Data Science
Wstęp do problemu grupowania
Ten wpis jest wstępem do dość specyficznego problemu, z jakim spotykamy się w uczeniu maszynowym – problemu grupowania obserwacji.
Konkurs + ankieta: zdecyduj o przyszłości bloga
Pierwszy konkurs i pierwsza ankieta w historii bloga. Planuję spore zmiany, w związku z tym chciałbym prosić Cię o małą pomoc. 🙂
Blogi, które polecam
Kontynuuję temat rozpoczęty przy okazji wpisu: Książki, które polecam i dziś dzielę się z Wami moimi ulubionymi blogami.
Klasyfikacja wniosków o wydanie karty kredytowej
Być może zastanawiałeś się kiedyś nad tym, jakie korzyści niesie ze sobą wdrożenie w organizacji rozwiązania opartego o uczenie maszynowe. Optymalizacja kosztów, przewaga nad konkurencją i możliwość zarządzania ryzykiem to te, które jako pierwsze przychodzą mi do głowy. Jest jednak jeszcze jeden szalenie ważny aspekt, który choć bardzo podstawowy, często jest zapominany.
Jak przyspieszyć Pythona jedną linijką kodu?
Chyba każda osoba pracująca z danymi chociaż raz w swoim życiu spotkała się z tym problemem: powolne ładowanie danych, które znacząco spowalnia proces analizy danych. Na niewiele zda się tu moc obliczeniowa, która nie rośnie aż tak szybko, jak wolumeny danych, z którymi pracujemy. Co zatem zrobić, jeśli nie chcemy wydawać górki pieniędzy na rozbudowę własnej infrastruktury, a usługi chmurowe nie wchodzą w grę? Okazuje się, że już wkrótce może się pojawić na to proste rozwiązanie.
Python Data Science Handbook
Wertując otchłanie internetu w poszukiwaniu inspiracji i ciekawych treści natknąłem się ostatnio na interesującą książkę podejmującą temat szeroko pojętej nauki o danych. „Python Data Science Handbook” bo o niej mowa, została wydana przez znane i cenione w światku badaczy danych wydawnictwo O’Reilly. Jej autorem jest dr Jake VanderPlas (btw. autora całkiem ciekawego bloga) pełniący na … Dowiedz się więcej
Microsoft Azure User Group #15
Klasyfikacja pasażerów Titanica
Projekt ten jest kontynuacją wpisu wprowadzającego do Microsoft Azure Machine Learning. W oparciu o rzeczywisty zbiór danych, zbuduję przykładowy model predykcyjny. Przy poprzednim projekcie założyłem, iż kolejny eksperyment będzie pokazywać inną technologię. Po epizodzie z open source, dziś czas na rozwiązanie Microsoft.
Jako motyw przewodni tego projektu wybrałem jeden z najpopularniejszych konkursów Kaggle. Jako że jest to oficjalny konkurs, to będę mógł „sprawdzić się” w rywalizacji z ponad 6000 zespołów które wzięły w nim udział.
Niezbędnik każdego Data Scientist – Data Wrangling CheatSheet
Czy dokładnie pamiętasz wszystkie najpopularniejsze funkcje wykorzystywane w R do EDA? No właśnie, ja też nie. A przecież eksploracyjna analiza danych powinna być jednym z pierwszych kroków pracy z danymi. To dzięki niej poznajemy strukturę danych, wykonujemy badania przygotowawcze i stawiamy hipotezę będącą clou całego projektu. Bez wątpienia jest ona „fundamentem” każdego procesu badania danych. … Dowiedz się więcej