Klasyfikacja wniosków o wydanie karty kredytowej

klasyfikacja, data science, karta kredytowa

Być może zastanawiałeś się kiedyś nad tym, jakie korzyści niesie ze sobą wdrożenie w organizacji rozwiązania opartego o uczenie maszynowe. Optymalizacja kosztów, przewaga nad konkurencją i możliwość zarządzania ryzykiem to te, które jako pierwsze przychodzą mi do głowy. Jest jednak jeszcze jeden szalenie ważny aspekt, który choć bardzo podstawowy, często jest zapominany.

Dowiedz się więcej

Jak przyspieszyć Pythona jedną linijką kodu?

Chyba każda osoba pracująca z danymi chociaż raz w swoim życiu spotkała się z tym problemem: powolne ładowanie danych, które znacząco spowalnia proces analizy danych. Na niewiele zda się tu moc obliczeniowa, która nie rośnie aż tak szybko, jak wolumeny danych, z którymi pracujemy. Co zatem zrobić, jeśli nie chcemy wydawać górki pieniędzy na rozbudowę własnej infrastruktury, a usługi chmurowe nie wchodzą w grę? Okazuje się, że już wkrótce może się pojawić na to proste rozwiązanie.

Dowiedz się więcej

Python Data Science Handbook

Wertując otchłanie internetu w poszukiwaniu inspiracji i ciekawych treści natknąłem się ostatnio na interesującą książkę podejmującą temat szeroko pojętej nauki o danych. „Python Data Science Handbook” bo o niej mowa, została wydana przez znane i cenione w światku badaczy danych wydawnictwo O’Reilly. Jej autorem jest dr Jake VanderPlas (btw. autora całkiem ciekawego bloga) pełniący na … Dowiedz się więcej

Microsoft Azure User Group #15

Jakiego narzędzia powinienem użyć do tego projektu? Które z nich zapewni mi odpowiednią skalowalność i szybkość? – te pytania powtarzane są na forach związanych z analizą i przetwarzaniem danych. I nic dziwnego. Liczba rozwiązań z rodziny uczenia maszynowego, które są dostępne na rynku potrafi przyprawić o zawrót głowy.

Dowiedz się więcej

Klasyfikacja pasażerów Titanica

Projekt ten jest kontynuacją wpisu wprowadzającego do Microsoft Azure Machine Learning. W oparciu o rzeczywisty zbiór danych, zbuduję przykładowy model predykcyjny. Przy poprzednim projekcie założyłem, iż kolejny eksperyment będzie pokazywać inną technologię. Po epizodzie z open source, dziś czas na rozwiązanie Microsoft.

Jako motyw przewodni tego projektu wybrałem jeden z najpopularniejszych konkursów Kaggle. Jako że jest to oficjalny konkurs, to będę mógł „sprawdzić się” w rywalizacji z ponad 6000 zespołów które wzięły w nim udział.

Dowiedz się więcej

Niezbędnik każdego Data Scientist – Data Wrangling CheatSheet

Czy dokładnie pamiętasz wszystkie najpopularniejsze funkcje wykorzystywane w R do EDA? No właśnie, ja też nie. A przecież eksploracyjna analiza danych powinna być jednym z pierwszych kroków pracy z danymi. To dzięki niej poznajemy strukturę danych, wykonujemy badania przygotowawcze i stawiamy hipotezę będącą clou całego projektu. Bez wątpienia jest ona „fundamentem” każdego procesu badania danych. … Dowiedz się więcej