3 najlepsze ściągawki z bibliotek Python

python, data science, sklearn

W dzisiejszych czasach cierpimy na przesyt informacji i możliwości. Problem ten przenosi się również na tematykę Data Science. Nawet najprostsze rzeczy da się zrobić na kilka sposobów. Mnogość bibliotek, metod i ich parametrów potrafi przyprawić o ból głowy.

Niesłychanie ciężko jest to wszystko zapamiętać, dlatego jeśli tylko analizujesz dane w Pythonie, to mam dla Ciebie 3 ściągawki, które pomogą Ci w codziennej pracy z danymi.

Jeśli tylko dobrze poszukasz, w sieci można znaleźć mnóstwo tego typu materiałów. Poniżej przedstawiam 3, które mi najbardziej przypadły do gustu i które uważam za najbardziej wartościowe:

  • Seaborn Cheat Sheet by DataCamp.com
    Seaborn jest „nakładką” na matplotlib. Z założenia ma umożliwić budowanie ładnych wykresów w nieco prostszy sposób. Mimo wszystko liczba dostępnych opcji sprawia, że ciężko wszystko zapamiętać.
    Autorzy ściągawki na jednej stronie ujęli cały proces wizualizacij. Od ustawienia stylu, poprzez wybór wykresu, na szczegółowym jego dostosowywaniu skończywszy. Znajdziecie tu kilka podstawowych wykresów (które wystarczą w 95% przypadków), wraz z wyszczególnionymi podstawowymi parametrami.

  • Scikit-Learn by DataCamp.com
    Dla tych, którzy nie wiedzą, Scikit-Learn jest open source-ową biblioteką, która daje programistom Pythona dostęp do całej palety algorytmów i narzędzi niezbędnych w procesie uczenia maszynowego.
    Podobnie jak w przypadku Seaborn, tak i tutaj autorzy zawarli całe „mięso” w jednym pliku. Ściągawka daje szybki wgląd w najważniejsze elementy modelowania z użyciem sklearn: wczytanie i przygotowanie danych, podział zbioru, budowę modelu, wybór miary jakości modelu, walidację krzyżową i proces optymalizacji parametrów. Wszystko, co potrzebne do zbudowania modelu od A do Z, na jednej stronie 🙂

  • Pandas Cheat Sheet by Mark Graph
    Na koniec zostawiłem prawdziwą perełkę 🙂 Dotyczy ona biblioteki Pandas, która jest absolutną podstawową każdego Data Scientista programującego w Pythonie.
    W sieci dostępna jest inna ściągawka z Pandas, ale przedstawia one zupełne podstawy i jest przeznaczona raczej dla początkujących.
    Zupełnie inaczej wygląda „ściągawka”, którą przygotował blogger – Mark Graph. Można ją nazwać mini poradnikiem. Na 12 stronach pokrywa on chyba więcej niż statystyczny badacz danych na co dzień potrzebuje 🙂 Szczerze polecam.

Jeśli tylko pracujesz z danymi, to dobrą praktyką jest mieć pod ręką najczęściej wykorzystywane kawałki kodu. Współpracując z różnymi firmami, niejednokrotnie widziałem wydrukowane R Markdown, lub ggplot2 przyklejone do ściany w okolicach biurka.

Na koniec dodam jeszcze jedną wskazówkę od siebie, która być może wpłynie na tempo i jakość Twojej pracy: buduj własne ściągawki. Żaden gotowy cheat sheet nigdy nie będzie tak dobry, jak Twój własny, uszyty na miarę pod Ciebie.

Ja spisuję i porządkuję wszystkie biblioteki, klasy, metody i funkcje (również te własne), które uciekają mi z głowy, do jednego pliku

cheat_sheet.py

. Dzięki niemu, jeśli przy kolejnym projekcie będę chciał np. zbadać zależność pomiędzy zmiennymi kategorycznymi, to wystarczy, że sięgnę do swojej ściągawki i skopiuję metodę

CramersV

, którą kiedyś napisałem. Szybko, prosto i przyjemnie 🙂


Źródła:

Podobał Ci się ten artykuł?

Jeśli tak, to zarejestruj się, by otrzymywać informacje o nowych wpisach. Dodatkowo w prezencie wyślę Ci bezpłatny poradnik 🙂

5 Komentarze

  1. „Zupełnie inaczej wygląda „ściągawka”, którą przygotował blogger – Mark Graph. Można ją nazwać mini poradnikiem. Na 12 stronach pokrywa on chyba więcej niż statystyczny badacz danych na co dzień potrzebuje Szczerze polecam.”

    Gdzie jest obecnie ta ściągawka. Nie znajduję. Jeśli wyleciała z blogu: Mark Graph, ale masz w swoim archiwum to proszę o przesłanie. Wielkie dzięki.

    Pozdr. Jaki

Dodaj komentarz

Twój adres email nie zostanie opublikowany.


*