W dzisiejszych czasach cierpimy na przesyt informacji i możliwości. Problem ten przenosi się również na tematykę Data Science. Nawet najprostsze rzeczy da się zrobić na kilka sposobów. Mnogość bibliotek, metod i ich parametrów potrafi przyprawić o ból głowy.
Niesłychanie ciężko jest to wszystko zapamiętać, dlatego jeśli tylko analizujesz dane w Pythonie, to mam dla Ciebie 3 ściągawki, które pomogą Ci w codziennej pracy z danymi.
Jeśli tylko dobrze poszukasz, w sieci można znaleźć mnóstwo tego typu materiałów. Poniżej przedstawiam 3, które mi najbardziej przypadły do gustu i które uważam za najbardziej wartościowe:
- Seaborn Cheat Sheet by DataCamp.com
Seaborn jest „nakładką” na matplotlib. Z założenia ma umożliwić budowanie ładnych wykresów w nieco prostszy sposób. Mimo wszystko liczba dostępnych opcji sprawia, że ciężko wszystko zapamiętać.
Autorzy ściągawki na jednej stronie ujęli cały proces wizualizacij. Od ustawienia stylu, poprzez wybór wykresu, na szczegółowym jego dostosowywaniu skończywszy. Znajdziecie tu kilka podstawowych wykresów (które wystarczą w 95% przypadków), wraz z wyszczególnionymi podstawowymi parametrami. - Scikit-Learn by DataCamp.com
Dla tych, którzy nie wiedzą, Scikit-Learn jest open source-ową biblioteką, która daje programistom Pythona dostęp do całej palety algorytmów i narzędzi niezbędnych w procesie uczenia maszynowego.
Podobnie jak w przypadku Seaborn, tak i tutaj autorzy zawarli całe „mięso” w jednym pliku. Ściągawka daje szybki wgląd w najważniejsze elementy modelowania z użyciem sklearn: wczytanie i przygotowanie danych, podział zbioru, budowę modelu, wybór miary jakości modelu, walidację krzyżową i proces optymalizacji parametrów. Wszystko, co potrzebne do zbudowania modelu od A do Z, na jednej stronie 🙂 -
Pandas Cheat Sheet by Mark Graph
Na koniec zostawiłem prawdziwą perełkę 🙂 Dotyczy ona biblioteki Pandas, która jest absolutną podstawową każdego Data Scientista programującego w Pythonie.
W sieci dostępna jest inna ściągawka z Pandas, ale przedstawia one zupełne podstawy i jest przeznaczona raczej dla początkujących.
Zupełnie inaczej wygląda „ściągawka”, którą przygotował blogger – Mark Graph. Można ją nazwać mini poradnikiem. Na 12 stronach pokrywa on chyba więcej niż statystyczny badacz danych na co dzień potrzebuje 🙂 Szczerze polecam.
Jeśli tylko pracujesz z danymi, to dobrą praktyką jest mieć pod ręką najczęściej wykorzystywane kawałki kodu. Współpracując z różnymi firmami, niejednokrotnie widziałem wydrukowane R Markdown, lub ggplot2 przyklejone do ściany w okolicach biurka.
Na koniec dodam jeszcze jedną wskazówkę od siebie, która być może wpłynie na tempo i jakość Twojej pracy: buduj własne ściągawki. Żaden gotowy cheat sheet nigdy nie będzie tak dobry, jak Twój własny, uszyty na miarę pod Ciebie.
Ja spisuję i porządkuję wszystkie biblioteki, klasy, metody i funkcje (również te własne), które uciekają mi z głowy, do jednego pliku
cheat_sheet.py
. Dzięki niemu, jeśli przy kolejnym projekcie będę chciał np. zbadać zależność pomiędzy zmiennymi kategorycznymi, to wystarczy, że sięgnę do swojej ściągawki i skopiuję metodę
CramersV
, którą kiedyś napisałem. Szybko, prosto i przyjemnie 🙂
–
Źródła:
PODOBAŁ CI SIĘ TEN ARTYKUŁ?
Jeśli tak, to zarejestruj się, by otrzymywać informacje o nowych wpisach.
Dodatkowo w prezencie wyślę Ci bezpłatny poradnik :-)
Mark Graph przeniósł swoje ściągawki do innej lokalizacji.
Tu jest aktualna
https://drive.google.com/drive/folders/0ByIrJAE4KMTtaGhRcXkxNHhmY2M
Justyna, dziękuję ślicznie za komentarz i za link. Zaktualizowałem wpis. Dziękuję i pozdrawiam! 🙂
„Zupełnie inaczej wygląda „ściągawka”, którą przygotował blogger – Mark Graph. Można ją nazwać mini poradnikiem. Na 12 stronach pokrywa on chyba więcej niż statystyczny badacz danych na co dzień potrzebuje Szczerze polecam.”
Gdzie jest obecnie ta ściągawka. Nie znajduję. Jeśli wyleciała z blogu: Mark Graph, ale masz w swoim archiwum to proszę o przesłanie. Wielkie dzięki.
Pozdr. Jaki
Hej Jaki, niestety nie mam jej nigdzie zapisanej.
Dodałbym jeszcze materiały Chrisa Albona: https://chrisalbon.com/