Wybór odpowiedniego punktu odcięcia wcale nie musi być trudny. Poniżej na przykładzie z sektora finansowego pokazuję jak to zrobić w kilku prostych krokach.
1. Import bibliotek.¶
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.metrics import roc_auc_score, classification_report, confusion_matrix, accuracy_score, recall_score, precision_score, roc_curve
from statsmodels.discrete.discrete_model import Logit
2. Wczytanie zbioru danych.¶
Tego zbioru używałem przy okazji kilku innych wpisów (przewidywanie defaultu wśród posiadaczy kart kredytowych i kategoryzacja zmiennych z użyciem drzewa decyzyjnego).
x_tr = pd.read_csv('data/x_tr.csv', index_col = 0)
x_va = pd.read_csv('data/x_va.csv', index_col = 0)
x_te = pd.read_csv('data/x_te.csv', index_col = 0)
y_tr = pd.read_csv('data/y_tr.csv', header = None, index_col = 0)
y_va = pd.read_csv('data/y_va.csv', header = None, index_col = 0)
y_te = pd.read_csv('data/y_te.csv', header = None, index_col = 0)
Sprawdzam rozkład zmiennej celu.
y_tr[1].value_counts(normalize = True)
y_te[1].value_counts(normalize = True)
76.5% do 23.5% - ewidentnie możemy tu mówić o zbiorze niezbalansowanym. Bardzo dobry zbiór, by zobrazować, jak istotny jest wybór odpowiedniego punktu odcięcia.
3. Budowa modelu.¶
model_rl = Logit(y_tr, x_tr).fit()
prawd_rl = model_rl.predict(x_te)
Nie będę się silić na poprawę wyniku, czy selekcję zmiennych. Nie o to chodzi w tym wpisie. 😉
4. Walidacja modelu.¶
# Dla przypomnienia.
pd.DataFrame([['TN', 'FP'], ['FN', 'TP']],
columns = ['predicted negatives', 'predicted positives'],
index = ['actual negatives', 'actual positives'])
Buduję roboczą funkcję do podsumowania osiągniętych wyników w zależności od wybranego cut-offu.
def podsumowanie_modelu(punkt_odciecia):
tn, fp, fn, tp = confusion_matrix(y_te, prawd_rl>punkt_odciecia).ravel()
specyficznosc = tn / (tn+fp)
czulosc = tp / (tp + fn)
print('Raport klasyfikacji:\n{}'.format(classification_report(y_te, prawd_rl>punkt_odciecia)))
macierz_pomylek = pd.DataFrame(confusion_matrix(y_te, prawd_rl>punkt_odciecia),
columns = ['predicted negatives', 'predicted positives'],
index = ['actual negatives', 'actual positives'])
print('\nMacierz pomyłek:\n{}'.format(macierz_pomylek))
return czulosc, specyficznosc
4.1. Punkt odcięcia równy 0.5.¶
czulosc_1, specyficznosc_1 = podsumowanie_modelu(0.5)
W skrócie to na co warto zwrócić uwagę, to dysproporcja w błędach I i II rodzaju (900 vs 106). Wynika ona z działania części algorytmów uczenia maszynowego. Out of the box nie są one dostosowane do prób niezbalansowanych.
4.2. Zmiana punktu odcięcia.¶
Na potrzeby tego ćwiczenia zakładam, że idealny punkt odcięcia leży maksymalnie blisko lewej górnej części wykresu krzywej ROC - tam, gdzie czułość jest największa, przy możliwie największej specyficzności (pisałem o tym w poprzednim wpisie). Będzie to równe założeniu, że oba rodzaje błędu (FP i FN ważą tyle samo, co nie musi być zawsze prawdą).
fpr, tpr, threshold = roc_curve(y_te, prawd_rl)
m = np.argmax(tpr - fpr)
nowy_punkt_odciecia = threshold[m]
czulosc_2, specyficznosc_2 = podsumowanie_modelu(nowy_punkt_odciecia)
5. Porównanie obu podejść.¶
5.1. Kluczowe statystyki.¶
Porównanie najważniejszych statystyk dla obu rozważanych punktów odcięcia.
pd.DataFrame({'Punkt odcięcia nr 1':[czulosc_1, specyficznosc_1],
'Punkt odcięcia nr 2':[czulosc_2, specyficznosc_2]},
index = ['Czułość', 'Specyficzność']).T.round(2)
5.2. Krzywa ROC.¶
Znajdę teraz miejsce w tablicy threshold, w którym leży punkt 0.5. Dzięki temu naniosę go na wykres.
# poszukuje pozycji dla punktu odcięcia = 0.5
n = np.argmin(np.abs(threshold-0.5))
print('Punkt odcięcia równy ok. 0.5, leży na {} miejscu w tablicy threshold.'.format(n))
Narysuję teraz krzywą ROC dla rozpatrywanego modelu z naniesionymi cut off-ami.
def plot_roc_curve(fpr, tpr, title):
plt.figure(figsize = (9, 7))
plt.plot(fpr, tpr, color = '#e64845', label = 'ROC')
plt.plot(fpr[m], tpr[m], 'o', color = '#2a2a2a', markersize = 12) # cutoff = 0.28 - koło
plt.plot(fpr[n], tpr[n], 's', color = '#2a2a2a', markersize = 12) # cutoff = 0.5 - kwadrat
plt.plot([0, 1], [0, 1], color = '#2a2a2a', linestyle = '--')
plt.xlabel('1 - Specyficzność')
plt.ylabel('Czułość')
plt.title(title)
plt.legend()
plt.show()
Na poniższym wykresie kółko to optymalny punkt odcięcia (przy założeniu, że oba rodzaje błędów kosztują nas tyle samo), a kwadrat to standardowy cut-off równy 0.5.
plot_roc_curve(fpr, tpr, 'Krzywa ROC')
Myślę, że na powyższych wykresie doskonale widać uzysk wynikający z tej krótiej analizy. 🙂
5.3. Wykres separacji gęstości dla zbudowanego modelu.¶
Chciałbym Ci pokazać jeszcze jedną rzecz. Istnieje jeszcze jeden wykres, na którym znakomicie widać sens konieczności zmiany pierwotnego punktu odcięcia. 🙂
Buduję maski dla zbioru testowego, dla dobrych złych kredytobiorców.
prawdziwe_0 = y_te == 0
prawdziwe_1 = y_te == 1
Dla przypomnienia sprawdzam, ile wynosi nowy, "optymalny" cut-off.
nowy_punkt_odciecia
plt.figure(figsize = (12, 7))
#sns.set_palette()
ax_1 = sns.kdeplot(prawd_rl.loc[prawdziwe_0.values], shade = True, color = '#eb6c6a')
ax_2 = sns.kdeplot(prawd_rl.loc[prawdziwe_1.values], shade = True, color = '#6c6aeb')
ax_2.text(nowy_punkt_odciecia + 0.02, 3, 'nowy punkt odcięcia = {}'.format(nowy_punkt_odciecia.round(3)), )
ax_2.axvline(nowy_punkt_odciecia, linestyle = '--', color = 'grey', linewidth = 1.4)
ax_2.text(0.5 + 0.02, 2, 'pierwotny punkt odcięcia = {}'.format(0.5), )
ax_2.axvline(0.5, linestyle = '--', color = 'grey', linewidth = 1.4)
plt.legend(['nowy punkt odcięcia', 'pierwoty punkt odcięcia', 'prawdopodobieństwa prawdziwych 0', 'prawdopodobieństwa prawdziwych 1'])
plt.title('Wykres separacji gęstości klas')
plt.show()
Wykresy gęstości czerwony i niebieski (wybacz moją igonrancję, ale będąc mężczyzną, nie potrafię lepiej nazwać tych kolorów ;)) obrazują rozkład predykcji prawdopodobieństwa, jakie nadał model dla kolejno: prawdziwych 0 i prawdziwych 1. Poniżej kilka wniosków.
- Zbudowany model jest modelem o średniej jakości - najwięcej prawdziwych 1 znajduje się w okolicy największej liczby prawdziwych 0 (prawdopodobieństwo ok 0.15 - 0.25). Dobry model powinien nieco lepiej separować obie klasy.
- Punkt 0.5 sprawiałby, że model popełniałby niewiele błędów I rodzaju (FP), za to kosztem całej masy błędów II rodzaju (FN). W przypadku banku oznaczałoby to, że nie tracimy wiele na złych predykcjach, za to odrzucamy wiele klientów, na których moglibyśmy zarobić.
- Nowy punkt odcięcia (0.281) sprawia, że równoważymy błędy, które popełnia model.
6. Podsumowanie¶
W kolejnych wpisach będę eksplorować temat wyboru punktu odcięcia i rozważę scenariusz, w którym wiemy, jakie koszty ponosi biznes z tytułu popełnianych błędów: FP i FN, oraz ile bines jest w stanie zarobić na dobrych predykcjach.
Jeśli masz jakieś pytania, to proszę, podziel się nimi w komentarzu pod wpisem - zapraszam do dyskusji. Jeśli artykuł przypadł Ci do gustu, to proszę, podziel się nim w mediach społecznościowych ze swoimi znajomymi. Będę bardzo wdzięczny. 🙂
photo: pixabay.com (Couleur)
PODOBAŁ CI SIĘ TEN ARTYKUŁ?
Jeśli tak, to zarejestruj się, by otrzymywać informacje o nowych wpisach.
Dodatkowo w prezencie wyślę Ci bezpłatny poradnik :-)
Cześć,
ponownie dzięki za super wpis. 🙂 Bardzo fajnie opisujesz koncepcje doboru odpowiedniego cut-off; natomiast przekopałem pół Internetu i nie mogę znaleźć satysfakcjonującej odpowiedzi na dość trywialne pytanie: w którym momencie powinniśmy tego punktu szukać?
Klasyczny workflow wygląda zwykle następująco:
1. testowanie X algorytmów i tuning hiperparametrów według jakiejś metryki, wybór tego 'najlepszego’.
2. W zależności od tego, czy dysponujemy kosztami FN / FP oraz zyskami TP / TN – wybór punktu odcięcia w oparciu o minimum tej funkcji kosztu lub (w przypadku braku tych zmiennych) – zmiana punktu odcięcia np. w sposób, jaki omówiłeś w tym wpisie.
Wartości 1) – i w ogóle wszystko, co używa 'predict’ bazują jednak na domyślnym punkcie odcięcia 0.5, co w świetle całej dyskusji o threshold wydaje się trochę mylące. 🙂
Czy istnieje jakiś standardowy proces dla tych kroków? A może po prostu w 1. warto te algorrytmy po prostu porównywać maksymalizując z pomocą scoring=’auc’?
Pozdr!
A.
Cześć Adam. Dziękuję!
Co do Twojego pytania, to moja perspektywa wygląda następująco: wartości z punktu 1, nie puszą być wartościami całkowitymi. Mogą to być prawdopodobieństwa przypisania obserwacji do jednej z klas. Zazwyczaj używam w tym przypadku AUC (raz korzystałem z Brier Score). Wybór metryki w tym miejscu zależy od naszego celu.
AUC – w uproszczeniu mówi o prawdopodobieństwie przypisania poprawnej wartości prawdopodobieństwa obserwacjom (jedynki mają mieć wyższe prawdopodobieństwa niż zera).
Brier Score – tej metryki używałem, gdy chciałem „karać” model za zbytnią pewność w ocenie prawdopodobieństwa i preferować modele dobrze, które dobrze kalibrują swoje predykcje.
O standardowym procesie dla tych kroków nigdy nie czytałem i muszę przyznać, że nie słyszałem, by ktoś poruszał ten problem.
Mam nadzieję, że udało mi się nieco wyjaśnić temat. Jeśli nie, to daj znać. 🙂
Cześć! A planujesz wpis opisujący jak dobrać model i zoptymalizować jego hiperparametry jeśli planujemy później wybór punktu odcięcia? 🙂 Czy maksymalizowaną metryką przy tuningu hiperparametrów modelu powinna być wówczas jakaś miara 'probabilistyczna’ – np. Brier Score, a nie klasyczne, oparte na 'twardym’ labelowaniu?
Cześć! Mam w planach wpis (albo nawet kilka wpisów) z optymalizacją parametrów z użyciem metod Bayesowskich, a to już całkiem blisko tego o co pytasz.
„Twarde labelowanie” jest niekorzystne w opisanym przez Ciebie scenariuszu. Nie wiem, czy dobrze rozumiem Twoje pytanie, ale ja każdorazowo separuję tuning hiperparametrów (poprawa ogólnej jakości modelu; w 99.9% używam tu miary związanej z prawdopodobieństwem, np. Brier Score, AUC) od optymalizacji punktu odcięcia (maksymalizacja potencjalnych zysków jakie daje model).