Pułapka Bayesa

Wyobraź sobie pacjenta, który robi test krwi pod kątem bardzo rzadkiej choroby. Choroba jest dosyć egzotyczna i zapada na nią jedynie 1 na 1000 osób w naszym kraju. Niestety jak się okazuje wynik testu jest pozytywny. Sytuacji nie poprawia fakt, że test jest dosyć dokładny i myli się jedynie w 1% przypadków.

Zrozpaczony nieszczęśnik idzie więc z wynikami badania do (dobrego) lekarza, a ten go uspokaja i nakazuje ponowić test w innym centrum pobrań. Dlaczego? Jaki jest sens ponawiania testu o tak wysokiej dokładności? Jakie jest prawdopodobieństwo, że pacjent jest rzeczywiście chory? Tu kłania się nam Thomas Bayes i jego twierdzenie dotyczące prawdopodobieństw warunkowych 🙂

Otóż lekarz zlecił wykonanie jeszcze jednego testu w innym punkcie gdyż prawdopodobieństwo, że ów pacjent jest rzeczywiście chory wynosi… 9%. Wynika to z ponadczasowego wzoru Bayesa.

$P(H \mid E) = \frac{P(E \mid H) \times P(H)}{P(E)}$

gdzie:

$H$ – hipoteza (ang. hypothesis)
$E$ – dowód/zdarzenie (ang. evidence)
$P(H)$ – prawdopodobieństwo hipotezy H, przed (lub bez) wystąpiienia zdarzenia E.
$P(E)$ – suma prawdopodieństw skutków zdarzenia E.
$P(H \mid E)$ – prawdopodobieństwo, że hipoteza H jest prawdziwa, przy założeniu wystąpienia zdarzenia E.
$P(E \mid H)$ – prawdopodobieństwo zdarzenia E, przy założeniu że hipoteza H jest prawdziwa.

A więc dla nasz przypadek wygląda następująco.

$P(H \mid E) = \frac{0.99 \times 0.001}{0.99 \times 0.001 + 0.01 \times 0.999} \approx 0.09 \approx 9 \%$

Całość w bardzo fajny sposób pokazane jest na poniższym wideo 🙂

Co zmieni przeprowadzenie kolejnego testu?

Lekarz nakazał ponowić test w drugim niezależnym laboratorium, żeby wykluczyć jakąkolwiek pomyłkę ze strony pierwszego laboratorium. Jeżeli w drugim teście wynik będzie znowu pozytywny to prawdopodobieństwo wzrasta do ok 91%. To prawdopodobieństwo jest dużo wyższe ale w dalszym ciągu dalekie od tego którym szczycą się twórcy testu.

$P(H \mid E) = \frac{0.99 \times 0.09}{0.99 \times 0.09 + 0.01 \times 0.91} \approx 0.91 \approx 91 \%$

Przyczyną takiego stanu jest rzadkość zdarzenia. Na 1000 osób jedynie jedna na nią rzeczywiście choruje. Statystykę zaburzają błędy drugiego rodzaju. Będzie ich stosunkowo dużo, bo aż 10 (przy jednym pacjencie który jest rzeczywiście chory). Co za tym idzie prawdopodobieństwo, że nasz pacjent jest tą jedną chorą osobą wynosi 1/11, czyli ok. 9%.

photo: copyright by Stelario Cama

3 komentarze do “Pułapka Bayesa”

Piotr

11 września 2018 o 14:34

Jedna, drobniutka uwaga – dotycząca przykładu: 0,09 to jest dokładnie 9%, a nie w przybliżeniu. Tak więc 0,09 = 9%
Podobnie przy wynikach drugiego testu, ale to przecież oczywista oczywistość 😉
Mikołaj

9 września 2023 o 22:57

Przy drugim teście w mianowniku powinno być 0.99*0.09+0.01*0.91 tak jak zresztą jest to pokazane na filmie. P(H-) = 1 – P(H+)
- Mateusz Grzyb
  
  11 września 2023 o 10:36
  
  Hej Mikołaj, masz rację. Brawo za spostrzegawczość. Dzięki! 🙂

Możliwość komentowania została wyłączona.