Pułapka Bayesa

Wyobraź sobie pacjenta, który robi test krwi pod kątem bardzo rzadkiej choroby. Choroba jest dosyć egzotyczna i zapada na nią jedynie 1 na 1000 osób w naszym kraju. Niestety jak się okazuje wynik testu jest pozytywny. Sytuacji nie poprawia fakt, że test jest dosyć dokładny i myli się jedynie w 1% przypadków.

Zrozpaczony nieszczęśnik idzie więc z wynikami badania do (dobrego) lekarza, a ten go uspokaja i nakazuje ponowić test w innym centrum pobrań. Dlaczego? Jaki jest sens ponawiania testu o tak wysokiej dokładności? Jakie jest prawdopodobieństwo, że pacjent jest rzeczywiście chory? Tu kłania się nam Thomas Bayes i jego twierdzenie dotyczące prawdopodobieństw warunkowych 🙂

Otóż lekarz zlecił wykonanie jeszcze jednego testu w innym punkcie gdyż prawdopodobieństwo, że ów pacjent jest rzeczywiście chory wynosi… 9%. Wynika to z ponadczasowego wzoru Bayesa.

P(H \mid E) = \frac{P(E \mid H) \times P(H)}{P(E)}

gdzie:

  • H  – hipoteza (ang. hypothesis)
  • E  – dowód/zdarzenie (ang. evidence)
  • P(H)  – prawdopodobieństwo hipotezy H, przed (lub bez) wystąpiienia zdarzenia E.
  • P(E)  – suma prawdopodieństw skutków zdarzenia E.
  • P(H \mid E)  – prawdopodobieństwo, że hipoteza H jest prawdziwa, przy założeniu wystąpienia zdarzenia E.
  • P(E \mid H)  – prawdopodobieństwo zdarzenia E, przy założeniu że hipoteza H jest prawdziwa.

A więc dla nasz przypadek wygląda następująco.

P(H \mid E) = \frac{0.99 \times 0.001}{0.99 \times 0.001 + 0.01 \times 0.999} \approx 0.09 \approx 9 \%

Całość w bardzo fajny sposób pokazane jest na poniższym wideo 🙂

Co zmieni przeprowadzenie kolejnego testu?

Lekarz nakazał ponowić test w drugim niezależnym laboratorium, żeby wykluczyć jakąkolwiek pomyłkę ze strony pierwszego laboratorium. Jeżeli w drugim teście wynik będzie znowu pozytywny to prawdopodobieństwo wzrasta do ok 91%. To prawdopodobieństwo jest dużo wyższe ale w dalszym ciągu dalekie od tego którym szczycą się twórcy testu.

P(H \mid E) = \frac{0.99 \times 0.09}{0.99 \times 0.09 + 0.01 \times 0.91} \approx 0.91 \approx 91 \%

Przyczyną takiego stanu jest rzadkość zdarzenia. Na 1000 osób jedynie jedna na nią rzeczywiście choruje. Statystykę zaburzają błędy drugiego rodzaju. Będzie ich stosunkowo dużo, bo aż 10 (przy jednym pacjencie który jest rzeczywiście chory). Co za tym idzie prawdopodobieństwo, że nasz pacjent jest tą jedną chorą osobą wynosi 1/11, czyli ok. 9%.

photo: copyright by Stelario Cama

Podobał Ci się ten artykuł?

Jeśli tak, to zarejestruj się, by otrzymywać informacje o nowych wpisach. Dodatkowo w prezencie wyślę Ci bezpłatny poradnik 🙂

3 Komentarze

  1. Jedna, drobniutka uwaga – dotycząca przykładu: 0,09 to jest dokładnie 9%, a nie w przybliżeniu. Tak więc 0,09 = 9%
    Podobnie przy wynikach drugiego testu, ale to przecież oczywista oczywistość 😉

Dodaj komentarz

Twój adres email nie zostanie opublikowany.


*