Przeszczep nerki, drzewo decyzyjne i uczenie maszynowe bez komputera

Kilka zdań o najlepszym prezencie tego roku, który zupełnie mnie pochłonął w ostatnich dniach.

Trafiony prezent

W tym roku dostałem pod choinkę arcyciekawy prezent: książkę „Miłość i matematyka – istota ukrytej rzeczywistości” autorstwa Edwarda Frenkla. Jest ona zbiorem historii z życia autora, których motywem przewodnim jest tytułowa miłości do królowej nauk.

Relacja ta nie była prosta, a smaku całej historii dodaje fakt, iż akcja książki w większości rozgrywała się za żelazną kurtyną. Związek Radziecki nie był wymarzonym miejscem do rozwoju naukowej pasji, co w treści książki jest wielokrotnie podkreślane. Jakby tego było mało, na niekorzyść autora działało również jego pochodzenie – ma on żydowskie korzenie. Jednak jak to mówi stare porzekadło: miłość wszystko zwycięży! 😉

Nie chcę streszczać w tym wpisie całej książki, dlatego przybliżę Ci jeden z rozdziałów, którego treść dla nas – osób interesujących się analizą danych – powinna być szczególnie interesująca.

Drzewo wiedzy

Spośród wszystkich historii przedstawionych w książce najbardziej zaciekawiła mnie ta opisana w rozdziale 12 o wiele mówiącym tytule: „Drzewo wiedzy”. Opisany jest w nim okres z życia autora, kiedy to podczas studiów brał udział w projekcie medycznym w jednym z radzieckich szpitali. Lekarzom służył swoją radą w zakresie stosowanej statystyki i analizy danych medycznych. Jego zadanie było dosyć typowe: spośród masy informacji gromadzonych w szpitalu wydobyć statystyki oddające ogólny charakter badanego zjawiska, tak by życie lekarzy i ich pacjentów stało się nieco przyjemniejsze.

Pomimo iż akcja rozdziału rozgrywała się na przełomie lat 80 i 90 minionego stulecia, to autor miał do dyspozycji bardzo okrojony zestaw narzędzi. W większości przypadków ograniczał się on do: kalkulatora, kartki papieru i długopisu. Musisz przyznać, że nie było to nic „powalającego”. Na szczęście młody praktykant miał asa w rękawie – zestaw wrodzonych umiejętności, takich jak: pasja, proaktywność i dociekliwość, które pozwalały mu nadrobić braki technologiczne.

Matematyk w szpitalu

Współpraca młodego matematyka z lekarzami miała się ograniczyć do realizacji trzech projektów medycznych z dziedziny urologii (specjalizacja, która była szczególnie bliska opiekunowi Edwarda – profesorowi Jakowi Isajewiczowi Churginowi). Jak przyznaje autor, to trzeci i ostatni z projektów okazał się dla niego najbardziej interesujący.

Razem z młodym lekarzem – Siergiejem Arutiunianem – miał opracować rozwiązanie, które będzie wspomagać lekarzy pracujących z pacjentami po przeszczepie nerki. Konkretnie chodziło o pacjentów, których układ immunologiczny po operacji odrzucał przeszczepiony organ. W takich sytuacjach lekarz musiał podjąć szybką decyzję: czy należy walczyć o utrzymanie przeszczepu, czy też lepiej usunąć nerkę.

Obie decyzje lekarza miały dalece idące konsekwencje. Jeśli lekarz zdecydował się zostawić przeszczep, to mogło to zakończyć się śmiercią pacjenta. Jeśli usunie nerkę, to by przeżyć, pacjent będzie potrzebował kolejnej, na której pozyskanie szanse mogą być niewielkie.

Dodatkowym czynnikiem, który odgrywał znaczącą rolę w procesie, był czas, w jakim podejmowano decyzje. Im szybsza (i poprawna) decyzja, tym szanse pacjenta na przeżycie były większe. Dla duetu specjalistów jasne zatem było, że rozwiązanie powinno być jednoczenie dokładne i proste, tak by bez zbędnego sprzętu dało się je zastosować w krótkim czasie.

Budowa systemu eksperckiego na kartce papieru

Cały proces budowy rozwiązania bardzo przypominał to, z czym spotykamy się podczas projektów data science. Jako przykłady można wymienić:

  • Mieszane zainteresowanie odbiorców projektu – część interesariuszy dostrzegała potrzebę budowy i rozwoju systemu decyzyjnego. Pozostali byli sceptycznie nastawieni. Twierdzili, że jest to niemożliwe i woleli bazować na własnej intuicji.
  • Nieustrukturyzowane dane – część danych, które mieli do dyspozycji, nie nadawała się do bezpośredniego użycia. Była niewystarczająco dokładna, niespójna (pomieszane zmienne o charakterze ilościowym i ilościowym) i zawierała nieobiektywne informacje obarczone niepewnością (np. jak się pacjent czuje).
  • Selekcja zmiennych – spośród dziesiątek zmiennych musieli wybrać te, które są szczególnie istotne dla badanego zjawiska.
  • Podział próby – Edward obrał celną strategię walidacyjną, która, choć na dzisiejsze standardy wydaje się prosta, to wtedy świetnie się sprawdziła.

Big Data w radzieckim szpitalu z przełomu lat 80 i 90 oznaczało 270 obserwacji (pacjentów po przeszczepie nerki) opisanych za pomocą ok. 40 rzetelnych zmiennych (obiektywnych, pochodzących z badania USG). To w połączeniu z wiedzą ekspercką Siergieja i matematyczno-statystyczno Edwarda było wszystkim, czym dysponowali.

Wstępna selekcja zmiennych odbywała się poprzez sesje pytań i odpowiedzi pomiędzy Edwardem i Siergiejem. Matematyk poprzez pytania starał się ustalić, która zmienna jest istotna w procesie, a która nie. Przeszkodą było tu indywidualne nastawienie lekarza do każdego pacjenta. W trakcie wywiadu opowiadał on na pytania, bazując na konkretnych przypadkach, bez przedstawiania ogólnych wzorców, które to przecież są kluczem w statystyce. Bohater książki postanowił zatem zmienić taktykę.

Proces uczenia bez komputera

Spośród ok. 270 kart z danymi pacjentów Edward losowo wybrał 30. To była jego próba ucząca. Reszta (ok. 240 kart) stanowiła próbę walidacyjną. Z próby uczącej Edward pobierał kolejne karty, a siedzący w przeciwnym końcu pokoju Siergiej miał za zadanie zadawać odpowiednie pytania (dotyczące zmiennych objaśniających zawartych w karcie pacjenta), tak by powiedzieć, co finalnie się stało z pacjentem (czy przeszczep się przyjął, czy też nie). Celem „gry” było odkrycie reguł, jakimi kieruje się ekspert i wskazanie najistotniejszych w odpowiedniej kolejności. Czy przypomina Ci to coś? 🙂

Proces nie był prosty. Zdarzało się, że Siergiej zadawał te same pytania, ale w różnej kolejności:

– Poprzednio o to nie pytałeś. Dlaczego zadajesz to pytanie teraz?
– Ponieważ u poprzedniego pacjenta objętość nerki była inna, a więc to wykluczało taką możliwość. Jednak u tego pacjenta jest ona taka i taka, czyli ten scenariusz jest całkiem możliwy.

Finalnie, po przerobieniu nieco ponad 20 przypadków okazało się, że Siergiej:

  • potrzebował maksymalnie 4 pytań, by udzielić odpowiedzi,
  • w 100% przypadków poprawnie odgadywał diagnozę.

Schemat drzewa decyzyjnego wyglądał następująco:

Liść koloru białego oznaczał, że nie ma potrzeby usuwania przeszczepu. Kolor czarny to konieczność poddania pacjenta natychmiastowej operacji.

Główne zmienne:

  • PR (skrót od ang. peripheral resistance) – dotyczy oporu obwodowego krwi w naczyniach krwionośnych przeszczepianego organu. Siergiej zaproponował punkt podziału = 0.79 na podstawie swoich badań.
  • V – objętość nerki.

Znaczenie pozostałych zmiennych, jak i sposób wyznaczenia punktów podziału nie zostały wyjaśnione przez autora. Wszystkie zmienne zostały ujęte w odpowiedniej kolejności, odpowiadającej znaczeniu dla zdrowia pacjenta (zmienna im bliżej korzenia, tym większe jej znaczenie; lepiej dyskryminuje), dokładnie tak jakby to miało miejsce w drzewie decyzyjnym zbudowanym z użyciem komputera.

Walidacja

Okazało się, że 30-elementowy zbiór uczący wystarczył, by zbudować model. Po etapie „uczenia” Edward mógł sam stawiać diagnozę z użyciem wyodrębnionych reguł niemal tak skutecznie, jak doświadczony lekarz. Dokładność zestawu reguł zmierzona na próbie walidacyjnej (ok. 240 obserwacji) wyniosła 95%.

Relatywnie płytkie drzewo, 4 zmienne, spadek accuracy do 95%. Raczej nie można tu mówić o przeuczeniu. 😉

Zakończenie prac

Po zakończonej pracy Siergiej przyznał, że w literaturze poświęconej temu zagadnieniu nie było nic, co przypominałoby ich rozwiązanie. Inni lekarze mogli teraz użyć ich wspólnego rozwiązania do szybkiego diagnozowania pacjentów.

Wnioski płynące z projektu doczekały się artykułu w czasopiśmie branżowym. Ten z kolei stał się podstawą pracy doktorskiej Siergieja. Co więcej, zgłoszono wniosek patentowy, który został pozytywnie rozpatrzony.

Podsumowanie i mój subiektywny komentarz

Bardzo zaimponowała mi postawa autora. Muszę przyznać, że widoczne było w niej wiele elementów, na które zwracam uwagę, w swojej codziennej pracy.

Elementy widoczne w zachowaniu Edwarda:

  • proaktywność,
  • dociekliwość,
  • dojrzałość w operowaniu dostępnym zestawem narzędzi,
  • pomysłowość w rozwiązywaniu napotkanych problemów,
  • umiejętność zadawania odpowiednich pytań osobom posiadającym wiedzę branżową i wiedzę dotyczącą badanego zjawiska,
  • umiejętność przeniesienia wiedzy eksperta na język matematyki i statystyki.

Co więcej, pomimo że projekt wykonywany był dosyć dawno i przy użyciu prostych narzędzi, to widoczne w nim były takie elementy jak:

  • selekcja zmiennych,
  • uczenie/wnioskowanie na podstawie danych,
  • ustalenie i ścisłe przestrzeganie strategii walidacyjnej.

Wielokrotnie na łamach bloga podkreślałem znaczenie umiejętności miękkich w data science. Ta historia dobitnie pokazuje ich wartość i podkreśla, to co jest szczególnie ważne w naszej branży. Tensor flow, NLTK, Keras, czy inny zestaw narzędzi dedykowanych analizie danych/uczeniu maszynowemu – wszystko to może „wyjść z mody”. To, co najważniejsze, czyli odpowiednie podejście do pracy z danymi i rozwiązywania problemów zawsze będą w cenie.

PODOBAŁ CI SIĘ TEN ARTYKUŁ?

Jeśli tak, to zarejestruj się, by otrzymywać informacje o nowych wpisach.
Dodatkowo w prezencie wyślę Ci bezpłatny poradnik :-)

3 Komentarze

Dodaj komentarz

Twój adres email nie zostanie opublikowany.


*