Czym jest Data Science?

Tytuł postu i fundamentalne pytanie. Blog o danych, a więc wypada zacząć od podstaw. W Polskiej części internetu nie mogłem znaleźć żadnej definicji, piszę więc swoją. Najprostsza i najkrótsza może się sprowadzać do prostego tłumaczenia: Data Science to jest po prostu nauka o danych. Rodzi ona jednak kolejne pytania: o jakie dane właściwie chodzi, jak mają się one do Big Data i w końcu czym ta nauka o danych różni się od np. statystyki.

By odpowiedzieć na te wszystkie pytania należy zacząć od początku. Żyjemy w niezwykłych czasach. Na schyłku epoki industrialnej coraz większą rolę zaczynały odgrywać komputery, które w połączeniu z coraz łatwiejszym dostępem do internetu zrewolucjonizowały sposób w jaki dziś funkcjonujemy. Nastała epoka informacyjna. Komputer z dostępem do internetu ma dziś niemal każdy i niemal każdy generuje w nim dane. Jakby tego było mało, urządzeń które generują dane jest coraz więcej. Dziś wszyscy korzystamy ze smartfonów, aparatów cyfrowych i innych urządzeń mających dostęp do internetu, zatem ilość wzystkich danych zgromadzonych w internecie rośnie w tempie wykładniczym.

Dane są wszędzie

Datyfikacją (ang. Datafication) będąca procesem nieustannego gromadzenia danych dotyczy każdego z nas. Jesteś administratorem serwera w dużej firmie i uruchamiasz nową skrzynkę — generujesz dane. Masz 19 lat i wrzucasz zdjęcie swojego śniadania na instagram — generujesz dane. Robisz transakcje kartą płatniczą w klepie — również zostawiasz po sobie ślad w postaci wpisu w bazie danych. Ogromna skala owych danych doczekała się nawet swojego terminu: Big Data, które to przy całej swojej wielkości i złożoności ciężko jest nazwać wartościową wiedzą.

Wartość danych w naszym życiu

Datyfikacja dotyka praktycznie wszystkich dziedzin naszego życia. Nieustannie rośnie ilość składowanych danych w sektorze finansowym, handlu detalicznym, medycynie, instytucjach publicznych, edukacji i wielu innych. Ciężko dziś wymienić segment gospodarki w którym obserwuje się odwrotną tendencję.

Prócz rozmiaru rośnie jednocześnie znaczenie tych danych. Przykładowo w sektorze finansowych dane billingowe dotyczące miliardów transakcji płatniczyć niosą ze sobą ciekawe wnioski dla ich właścicieli (niestety nie mam tu na myśli właścicielach kart). Na ich podstawie można wywnioskować preferencje zakupowe danej osoby, częstotliwość robienia zakupów, ulubioną porę dnia, markę ulubionych ciuchów, czy też tryb życia. Wnioski te z kolei mogą posłużyć do monetyzacji tej wiedzy poprzez np. rekomendowanie produktów połączone z promocją twoich ulubionych perfum…

Dane… i co dalej?

By wydobyć wartość z “surowych” danych potrzebne są odpowiednie umiejętności, które nie ograniczają się do żadnej znanej dziedziny nauki, lecz łączą kilka z nich. Do najważniejszych z nich możemy zaliczyć takie dziedziny jak m.in. statystykę, informatykę, uczenie maszynowe. Prócz wymienionych “twardych” umiejętności nauka o danych wymaga wiedzy branżowej, gdyż jak wspomniałem Data Science nie ogranicza się jedynie do branży technologicznej.

Osoba, która posiada wszystkie wspomniane umiejętności, to zgodnie z wikipedią mistrz danych (ang. Data Scientist). Mistrzem danych są często “przebranżowieni” statystycy, którzy biegle władają matematyka, uczeniem maszynowym i wizualizacją danych. W swojej pracy pozyskują oni dane, odpowiednio je obrabiają a następnie wizualizują i wyciągają na ich podstawie wnioski.

Pytanie zatem brzmi: czym różni się mistrz danych od np. statystyka? Otóż posiada od już wspomnianą wiedze branżową, a poza umiejętnościami technicznymi jak np. programowanie, statystyka, posiada także wysoce rozwinięte umiejętności interpersonalne (zdolności komunikacyjne), które pozwalają mu doskonale rozumieć biznes, pozyskiwać wiedzę na temat zgromadzonych danych a następnie przekazywać wnioski. Wszystkie wymienione “miękkie” umiejętności odróżniają go również od analityka danych, który ma na celu pozyskiwanie wniosków na temat danych pochądzących z hurtowni, w oparciu o metody analizy statystycznej.

Definicja

Zgodnie z powyższym naukę o danych można opisać jako interdyscyplinarną, nieakademicką dziedzinę, traktującą o procesie pozyskania, obróbki, wizualizacji i wnioskowania w oparciu o dane ustrukturyzowane i nieustrukturyzowane, z użyciem metod statystycznych, eksploracji danych, uczenia maszynowego i analizy predykcyjnej.

photo CC by Eric Fischer