Czym jest data science consulting?

Capgemini

2022-04-25

Wprowadzenie do serii artykułów na temat Data Science Consulting.

Dominik Deja – Data Science Manager, Capgemini Invent

Od czasu do czasu ktoś pyta mnie, czym się zajmuję. Zwykle odpowiadam, że pracuję jako konsultant data science. Dla osób, które nigdy jeszcze nie słyszały o tym, że „data scientist to najseksowniejszy zawód XXI wieku”, taka odpowiedź może być zbyt enigmatyczna. W związku z tym w krótkiej serii artykułów (którą rozpoczyna ten wpis) spróbuję wyjaśnić, na czym polega praca konsultanta data science. Chciałbym, aby moje wpisy były interesujące zarówno dla osób, które chcą lepiej zrozumieć, czym jest data science i czym zajmują się konsultanci data science, jak i dla tych, którzy rozważają rozwój swojej kariery w tym kierunku i chcą lepiej przygotować się na wyzwania związane z tym zawodem.

Data science consulting przedstawiać będziemy (użyłem liczby mnogiej, gdyż do pisania zaprosiłem też resztę zespołu) zgodnie z naszym punktem widzenia. Warto przy tym zaznaczyć, że żadna z przedstawionych definicji nie pretenduje do bycia jedyną słuszną. Wychodzę z założenia, że w tym temacie nie ma sensu narzucać nikomu własnego punktu widzenia. Wprost przeciwnie, dostrzegam wielką wartość w dzieleniu się swoimi doświadczeniami, z których mogą czerpać również inne osoby, po to by szybciej się rozwijać. Mam nadzieję, że okaże się to przydatne.

Zacznijmy więc od zdefiniowania data science (do data science consulting wrócimy później):

Data science (polskie tłumaczenia to: nauka o danych lub danologia) to interdyscyplinarna dziedzina obejmująca opracowywanie, rozwijanie i zastosowanie naukowych metod, procesów, algorytmów i systemów ukierunkowanych na takie wykorzystanie danych, by umożliwić zautomatyzowane, oparte na danych generowanie wniosków i podejmowanie decyzji.

Przetestujmy tę definicję na przykładach:

Alicja pracuje na ważących 3GB arkuszach kalkulacyjnych, opracowuje tabele przestawne, wykorzystuje zaawansowane zagnieżdżenia funkcji, przetwarza, formatuje i dostosowuje dane – czy zajmuje się data science? Prawdopodobnie nie, ponieważ jej praca jest w znacznym stopniu ręczna i zazwyczaj słabo powtarzalna lub wręcz niemożliwa do odtworzenia.
A Bartosz, który stworzył solver oparty na Excelu do optymalizacji produkcji łyżek w fabryce, w której pracuje? Cóż, ponieważ Bartosz stworzył narzędzie umożliwiające podejmowanie zautomatyzowanych, opartych na danych decyzji – tak, można uznać, że Bartosz zajmuje się data science. Wciąż w dość prosty, a może nawet i toporny sposób, ponieważ trudno jest utrzymać funkcjonalność narzędzi opartych na arkuszach kalkulacyjnych, ale mimo to jego praca wpisuje się w data science.
Celina przygotowuje dla swojego szefa starannie dopracowane tablice wskaźników. Czy jej praca obejmuje data science? Zależy, kogo spytamy. Czy ta praca umożliwia zautomatyzowane, oparte na danych decyzje i wnioski? W pewnym stopniu tak, więc to zajęcie można nazwać data science, choć niektórzy, nieco bardziej ortodoksyjni specjaliści data science mogą zaprotestować.
Damian przygotowuje model regresji liniowej oparty na 15 przykładach. Tu zdecydowanie mamy do czynienia z data science – zbiór danych może być niewielki, wykorzystuje jednak algorytm pozwalający na podejmowanie decyzji opartych na danych.
Estera wymyśla nowe algorytmy rozpoznawania mowy – to zdecydowanie data science.
Franciszek wykorzystał techniki statystyczne do analizy wartości odstających w celu wykrycia potencjalnego oszusta w ramach jednorazowego audytu finansowego? To również jest data science (nawet jeśli Franciszek nigdy nie nazwałby siebie data scientistą!)

Powtórzmy więc jeszcze raz, prostszym językiem. Kiedy „robimy” data science? Data science ma miejsce wtedy, gdy ktoś wymyśla lub wdraża algorytmy, które na podstawie dostępnych danych uczą się wykonywać (a ostatecznie wykonują) czyjąś pracę.

Data science to dziedzina zdecydowanie ukierunkowana na biznes i zorientowana na cel. Wykorzystuje techniki bez względu na ich proweniencję – niezależnie od tego, czy dana koncepcja wywodzi się ze statystyki, lingwistyki, topologii czy wiedzy domenowej – jeśli jest przydatna i pozwala na zautomatyzowane podejmowanie decyzji na podstawie danych lub generowanie spostrzeżeń, specjaliści data science z radością z niej skorzystają.

A co z innymi terminami używanymi w biznesie i mediach? Jest ich mnóstwo: MLOps, sztuczna inteligencja (artificial intelligence, AI), deep learning, advanced analytics, data analytics, uczenie maszynowe (machine learning), big data, data mining, eksploracyjna analiza danych, uczenie statystyczne (statistical learning). Chociaż każdy z tych terminów ma określone, odrębne znaczenie, w świecie biznesu często używa się ich zamiennie, z częstotliwością wynikającą niekoniecznie z ich znaczenia, a raczej mody i indywidualnych lub korporacyjnych preferencji.

Dzięki Google Trends (wykres powyżej) można łatwo sprawdzić, że „eksploracja danych” to niegdyś bardzo popularny termin, którego dziś mało kto używa. „Sztuczna inteligencja” zyskała popularność, popadła w zapomnienie na początku wieku, a ostatnio znów święci triumfy. Przez krótką chwilę ekscytowały nas „big data”, ale potem stały się na tyle nudne, że teraz zgłębiamy „data science”.

Niektóre terminy to coś więcej niż „modne słowa” – jak je od siebie odróżnić? Poniżej kilka wskazówek:

MLOps (Machine Learning Operations, operacje uczenia maszynowego) to zestaw praktyk dotyczących projektowania, wdrażania, wprowadzania i utrzymywania algorytmów uczenia maszynowego w środowisku produkcyjnym. Bez względu na to, jak ekscytujące mogą być modele uczenia maszynowego, jeśli nie zostaną odpowiednio wdrożone, całe projekty zakończą się niepowodzeniem. A ponieważ wdrażaniem zwykle zajmowali się inżynierowie DevOps, a nie Data Scientists, którzy woleli skupić się na badaniach i rozwoju, aby zapełnić tę lukę, pojawili się specjaliści ds. MLOps.
Celem sztucznej inteligencji jest rozwój maszyn, które będą dorównywać ludzkiej inteligencji, a nawet ją przewyższać. Wszystko, co jest produktem ubocznym tego procesu i może być wykorzystane przez biznes, jest szumnie określane mianem AI. Akademicy, zwłaszcza ci ze starej szkoły, uwielbiają godzinami roztrząsać czy można w ogóle zdefiniować, czym naprawdę jest inteligencja, a co za tym idzie, czy jest w ogóle sens mówić o „sztucznej” inteligencji. Od niedawna termin ten zyskał na popularności wraz z widocznym postępem w rozwoju autonomicznych samochodów, aplikacji do przetwarzania języka naturalnego i komputerów, które same grają w gry komputerowe.
Machine Learning (ML, uczenie maszynowe) to dziedzina badająca algorytmy, które uczą się wykonywania określonych zadań na podstawie dostarczonych im danych.
Deep Learning (DL) to poddziedzina ML, która skupia się na sztucznych sieciach neuronowych.
Advanced Analytics (AA), Data Analytics (DA), Big Data to terminy, które w świecie biznesowym są synonimami Data Science (zwykle odnoszą się do pracy na dużych zbiorach danych wraz z big data, choć nie zawsze).
Data Mining jest obecnie dość przestarzałym terminem opisującym proces ekstrakcji spostrzeżeń i wzorców z danych.
Exploratory Data Analysis (EDA, Eksploracyjna Analiza Danych) to analiza danych, której celem jest lepsze zrozumienie charakterystyki danych.
Uczenie statystyczne (statistical learning) to termin używany przez osoby, które analizują ML z punktu widzenia teorii statystycznej. To także tytuł jednej z moich ulubionych książek o ML: The Elements of Statistical Learning.

Jak Data Science wiąże się z konsultingiem? Pozostając na wysokim poziomie ogólności, doradztwo można zdefiniować jako pomaganie organizacjom w poprawie osiąganych wyników. Wyjaśniliśmy już, że data science polega na ciągłym poszukiwaniu procesów, które można zautomatyzować za pomocą maszyn zdolnych do uczenia się na podstawie danych, a następnie wspierania ludzi w generowaniu spostrzeżeń i podejmowaniu decyzji. Konsulting będzie zatem wpisywał się w naturalną chęć praktycznego zastosowania data science. Oto definicja:

Data Science Consulting to praktyka, w której pomaga się organizacjom w poprawie ich wydajności poprzez stosowanie naukowych metod, procesów, algorytmów i systemów ukierunkowanych na takie wykorzystanie danych, by umożliwić zautomatyzowane, oparte na danych generowanie wniosków i podejmowanie decyzji.

Tak krótka definicja domaga się dalszych wyjaśnień i przykładów, ale w związku z tym, że przekroczyłem już wszystkie limity znaków dla przyzwoitej długości wpisu blogowego, wróćmy do tego w następnym poście, w którym przyjrzymy się Data Science Consulting od strony biznesowej i omówimy rolę generalisty.