Poznaj potencjał technologiczny Big Data

Capgemini

2021-03-24

Przyszłość leży w danych – dlaczego zagadnienie Big Data jest tak istotne?

Paweł Szuszkiewicz
Delivery Manager w zespole Data Services w Capgemini Polska

Big Data to ogromna ilość danych nieustrukturyzowanych, półustrukturyzowanych i ustrukturyzowanych. Przetwarzanie i analiza takiej ilości danych tradycyjnymi metodami wiąże się często z trudnościami. Tymczasem dane są obecne wszędzie wokół nas w dzisiejszym świecie, a ich znaczne ilości są generowane każdego dnia przez wszelkiego rodzaju inteligentne urządzenia, czujniki, kamery i innego rodzaju sprzęt elektroniczny. Łączna wielkość danych na świecie przekroczyła właśnie 74 Zettabajty i przewiduje się, że do końca obecnej dekady osiągnie 300 Zettabajtów. Pytanie nie brzmi już, czy przetwarzanie tych wszystkich stosów danych ma sens, ale jak zrobić to efektywnie, aby przynieść maksymalną możliwą wartość dodaną dla biznesu. Read in English >>>

Producenci dokonują znacznych inwestycji w analitykę danych, ponieważ wierzą, że pomoże im ona nie tylko zachować konkurencyjność na rynku, ale także poszerzyć portfolio i rozwinąć działalność. Zdecydowana większość danych pochodzi z wcześniej nieustrukturyzowanych informacji, zarówno z sieci publicznych, jak i prywatnych (extranetów). Klasyczne podejście do przetwarzania danych jak RDBMS powoduje, że praca na nieustrukturyzowanych zbiorach danych o rozmiarach setek Terabajtów jest czasowo nieefektywna. Specjalistyczne, szyte na miarę oprogramowanie jest jedynym rozwiązaniem pozwalającym wykorzystać w pełni potencjał Big Data. W tym momencie do gry wchodzi Hadoop ze swoimi różnymi dystrybucjami, takimi jak Apache Hadoop, Cloudera CDP, HPE MapR, Azure HD Insights, czy Amazon Athena.

Czym jest Hadoop?

Hadoop to framework Apache, otwarta platforma programistyczna napisana w języku Java, która umożliwia rozproszone przetwarzanie dużych zbiorów danych w klastrach komputerów przy użyciu prostych modeli programowania. Aplikacja Hadoop działa w środowisku, które zapewnia rozproszone przechowywanie danych i obliczenia na klastrach komputerów. Hadoop jest zaprojektowany do skalowania od pojedynczego serwera do tysięcy maszyn, z których każda oferuje lokalne obliczenia i przechowywanie danych.

Więcej informacji o Hadoop można znaleźć tutaj.

Operacje na Big Data – jak to się robi?

Gdyby zapytać przypadkową osobę o Hadoop, odpowiedź prawdopodobnie brzmiałaby następująco – „To kolejna technologia, która robi coś wymyślnego, a wszyscy ludzie, którzy za nią stoją, to superbohaterowie o wyjątkowych umiejętnościach”. Inżynierowie Hadoopa są rzeczywiście wysoko wykwalifikowanymi osobami, ale nie wszystkie umiejętności są kluczowe na wszystkich etapach projektu.

Istnieją dwa typy profili, które są zazwyczaj zaangażowane w operacje Big Data:

Analitycy danych
Osoby, które zajmują się faktycznym przetwarzaniem danych i aby być efektywnymi, muszą posiadać wieloletnie doświadczenie w różnych językach programowania, takich jak Java czy Python.

Inżynierowie operacyjni
Osoby, których podstawową kompetencją jest Linux, ponieważ wszystkie platformy Big Data zostały zbudowane w oparciu o Linuxa.

Patrząc z perspektywy klienta, to analitycy pomogą przeanalizować dane i uzyskać wgląd w kluczowe wskaźniki, a inżynierowie infrastruktury zajmą się uruchomieniem i utrzymaniem platform bazowych.

Powszechnie mówi się o pewnej luce wśród talentów w obszarze Big Data Operations. Może być trudno znaleźć inżyniera na poziomie podstawowym, który posiada wystarczające umiejętności w zakresie Linuxa, aby być produktywnym z Cloudera lub HPE MapR.

Złożoność oprogramowania Big Data polega głównie na rozproszonej naturze bazowego systemu plików i różnorodności konfiguracji, którymi musi zarządzać zespół operacyjny. Jeszcze większym wyzwaniem jest to, że oprogramowanie Big Data nie posiada łatwych w użyciu, w pełni funkcjonalnych narzędzi do zarządzania danymi, ich usuwania, zarządzania nimi i metadanymi. Szczególnie brakuje narzędzi w zakresie jakości i standaryzacji danych. Mimo, że ilość wyzwań wydaje się być ogromna i trudna do pokonania, pewne metody wspomagają projekty z obszaru Big Data.

Krótki przegląd najważniejszych elementów:

Ludzie

Inżynierowie z dużym doświadczeniem w obszarze Linux, koncentrujący się na rozproszonych sieciach i pamięciach masowych. Hadoop został zbudowany wokół Linuxa, więc znajomość Linux jest uważana za podstawę kompetencji.

Narzędzia

Narzędzia Dev OPS – nie ma efektywnej administracji Big Data bez narzędzi Dev OPS. Wpływają one pozytywnie na wydajność operacyjną, zapewniają jakość i sklejają różne punkty i elementy w złożonych scenariuszach projektowych.

Automatyzacja

Ansible, Puppet i Scripting – wbudowane w Hadoopa portfolio automatyzacji jest bardzo ograniczone, więc działania z użyciem dodatkowych narzędzi są w wielu przypadkach niezbędne, aby móc zrealizować określone zadania na czas.

Metodologia

Agile Operations – skupienie się na satysfakcji klienta i dostarczeniu produktu końcowego to kluczowe elementy strategii zespołu operacyjnego.

Wnioski

Big Data jest jedną z najbardziej popularnych koncepcji technologicznych na dzisiejszym rynku. Dane mają ogromny potencjał, aby zmienić dzisiejszy świat, poprzez poprawę doświadczenia klienta, wzrost jego satysfakcji i wydobyciu na powierzchnię nieznanych dotąd aspektów. Tworzenie właściwej taktyki może być bardzo trudne, ale wiedza o tym, co trzeba zrobić, pozwala z wyprzedzeniem zaadresować niektóre możliwe problemy.