Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.


14.05.2019

Bezpłatna konferencja OSEC...

Jako patron medialny serdecznie zapraszamy na bezpłatną konferencję OSEC Forum 2019, któa...
23.04.2019

Optymalizacja zużycia chmury

HPE GreenLake Hybrid Cloud
23.04.2019

Zarządzanie wydajnością

VMware vRealize Operations 7.5
19.04.2019

Technologie open source

SUSECON 2019
19.04.2019

Wyjątkowo małe

OKI seria C800
19.04.2019

Łatwy montaż

Rittal AX i KX
18.04.2019

Technologie wideo

Avaya IX Collaboration Unit
18.04.2019

Krótki rzut

Optoma W318STe i X318STe
18.04.2019

Do mobilnej pracy

Jabra Evolve 65e

Przetwarzanie big data

Data publikacji: 29-08-2018 Autor: Jarosław Sobel
Autor: Rys. K. Kanoniak

Dane to nowa ropa naftowa. Generujemy ich coraz więcej i więcej. Co zrobić z takim ogromem informacji? Jak je przechowywać i jak je efektywnie oraz szybko analizować? Rozwiązaniem może być zastosowanie platformy, jaką jest Apache Hadoop.

W  roku 2006 Clive Humby, angielski matematyk i twórca systemu Tesco Clubcard, wypowiedział zdania: „Dane to nowa ropa naftowa, jednak bez rafinacji jest całkowicie nieprzydatna. Ropa musi być przetworzona w gaz, paliwo, chemikalia itp., aby można z niej było zrobić użytek, który niesie ze sobą odpowiednią wartość. Tak samo dane muszą być podzielone i przeanalizowane, aby miały konkretną, mierzalną wartość”.

 

W dzisiejszym świecie człowiek generuje ogromne ilości danych. W każdej minucie:

 

  • użytkownicy Facebooka lajkują 4 166 667 postów,
  • użytkownicy Tweetera wysyłają 347 222 tweety,
  • użytkownicy Skype’a wykonują 110 040 rozmów,
  • pasażerowie Ubera wykonują 694 przejazdy,
  • użytkownicy Netflixa oglądają 77 166 godzin wideo,
  • klienci Apple’a ściągają 51 000 aplikacji na swoje telefony.


Coraz częściej w przypadku dużych ilości danych używane jest pojęcie big data. Termin ten, jak sama nazwa wskazuje, odnosi się do dużego zbioru danych. Przy czym aby mówić konkretnie o big data, dane te muszą być zmienne i różnorodne. Co więcej, ich przetwarzanie jest trudne (zarówno technicznie, jak i czasowo), jednak wynik takiej analizy jest wartościowy, gdyż może prowadzić do zdobycia nowych informacji, a w efekcie również wiedzy w danym zakresie.


Samo określenie „duży zbiór danych” niekoniecznie musi oznaczać pojemności rzędu tera- lub petabajtów. Jest ono natomiast ściśle powiązane z dziedziną, z której pochodzą dane. I tak np. eksperymenty naukowe w CERN-ie (Europejska Organizacja Badań Jądrowych) dotyczące zderzeń cząstek elementarnych mogą generować kilka gigabajtów danych na sekundę, co w przypadku długiego czasu trwania eksperymentu powoduje powstanie ogromnych ilości informacji. Z drugiej strony możemy mieć dane pochodzące z badań medycznych, np. przetworzone obrazy z rezonansu magnetycznego. Samych danych może być niewiele, jednak ich analiza jest skomplikowana i czasochłonna.


Big data określane jest przez tzw. model 4V:

 

  • Volume – duża ilość generowanych oraz składowanych danych. Jak zostało wspomniane powyżej, wielkość zależy od dziedziny, w ramach której powstają informacje;
  • Variety – duża różnorodność danych. Zazwyczaj jest to zbiór danych ustrukturyzowanych (np.: relacyjne bazy danych) oraz częściowo lub całkowicie nieustrukturyzowanych, tj. tekst, obrazy, audio, wideo;
  • Velocity – szybkość generowania danych. Podobnie jak kategoria rozmiaru, tak i tutaj szybkość rozpatrywana jest indywidualnie dla różnych dziedzin danych. Dość często problem związany z przetwarzaniem nie wynika z samej ilości informacji, tylko z konieczności analizy w czasie rzeczywistym;
  • Veracity – jest to pojęcie, które zostało dodane do oryginalnego modelu 3V. Oznacza ono wiarygodność danych, czyli konieczność oceny posiadanych danych pod kątem ich przydatności oraz wiarygodności.


W roku 2012 Gartner doprecyzował podaną wcześniej definicję, wskazując, iż big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów.


Termin big data nie jest nowy. Systemy do przetwarzania dużych zbiorów danych istniały już w latach 80. poprzedniego wieku. Pionierem była firma Teradata, która w 1984 zaprezentowała system do przetwarzania równoległego o nazwie DBC 1012. W 1992, kiedy przeciętna pojemność dysku twardego wynosiła 2,5 GB, Teradata jako pierwsza zeskładowała, a następnie przetworzyła dane o pojemności 1 terabajta.

[...]

Autor jest architektem zajmującym się projektowaniem i implementacją rozwiązań wirtualizacyjnych. Posiada certyfikacje firm: Citrix, VMware, Microsoft, NetApp i RedHat. Prelegent oraz autor bloga poświęconego technologii Citrix i wirtualizacji.

Artykuł pochodzi z miesięcznika: IT Professional

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"