Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



05.09.2022

Łatwiejsza migracja do chmur

Commvault i Oracle rozszerzyły partnerską współpracę i wspólnie oferują rozwiązanie...
01.09.2022

Badanie sieci

QNAP ogłosił wprowadzenie oprogramowania ADRA Network Detection and Response (NDR) dla...
01.09.2022

5G w Polsce

Z badania Kearney 5G Readiness Index 2022 wynika, że Polska jest jednym z najgorzej...
01.09.2022

Zarządzanie działaniami

Fortinet zaprezentował chmurową usługę, która koreluje informacje dotyczące...
01.09.2022

Selektywna rejestracja

Naukowcy z UCLA przedstawili projekt inteligentnej kamery, która pozwala wybrać, jaki...
01.09.2022

Więcej mocy, komputer...

Profesjonalny komputer Dell Precision 7865 Tower z AMD Ryzen Threadripper PRO 5000...
01.09.2022

Rekord prędkości

Firma Aorus zapowiada superszybki dysk, następcę modelu Gen4 7000s SSD, który ma oferować...
01.09.2022

Beprzewodowe drukowanie

Firma Brother wprowadziła do swojego portfolio nowe urządzenie wielofunkcyjne z systemem...
01.09.2022

Obraz dobrze zaprogramowany

Monitor interaktywny Lyra to połączenie Androida 11, szyby antybakteryjnej, wbudowanego...

Przetwarzanie big data

Data publikacji: 29-08-2018 Autor: Jarosław Sobel
Autor: Rys. K. Kanoniak

Dane to nowa ropa naftowa. Generujemy ich coraz więcej i więcej. Co zrobić z takim ogromem informacji? Jak je przechowywać i jak je efektywnie oraz szybko analizować? Rozwiązaniem może być zastosowanie platformy, jaką jest Apache Hadoop.

W  roku 2006 Clive Humby, angielski matematyk i twórca systemu Tesco Clubcard, wypowiedział zdania: „Dane to nowa ropa naftowa, jednak bez rafinacji jest całkowicie nieprzydatna. Ropa musi być przetworzona w gaz, paliwo, chemikalia itp., aby można z niej było zrobić użytek, który niesie ze sobą odpowiednią wartość. Tak samo dane muszą być podzielone i przeanalizowane, aby miały konkretną, mierzalną wartość”.

 

W dzisiejszym świecie człowiek generuje ogromne ilości danych. W każdej minucie:

 

  • użytkownicy Facebooka lajkują 4 166 667 postów,
  • użytkownicy Tweetera wysyłają 347 222 tweety,
  • użytkownicy Skype’a wykonują 110 040 rozmów,
  • pasażerowie Ubera wykonują 694 przejazdy,
  • użytkownicy Netflixa oglądają 77 166 godzin wideo,
  • klienci Apple’a ściągają 51 000 aplikacji na swoje telefony.


Coraz częściej w przypadku dużych ilości danych używane jest pojęcie big data. Termin ten, jak sama nazwa wskazuje, odnosi się do dużego zbioru danych. Przy czym aby mówić konkretnie o big data, dane te muszą być zmienne i różnorodne. Co więcej, ich przetwarzanie jest trudne (zarówno technicznie, jak i czasowo), jednak wynik takiej analizy jest wartościowy, gdyż może prowadzić do zdobycia nowych informacji, a w efekcie również wiedzy w danym zakresie.


Samo określenie „duży zbiór danych” niekoniecznie musi oznaczać pojemności rzędu tera- lub petabajtów. Jest ono natomiast ściśle powiązane z dziedziną, z której pochodzą dane. I tak np. eksperymenty naukowe w CERN-ie (Europejska Organizacja Badań Jądrowych) dotyczące zderzeń cząstek elementarnych mogą generować kilka gigabajtów danych na sekundę, co w przypadku długiego czasu trwania eksperymentu powoduje powstanie ogromnych ilości informacji. Z drugiej strony możemy mieć dane pochodzące z badań medycznych, np. przetworzone obrazy z rezonansu magnetycznego. Samych danych może być niewiele, jednak ich analiza jest skomplikowana i czasochłonna.


Big data określane jest przez tzw. model 4V:

 

  • Volume – duża ilość generowanych oraz składowanych danych. Jak zostało wspomniane powyżej, wielkość zależy od dziedziny, w ramach której powstają informacje;
  • Variety – duża różnorodność danych. Zazwyczaj jest to zbiór danych ustrukturyzowanych (np.: relacyjne bazy danych) oraz częściowo lub całkowicie nieustrukturyzowanych, tj. tekst, obrazy, audio, wideo;
  • Velocity – szybkość generowania danych. Podobnie jak kategoria rozmiaru, tak i tutaj szybkość rozpatrywana jest indywidualnie dla różnych dziedzin danych. Dość często problem związany z przetwarzaniem nie wynika z samej ilości informacji, tylko z konieczności analizy w czasie rzeczywistym;
  • Veracity – jest to pojęcie, które zostało dodane do oryginalnego modelu 3V. Oznacza ono wiarygodność danych, czyli konieczność oceny posiadanych danych pod kątem ich przydatności oraz wiarygodności.


W roku 2012 Gartner doprecyzował podaną wcześniej definicję, wskazując, iż big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów.


Termin big data nie jest nowy. Systemy do przetwarzania dużych zbiorów danych istniały już w latach 80. poprzedniego wieku. Pionierem była firma Teradata, która w 1984 zaprezentowała system do przetwarzania równoległego o nazwie DBC 1012. W 1992, kiedy przeciętna pojemność dysku twardego wynosiła 2,5 GB, Teradata jako pierwsza zeskładowała, a następnie przetworzyła dane o pojemności 1 terabajta.

[...]

Autor jest architektem zajmującym się projektowaniem i implementacją rozwiązań wirtualizacyjnych. Posiada certyfikacje firm: Citrix, VMware, Microsoft, NetApp i RedHat. Prelegent oraz autor bloga poświęconego technologii Citrix i wirtualizacji.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik \"IT Professional\"