Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.


06.12.2018

Niższe moce

UPS Eaton 9SX
03.12.2018

Monitory dla MŚP

AOC E1
29.11.2018

Wykrycie szkodliwego...

Sophos Intercept X Advanced
27.11.2018

Automatyzacja zabezpieczeń

Red Hat Ansible Automation
23.11.2018

Nieograniczona skalowalność

SUSE Enterprise Storage 5.5
20.11.2018

Dwa procesory Threadripper

AMD Ryzen Threadripper 2970WX i 2920X
16.11.2018

Dla biznesu i edukacji

Optoma 330USTN
13.11.2018

Superszybki dysk SSD

Patriot Evolver
09.11.2018

Ograniczenie kosztów

Canon imageRUNNER ADVANCE 525/615/715

Przetwarzanie big data

Data publikacji: 29-08-2018 Autor: Jarosław Sobel
Autor: Rys. K. Kanoniak

Dane to nowa ropa naftowa. Generujemy ich coraz więcej i więcej. Co zrobić z takim ogromem informacji? Jak je przechowywać i jak je efektywnie oraz szybko analizować? Rozwiązaniem może być zastosowanie platformy, jaką jest Apache Hadoop.

W  roku 2006 Clive Humby, angielski matematyk i twórca systemu Tesco Clubcard, wypowiedział zdania: „Dane to nowa ropa naftowa, jednak bez rafinacji jest całkowicie nieprzydatna. Ropa musi być przetworzona w gaz, paliwo, chemikalia itp., aby można z niej było zrobić użytek, który niesie ze sobą odpowiednią wartość. Tak samo dane muszą być podzielone i przeanalizowane, aby miały konkretną, mierzalną wartość”.

 

W dzisiejszym świecie człowiek generuje ogromne ilości danych. W każdej minucie:

 

  • użytkownicy Facebooka lajkują 4 166 667 postów,
  • użytkownicy Tweetera wysyłają 347 222 tweety,
  • użytkownicy Skype’a wykonują 110 040 rozmów,
  • pasażerowie Ubera wykonują 694 przejazdy,
  • użytkownicy Netflixa oglądają 77 166 godzin wideo,
  • klienci Apple’a ściągają 51 000 aplikacji na swoje telefony.


Coraz częściej w przypadku dużych ilości danych używane jest pojęcie big data. Termin ten, jak sama nazwa wskazuje, odnosi się do dużego zbioru danych. Przy czym aby mówić konkretnie o big data, dane te muszą być zmienne i różnorodne. Co więcej, ich przetwarzanie jest trudne (zarówno technicznie, jak i czasowo), jednak wynik takiej analizy jest wartościowy, gdyż może prowadzić do zdobycia nowych informacji, a w efekcie również wiedzy w danym zakresie.


Samo określenie „duży zbiór danych” niekoniecznie musi oznaczać pojemności rzędu tera- lub petabajtów. Jest ono natomiast ściśle powiązane z dziedziną, z której pochodzą dane. I tak np. eksperymenty naukowe w CERN-ie (Europejska Organizacja Badań Jądrowych) dotyczące zderzeń cząstek elementarnych mogą generować kilka gigabajtów danych na sekundę, co w przypadku długiego czasu trwania eksperymentu powoduje powstanie ogromnych ilości informacji. Z drugiej strony możemy mieć dane pochodzące z badań medycznych, np. przetworzone obrazy z rezonansu magnetycznego. Samych danych może być niewiele, jednak ich analiza jest skomplikowana i czasochłonna.


Big data określane jest przez tzw. model 4V:

 

  • Volume – duża ilość generowanych oraz składowanych danych. Jak zostało wspomniane powyżej, wielkość zależy od dziedziny, w ramach której powstają informacje;
  • Variety – duża różnorodność danych. Zazwyczaj jest to zbiór danych ustrukturyzowanych (np.: relacyjne bazy danych) oraz częściowo lub całkowicie nieustrukturyzowanych, tj. tekst, obrazy, audio, wideo;
  • Velocity – szybkość generowania danych. Podobnie jak kategoria rozmiaru, tak i tutaj szybkość rozpatrywana jest indywidualnie dla różnych dziedzin danych. Dość często problem związany z przetwarzaniem nie wynika z samej ilości informacji, tylko z konieczności analizy w czasie rzeczywistym;
  • Veracity – jest to pojęcie, które zostało dodane do oryginalnego modelu 3V. Oznacza ono wiarygodność danych, czyli konieczność oceny posiadanych danych pod kątem ich przydatności oraz wiarygodności.


W roku 2012 Gartner doprecyzował podaną wcześniej definicję, wskazując, iż big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów.


Termin big data nie jest nowy. Systemy do przetwarzania dużych zbiorów danych istniały już w latach 80. poprzedniego wieku. Pionierem była firma Teradata, która w 1984 zaprezentowała system do przetwarzania równoległego o nazwie DBC 1012. W 1992, kiedy przeciętna pojemność dysku twardego wynosiła 2,5 GB, Teradata jako pierwsza zeskładowała, a następnie przetworzyła dane o pojemności 1 terabajta.

[...]

Autor jest architektem zajmującym się projektowaniem i implementacją rozwiązań wirtualizacyjnych. Posiada certyfikacje firm: Citrix, VMware, Microsoft, NetApp i RedHat. Prelegent oraz autor bloga poświęconego technologii Citrix i wirtualizacji.

Artykuł pochodzi z miesięcznika: IT Professional

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"