Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



22.08.2017

Przemysłowy SSD

Transcend SSD430K
17.08.2017

24 porty i PoE

NETGEAR GS724TPv2
11.08.2017

Z helem

WD Red / Red Pro
08.08.2017

Kontener jako usługa

SUSE CaaS Platform
03.08.2017

Natywna obsługa kontenerów

Red Hat OpenShift Online
28.07.2017

Luksusowa hybryda

HP Spectre x2
25.07.2017

Nowy napęd SSD

KC1000 NVMe PCIe
21.07.2017

Rekord świata

Lenovo x3950 X6
18.07.2017

Brightness Intellgence Plus

BenQ EW2770QZ

Repozytoria data lakes - zaawansowana analiza danych

Data publikacji: 21-07-2015 Autor: Stefan Kaczmarek
Przyrost danych...

Szybki przyrost danych niestrukturalnych jest poważnym wyzwaniem dla przedsiębiorstw. Repozytoria danych, określane jako data lakes, mają duże szanse na odegranie ważnej roli przy wydobywaniu wartościowych informacji biznesowych z gigantycznej wielkości zbiorów danych (big data) wytwarzanych w ekosystemach ICT.

Podobnie jak big data, termin data lake często jest deprecjonowany i traktowany jako marketingowy slogan dotyczący produktów obsługiwanych przez rozwiązania Hadoop. Jednocześnie koncepcja jeziora danych coraz częściej rozumiana i traktowana jest jako sposób opisania dowolnie dużego zasobu danych, w którym wymagania dotyczące schematu i samych danych nie są zdefiniowane do momentu, w którym pojawi się zapytanie o konkretne informacje. Skalowalne repozytoria przeznaczono do przechowywania różnego rodzaju zasobów, pochodzących z różnych źródeł i generowanych przez tradycyjne obciążenia (katalogi główne i współużytkowane pliki), jak i obciążenia nowej generacji (analiza danych, aplikacje udostępniane w chmurze i mobilne systemy synchronizacji i współużytkowania plików). Dane w nich zgromadzone są przetwarzane za pomocą różnych mechanizmów przez odrębne systemy pamięci masowej, bez konieczności zarządzania nimi.

> JEZIORA DANYCH – CO TO JEST I JAK DZIAŁA

Data lake to repozytorium, w którym jest przechowywana ogromna ilość nieprzetworzonych danych w oryginalnym formacie. Podczas gdy hierarchiczna hurtownia danych przechowuje informacje w plikach i folderach, data lake do przechowywania danych wykorzystuje płaską architekturę. Każdy element znajdujący się w repozytorium ma przypisany unikalny identyfikator i jest oznaczany zestawem znaczników metadanych. Gdy pojawia się zapytanie biznesowe, repozytorium może zostać przeszukane pod kątem określonych informacji, a następnie mniejszy, wydzielony zestaw danych może zostać poddany analizie, co ma pomóc w rozwiązaniu określonego problemu.

– Data lake to miejsce, w którym następuje integracja informacji dotyczących dotychczasowych inwestycji, a przy przetwarzaniu danych niestrukturyzowanych i ich analizie wykorzystywana jest dodatkowa inteligencja dostarczana przez odpowiednie narzędzia – taką definicję podaje Michael Cucchi, dyrektor działu Product Marketing for Data w firmie Pivotal. Koncepcja data lake pozwala na maksymalnie szybką, zaawansowaną i kontekstową analizę danych nie tylko historycznych, ale także tych generowanych w czasie rzeczywistym (np. w ramach procesów transakcyjnych). Jest to możliwe m.in. dzięki dynamicznemu reroutingowi realizowanemu nie na podstawie tablic routingu, ale kontekstu i z wykorzystaniem technologii przetwarzania in-memory, mogącej zastąpić wolniejsze i kosztowne systemy business intelligence
– zwraca uwagę Cucchi. Przetwarzanie in-memory daje firmom lepszy wgląd w prowadzone działania, poprawia ich efektywność oraz obniża koszty IT.

Pojęcie data lake jest często powiązane z obiektowymi pamięciami masowymi opartymi na platformie Hadoop. W tym przypadku dane organizacji najpierw są umieszczane na wspomnianej platformie, a następnie przetwarzane za pomocą narzędzi do analiz biznesowych i eksploracji danych.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"