Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



26.08.2021

Firma Fortinet rozszerzyła...

Firma Fortinet rozszerzyła ofertę o usługę FortiTrust, która dołączyła do innych usług...
26.08.2021

Aplikacje biznesowe

Ready_™ AppStore
26.08.2021

Automatyzacja chmur...

Integracja z Red Hat Ansible
26.08.2021

Backup kodu źródłowego

GitProtect.io dostępny na Github
26.08.2021

Wsparcie pracy hybrydowej

Zdalny SD WAN
26.08.2021

Nowy monitor Philips 498P9Z

Nowy monitor Philips 498P9Z to model wyposażony w 49-calowy, zakrzywiony panel VA o...
26.08.2021

Wytrzymały punkt dostępowy

D-Link DIS-2650AP
26.08.2021

Ekonomiczne dyski

SSD bez DRAM
26.08.2021

Petabajty pojemności

Serwery QNAP

Katalogowanie i zarządzanie danymi z Azure Purview

Data publikacji: 27-05-2021 Autor: Marcin Szeliga

Purview, nowa usługa dostępna w Azure, automatyzuje wyszukiwanie i katalogowanie zarówno danych, jak i procesów ich przetwarzania (potoków danych) oraz upraszcza ochronę poufnych danych. Celem artykułu jest przedstawienie tej długo wyczekiwanej, szczególnie przez użytkowników Data Lake, usługi.

 

Firmy przetwarzają dane w dziesiątkach, a czasem setkach różnych systemów informatycznych. Firmowe systemy komputerowe przechowują informacje o tysiącach, jeśli nie milionach obiektów i faktów biznesowych. Ponadto coraz częściej dane przechowywane są zarówno lokalnie, jak i w chmurze obliczeniowej. W efekcie procesy odpowiedzialne za przetwarzanie i udostępnianie rozproszonych pomiędzy wieloma systemami danych są coraz bardziej skomplikowane, a zarządzanie nimi staje się coraz większym wyzwaniem.

 

> Wszechobecność danych

Do niedawna większość firmowych danych była przechowywana w postaci tabel i przetwarzana przez systemy baz danych, takie jak systemy ERP czy CRM. Wiele takich systemów ma wbudowaną możliwość raportowania, dzięki czemu liczba baz danych i tabel, w których użytkownicy musieli wyszukiwać interesujące ich informacje, była stosunkowo niewielka. Rosnąca popularność nowoczesnych technologii, takich jak inteligentne urządzenia, aplikacje mobilne i systemy zaawansowanej analizy danych, zmieniła tę sytuację. Administratorów baz danych zastąpili inżynierowie danych, a zakres ich obowiązków obejmuje nie tylko przetwarzanie i zabezpieczenie ustrukturyzowanych (tabelarycznych), częściowo ustrukturyzowanych (dokumenty) i nieustrukturyzowanych (pliki binarne) danych, ale również katalogowanie i udostępnianie wszystkich tych danych użytkownikom. Według Gartnera 60% problemów związanych z utrzymaniem nowoczesnych systemów informatycznych wynika ze złej jakości danych oraz kwestii związanych z zarządzaniem i bezpieczeństwem danych (gtnr.it/3u0OYgN).

Coraz więcej firm przechowuje terabajty danych w swoich systemach Data Lake. Zaletą tych systemów miało być skrócenie i uproszczenie projektów Business Intelligence dzięki zapisaniu wszystkich danych w jednym miejscu. Tymczasem okazało się, że średni czas potrzebny na znalezienie w Data Lake wszystkich potrzebnych danych wynosi ponad miesiąc. Wydłuża to niepotrzebnie czas projektów Business Intelligence i zwiększa ich koszty.

Konieczne stało się zautomatyzowanie procesów zarządzania danymi. Procesy te dotyczą nie tylko jakości danych, ale również metadanych (danych opisujących dane), wyszukiwania i katalogowania danych oraz bezpieczeństwa i poufności danych.

Specjalistów danych można podzielić na cztery kategorie:

 

  • twórców – do tej grupy należą eksperci znający zagadnienia biznesowe i umiejący przygotować dane na potrzeby użytkowników;
  • użytkowników – użytkownikami danych są nie tylko analitycy, ale również menedżerowie projektów i kierownicy działów;
  • osoby odpowiedzialne za bezpieczeństwo – pracownicy działu IT, których zadaniem jest ochrona systemów informatycznych przed atakami;
  • osoby odpowiedzialne za zgodność z obowiązującymi przepisami – do tej grupy należą między innymi osoby odpowiedzialne za ochronę poufnych danych zgodnie z wytycznymi rodo.


Wszyscy oni pracują na co dzień z metadanymi. Metadane opisują np. fizyczną lokalizację danych, ich strukturę czy kategorię poufności. Metadane opisują też procesy przetwarzania danych, np. dokumentują przepływ danych od źródeł do raportów Power BI. Azure Purview pomaga gromadzić metadane obu rodzajów oraz zarządzać nimi.

 

> Usługa Azure Purview

Azure Purview jest usługą typu PaaS, czyli w pełni zarządzaną, gotową do użycia usługą w chmurze. W czasie powstawania artykułu była ona dostępna w wersji zapoznawczej, zatem lista dostępnych funkcji może się jeszcze poszerzyć. Wersja zapoznawcza:

 

  • umożliwia katalogowanie i zarządzanie danych przechowywanych w systemach lokalnych, w Azure i innych chmurach publicznych;
  • automatycznie klasyfikuje dane za pomocą ponad stu predefiniowanych reguł;
  • pozwala na definiowanie własnych reguł klasyfikacji danych;
  • dokumentuje przepływy danych;
  • pozwala na zdefiniowanie własnego słownika terminów biznesowych używanych do klasyfikacji zgromadzonych metadanych;
  • pozwala na przeszukiwanie zgromadzonych metadanych za pomocą języka naturalnego.


Do utworzenia usługi Purview potrzebna jest subskrypcja Azure z posiadanymi uprawnieniami administracyjnymi. Darmową subskrypcję demonstracyjną możemy założyć pod adresem bit.ly/3eGsTxI. Zalecamy podpięcie tej subskrypcji pod prywatne konto Microsoft. Podpinając ją pod konto firmowe, ryzykujemy, że ewentualne ograniczenia wdrożone przez administratora firmy uniemożliwią nam utworzenie usługi Purview. Najprostszym sposobem utworzenia usługi jest skorzystanie z portalu Azure:

 

  • po kliknięciu odnośnika Create a resource należy w polu wyszukiwania wpisać purview, jako typ tworzonego zasobu wybrać Azure Purview i kliknąć Create;
  • zostaniemy poproszeni o wybór: subskrypcji (w ramach której utworzona zostanie usługa), podanie grupy zasobów (logicznego kontenera na zasoby Azure), nazwy tworzonej usługi i jej lokalizacji. Nazwa usługi musi być unikatowa w skali Azure, natomiast region należy wybrać najbliższy naszej lokalizacji (wersja zapoznawcza dostępna jest między innymi w regionie Europy Zachodniej);
  • na zakładce Configuration możemy też zmienić wydajność. Wersja zapoznawcza pozwala jedynie wybrać cztery (darmowe w tej wersji) jednostki lub 16 jednostek wydajności. Wersji katalogu danych oraz usługi ich analizowania nie można na razie zmieniać;
  • po kliknięciu przycisku Review + Create konfiguracja zostanie sprawdzona i jeśli będzie poprawna, będziemy mogli utworzyć usługę, klikając Create.

 

[...]

 

Pracownik naukowy Wyższej Szkoły Bankowej w Poznaniu Wydział Zamiejscowy w Chorzowie, jest autorem książek poświęconych analizie danych i posiada tytuł Microsoft Most Valuable Professional.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"