Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



23.06.2020

PLNOG Online

PLNOG Online
23.06.2020

Nowe zagrożenie

Ramsay
23.06.2020

Chmurowe kopie

Veeam Backup dla Microsoft Azure
19.06.2020

Nowości w kontenerach

Red Hat OpenShift 4.4
19.06.2020

Analityka bezpieczeństwa

FortiAI
19.06.2020

UPS dla obliczeń edge

Schneider APC Smart-UPS
16.06.2020

Przemysłowe SD

Nowe karty Transcend
16.06.2020

Storage dla SMB

QNAP TS-451DeU
16.06.2020

Pamięć masowa

Dell EMC PowerStore

Deduplikacja i snapshoty

Data publikacji: 29-10-2015 Autor: Jarosław Sobel

Kontynuujemy przegląd możliwości macierzy firmy NetApp. W artykule omawiamy dwa mechanizmy, zaimplementowane w kontrolerach serii FAS: deduplikację i snapshoty.

Deduplikacja to – w największym uproszczeniu – proces usuwania zdublowanych bloków danych w wolumenie. Jak to działa w przypadku macierzy FAS? Wszystkie dane przechowywane są tutaj w postaci bloków 4 KB. Przy pierwszym uruchomieniu mechanizmu deduplikacji system skanuje wszystkie bloki znajdujące się w wolumenie i na tej podstawie tworzy tzw. bazę skrótów (skrót czy też hash danego bloku). Następnie sprawdzane jest, czy w bazie znajdują się zduplikowane skróty. Jeśli tak jest, to bloki, których skróty dotyczą, są porównywane. W przypadku gdy system potwierdzi, że są one identyczne, wówczas jeden z nich jest kasowany, a jego wskaźnik przepisywany jest na blok pozostawiony.

Deduplikacja w macierzach FAS działa na poziomie wolumenów (FlexVol) i jest procesem offline. Co więcej, dotyczy ona zarówno danych serwowanych plikowo, jak i blokowo. Wynika to z architektury systemu – dane blokowe prezentowane są w LUN-ach, które tworzone są wewnątrz wolumenów, czyli FlexVoli, a te podlegają procesowi deduplikacji. Po włączeniu tego mechanizmu i wstępnym przetworzeniu wszystkich danych (czyli utworzeniu bazy skrótów) podczas zapisywania kolejnych porcji danych online tworzone są jedynie skróty zapisywanych bloków. Skróty te są umieszczane w bazie tymczasowej. Weryfikacja nowych skrótów (sprawdzanie zdublowanych danych oraz ich kasowanie) odbywa się już poza głównym procesem i jest inicjowane z harmonogramu – na przykład w nocy podczas najmniejszej utylizacji macierzy.

Rozmiar bloku został dobrany w taki sposób, aby z jednej strony nie był on za mały – mogłoby to powodować znaczny przyrost bazy skrótów, a z drugiej – by nie był on za duży, gdyż wtedy występowałoby mniejsze prawdopodobieństwo powtórzenia się takiej samej porcji danych.

Zysk z zastosowania deduplikacji przedstawiony został w tabeli – są to dane prezentowane przez firmę NetApp zebrane na podstawie własnych testów oraz doświadczeń klientów.

Jak widać, najlepiej deduplikacji poddają się backupy oraz maszyny wirtualne czy też stacje VDI. Wynika to z dużej redundancji informacji w tego typu danych.

Dla danych plikowych mamy wskaźnik deduplikacji na poziomie około 30%. Przykładowo jeśli zgromadziliśmy 10 TB plików, to na macierzy zajmą one niecałe 7 TB (3 TB stanowią usunięte, zduplikowane bloki). Oczywiście należy pamiętać o tym, że metadane opisujące poszczególne bloki również zajmują przestrzeń. Narzut ten waha się pomiędzy 1% a 6% wszystkich danych w wolumenie, czyli dla naszego przykładu będzie to odpowiednio od 10 do 60 GB dodatkowej przestrzeni. Metadane to:

 

  • baza skrótów 4 KB bloków danych – do 2%;
  • plik logu ze skrótami zapisanymi podczas normalnej pracy systemu (pomiędzy procesami deduplikacji) – do 2%;
  • pliki tymczasowe, które tworzone są podczas wykonywania procesu deduplikacji i kasowane zaraz po jego zakończeniu – do 2%.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

prenumerata Numer niedostępny Spis treści

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"