Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



25.02.2020

Koszty w górę

Zmiany w licencjach VMware
24.02.2020

VPN na nowo

WireGuard w Linuksie
24.02.2020

Wydajność pod kontrolą

Citrix Analytics for Performance
24.02.2020

Zaawansowany backup

Veeam Availability Suite v10
20.02.2020

Serwery Enterprise

OVHCloud stawia na Ryzeny
20.02.2020

Monitory dla biznesu

Newline IP
20.02.2020

Przemysłowe SSD

Dyski Transcend M.2 NVMe
23.01.2020

Google Project Zero

Inicjatywa Google Project Zero
23.01.2020

Ochrona tylko w chmurze

Kaspersky Security Cloud Free

Deduplikacja i snapshoty

Data publikacji: 29-10-2015 Autor: Jarosław Sobel

Kontynuujemy przegląd możliwości macierzy firmy NetApp. W artykule omawiamy dwa mechanizmy, zaimplementowane w kontrolerach serii FAS: deduplikację i snapshoty.

Deduplikacja to – w największym uproszczeniu – proces usuwania zdublowanych bloków danych w wolumenie. Jak to działa w przypadku macierzy FAS? Wszystkie dane przechowywane są tutaj w postaci bloków 4 KB. Przy pierwszym uruchomieniu mechanizmu deduplikacji system skanuje wszystkie bloki znajdujące się w wolumenie i na tej podstawie tworzy tzw. bazę skrótów (skrót czy też hash danego bloku). Następnie sprawdzane jest, czy w bazie znajdują się zduplikowane skróty. Jeśli tak jest, to bloki, których skróty dotyczą, są porównywane. W przypadku gdy system potwierdzi, że są one identyczne, wówczas jeden z nich jest kasowany, a jego wskaźnik przepisywany jest na blok pozostawiony.

Deduplikacja w macierzach FAS działa na poziomie wolumenów (FlexVol) i jest procesem offline. Co więcej, dotyczy ona zarówno danych serwowanych plikowo, jak i blokowo. Wynika to z architektury systemu – dane blokowe prezentowane są w LUN-ach, które tworzone są wewnątrz wolumenów, czyli FlexVoli, a te podlegają procesowi deduplikacji. Po włączeniu tego mechanizmu i wstępnym przetworzeniu wszystkich danych (czyli utworzeniu bazy skrótów) podczas zapisywania kolejnych porcji danych online tworzone są jedynie skróty zapisywanych bloków. Skróty te są umieszczane w bazie tymczasowej. Weryfikacja nowych skrótów (sprawdzanie zdublowanych danych oraz ich kasowanie) odbywa się już poza głównym procesem i jest inicjowane z harmonogramu – na przykład w nocy podczas najmniejszej utylizacji macierzy.

Rozmiar bloku został dobrany w taki sposób, aby z jednej strony nie był on za mały – mogłoby to powodować znaczny przyrost bazy skrótów, a z drugiej – by nie był on za duży, gdyż wtedy występowałoby mniejsze prawdopodobieństwo powtórzenia się takiej samej porcji danych.

Zysk z zastosowania deduplikacji przedstawiony został w tabeli – są to dane prezentowane przez firmę NetApp zebrane na podstawie własnych testów oraz doświadczeń klientów.

Jak widać, najlepiej deduplikacji poddają się backupy oraz maszyny wirtualne czy też stacje VDI. Wynika to z dużej redundancji informacji w tego typu danych.

Dla danych plikowych mamy wskaźnik deduplikacji na poziomie około 30%. Przykładowo jeśli zgromadziliśmy 10 TB plików, to na macierzy zajmą one niecałe 7 TB (3 TB stanowią usunięte, zduplikowane bloki). Oczywiście należy pamiętać o tym, że metadane opisujące poszczególne bloki również zajmują przestrzeń. Narzut ten waha się pomiędzy 1% a 6% wszystkich danych w wolumenie, czyli dla naszego przykładu będzie to odpowiednio od 10 do 60 GB dodatkowej przestrzeni. Metadane to:

 

  • baza skrótów 4 KB bloków danych – do 2%;
  • plik logu ze skrótami zapisanymi podczas normalnej pracy systemu (pomiędzy procesami deduplikacji) – do 2%;
  • pliki tymczasowe, które tworzone są podczas wykonywania procesu deduplikacji i kasowane zaraz po jego zakończeniu – do 2%.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

prenumerata Numer niedostępny Spis treści

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"