Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.
Data publikacji: 03-03-2022 | Autor: | Marcin Bieńkowski |
W listopadzie ubiegłego roku firma AMD zaprezentowała potężne akceleratory obliczeniowe z serii MI200 przeznaczone do centrów danych. To nie tylko nowe modele urządzeń z dobrze znanej serii akceleratorów Instinct MI100, ale też pierwsze na rynku wieloukładowe konstrukcje tego typu.
Podobnie jak karty obliczeniowe poprzedniej generacji bazowały na graficznej architekturze CNDA, tak w konstrukcji akceleratorów z serii Instinct MI200 zastosowano nową, graficzną architekturę CDNA2, która od początku była opracowana z myślą o rynku wysokowydajnych obliczeń HPC (ang. High Performance Computing). Co więcej, firma AMD wykorzystała swoje doświadczenia z procesorami Ryzen i EPYC, tworząc zespolony, „dwukrzemowy” układ będący pierwszą, wieloukładową konstrukcją tego typu pracującą ze wspólną pulą pamięci. Wrócono więc tu do koncepcji budowy kart wieloukładowych, której zaniechano, w chwili gdy powstały pierwsze wysokowydajne graficzne procesory wielordzeniowe.
> MCM, czyli Multi-Chip-Module
Jak już wspomniano, akceleratory z serii Instinct MI200 korzystają z dwóch krzemowych jąder bazujących na architekturze CDNA 2 o kodowej nazwie Aldebaran – od nazwy najjaśniejszej gwiazdy w gwiazdozbiorze Byka. Składają się łącznie z 58 mld tranzystorów, po 29 mld na każdy układ GCD (ang. Graphics Complex Die), a do ich produkcji wykorzystano sześcionanometrowy proces litograficzny N6 firmy TSMC, w której produkowane są układy. Mamy tu więc do czynienia z pierwszym układem akceleracji obliczeniowej bazującej na znanej z procesorów EPYC konstrukcji typu MCM – Multi-Chip-Module.
Do uzyskania odpowiedniej mocy obliczeniowej i związanej z nią wymianą danych pomiędzy modułami użyto superszybkiej magistrali trzeciej generacji AMD Infinity Fabric z czterema łączami 25 Gb/s zapewniającymi łączną, dwukierunkową przepustowość do 100 Gb/s, która pozwala połączyć obydwa jądra oraz pamięć HBM2E. Odróżnia to MI200 od poprzednich serwerowych akceleratorów AMD z wieloma procesorami graficznymi, ponieważ wszystkie te produkty były połączone za pośrednictwem magistrali PCIe.
Co ciekawe, w MI200 wykorzystano specjalne, półprzewodnikowe, wykonane w półprzestrzennej technice 2,5D połączenie typu Die-to-Die Crosslink, o nazwie EFB (ang. Elevated Fanout Bridge). Konstrukcja 2,5D oznacza, że połączenie tworzone jest nad podłożem, a nie bezpośrednio w nim; ma ono ułatwić fizyczne łączenie jąder i modułów pamięci oraz obniżyć koszty produkcji akceleratorów wieloukładowych. W konfiguracji MI200 OAM (OCP Accelerator Module, gdzie OCP to format obudowy Open Compute Platform) dostępnych jest osiem łączy, które zapewniają przepustowość 800 GB/s między dwoma chipletami.
To ogromny wzrost wydajności w stosunku do łączy Infinity Fabric używanych w procesorach zgodnych z architekturą ZEN 3 (o której można przeczytać więcej w „IT Professional” 2/2021, s. 19). W architekturze tej Infinity Fabric działa z częstotliwością zegara taktującego pamięć RAM, czyli z maksymalną oficjalną (bez podkręcania) prędkością 1600 MHz. Przy 16 bajtach i podwójnej szybkości transmisji danych to tylko 51,2 GB/s dwukierunkowej przepustowości. Oznacza to, że MI200 ma 16-krotnie większą przepustowość łącza. Jest to więc niezwykle silna odpowiedź AMD na magistralę EMIB Intela.
> Wnętrze akceleratora
Jak podaje firma AMD, Instinct MI200 taktowany będzie zegarem o maksymalnej częstotliwości do 1,7 GHz, w porównaniu do 1,5 GHz w MI100. Użyto też szybszej, 128-megabajtowej pamięci HBM2e działającej na 8192-bitowej magistrali z prędkością 3,2 Gb/s, co przekłada się na przepustowość wynoszącą 3,2 TB/s. Oznacza to, że ogólna przepustowość dla dwuchipletowych układów MI200 wzrosła ponad 2,6 raza (z 1,2 TB/s) w stosunku do wcześniejszych akceleratorów MI100.
Jeśli chodzi o budowę funkcjonalną, to nie ma tu rewolucyjnych zmian w porównaniu z rodziną MI100. Najmocniejszy z akceleratorów – MI250X – ma 220 wektorowych jednostek obliczeniowych CU (ang. Compute Unit), po 110 na każdy z chipletów, a nieco słabszy MI250 ma ich 208. Układy te wyposażono też odpowiednio w 880- i 832-macierzowe rdzenie Matrix. Firma AMD ulepszyła jednak zarówno jednostki wektorowe, jak i macierzowe. Oba rodzaje rdzeni oferują obsługę zmiennoprzecinkowych obliczeń FP64. Warto podkreślić, że duży nacisk położono na usprawnienie działania obliczeń macierzowych. Szybkość obliczeń dla rdzeni Matrix została podwojona.
Pod względem osiągów MI100 był pierwszym procesorem graficznym, który zapewniał ponad 10 TFLOPS-ów w obliczeniach wektorowych FP64. Dzięki wyższym zegarom, dwóm obliczeniowym jądrom i dwukrotnie zwiększonej szybkości obliczeń FP64 MI200 może pochwalić się szczytową wydajnością obliczeń wektorowych FP64 wynoszącą 47,9 TFLOPS-ów. Firma AMD podkreśla tu, że jest to 4,9 raza szybciej w stosunku do prędkości wektorowych obliczeń FP64 konkurencyjnego układu Nvidia A100.
W zakresie prędkości obsługi obliczeń macierzowych FP64 jest ona dwukrotnie większa niż szybkość jednostki wektorowej i wynosi 95,7 TFLOPS-ów. Porównując ponownie wydajność z Nvidią A100, dla której szybkość ta to 19,5 TFLOPS-ów, uzyskujemy również 4,9 raza lepsze wyniki. To oczywiście tylko porównanie „na papierze”, dlatego producent w swoich materiałach prezentuje też szereg testów porównawczych dotyczących obliczeń HPC. W aplikacjach HPC przewaga MI200 względem A100 wynosi od 40 do 140%, ale w zależności od zastosowań w konkretnych aplikacjach może być nawet dwukrotna. Jest to zgodne z pierwszymi testami dostępnymi w sieci, gdzie średnio nowe karty z serii Instinct są szybsze od rozwiązań Nvidii o około 1,5 raza. Trzeba przyznać, że to niezły wynik, ale czy taka też będzie przewaga w rzeczywistych obliczeniach inżyniersko-naukowych – trudno w tej chwili jednoznacznie powiedzieć. W wypadku wydajności FP16 przewaga nowych akceleratorów Instinct nie jest już tak wysoka. A100 Nvidii pochwalić się może wydajnością 312 TFLOPS-ów, a MI200 383 TFLOPS-ami.
[...]
Autor jest niezależnym dziennikarzem zajmującym się propagowaniem nauki i techniki.
Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.
Transmisje online zapewnia: StreamOnline