Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



14.05.2019

Bezpłatna konferencja OSEC...

Jako patron medialny serdecznie zapraszamy na bezpłatną konferencję OSEC Forum 2019, któa...
23.04.2019

Optymalizacja zużycia chmury

HPE GreenLake Hybrid Cloud
23.04.2019

Zarządzanie wydajnością

VMware vRealize Operations 7.5
19.04.2019

Technologie open source

SUSECON 2019
19.04.2019

Wyjątkowo małe

OKI seria C800
19.04.2019

Łatwy montaż

Rittal AX i KX
18.04.2019

Technologie wideo

Avaya IX Collaboration Unit
18.04.2019

Krótki rzut

Optoma W318STe i X318STe
18.04.2019

Do mobilnej pracy

Jabra Evolve 65e

Procesory serwerowe

Data publikacji: 25-01-2018 Autor: Marcin Bieńkowski
PROCESORY INTEL XEON SCALABLE...

W 2017 roku na rynku zadebiutowały dwie rodziny zupełnie nowych procesorów serwerowych. Są to Intel Xeon Scalable oraz AMD EPYC. Przyjrzyjmy się, jakie zmiany przyniosą one na rynku.

Rodzina procesorów Xeon Scalable sukcesywnie zastępować będzie dotychczasowe serwerowe układy Xeon z serii E5 i E7, a więc kości przeznaczone do centrów danych i zastosowań chmurowych. Skonstruowano je z myślą o analizie danych w czasie rzeczywistym, sztucznej inteligencji, uczeniu maszynowym oraz przede wszystkim wirtualizacji. Cechą charakterystyczną najnowszej rodziny procesorów serwerowych jest ogromna liczba rdzeni – maksymalnie do 28, oraz zupełnie nowa architektura połączeń wewnętrznych – Intel Mesh, pozwalająca na zmniejszenie opóźnień w systemie i oferująca niesamowitą skalowalność nowej platformy, od której wzięła swoją nazwę.

> KIERUNEK: WIĘCEJ RDZENI

Najsilniejsze z procesorów, 2,5-gigahercowe (3, 8 GHz w trybie turbo) układy Intel Xeon Platinum 8180 i 8180M, dysponują aż 28 rdzeniami (56 wątków) oraz pamięcią cache L3 o wielkości 38,5 MB. Jest to nieco mniej niż w wypadku poprzedniej generacji, gdzie maksymalnie dostępnych było 60 MB pamięci cache L3. Co ciekawe, taką samą liczbą rdzeni i wielkością pamięci cache dysponują też nieco wolniejsze, taktowane niższym zegarem 2,10 GHz, modele Platinum 8176F, 8176M i 8176. Warto w tym miejscu wspomnieć, że litera M w symbolu procesora oznacza wersję z możliwością obsługi do 1,5 TB pamięci RAM, zaś F to układy z wbudowanym interfejsem Fabric – o czym za chwilę. Najmniej liczne pod względem liczby rdzeni procesory z rodziny Xeon Scalable mają zaledwie cztery jądra. Są to odpowiednio układy Intel Xeon Platinum 8156, Intel Xeon Gold 5122 oraz Intel Xeon Silver 4112. Jak widać, również w najwyższej pod względem wydajności i przeznaczenia rodzinie procesorów Xeon Platinum występują egzemplarze o małej liczbie rdzeni. Ich zaliczenie do najwyższej serii procesorów Scalable wynika z innych cech, m.in. liczby jednostek wykonawczych dla nowego zestawu instrukcji AVX-512. Procesory z rodziny Xeon Bronze i Xeon Silver posiadają jedną jednostkę AVX-512, natomiast Xeon Gold i Xeon Platinum dwie. Procesory Intel Scalable obsługują, w zależności od wersji, maksymalnie do 768 GB lub 1,5 TB (wersja M) pamięci RAM, jest to również nieco mniejsza wartość niż w wypadku kości poprzedniej generacji, gdyż układy z serii E7 były w stanie zaadresować 3,07 TB RAM-u. W odróżnieniu od swoich poprzedników w systemach czteroprocesorowych, istnieje możliwość zaadresowania aż do 6 TB pamięci!

Istotną modyfikacją w architekturze Scalable jest wprowadzenie wspomnianego zestawu instrukcji Intel Advanced Vector Extensions 512, czyli Intel AVX-512. Nowe jednostki wykonawcze, w porównaniu z poprzednią generacją modułów Intel AVX2, podnoszą ponaddwukrotnie wydajność wykonywania wektorowych operacji zmiennoprzecinkowych w przeliczeniu na cykl zegara. Dzięki temu w znaczący sposób zwiększono wydajność i przepustowość nowych procesorów w najbardziej skomplikowanych zadaniach obliczeniowych, takich jak: modelowanie i symulacja, analiza dużej ilości danych, uczenie maszynowe, kompresja, wizualizacja oraz tworzenie multimedialnych materiałów cyfrowych.

Aby sprostać tym zadaniom, podwyższono też o 50% przepustowość podsystemu pamięci. W nowych procesorach zastosowano sześć kanałów, co w porównaniu z czterema kanałami w urządzeniach poprzedniej generacji, pozwala na znacznie szybszą obsługę wszelkiego typu zadań, które szczególnie mocno obciążają pamięć. Zwiększenie do 48 liczby linii PCIe 3.0 przełożyło się też na znaczne zwiększenie przepustowości i wydajności wszelkich operacji wejścia/wyjścia realizowanych przez procesor. Warto też wspomnieć o zwiększeniu z dwóch do trzech liczby kanałów komunikacji międzyprocesorowej i zastąpieniu kanałów transmisyjnych Intel QuickPath Interconnect (przepustowość do 9,6 GT/s na kanał – giga transferów na sekundę), kanałami Intel Ultra Path Interconnect (Intel UPI) o szybkości 10,4 GT/s na kanał. Operacja ta miała na celu poprawę skalowalności całej platformy, umożliwiając tym samym ścisłą współpracę do ośmiu procesorów zamontowanych na jednej płycie głównej. Jak twierdzi producent, dzięki zastosowaniu UPI zapewniono też idealną równowagę pomiędzy zwiększoną przepustowością a wydajnością energetyczną platformy.

> ARCHITEKTURA INTEL MESH

Najważniejszą zmianą jest wprowadzenie nowej architektury połączeń wewnętrznych o nazwie Intel Mesh. Zastąpiła ona dotychczasową dwukierunkową architekturę magistrali typu Ring Bus. Dzięki temu potrzebne dane i instrukcje już nie są gromadzone, a następnie przesyłane pomiędzy rdzeniami za pomocą swoistego pierścienia (ringu), tworzącego łącze komunikacyjne spinające właśnie „po okręgu” wszystkie rdzenie procesora. W poprzedniej generacji układów, jeśli któryś rdzeń potrzebował danych, musiał po prostu poczekać, aż dotrą do niego z punktu startowego, mijając po drodze inne jednostki wykonawcze. Magistrala była oczywiście dwukierunkowa, co umożliwiało pewną optymalizację przesyłania informacji w jedną lub drugą stronę, skracając w ten sposób odległość wędrówki danych „po pierścieniu”. Zaletą magistrali pierścieniowej jest przede wszystkim prosta konstrukcja. Należy jednak pamiętać, że zaprojektowana została pierwotnie do obsługi maksymalnie ośmiu rdzeni procesora. Większa liczba rdzeni wydłuża bowiem znacząco drogę danych „po okręgu”, zwiększając odległość między blokami i długość samej magistrali. Prowadzi to w konsekwencji do zwiększenia opóźnień.

Opóźnienie w magistrali pierścieniowej zależy bowiem przede wszystkim od położenia punktu startowego i końcowego danych, czyli od dystansu pomiędzy wymieniającymi się danymi rdzeniami procesora. Co ciekawe, Ring Bus został wykorzystany do zapewnienia komunikacji pomiędzy nie ośmioma, a dwunastoma rdzeniami. W dwudziestodwu­rdzeniowych Xeonach E5 v4 dokonano podziału na dwa bloki – po dwanaście aktywnych rdzeni, w których każdy blok miał własny, indywidualny Ring Bus. Dorzucono też specjalny kontroler wymieniający dane pomiędzy oboma pierścieniami.

Takie rozwiązanie wewnętrznej magistrali danych nie sprawdza się przy procesorach 28-rdzeniowych, stąd pomysł na zastosowanie tzw. architektury kratowej typu Mesh. Magistrala Mesh składa się z siatki (kraty, macierzy) połączeń pomiędzy rdzeniami, pamięcią cache oraz pozostałymi składowymi procesora, takimi jak kontrolery RAM czy kontrolery operacji we/wy, którą podzielono na wiersze i kolumny. Takie rozwiązanie technologiczne pozwala na zdecydowanie bardziej elastyczne trasowanie przesyłanych informacji. Co więcej, trasy przesyłu danych pomiędzy rdzeniami mogą być tworzone dynamicznie na potrzeby każdorazowego przesyłu, korzystając z najmniej obciążonych dróg dojścia poprzez strukturę układu od początkowego do końcowego rdzenia. Według Intela architektura ta ma w znaczący sposób zmniejszyć opóźnienia oraz usprawnić przepływ danych w systemach wieloprocesorowych. Domyślnie magistrala Mesh w procesorach Xeon Scalable taktowana jest zegarem 2666 MHz, co odpowiada taktowaniu pamięci RAM.

> INTEGRACJA I SKALOWALNOŚĆ PLATFORMY

Omawiając rodzinę procesorów Intel Xeon Scalable, nie sposób pominąć zintegrowanego interfejsu Intel Omni-Path Architecture (Intel OPA) Host Fabric. Jest to uniwersalny, kompletny interfejs odznaczający się wysoką przepustowością i jednocześnie małymi opóźnieniami. Pozwala on na optymalizację wydajności wymiany danych pomiędzy systemami i ułatwia wdrażanie klastrów klasy HPC (High Performance Computing), dzięki wyeliminowaniu konieczności używania dodatkowych kart interfejsu Host Fabric. Jak wspomniano, zintegrowany z procesorem kontroler Host Fabric dostępny jest w modelach z literą F w oznaczeniu procesora.

[...]
 

Autor jest niezależnym dziennikarzem zajmującym się propagowaniem nauki i techniki.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"