Intel Xe w liczbach. Przedstawiono architekturę kart graficznych, która ma pogodzić wszystkich

Korzystając z HPC Developer Conference, Intel ujawnił garść szczegółów na temat opracowywanej aktualnie architektury kart graficznych, Ponte Vecchio. – Jest projektowana tak, aby znaleźć dla siebie miejsce w pełnym przekroju zastosowań – mówił ze sceny Raja Koduri, główny architekt i kierownik projektu. To właśnie elastyczność ma stanowić atut numer jeden.

Raja Koduri na HPC Developers Conference, fot. Materiały prasowe

Jasne, Raję Koduriego trzeba brać z dystansem. Jeszcze w czasach pracy dla AMD zasłynął z szafowania obietnicami bez pokrycia. Choćby wtedy, gdy zarzekał się, że Polaris nie będzie kosztować powyżej 200 dol. Albo gdy na długo przed sklepową premierą Vegi opowiadał o rzekomo niskich temperaturach i wysokiej kulturze pracy, co później boleśnie zweryfikowała rzeczywistość. Niemniej, filtrując buńczuczne cyferki, wciąż możemy się o Ponte Vecchio co nieco dowiedzieć. Najistotniejsze jest, że Intel chce jednym projektem zagarnąć cały rynek GPU.

Według ujawnionych informacji, architektura pojawi się w trzech wariantach: LP – niskoprądowym, HP – wysokowydajnym, a także HPC – eksaskalowym. Pierwszy ma obejmować układy w przedziale 5-25 W, konfigurowalne do 50 W i przeznaczone do montażu w sprzęcie mobilnym. Również jako rozwiązania zintegrowane z procesorem. Kolejny wypełni ponoć segment 75-250 W, służąc w dedykowanych kartach graficznych dla graczy, jak również wszelkiej maści twórców. Ostatni natomiast skierowany będzie do farm obliczeniowych i superkomputerów.

Nie jest jasne, czy rzeczone podtypy będą różnić się czymś ponad rozmiar rdzenia. Logika nakazuje sądzić, że konstrukcje konsumenckie zostaną uproszczone. Choćby dlatego, że nie wymagają dużej wydajności w operacjach na typach liczbowych innych niż INT32 i FP32, a do tego – wzorem Nvidii – można zarobić ekstra na osobach potrzebujących podwójnej precyzji.

MCM, czyli mówiąc prościej – sklejka

A skąd taka wielorakość zadań? Oczywiście, że z koncepcji MCM. Koduri chce tworzyć małe bloki jednostek wykonawczych (EU) i poprzez interkonekt XE Memory Fabric (XEMF) łączyć je w grupy liczące nawet 1000 EU. Dla odniesienia, najwydajniejsze obecnie iGPU Intela, Iris Plus Graphics G7, oferuje 64 EU. Mając na uwadze dwukrotnie większe zagęszczenie tranzystorów, o którym również wspomina przedstawiciel niebieskich, podstawową jednostką podziału mogłoby być 128 EU.

Jak wiadomo, w takim wypadku rodzą się pewne obawy o przepustowość. Trzeba zadbać o uzgodnienie zawartości pamięci podręcznych w każdym module. Ale na to Intel ma ponoć sposób: zewnętrzną pulę pamięci zwaną rambo cache'em. Koduri wyjaśnia, że chodzi o superszybką pamięć, do której dostęp ma i CPU, i GPU. To jednak najpewniej wyłącznie rozwiązanie dla rynku HPC, bo o ile tamtejszy interfejs Compute Express Link poradzi sobie z tym bez problemu, o tyle konsumenckie PCI Express takich możliwości nie daje. Tak czy inaczej, cały ten zestaw ma być skondensowany w stosie według założeń technologii Foveros 3D i EMIB.

Na marginesie: Intel w kontekście realizacji Ponte Vecchio mówi nie o procesie litograficznym klasy 10 nm, lecz 7 nm. Stąd właśnie wspomniane powyżej, dwukrotnie większe zagęszczenie.

oneAPI: jeden interfejs programistyczny dla każdego

Kontynuując temat superkomputerów, Koduri nie omieszkał przypomnieć o oneAPI. Jednym interfejsie programistycznym, który pozwala tworzyć zoptymalizowane oprogramowanie dla wszystkich produktów Intela. Od procesorów, poprzez rozwiązania AI i FPGA, a skończywszy właśnie na układach graficznych. I jest to o tyle ciekawe, że niniejsze środowisko jest niskopoziomowe. Pogodzenie tak szerokiego spektrum zastosowań, a więc również operacji elementarnych dla poszczególnych czipów to niezwykle ambitne przedsięwzięcie.

W tym celu stworzono nawet specjalny język programowania Data Parallel C++, aka DPC++, który jest wariacją na temat specyfikacji SYCL, a także unikatowy model sterownika. Ten ostatni dokona translacji najważniejszych poleceń oneAPI na kod maszynowy, będąc właśnie taką warstwą ujednolicającą kompatybilność. Przy czym zarówno oneAPI, jak i sterownik są otwartoźródłowe. Funkcjonalnie można tu posłużyć się porównaniem do Nvidia CUDA, aczkolwiek standard zielonych jest zamknięty i ograniczony do macierzystych kart graficznych.

Dzięki Koduriemu wiemy ponadto, że Intel ma w tym głębszy cel. Architektura Ponte Vecchio i oneAPI napędzą datowany na 2021 rok superkomputer dla Argonne National Laboratory – Aurora. Sprzęt zapowiada się na pokaz siły Intela, według zapowiedzi oferując także m.in. procesory Intel Xeon Scalable oraz pamięci Optane DC. Producent wspomina o 10 PB pamięci operacyjnej i aż 230 PB pamięci dyskowej. Wszystko to w obrębie klastra zawierającego ponad 200 racków.