Intel Xe w liczbach. Przedstawiono architekturę kart graficznych, która ma pogodzić wszystkich

Korzystając z HPC Developer Conference, Intel ujawnił garść szczegółów na temat opracowywanej aktualnie architektury kart graficznych, Ponte Vecchio. – Jest projektowana tak, aby znaleźć dla siebie miejsce w pełnym przekroju zastosowań – mówił ze sceny Raja Koduri, główny architekt i kierownik projektu. To właśnie elastyczność ma stanowić atut numer jeden.

Raja Koduri na HPC Developers Conference, fot. Materiały prasowe
Raja Koduri na HPC Developers Conference, fot. Materiały prasowe
Piotr Urbaniak

Jasne, Raję Koduriego trzeba brać z dystansem. Jeszcze w czasach pracy dla AMD zasłynął z szafowania obietnicami bez pokrycia. Choćby wtedy, gdy zarzekał się, że Polaris nie będzie kosztować powyżej 200 dol. Albo gdy na długo przed sklepową premierą Vegi opowiadał o rzekomo niskich temperaturach i wysokiej kulturze pracy, co później boleśnie zweryfikowała rzeczywistość. Niemniej, filtrując buńczuczne cyferki, wciąż możemy się o Ponte Vecchio co nieco dowiedzieć. Najistotniejsze jest, że Intel chce jednym projektem zagarnąć cały rynek GPU.

Według ujawnionych informacji, architektura pojawi się w trzech wariantach: LP – niskoprądowym, HP – wysokowydajnym, a także HPC – eksaskalowym. Pierwszy ma obejmować układy w przedziale 5-25 W, konfigurowalne do 50 W i przeznaczone do montażu w sprzęcie mobilnym. Również jako rozwiązania zintegrowane z procesorem. Kolejny wypełni ponoć segment 75-250 W, służąc w dedykowanych kartach graficznych dla graczy, jak również wszelkiej maści twórców. Ostatni natomiast skierowany będzie do farm obliczeniowych i superkomputerów.

Obraz

Nie jest jasne, czy rzeczone podtypy będą różnić się czymś ponad rozmiar rdzenia. Logika nakazuje sądzić, że konstrukcje konsumenckie zostaną uproszczone. Choćby dlatego, że nie wymagają dużej wydajności w operacjach na typach liczbowych innych niż INT32 i FP32, a do tego – wzorem Nvidii – można zarobić ekstra na osobach potrzebujących podwójnej precyzji.

MCM, czyli mówiąc prościej – sklejka

A skąd taka wielorakość zadań? Oczywiście, że z koncepcji MCM. Koduri chce tworzyć małe bloki jednostek wykonawczych (EU) i poprzez interkonekt XE Memory Fabric (XEMF) łączyć je w grupy liczące nawet 1000 EU. Dla odniesienia, najwydajniejsze obecnie iGPU Intela, Iris Plus Graphics G7, oferuje 64 EU. Mając na uwadze dwukrotnie większe zagęszczenie tranzystorów, o którym również wspomina przedstawiciel niebieskich, podstawową jednostką podziału mogłoby być 128 EU.

Jak wiadomo, w takim wypadku rodzą się pewne obawy o przepustowość. Trzeba zadbać o uzgodnienie zawartości pamięci podręcznych w każdym module. Ale na to Intel ma ponoć sposób: zewnętrzną pulę pamięci zwaną rambo cache'em. Koduri wyjaśnia, że chodzi o superszybką pamięć, do której dostęp ma i CPU, i GPU. To jednak najpewniej wyłącznie rozwiązanie dla rynku HPC, bo o ile tamtejszy interfejs Compute Express Link poradzi sobie z tym bez problemu, o tyle konsumenckie PCI Express takich możliwości nie daje. Tak czy inaczej, cały ten zestaw ma być skondensowany w stosie według założeń technologii Foveros 3D i EMIB.

Obraz

Na marginesie: Intel w kontekście realizacji Ponte Vecchio mówi nie o procesie litograficznym klasy 10 nm, lecz 7 nm. Stąd właśnie wspomniane powyżej, dwukrotnie większe zagęszczenie.

oneAPI: jeden interfejs programistyczny dla każdego

Kontynuując temat superkomputerów, Koduri nie omieszkał przypomnieć o oneAPI. Jednym interfejsie programistycznym, który pozwala tworzyć zoptymalizowane oprogramowanie dla wszystkich produktów Intela. Od procesorów, poprzez rozwiązania AI i FPGA, a skończywszy właśnie na układach graficznych. I jest to o tyle ciekawe, że niniejsze środowisko jest niskopoziomowe. Pogodzenie tak szerokiego spektrum zastosowań, a więc również operacji elementarnych dla poszczególnych czipów to niezwykle ambitne przedsięwzięcie.

W tym celu stworzono nawet specjalny język programowania Data Parallel C++, aka DPC++, który jest wariacją na temat specyfikacji SYCL, a także unikatowy model sterownika. Ten ostatni dokona translacji najważniejszych poleceń oneAPI na kod maszynowy, będąc właśnie taką warstwą ujednolicającą kompatybilność. Przy czym zarówno oneAPI, jak i sterownik są otwartoźródłowe. Funkcjonalnie można tu posłużyć się porównaniem do Nvidia CUDA, aczkolwiek standard zielonych jest zamknięty i ograniczony do macierzystych kart graficznych.

Dzięki Koduriemu wiemy ponadto, że Intel ma w tym głębszy cel. Architektura Ponte Vecchio i oneAPI napędzą datowany na 2021 rok superkomputer dla Argonne National Laboratory – Aurora. Sprzęt zapowiada się na pokaz siły Intela, według zapowiedzi oferując także m.in. procesory Intel Xeon Scalable oraz pamięci Optane DC. Producent wspomina o 10 PB pamięci operacyjnej i aż 230 PB pamięci dyskowej. Wszystko to w obrębie klastra zawierającego ponad 200 racków.

Programy

Zobacz więcej
Wybrane dla Ciebie
Komentarze (23)