Na Hot Chips 31 rozmiar ma znaczenie. Pokazano czip o powierzchni ponad 462 cm kw.
Kiedy NVIDIA prezentowała rdzeń Volta GV100 o powierzchni 815 mm kw., wielu zastanawiało się, czy produkcja tak wielkich układów może być jakkolwiek opłacalna. Takich wątpliwości wyraźnie nie ma firma Cerebras, która na Hot Chips 31 zaprezentowała procesor do uczenia maszynowego mierzący ponad... 462 cm kw. Tak, centymetrów. Przedrostek się zgadza.
Wafer Scale Engine (WSE), jak nazwano tę konstrukcję, dokładniej rzecz ujmując, zajmuje powierzchnię 46 225 mm kw. Jest tym samym blisko 57 razy większy od dotychczasowego rekordzisty – Volty GV100. Ten megaczip zawiera 1,2 bln tranzystorów, które składają się na 400 tys.(!) jednostek przetwarzania masowo równoległego Sparse Linear Algebra (SLA), 18 GB wbudowanej pamięci typu SRAM i zespół interkontektorów o sumarycznej przepustowości 100 Pb/s.
Całość pamięci pełni rolę cache'u poziomu pierwszego i dostępna jest w jednym cyklu zegara, przy przepustowości 9 PB/s. Jak twierdzi producent, to 3 tys. razy większa pojemność i 10 tys. razy wyższa przepustowość niż w przypadku "wiodących rozwiązań konkurencji".
Do czego ma posłużyć ten kolos? Jest zoptymalizowany do TensorFlow, czyli biblioteki uczenia maszynowego i głębokich sieci neuronowych. Cerebras uważa, że klasyczne czipy nie są najlepsze do pracy z SI, gdyż większa część ich pamięci spoczywa poza układem. To z kolei zwiększa czas dostępu, kluczowy przy równoległym wykonywaniu tysięcy operacji arytmetycznych. Tym bardziej odpadają systemy wieloprocesorowe i wielokartowe.
Przy czym konstrukcja ponoć nie jest taka droga w produkcji, jak mogłoby się w pierwszej chwili wydawać. Składa się z 84 kompleksów, które produkowane są oddzielnie w zakładach TSMC. Scala je dwukierunkowe łącze w modelu koherentnym, co od razu przywodzi na myśl AMD i ich Infinity Fabric. Mówiąc obrazowo, WSE to poniekąd taki duży Threadripper albo Epyc.
Tylko, patrząc z technicznego punktu widzenia, nie jest to procesor w nominalnym pojmowaniu, a bardziej karta graficzna – jeśli trzymać się konsumenckiej nomenklatury. Układ Cerberas nie potrafi sam przydzielić zasobów ani przełączyć kontekstu. Jest wyłącznie koprocesorem. Z ciekawostek – współczynnik TDP wynosi tutaj 15 kW (15 tys. W). Aby utrzymać stabilność, zgodnie ze słowami producenta, niezbędne jest skierowanie strumienia cieczy wprost na powierzchnię czipu.