Lek na raka: naukowcom pomoże komputer z największym procesorem świata
Mierzący 46 225 mm² procesor do AI, który firma Cerebras prezentowała na Hot Chips 31 okazuje się czymś więcej niż tylko prężeniem muskułów. Poznajcie CS-1, komputer wykorzystujący to cacko, z którego korzystać będzie Argonne National Laboratory. Plany ma ambitne.
21.11.2019 06:00
Przypomnę, zastosowany procesor składa się z 1,2 bln tranzystorów i oferuje 400 tys. jednostek obliczeniowych dla 8-bitowych liczb całkowitych. Ponadto ma 18 GB wbudowanej pamięci SRAM o przepustowości 9 PB/s, a do stabilnej pracy wymaga 15 kW energii. Wraz z tym monstrum producent dostarcza implementację frameworka TensorFlow, zwracając uwagę na niezwykle wysoki stopień integracji mocy obliczeniowej.
Sam komputer, jak podaje producent, ma wymiary porównywalne do 15 urządzeń rack U1 ułożonych jedno na drugim. To oznacza niespełna 67 cm wysokości. W realiach domowych wyglądałby niczym prawdziwy kolos, ale patrząc na rozwiązania dzisiejszych centrów danych, jest dosłownie kruszynką. W teorii podobne możliwości przetwarzania równoległego daje klaster ok. 1 tys. kart graficznych, do czego potrzeba też 15, ale całych szaf rackowych.
Nie taki wielki, nie taki prądożerny
Jak przystało na tak potężne urządzenie, zużycie energii jest spore. Ponownie jednak wypada świetnie na tle rozwiązań konkurencyjnych. Wspominałem już, że 15 kW pochłania procesor. Kolejne 4 kW idą na zastosowany układ chłodzenia cieczą, w tym baterię potężnych pomp, a 1 kW ucieka w formie strat. Ale na przykład klaster Google TPU v3 wymaga 100 kW, oferując przy tym raptem trzecią część wydajności Cerebrasa CS-1.
Ciekawie rozwiązano kwestię gospodarki energetycznej. Na tyle komputera znajduje się aż 12 gniazd zasilających w serwerowym standardzie 54 V. Każdemu z nich towarzyszy przetwornica prądu stałego (DC-DC), która obniża napięcie do wymaganego przez czip poziomu 0,8 V. Napięcia płyną do procesora przez niezależne ścieżki na płycie głównej, która z kolei odpowiada jeszcze za ich równomierną dystrybucję. Wiadomo, że długość obwodu warunkuje spadek napięcia na jego końcu, więc pod względem energetycznym układ podzielono na mniejsze sekcje.
Trzeba to jeszcze jakoś schłodzić
Jasne, 1 kW strat to niesamowicie duża ilość ciepła do odprowadzenia. Cerebras ma tę świadomość. Efektem jest zastosowanie chłodzenia cieczą. Równie nietypowego, co cała reszta komputera CS-1. Układy sterujące, płyta główna, procesor i blok wodny są ułożone w kanapkę, tworząc element określany przez producenta mianem bloku silnika. Sam blok wodny, podobnie jak podsystem zasilania, jest podzielony na kilkanaście niezależnych stref.
Z kolektora po przeciwległej stronie obudowy, przez system pomp, zasysany jest płyn chłodniczy. Trafia do poszczególnych komór bloku wodnego, a następnie do chłodnicy umieszczonej w dolnej części obudowy i owiewanej przez zespół wysokoobrotowych wentylatorów osiowych.
Według ujawnionych danych technicznych, dzięki tym zabiegom gigantyczny procesor komputera może pracować z temperaturą o 50 proc. niższą niż w przypadku statystycznej karty graficznej, co – zdaniem producenta – gwarantuje zauważalnie podwyższoną żywotność. Mimo wszystko, najwidoczniej dmuchając na zimne, Cerebras zdecydował się na w pełni modułową konstrukcję. Ponoć każdy element układanki można w parę chwil wymienić.
Komputer do walki z rakiem
Co ciekawe, Cerebras CS-1, pomimo niezaprzeczalnie wysokiej wydajności, nie jest sprzętem samodzielnym. Korzysta z 12 kontrolerów w standardzie 100 GbE (100 Gigabit Ethernet), aby odbierać dane przesyłane przez zwykły superkomputer i służy wyłącznie do akceleracji obliczeń AI. Stanowi więc niejako formę akceleratora zewnętrznego. Trochę tak, jakby podłączyć do notebooka grafikę poprzez TB 3, ale oczywiście tu dzieje się to na znacznie większą skalę.
A teraz najciekawsze: Argonne National Laboratory, pierwszy nabywca CS-1, chce wykorzystać ten sprzęt do przewidywania reakcji organizmów na nowej generacji leki antynowotworowe. Badacze podają, że wraz z dostarczeniem urządzenia liczą na co najmniej 100-krotny wzrost szybkości przy budowie sieci neuronowych i uczeniu głębokim, w odniesieniu do starszych rozwiązań.