180 TFLOPS na jednej karcie napędzi google'ową chmurę AI
Pierwsza generacja czipówTPU (Tensor Processing Unit) przyniosła przełom w wykorzystaniusztucznej inteligencji w usługach Google’a. Układ zaprojektowanyod podstaw z myślą o wykorzystaniu w maszynowym uczeniu pozwoliłuruchomić niskim kosztem rozpoznawanie mowy i obrazu w chmurze –usługi, których realizacja na zwykłych GPU wymagałaby podwojenialiczby centrów danych na świecie. A co można osiągnąć zzaprezentowanym podczas tegorocznej konferencji I/O czipem TPUdrugiej generacji?
Architektura pierwszej generacji TPU tak bardzo odbiegała od CPUczy GPU, że trudno je było porównywać ze sobą pod względem mocyobliczeniowej. Można na pewno powiedzieć, że w obciążeniachroboczych związanych z maszynowym uczeniem były one o rzędywielkości efektywniejsze od niespecjalizowanych układów. Wporównaniu do akceleratora graficznego NVIDIA Tesla K80, miały byćone szybsze nawet 25-29 razy.
Co szczególnie istotne, wygląda na to, że Google nie będziejuż w ogóle potrzebowało GPU do swoich sztucznych inteligencji.TPU pierwszej generacji były wykorzystywane jedynie w drugim etapiemaszynowego uczenia, wnioskowania na bazie posiadanych modeli.Wstępne szkolenie i budowanie modeli wciąż odbywało się na GPU.To stare TPU w ogóle nie wykorzystywało obliczeńzmiennoprzecinkowych (jak to jest w wypadku GPU, gdzie stosuje siętryb połowicznej precyzji FP16), korzystając z 8-bitowychprzybliżeń stałoprzecinkowych.
Teraz te same czipy mogą być wykorzystywane zarówno w szkoleniujak i wnioskowaniu, a Google najwyraźniej znalazło sposób nawprowadzenie do TPU operacji zmiennoprzecinkowych. Jeden moduł TPUdrugiej generacji w tych zastosowaniach ma oferować moc rzędu 180TFLOPS. Taki moduł to cztery pracujące równolegle czipy, z którychkażdy osiąga 45 TFLOPS – przy zużyciu energii nieprzekraczającym 60 W na czip. Weźmy dla porównania akceleratorgraficzny NVIDIATesla P100: szczytowa wydajność w trybie obliczeń połowicznejprecyzji (FP16), to ponad 21 TFLOPS (wynik nieosiągalny dlakonsumenckich kart, których wydajność jest tu sztucznieograniczana).
Skalowalność google’owej architektury teoretycznie nie maograniczeń. Szybkie pasmo interconnect pozwala zestawić 64 modułyTPU w coś, co nazywają „podem” – taki zestaw oferuje mocobliczeniową 11,5 PFLOPS. I co najważniejsze, dostęp do tej„inteligentnej” mocy obliczeniowej nie będzie ograniczony tylkodo usług Google’a. Już w tym roku użytkownicy chmury GoogleCloud Platform będą mogli skorzystać z akcelerowanych przez TPUusług maszynowego uczenia w swoichaplikacjach.
Ceny podobno mają być bardzo konkurencyjne, a sugerowanezastosowania obejmą analizę zawartości wideo w czasierzeczywistym, tłumaczenia i analizę tekstu i rozpoznawanie mowy.
Konkurencja oczywiście nie śpi. NVIDIA ogłosiła w tymmiesiącu, że jej nowy akcelerator V100 na bazie architektury Voltajest w stanie zaoferować w obciążeniach roboczych związanych zgłębokim uczeniem około 120 TFLOPS. Co szczególnie istotne, wprzeciwieństwie do Google’a taki akcelerator każdy może sobiekupić – a nie tylko wynająć na chwilę, jak w wypadku sprzętuGoogle’a, który nigdy nie trafi na rynek.