Pascal wpierw dla superkomputerów: 15 mld tranzystorów w nowym procesorze Nvidii

Współzałożyciel i CEO Nvidii, Jen-Hsun Huang ogłosił, że jego firma stworzyła nowy układ – Pascal GP100, pierwszy oparty na architekturze Pascal. Składa się on z 15,3 mld tranzystorów. GP100 to także pierwszy, duży wzrost wydajności w układach z rodziny Tesla od pojawienia się w 2012 roku karty wykorzystującej architekturę Kepler.

Pascal wpierw dla superkomputerów: 15 mld tranzystorów w nowym procesorze Nvidii

06.04.2016 13:38

Tesla P100 to pierwsza karta z układem Pascal GP100, zajmującym całkiem sporą powierzchnię – 610 mm2. Przy jej produkcji został wykorzystany proces technologiczny 16 nm FinFET TSMC. Znajdziemy tu 56 jednostek SM (Streaming Multiprocessors) – 64 rdzenie CUDA FP32 na każde SM, co daje łącznie 3548 rdzeni CUDA.

Obraz

Dodatkowo każda z jednostek SM zawiera 32 rdzeni CUDA FP64, łącznie otrzymujemy 1792 rdzenie CUDA FP64. Tesla P100 zapewnia moc obliczeniową na poziomie 10,6 TFLOPS dla obliczeń pojedynczej precyzji oraz 5,3 TFLOPS dla podwójnej. To zauważalny wzrost wydajności obliczeń podwójnej precyzji względem kart wykonanych w architekturze Maxwell. Większą wydajność odczujemy głównie w profesjonalnych zastosowaniach. NVIDIA mówi przede wszystkim o sztucznych sieciach neuronowych i technikach głębokiego uczenia się, dziedzinach w których niewątpliwie jest liderem.

Na karcie otrzymujemy aż 16 GB pamięci HBM2 VRAM o przepustowości 720 GB/s. Karta posiada osiem 512-bitowych kontrolerów pamięci, co daje 4096-bitową magistralę. NVIDIA poinformowała o zastosowaniu czterech kontrolerów NVLink, które wykorzystywane są do komunikacji ze wspieranymi układami graficznymi. NVLink charakteryzuje się energooszczędnością, a także zapewnia odczuwalnie szybszą wymianę danych niż złącze PCI Express 3.0. TDP karty wzrosło w stosunku do poprzedników i wynosi 300 W.

Nowy układ będzie wykorzystywany przede wszystkim w profesjonalnych, wymagających sporej mocy obliczeniowej zastosowaniach. To właśnie osiem takich kart Tesla P100 trafi do superkomputera DGX-1, który zapewni 170 TFLOPS dla obliczeń FP16, całkowicie wystarczających w maszynowym uczeniu.

Programy

Zobacz więcej
Źródło artykułu:www.dobreprogramy.pl
Wybrane dla Ciebie
Komentarze (17)