Casa Lungimiranza Google cloud fa parte di una tendenza verso processori specifici per i

Google cloud fa parte di una tendenza verso processori specifici per i

2024

Video: Cloud TPU Pods: AI Supercomputing for Large Machine Learning Problems (Google I/O'19) (Novembre 2024)

Nelle ultime settimane, ci sono state una serie di importanti presentazioni di nuove piattaforme informatiche progettate appositamente per lavorare su reti neurali profonde per l'apprendimento automatico, tra cui i nuovi "cloud TPU" di Google e il nuovo design Volta di Nvidia.

Per me, questa è la tendenza più interessante nell'architettura dei computer, anche più di AMD e ora Intel che introduce CPU a 16 e 18 core. Naturalmente, ci sono altri approcci alternativi, ma Nvidia e Google stanno meritatamente meritando molta attenzione per i loro approcci unici.

A Google I / O, ho visto che introduceva un "TPU cloud" (per l'unità di elaborazione tensore, indicando che è ottimizzato per il framework di apprendimento automatico TensorFlow di Google). Il TPU di generazione precedente, presentato alla fiera dello scorso anno, è un ASIC progettato principalmente per inferenziare - eseguendo operazioni di machine learning - ma la nuova versione è progettata per inferire e formare tali algoritmi.

In un recente articolo, Google ha fornito ulteriori dettagli sul TPU originale, che ha descritto come contenente una matrice di unità MAC (256-per-256 a accumulo multiplo) (65.536 in totale) con una prestazione di picco di 92 teraops (trilioni di operazioni per secondo). Ottiene le sue istruzioni da una CPU host sul bus PCIe Gen 3. Google ha affermato che si trattava di un die da 28 nm che era meno della metà delle dimensioni di un processore Intel Haswell Xeon da 22 nm e che ha superato quello di quel processore e del processore K80 da 28 nm di Nvidia.

La nuova versione, soprannominata TPU 2.0 o cloud TPU, (vista sopra), in realtà contiene quattro processori sulla scheda e Google ha affermato che ogni scheda è in grado di raggiungere 180 teraflop (180 trilioni di operazioni in virgola mobile al secondo). Altrettanto importante, le schede sono progettate per funzionare insieme, utilizzando una rete ad alta velocità personalizzata, quindi agiscono come un singolo computer che apprende il supercalcolo che Google chiama un "pod TPU".

Questo pod in TPU contiene 64 TPU di seconda generazione e fornisce fino a 11, 5 petaflop per accelerare l'addestramento di un singolo modello di apprendimento automatico di grandi dimensioni. Alla conferenza, Fei Fei Li, a capo della ricerca sull'intelligenza artificiale di Google, ha affermato che, mentre uno dei modelli di apprendimento su larga scala dell'azienda per la traduzione richiede un'intera giornata per allenarsi su 32 delle migliori GPU disponibili in commercio, ora può allenarsi per stessa precisione in un pomeriggio usando un ottavo di un pod in TPU. È un grande salto.

Comprendi che questi non sono piccoli sistemi: un Pod sembra avere le dimensioni di quattro normali rack di elaborazione.

E ciascuno dei singoli processori sembra avere dissipatori di calore molto grandi, il che significa che le schede non possono essere impilate troppo strettamente. Google non ha ancora fornito molti dettagli su ciò che è cambiato in questa versione dei processori o dell'interconnessione, ma è probabile che anche questo sia basato su MAC a 8 bit.

La settimana precedente, Nvidia ha introdotto la sua ultima entrata in questa categoria, un enorme chip noto come Telsa V100 Volta, che ha descritto come la prima CPU con questa nuova architettura Volta, progettata per GPU di fascia alta.

Nvidia ha affermato che il nuovo chip è in grado di 120 teraflop TensorFlow (o 15 TFLOPS a 32 bit o 7, 5 a 64 bit). Questa utilizza una nuova architettura che include 80 SMP (Streaming Multiprocessors), ognuno dei quali include otto nuovi "Tensor Core" ed è un array 4x4x4 in grado di eseguire 64 operazioni FMA (Fused Multiply-Add) per clock. Nvidia ha dichiarato che offrirà il chip nelle sue workstation DGX-1V con 8 schede V100 nel terzo trimestre, seguendo la precedente DGX-1 dell'azienda che utilizzava la precedente architettura P100.

La società ha dichiarato che questa scatola da $ 149.000 dovrebbe fornire 960 teraflop di prestazioni di allenamento, utilizzando 3200 watt. Più tardi, il primo ha detto, avrebbe spedito una stazione DGX personale con quattro V100 e, nel quarto trimestre, ha affermato che i grandi fornitori di server spediranno i server V100.

Questo chip è il primo annunciato ad utilizzare il processore 12nm di TSMC e sarà un enorme chip con 21, 1 miliardi di transistor su una matrice da 815 millimetri quadrati. Nvidia ha citato sia Microsoft che Amazon come primi clienti del chip.

Nota che ci sono grandi differenze tra questi approcci. Le TPU di Google sono davvero chip personalizzati, progettati per applicazioni TensorFlow, mentre Nvidia V100 è un chip un po 'più generale, capace di diversi tipi di matematica per altre applicazioni.

Nel frattempo, gli altri grandi fornitori di cloud stanno cercando alternative, con Microsoft che utilizza entrambe le GPU per la formazione e array di gate programmabili sul campo (FPGA) per inferire, e offre entrambi ai clienti. Amazon Web Services ora rende disponibili agli sviluppatori sia istanze GPU che FPGA. E Intel ha spinto FPGA e una miriade di altre tecniche. Nel frattempo, una serie di nuove start-up stanno lavorando su approcci alternativi.

In un certo senso, questo è il cambiamento più drastico che abbiamo visto nei processori di workstation e server negli anni, almeno da quando gli sviluppatori hanno iniziato a utilizzare "GPU compute" diversi anni fa. Sarà affascinante vedere come si sviluppa.