Casa Lungimiranza Perché l'apprendimento automatico è il futuro

Perché l'apprendimento automatico è il futuro

Sommario:

Video: L'italiano ( l asciatemi cantare ) Toto Cotugno - lyrics (Novembre 2024)

Video: L'italiano ( l asciatemi cantare ) Toto Cotugno - lyrics (Novembre 2024)
Anonim

Alla conferenza di supercomputer SC16 di questo mese, sono emerse due tendenze. Il primo è l'apparizione dell'ultimo Xeon Phi (Knights Landing) di Intel e dell'ultimo Tesla di Nvidia (il P100 basato su Pascal) nella lista Top500 dei computer più veloci al mondo; entrambi i sistemi sono arrivati ​​nella top 20. Il secondo è una grande enfasi su come i produttori di chip e sistemi stanno prendendo i concetti dai moderni sistemi di machine learning e li applicano ai supercomputer.

Nell'attuale revisione dell'elenco Top500, che viene aggiornato due volte l'anno, la parte superiore della classifica è ancora saldamente nelle mani del computer Sunway TaihuLight del centro nazionale cinese di supercomputer di Wuxi e del computer Tianhe-2 del super computer nazionale cinese Centro a Guangzhou, com'è stato dallo spettacolo ISC16 di giugno. Nessun altro computer è vicino nelle prestazioni totali, con i sistemi di terzo e quarto posto - ancora il supercomputer Titan a Oak Ridge e il sistema Sequoia a Lawrence Livermore - entrambi offrono circa la metà delle prestazioni di Tianhe-2.

Il primo di questi si basa su un processore cinese unico, il SW26010 a 1, 45 GHz, che utilizza un core RISC a 64 bit. Questo ha un impareggiabile 10.649.600 core che forniscono 125, 4 petaflop di throughput di picco teorico e 93 petaflop di massime prestazioni misurate sul benchmark Linpack, usando 15, 4 Megawatt di potenza. Va notato che mentre questa macchina supera le classifiche delle prestazioni di Linpack con un margine enorme, non va altrettanto bene in altri test. Esistono altri parametri di riferimento come il benchmark HPCG (High Performance Conjugate Gradients), in cui le macchine tendono a vedere solo dall'1 al 10 percento delle loro prestazioni di picco teoriche e in cui il sistema principale, in questo caso, la macchina Riken K, offre ancora meno di 1 petaflop.

Ma i test Linpack sono lo standard per parlare del calcolo ad alte prestazioni (HPC) e di ciò che viene utilizzato per creare l'elenco Top500. Usando i test Linpack, la macchina n. 2, Tianhe-2, era la numero 1 nella classifica degli ultimi anni e utilizza Xeon E5 e gli acceleratori Xeon Phi (Knights Corner) precedenti. Ciò offre 54, 9 petaflop di prestazioni teoriche di picco e benchmark a 33, 8 petaflop in Linpack. Molti osservatori ritengono che il divieto di esportazione delle nuove versioni di Xeon Phi (Knights Landing) abbia portato i cinesi a creare il proprio processore di supercomputer.

Knights Landing, formalmente Xeon Phi 7250, ha giocato un ruolo importante nei nuovi sistemi della lista, a partire dal supercomputer Cori del Lawrence Berkeley National Laboratory che si è classificato al quinto posto, con una prestazione di picco di 27, 8 petaflop e una prestazione misurata di 14 petaflop. Questo è un sistema Cray XC40, che utilizza l'interconnessione Aries. Nota che Knights Landing può fungere da processore principale, con 68 core per processore che forniscono 3 teraflop di picco. (Intel elenca un'altra versione del chip con 72 core a 3, 46 teraflop di picco di prestazioni teoriche a doppia precisione sul suo listino prezzi, ma nessuna delle macchine in elenco utilizza questa versione, forse perché è più costosa e consuma più energia.)

I precedenti Xeon Phis potevano funzionare solo come acceleratori in sistemi controllati dai tradizionali processori Xeon. Al sesto posto c'era il sistema Oakforest-PACS del Joint Center for Advanced High Performance Computer del Giappone, con 24, 9 picchi di picco. Questo è realizzato da Fujitsu, utilizzando Knights Landing e l'interconnessione Omni-Path di Intel. Knights Landing è utilizzato anche nel sistema n. 12 (Il computer Marconi presso il CINECA in Italia, costruito da Lenovo e usando Omni-Path) e nel sistema n. 33 (il Camphor 2 presso l'Università giapponese di Kyoto, costruito da Cray e usando l'Ariete Interconnect).

Anche Nvidia era ben rappresentata nella nuova lista. Il sistema n. 8, Piz Daint presso lo Swiss National Supercomputing Center, è stato aggiornato a un Cray XC50 con Xeons e Nvidia Tesla P100 e ora offre poco meno di 16 petaflop di prestazioni di picco teoriche e 9, 8 petaflop di prestazioni Linpack: un grande aggiornamento da 7, 8 petaflop di prestazioni di picco e 6, 3 petaflop di prestazioni di Linpack nella sua precedente iterazione basata sul Cray XC30 con acceleratori Nvidia K20x.

L'altro sistema basato su P100 nell'elenco era il DGX Saturn V di Nvidia, basato sui sistemi DGX-1 propri dell'azienda e un'interconnessione Infiniband, che arrivava al numero 28 dell'elenco. Si noti che Nvidia ora vende sia i processori che l'appliance DGX-1, che include software e otto Tesla P100. Il sistema DGX Saturn V, che Nvidia utilizza per la ricerca AI interna, ottiene quasi 4, 9 petaflop di picco e 3, 3 petaflop di Linpack. Ma Nvidia sottolinea che utilizza solo 350 kilowatt di potenza, rendendolo molto più efficiente dal punto di vista energetico. Di conseguenza, questo sistema è in cima alla lista Green500 dei sistemi più efficienti dal punto di vista energetico. Nvidia sottolinea che si tratta di una quantità considerevolmente inferiore di energia rispetto al sistema Camphor 2 basato su Xeon Phi, che ha prestazioni simili (quasi 5, 5 petaflop picco e 3, 1 Linpack petaflop).

È un confronto interessante, con Nvidia che promuove una migliore efficienza energetica su GPU e Intel che promuove un modello di programmazione più familiare. Sono sicuro che vedremo più concorrenza negli anni a venire, poiché le diverse architetture competono per vedere chi di loro sarà il primo a raggiungere il "calcolo exascale" o se invece l'approccio cinese cresciuto in casa ci arriverà. Attualmente, il progetto informatico Exascale del Dipartimento dell'Energia degli Stati Uniti prevede che le prime macchine exascale verranno installate nel 2022 e diventeranno operative l'anno successivo.

Trovo interessante notare che nonostante l'enfasi su acceleratori a molti core come le soluzioni Nvidia Tesla e Intel Xeon Phi, solo 96 sistemi usano tali acceleratori (compresi quelli che usano solo Xeon Phi); al contrario di 104 sistemi un anno fa. Intel continua a essere il più grande fornitore di chip, con i suoi chip in 462 dei primi 500 sistemi, seguito dai processori IBM Power nel 22. Hewlett-Packard Enterprise ha creato 140 sistemi (inclusi quelli costruiti da Silicon Graphics, acquisiti da HPE), Lenovo ha realizzato 92 e Cray 56.

Concorso di apprendimento automatico

Ci sono stati un certo numero di annunci durante o intorno allo spettacolo, molti dei quali si sono occupati di qualche forma di intelligenza artificiale o apprendimento automatico. Nvidia ha annunciato una partnership con IBM su un nuovo toolkit software di deep learning chiamato IBM PowerAI che gestisce server IBM Power utilizzando l'interconnessione NVLink di Nvidia.

AMD, che è stato ripensato in entrambi gli ambienti HPC e di apprendimento automatico, sta lavorando per cambiarlo. In quest'area, la società si è concentrata sulle proprie GPU Radeon, ha spinto le sue GPU server FirePro S9300 x2 e ha annunciato una partnership con Google Cloud Platform per consentirne l'utilizzo sul cloud. Ma AMD non ha investito tanto in software per la programmazione di GPU, poiché ha sottolineato OpenCL sull'approccio più proprietario di Nvidia. Allo show, AMD ha introdotto una nuova versione della sua Radeon Open Compute Platform (ROCm) e ha pubblicizzato piani per supportare le sue GPU in scenari di elaborazione eterogenei con più CPU, tra cui le prossime CPU "Zen" x86, architetture ARM che iniziano con Cavium ThunderX e CPU IBM Power 8.

Allo show, Intel ha parlato di una nuova versione del suo attuale chip Xeon E5v4 (Broadwell) ottimizzato per i carichi di lavoro in virgola mobile e di come la prossima versione basata sulla piattaforma Skylake uscirà il prossimo anno. Ma in un evento successivo quella settimana, Intel ha fatto una serie di annunci progettati per posizionare i suoi chip nell'intelligenza artificiale o nello spazio di apprendimento automatico. (Ecco la tesi di ExtremeTech.) Gran parte di questo ha implicazioni per il calcolo ad alte prestazioni, ma è per lo più separato. Per cominciare, oltre ai processori Xeon standard, l'azienda sta anche promuovendo FPGA per fare gran parte dell'inferenza nelle reti neurali. Questo è uno dei motivi principali per cui la società ha recentemente acquistato Altera e tali FPGA sono ora utilizzati da aziende come Microsoft.

Ma il focus sull'intelligenza artificiale della scorsa settimana ha riguardato alcuni chip più recenti. In primo luogo, c'è Xeon Phi, dove Intel ha indicato che l'attuale versione di Landing Knights sarà integrata il prossimo anno con una nuova versione chiamata Knights Mill, destinata al mercato del "deep learning". Annunciata all'IDF, questa è un'altra versione da 14 nm ma con supporto per i calcoli di mezza precisione, che vengono spesso utilizzati per l'addestramento delle reti neurali. In effetti, uno dei grandi vantaggi degli attuali chip Nvidia nel deep learning è il loro supporto per i calcoli di mezza precisione e le operazioni di numero intero a 8 bit, che Nvidia spesso definisce "tera-op" di deep learning. Intel ha affermato che Knights Mill offrirà prestazioni fino a quattro volte superiori a Knights Landing per l'apprendimento approfondito. (Questo chip è ancora previsto per essere seguito in seguito da una versione da 10 nm chiamata Knights Hill, probabilmente destinata più al tradizionale mercato informatico ad alte prestazioni.)

Il più interessante per il prossimo anno è un progetto di Nervana, che Intel ha recentemente acquisito, che utilizza una serie di cluster di elaborazione progettati per eseguire semplici operazioni matematiche connesse alla memoria a larghezza di banda elevata (HBM). Il primo di questa famiglia sarà Lake Crest, che è stato progettato prima che Intel acquistasse la società e producesse con un processo TSMC a 28 nm. In uscita nelle versioni di prova nella prima metà del prossimo anno, Intel afferma che fornirà prestazioni di calcolo più elaborate rispetto a una GPU. Questo alla fine sarà seguito da Knights Crest, che implementa in qualche modo la tecnologia di Nervana insieme a Xeon, con dettagli ancora senza preavviso.

"Prevediamo che le tecnologie di Nervana produrranno un aumento rivoluzionario di 100 volte delle prestazioni nei prossimi tre anni per formare complesse reti neurali, consentendo ai data scientist di risolvere più rapidamente le loro maggiori sfide di intelligenza artificiale", ha scritto Brian Krzanich, CEO di Intel.

Intel ha anche recentemente annunciato piani per l'acquisizione di Movidius, che rende i chip basati su DSP particolarmente adatti per inferire la visione artificiale, ancora una volta, prendendo decisioni basate su modelli precedentemente addestrati.

È una storia complicata ed in evoluzione, certamente non così semplice come la spinta di Nvidia per le sue GPU ovunque. Ma ciò che chiarisce è la velocità con cui il machine learning sta decollando e i molti modi in cui le aziende stanno pianificando di affrontare il problema, da GPU come quelle di Nvidia e AMD, a molti processori core x86 come Xeon Phi, agli FPGA, a prodotti specializzati per la formazione come Nervana e IBM TrueNorth, a motori di inferenza personalizzati simili a DSP come le unità di elaborazione tensore di Google. Sarà molto interessante vedere se il mercato ha spazio per tutti questi approcci.

Perché l'apprendimento automatico è il futuro