Casa Lungimiranza Grandi cambiamenti sono finalmente all'orizzonte per i supercomputer

Grandi cambiamenti sono finalmente all'orizzonte per i supercomputer

2024

Video: Una Volta Ha Piovuto Per 2 Milioni di Anni (Novembre 2024)

Guardando indietro alla conferenza sul supercalcolo ISC 17 di questa settimana, sembra che il mondo del supercalcolo vedrà alcuni grandi aggiornamenti nei prossimi due anni, ma l'aggiornamento alla Top 500 biennale dei supercomputer più veloci del mondo non era molto diverso da la versione precedente.

I computer più veloci al mondo continuano ad essere le due enormi macchine cinesi che sono in cima alla lista da alcuni anni: il computer Sunway TaihuLight del China Supercomputing Center cinese a Wuxi, con prestazioni Linpack sostenute di oltre 93 petaflop (93 mila trilioni di virgola mobile operazioni al secondo); e il computer Tianhe-2 del China National Super Computer Center di Guangzhou, con prestazioni sostenute di oltre 33, 8 petaflop. Queste rimangono le macchine più veloci con un margine enorme.

Il nuovo numero tre è il sistema Piz Daint dello Swiss National Supercomputing Center, un sistema Cray che utilizza Intel Xeon e Nvidia Tesla P100s, che è stato recentemente aggiornato per conferire a Linpack prestazioni sostenute di 19, 6 petaflop, il doppio del totale precedente. Ciò lo ha spostato dal numero otto dell'elenco.

Questo porta il sistema statunitense di punta - il sistema Titan presso il Oak Ridge National Laboratory - fino al quarto posto, rendendo questa la prima volta in vent'anni che non esiste un sistema americano tra i primi tre. Il resto dell'elenco rimane invariato, con gli Stati Uniti che rappresentano ancora cinque dei primi 10 in classifica generale e il Giappone per due.

Anche se l'elenco dei computer più veloce non è cambiato molto, ci sono grandi cambiamenti altrove. Nell'elenco Green 500 dei sistemi più efficienti dal punto di vista energetico, nove delle prime dieci sono cambiate. In cima c'è il sistema Tsubame 3.0, un sistema HPE ICE XA modificato presso il Tokyo Institute of Technology basato su un core Xeon E5-2680v4 14, interconnessione Omni-Path e Tesla P100 di Nvidia, che consente 14, 1 gigaflop per watt. Questo è un grande salto dal DGX Saturn V di Nvidia, basato sulla piattaforma DGX-1 dell'azienda e sui chip P100, che era il numero uno nella lista di novembre ma il numero dieci questa volta, a 9, 5 gigaflop / Watt. Il P100 è in nove dei primi dieci sistemi Green500.

Rompere 10 gigaflops / watt è un grosso problema perché significa che un ipotetico sistema exaflop costruito utilizzando la tecnologia di oggi consumerebbe meno di 100 megawatt (MW). È ancora troppo - l'obiettivo è 20-30 MW per un sistema exaflop, che i ricercatori sperano di vedere nei prossimi cinque anni circa - ma è un enorme passo avanti.

Come l'elenco Top 500, ci sono stati solo piccoli cambiamenti in elenchi simili con benchmark diversi, come il benchmark HPCG (High Performance Conjugate Gradients), in cui le macchine tendono a vedere solo l'1-10 percento delle loro prestazioni di picco teoriche e in cui il top sistema - in questo caso, la macchina Riken K - eroga ancora meno di 1 petaflop. Entrambi i sistemi TaihuLight e Piz Daint sono saliti in questa lista. Quando i ricercatori parlano di una macchina exaflop, tendono a significare il benchmark Linpack, ma HPCG può essere più realistico in termini di prestazioni del mondo reale.

L'emergere del GPU computing come acceleratore - quasi sempre usando processori GPU Nvidia come il P100 - è stato il cambiamento più visibile in questi elenchi negli ultimi anni, seguito dall'introduzione dell'acceleratore proprio Intel, il molti-core Xeon Phi (incluso la versione più recente di Knights Landing). L'attuale elenco Top 500 include 91 sistemi che utilizzano acceleratori o coprocessori, inclusi 74 con GPU Nvidia e 17 con Xeon Phi (con altri tre che utilizzano entrambi); uno con una GPU AMD Radeon come acceleratore e due che utilizzano un processore multi-core di PEZY Computing, un fornitore giapponese. Altri 13 sistemi ora utilizzano Xeon Phi (Knights Landing) come unità di elaborazione principale.

Ma molti dei maggiori cambiamenti ai supercomputer sono ancora all'orizzonte, dato che iniziamo a vedere sistemi più grandi progettati pensando a questi concetti. Un esempio è il nuovo MareNostrum 4 del Barcelona Supercomputing Center, che è entrato nella Top 500 al numero 13. Come installato finora, si tratta di un sistema Lenovo basato sulla prossima versione Skylake-SP di Xeon (ufficialmente Xeon Platinum 8160 24 -core processore). Ciò che è interessante qui sono i tre nuovi cluster di "tecnologia emergente" pianificati per i prossimi due anni, incluso un cluster con processori IBM Power 9 e GPU Nvidia, progettato per avere una capacità di elaborazione di picco di oltre 1, 5 Petaflops; un secondo basato sulla versione di Xeon Phi di Knights Hill; e un terzo basato su processori ARMv8 a 64 bit progettati da Fujitsu.

Questi concetti vengono utilizzati in numerosi altri importanti progetti di supercalcolo, in particolare molti sponsorizzati dal Dipartimento dell'Energia degli Stati Uniti nell'ambito della sua collaborazione CORAL a Oak Ridge, Argonne e Lawrence Livermore National Labs. Il primo dovrebbe essere Summit a Oak Ridge, che utilizzerà processori IBM Power 9 e GPU Nvidia Volta, e in programma per fornire da 150 a 300 picchi di picco; seguito da Sierra a Lawrence Livermore, in programma per consegnare oltre 100 picchi di picco.

Dovremmo quindi vedere il supercomputer Aurora presso l'Argonne National Laboratory, basato sulla versione di Xeon Phi di Knights Hill e costruito da Cray, che è previsto per fornire 180 picchi di picco. I sistemi CORAL dovrebbero essere attivi e in esecuzione l'anno prossimo.

Nel frattempo, anche i gruppi cinese e giapponese hanno pianificato gli aggiornamenti, utilizzando principalmente architetture uniche. Dovrebbe essere interessante da guardare.

Uno spostamento ancora più grande sembra essere solo un po 'più lontano: lo spostamento verso l'apprendimento automatico, in genere su unità di elaborazione massicciamente parallele all'interno del processore stesso. Mentre il numero Linpack si riferisce a prestazioni a 64 bit o doppia precisione, esistono alcune classi di applicazioni, tra cui molte applicazioni basate su reti neurali profonde, che funzionano meglio con calcoli a precisione singola o addirittura a metà precisione. Ne approfittano i nuovi processori, come il recente annuncio Volta V100 di Nvidia e l'imminente versione di Xeon Phi di Knights Mill. Alla fiera, Intel ha affermato che la versione, che dovrebbe essere in produzione nel quarto trimestre, avrebbe nuovi set di istruzioni per il "calcolo a bassa precisione" chiamato Quad Fused Multiply Add (QFMA) e Quad Virtual Neural Network Instruction (QVNNI).

Presumo che questi concetti potrebbero essere applicati anche ad altre architetture, come le TPU di Google o le FPGA di Intel e i chip Nervana.

Anche se quest'anno non vedremo grandi cambiamenti, l'anno prossimo dovremmo aspettarci di vedere di più. Il concetto di una macchina exascale (1000 teraflop) è ancora in vista, sebbene probabilmente comporterà una serie di cambiamenti ancora più grandi.