Casa Lungimiranza Le architetture alternative governeranno il supercalcolo?

Le architetture alternative governeranno il supercalcolo?

2024

Video: Architettura fascista | SUPPOSTE DI ARCHITETTURA ep.16 (Novembre 2024)

Negli ultimi anni abbiamo assistito ad alcuni nuovi approcci interessanti al calcolo ad alte prestazioni, in particolare uno spostamento dai grandi processori tradizionali e verso cluster di CPU x86 con acceleratori o coprocessori per accelerare particolari tipi di calcoli. Uscendo dallo show di Supercomputing della scorsa settimana, abbiamo visto Intel spingere per integrare il suo coprocessore Xeon Phi con il suo tradizionale processore server Xeon per semplificare la programmazione; Nvidia introduce una nuova versione del suo acceleratore GPU Tesla; e Micron supporta un tipo di processore molto diverso per un calcolo ancora più specializzato. E tutto ciò stava accadendo in un momento in cui acceleratori e coprocessori stanno arrivando a dominare la Top 500 dei computer più veloci del mondo, portando alcuni esperti a suggerire che i parametri di riferimento esistenti danno troppo peso a questi processori.

Nvidia stava pubblicizzando i suoi successi con le sue schede di accelerazione Tesla, grandi cluster di GPU collegate ai processori principali da Intel o AMD. Tali chip sono utilizzati in un'ampia varietà di sistemi, tra cui il sistema Titan presso il Oak Ridge National Laboratory e il nuovo sistema Piz Daint presso il Centro nazionale svizzero di calcolo del supercomputer. Ancora più interessante, la società afferma che le schede Tesla si trovano in tutti i primi 10 sistemi dell'ultima lista Green 500 dei supercomputer più efficienti al mondo. Tutti questi sistemi usano anche Intel Xeons ad eccezione del Titan basato su AMD Opteron, che è il secondo sistema più veloce al mondo nella Top 500 ma si posiziona molto più in basso nella lista Green 500.

Inoltre, Nvidia ha annunciato una partnership con IBM per offrire i suoi acceleratori Tesla in sistemi basati sull'architettura IBM Power. IBM ha da tempo propagandato le sue prestazioni seriali e il suo sistema BlueGene / Q basato su processori Power gestisce il sistema Sequoia presso il Lawrence Livermore National Laboratory e il sistema Mira presso Argonne National Laboratory, tra gli altri. Avere IBM e Nvidia che lavorano insieme dovrebbe portare ad alcuni sistemi interessanti in futuro.

Alla fiera, la società ha annunciato la sua Tesla K40, la prossima generazione della sua scheda acceleratrice GPU. La società ha dichiarato che offrirà 1, 4 teraflop di prestazioni a doppia precisione, 12 GB di memoria (larghezza di banda di 288 GBps) e una funzione GPU Boost, che consente di eseguire una velocità di clock più elevata in alcune situazioni. Questo è un aggiornamento dall'esistente serie Tesla K20, usando lo stesso design GPU di base prodotto con tecnologia a 28 nm.

Altre iniziative includono modi per semplificare la programmazione della GPU, tra cui CUDA 6, che ora supporta la memoria unificata, consentendo agli sviluppatori di avvicinarsi alla memoria come un singolo pool, anche se la memoria di CPU e GPU rimane separata. La società supporta anche OpenACC, una raccolta standard di direttive del compilatore che indica al sistema quali parti del programma (scritte in C / C ++ e Fortran) possono essere scaricate dalla CPU su un acceleratore per migliorare le prestazioni.

L'approccio di Intel, che chiama la sua architettura Many Integrated Core (MIC), è molto diverso. Combina più piccoli core x86 in un singolo chip chiamato Xeon Phi. Negli ultimi anni, Intel ha pubblicizzato il fatto che tutti gli x86 lo rendono più facile da programmare, anche se è chiaro che gli sviluppatori devono ancora indirizzare direttamente l'architettura. L'attuale versione di Xeon Phi, chiamata Knights Corner, è progettata per essere utilizzata come acceleratore insieme ai più tradizionali chip server Xeon E ed è utilizzata da una varietà di sistemi di punta, tra cui il cinese Tianhe-2 (attualmente il sistema più veloce nel mondo) e il sistema Stampede presso il Advanced Computing Center dell'Università del Texas.

Allo show, Intel ha annunciato una nuova versione con nome in codice Knights Landing, che funzionerà anche come CPU standalone che può adattarsi a un'architettura rack standard ed eseguire direttamente il sistema operativo, senza richiedere una CPU host (come Xeon E). Questo potrebbe essere abbastanza importante per ampliare il fascino di Xeon Phi, in particolare nel mercato delle workstation. Ancora una volta, questo è progettato per rendere più semplice per gli sviluppatori software vederlo come una singola CPU. Knights Landing sarà disponibile sia come CPU standalone che come scheda PCI Express che si adatta ai sistemi esistenti come aggiornamento da Knights Corner.

Ci sono altre modifiche significative anche a Knights Landing, tra cui l'aggiunta di "memoria quasi", in modo efficace DRAM che viene offerto sul pacchetto con la CPU e quindi può offrire una larghezza di banda molto più elevata rispetto alla memoria DDR tradizionale, che è limitata dalla velocità di il bus. (Anche quello sta diventando più veloce, ma non altrettanto.) Questa non è la prima mossa in questa direzione; IBM ha propagandato la DRAM integrata nella sua architettura Power per anni e Intel stessa sta inserendo la DRAM incorporata per la grafica nelle versioni Iris Pro della sua famiglia Haswell Core. Tuttavia, suppongo che vedremo molti più sforzi in questa direzione negli anni a venire.

Nel frattempo, uno dei nuovi approcci più interessanti viene da Micron, che ha annunciato un nuovo acceleratore chiamato un processore Automata progettato principalmente per affrontare complessi problemi di dati non strutturati.

Micron ha descritto questo come offrire un tessuto composto da decine di migliaia o milioni di elementi di elaborazione collegati per risolvere compiti specifici. La società, uno dei maggiori produttori di memoria DRAM e NAND, afferma che questo utilizzerà l'elaborazione basata sulla memoria per risolvere complesse sfide informatiche in settori quali sicurezza della rete, bioinformatica, elaborazione delle immagini e analisi. Micron inizialmente distribuirà il processore Automata su una scheda PCI-Express per far lavorare gli sviluppatori con esso, ma la società prevede di vendere i processori su moduli di memoria standard, noti come DIMM o come singoli chip per sistemi embedded. In un certo senso, questo sembra simile agli array di gate programmabili sul campo (FPGA), che sono sintonizzati per risolvere particolari applicazioni che coinvolgono il pattern-matching.

La società ha dichiarato di collaborare con Georgia Tech, l'Università del Missouri e l'Università della Virginia per sviluppare nuove applicazioni per Automata. Sebbene la società non abbia annunciato una data per i prodotti finali, un kit di sviluppo software è previsto per il prossimo anno, insieme a strumenti di simulazione.

Gli automi sembrano lavori in corso ed è probabilmente troppo presto per sapere quanto siano ampie le applicazioni, ma è un approccio interessante.

Nel complesso, stiamo assistendo all'evoluzione dell'informatica ad alte prestazioni. Non molti anni fa, i computer più veloci erano per lo più solo un numero enorme di processori server standard. In effetti, i sistemi IBM Blue Gene e quelli basati su Sparc (come il computer K del RIKEN Advanced Institute for Computational Science in Giappone, che utilizza i processori Fujitsu Sparc) rappresentano ancora gran parte del mercato, tra cui cinque dei 10 più veloci sistemi nel mondo. Ma negli ultimi anni, lo slancio si è spostato verso il coprocessore, con i sistemi che utilizzano Tesla e più recentemente gli acceleratori Xeon Phi che compongono un numero maggiore di sistemi più recenti. Con miglioramenti in tali sistemi, nuove partnership, software migliore e alcuni nuovi approcci, il mercato del supercalcolo potrebbe essere molto diverso in futuro.