Video: Hot Chip - I Feel Better (Official Video) (HD) (Novembre 2024)
L'argomento più importante dell'informatica in questi giorni è l'apprendimento automatico, e questo è sicuramente visibile dal lato hardware. Nelle ultime settimane, abbiamo sentito parlare molto dei nuovi chip progettati per l'apprendimento profondo, da Tesla P100 e Drive PX 2 di Nvidia alle unità di elaborazione tensor di Google a Xeon Phi di Intel. Quindi, non è sorprendente che alla conferenza Hot Chips della scorsa settimana abbiamo ascoltato diverse aziende con approcci molto diversi alla progettazione su misura per l'apprendimento automatico e l'elaborazione della visione.
Forse la più grande novità è stata la divulgazione di Nvidia di maggiori dettagli sul suo chip Parker, utilizzato nel suo modulo Drive PX 2 per auto a guida autonoma e finalizzato all'apprendimento profondo per macchine autonome. Questo chip utilizza due core CPU Denver compatibili ARM personalizzati, quattro core ARM Cortex-A57 e 256 di quelli che Nvidia definisce core Pascal CUDA (grafici).
Nvidia ha affermato che si trattava del suo primo chip progettato e valutato per l'uso automobilistico, con speciali caratteristiche di resilienza, e ha espresso la sua velocità e memoria più elevate, rilevando che il core di Denver offre un significativo miglioramento delle prestazioni per watt. Tra le nuove funzionalità vi è la virtualizzazione assistita da hardware, con un massimo di 8 VMS per consentire l'integrazione delle funzionalità dell'auto tradizionalmente eseguite su computer separati. Nel complesso, la società ha affermato che il modello Drive PX 2 può avere due di questi chip Parker e due GPU discrete, con una performance totale di 8 teraflop (doppia precisione) o 24 operazioni di deep learning (8 bit o metà precisione). la società ha incluso benchmark confrontandolo favorevolmente con l'attuale elaborazione mobile usando SpecInt_2000, un benchmark relativamente vecchio. Ma le prestazioni sembrano impressionanti e Volvo ha recentemente affermato che la utilizzerà per testare veicoli autonomi a partire dal prossimo anno.
Certo, ci sono molti altri approcci.
La startup cinese DeePhi ha discusso di una piattaforma basata su FPGA per reti neurali, con due diverse architetture a seconda del tipo di rete coinvolta. Aristotele è progettato per reti neurali convoluzionali relativamente piccole e basato su Xilinx Zynq 7000, mentre Descartes è progettato per reti neurali ricorrenti più grandi che utilizzano memoria a breve termine (RNN-LSTM), basato su FPGA Kintex Ultrascale. DeePhi afferma che il suo compilatore e la sua architettura hanno ridotto i tempi di sviluppo rispetto alla maggior parte degli usi degli FPGA e che l'utilizzo di un FPGA può offrire prestazioni migliori rispetto alle soluzioni Negidia Tegra K1 e K40.
Un altro approccio consiste nell'utilizzare un processore di segnale digitale o un DSP, che in genere esegue una funzione specifica o un minuscolo set di funzioni molto rapidamente, utilizzando pochissima energia. Spesso questi sono integrati in altri chip più complessi per accelerare determinate funzioni, come l'elaborazione della visione. Numerose aziende, tra cui Movidius, CEVA e Cadence, condividevano le loro soluzioni su Hot Chips.
Movidius stava mostrando la sua soluzione basata su DSP nota come unità di elaborazione della visione Myriad 2, e la mostrò nel drone DJI Phantom 4. Ha anche mostrato come Myriad 2 superi le GPU e la rete neurale profonda GoogLeNet utilizzata nel concorso ImageNet del 2014.
CEVA stava promuovendo il suo DSP CEVA-XM4 Vision, appositamente progettato per l'elaborazione della visione e rivolto al mercato automobilistico, insieme alla sua piattaforma CEVA Deep Neural Network 2, che secondo lui poteva prendere qualsiasi cosa scritta per i framework Caffe o TensorFlow e ottimizzarla per funzionare sul suo DSP. Il nuovo processore dovrebbe essere in SoC l'anno prossimo.
Nel frattempo, Cadence, che rende la famiglia di processori di visione Tensilica (che può essere integrata in altri prodotti), ha discusso della sua versione più recente, Vision P6, che ha aggiunto nuove funzionalità come il supporto a virgola mobile vettoriale e altre funzionalità per le reti neurali convoluzionali. I primi prodotti dovrebbero uscire a breve.
Microsoft ha parlato dei dettagli dell'hardware per la sua cuffia HoloLens, affermando che utilizzava un processore Intel Atom Cherry Trail da 14 nm con Windows 10 e un hub sensore di unità di elaborazione olografica (HPU 1.0) personalizzato, prodotto da TSMC su un processo a 28 nm. Ciò include 24 core DSP Tensilica.
Sono stato particolarmente preso da una delle diapositive di Cadence che mostrava le differenze nel throughput e nell'efficienza di GPU, FPGA e diversi tipi di DSP in termini di operazioni di aggiunta multipla, uno degli elementi chiave per le reti neurali. Mentre ovviamente self-service (come tutte le presentazioni dei fornitori), ha sottolineato come le diverse tecniche variano in termini di velocità ed efficienza (prestazioni per watt), per non parlare dei costi e della facilità di programmazione. Ci sono molte soluzioni per diversi approcci qui, e sarà interessante vedere come questo si scuoterà nei prossimi anni.