Casa Lungimiranza Oracle, nvidia, arm prendono i riflettori su chip caldi

Oracle, nvidia, arm prendono i riflettori su chip caldi

2024

Video: Gigabyte RTX 3070 EAGLE тест на паре алгоритмов. Готовим MSI H310-F PRO к запуску 13 карт. День 1. (Novembre 2024)

Mentre gran parte dell'entusiasmo dei chip della scorsa settimana è arrivato dall'annuncio di Broadwell di Intel, ci sono stati un certo numero di altri chip discussi in dettaglio durante la conferenza annuale Hot Chips, che tendeva a concentrarsi principalmente su chip progettati per server e data center.

Lo spettacolo è noto per i chip di fascia alta, con Intel, Oracle e IBM che discutono tutti delle loro ultime voci, ma solo Sparc M7 di Oracle era davvero nuovo. Invece, gran parte dello spettacolo si è concentrato sui prodotti basati su ARM, inclusi i primi dettagli dell'imminente versione "Denver" a 64 bit di Nvidia del suo processore Tegra K1

Oracle, Intel e IBM puntano in alto con i chip del server

Dei chip di fascia alta, la notizia più impressionante è arrivata da Oracle, che ha discusso della prossima generazione del suo processore SPARC, noto come M7. Questo chip avrà 32 core S4 SPARC (ciascuno con un massimo di otto thread dinamici), 64 MB di cache L3, otto controller di memoria DDR4 (fino a 2 TB per processore e 160 GBps di larghezza di banda di memoria con DDR4-2133) e otto acceleratori di analisi dei dati collegati su una rete su chip.

Il chip è organizzato in otto cluster con quattro core ciascuno con cache L2 condivisa e 8 MB partizionati di cache L3 con una larghezza di banda superiore a 192 GBps tra un cluster principale e la sua cache L3 locale. Rispetto all'M6 (un chip da 28 nm con 12 core SPARC S3 da 3, 6 GHz), l'M7 offre prestazioni 3-3, 5 volte migliori su larghezza di banda della memoria, throughput intero, sistemi OLTP, Java, ERP e throughput in virgola mobile. Stephen Phillips, Senior Director di SPARC Architecture di Oracle, ha affermato che l'obiettivo era un aumento delle prestazioni della funzione step piuttosto che incrementi incrementali.

L'M7 può ridimensionare fino a 8 socket senza colla (fino a 256 core, 2.000 thread e 16 TB di memoria) e con uno switch ASIC per gestire il traffico tra di loro in una configurazione SMP, fino a 32 processori, in modo da poter finire con un sistema con 1.024 core, 8.192 thread e fino a 64 TB di memoria. Molto impressionante. Oracle ha affermato di offrire prestazioni da 3 a 3, 5 volte migliori su una varietà di test, rispetto allo SPARC M6 dell'anno scorso. La società ha affermato che questo sarà ottimizzato per lo stack software di Oracle, prodotto su un processo a 20 nm e disponibile nei sistemi l'anno prossimo.

IBM ha anche fornito maggiori dettagli sulla sua linea Power8, che ha annunciato alla fiera dello scorso anno. Quella versione del chip aveva 12 core, ognuno con un massimo di otto thread con 512 KB di cache SRAM di livello 2 per core (6 MB in totale L2) e 96 MB di DRAM integrata condivisa come cache di livello 3. Questo enorme chip, che misura 650 millimetri quadrati con 4, 2 miliardi di transistor, è prodotto con il processo SOI 22nm di IBM e ha iniziato la spedizione a giugno, secondo IBM.

Alcuni mesi fa, IBM ha annunciato una versione con sei core che misura 362 mm ². Il discorso di quest'anno è stato su come IBM può combinare due delle versioni a sei core in un unico pacchetto con 48 corsie di PCIe Gen 3. IBM ha affermato che una versione a due socket con un totale di 24 core e 192 thread supererà un processore a due processori Server Xeon Ivy Bridge con 24 core (con 48 thread). IBM vende energia principalmente in mercati specializzati e ad alte prestazioni, quindi la maggior parte delle persone non confronterà i due, ma è interessante. Nel tentativo di rendere l'architettura Power più mainstream, IBM l'anno scorso ha annunciato l'Open Power Consortium e quest'anno l'azienda ha dichiarato di disporre di uno stack software open source completo per la piattaforma. Ma finora, nessuno tranne IBM ha annunciato un server basato sulla piattaforma.

Intel ha parlato di "Ivytown", la versione server di Ivy Bridge, che include le versioni di Xeon E5 introdotte un anno fa e Xeon E7 introdotte a febbraio. Il discorso di quest'anno si è concentrato su come Intel abbia ora sostanzialmente un'architettura in grado di coprire entrambi i mercati, con chip che consentono fino a 15 core, due controller di memoria DDR3, tre collegamenti QPI e 40 corsie PCI Gen 3, disposte su un piano modulare piano che può essere trasformato in tre diversi stampi, ciascuno progettato per prese diverse, con un totale di oltre 75 varianti. Può essere utilizzato in server a due, quattro e otto socket senza interconnessioni speciali.

Questi chip, ovviamente, costituiscono oggi la maggior parte degli acquisti di server, poiché Intel rappresenta la stragrande maggioranza delle unità server. Molte informazioni sono state precedentemente coperte all'ISSCC e si prevede che Intel introdurrà la prossima versione della famiglia E5 (E5-1600v3 ed E5-2600 v3) molto presto, sulla base di una versione aggiornata usando una variante del Architettura di Haswell chiamata Haswell-EP. (La scorsa settimana, Dell ha annunciato nuove workstation basate su questi nuovi chip.)

Intel ha anche discusso del suo Atom C2000, noto come Avoton, che è entrato in produzione alla fine del 2013. Questo chip e i chip Ivy Bridge e Haswell sono tutti basati sul processo Intel a 22 nm.

Nvidia, AMD, Micro mirato applicato a nuovi mercati per ARM

La più grande sorpresa dello spettacolo è stata probabilmente l'attenzione alla tecnologia basata su ARM, tra cui le note chiave degli altoparlanti ARM e i dettagli di Nvidia sulla sua prossima versione "Denver" del suo processore Tegra K1.

In un keynote, il CTO di ARM Mike Muller ha discusso dei limiti di alimentazione in tutto, dai sensori ai server e si è concentrato su come ARM stesse cercando di espandersi nell'azienda. Muller ha anche spinto il concetto di utilizzare i chip del sensore ARM per l'Internet of Things, un argomento che è stato anche ripreso in un keynote del Rob Chandhok di Qualcomm. Ma nessuna delle due società ha annunciato nuovi core o processori.

Invece, la grande novità su questo fronte è arrivata da Nvidia, che ha fornito molti più dettagli sulla nuova versione del suo processore K1. Quando è stato annunciato per la prima volta il progetto Denver dell'azienda, sembrava che questo chip fosse destinato al mercato informatico ad alte prestazioni, ma ora la società sembra essersi concentrata maggiormente su cose come i tablet e il mercato automobilistico. Tegra K1 arriverà in due versioni. Il primo, annunciato all'inizio di quest'anno e ora disponibile nel tablet Shield dell'azienda, ha quattro core ARM Cortex-A15 a 32 bit più un "core core" a bassa potenza nella configurazione 4 + 1 che Nvidia ha inserito la sua linea Tegra da diversi anni.

La versione di Denver è molto diversa con due nuovi core proprietari a 64 bit progettati da Nvidia e l'azienda sta davvero propagandando i guadagni di prestazioni che ottiene. Il core è superscalare a sette vie (il che significa che può eseguire contemporaneamente fino a sette micro-operazioni) e ha una cache di istruzioni L1 a quattro vie da 128 KB e una cache di dati L1 a quattro vie da 64 KB. Il chip combina due di questi core, insieme a una cache di livello 2 da 2 MB che serve entrambi i core, come i 192 "core CUDA" (core grafici) che condivide con il K1 a 32 bit. Come tale, rappresenta una grande deviazione dall'architettura 4 + 1.

Un grande cambiamento include ciò che Nvidia chiama "ottimizzazione del codice dinamico", progettata per prendere il codice ARM di uso frequente e convertirlo in microcodice appositamente ottimizzato per il processore. Questo è archiviato in 128 MB di memoria cache (ricavato dalla memoria principale del sistema tradizionale). L'obiettivo è quello di dargli le prestazioni di un'esecuzione fuori ordine senza richiedere tutta la potenza che quella tecnica di solito usa. Il concetto non è nuovo - Transmeta lo ha provato anni fa con il suo chip Crusoe - ma Nvidia afferma che ora funziona notevolmente meglio.

Nvidia ha mostrato diversi benchmark, in cui ha affermato che il nuovo chip può raggiungere prestazioni significativamente più elevate rispetto alle CPU mobili a quattro o otto core esistenti, citando in particolare Snapdragon 800 di Qualcomm (MSM8974), l'Apple A7 (a volte chiamato Cyclone) utilizzato nell'iPhone 5s - e persino alcuni processori per PC tradizionali. Nvidia ha dichiarato che ha sovraperformato un processore Atom (Bay Trail) ed è stato simile al processore Intel Celeron (Haswell) dual-core a 1, 4 GHz. Certo, tendo a prendere i numeri delle prestazioni del fornitore con un pizzico di sale: non solo i fornitori scelgono i parametri di riferimento, non è affatto chiaro che stiamo parlando delle stesse velocità di clock o della stessa potenza assorbita.

Nel frattempo, nei chip rivolti più ai server, AMD ha parlato più del suo Opteron A1100, noto come "Seattle", con la società affermando che era attualmente in fase di campionamento e che dovrebbe essere disponibile nei server verso la fine di quest'anno. Questo chip ha otto core CPU Cortex A57 a 64 bit; 4 MB di cache L2 e 8 MB di cache L3; due canali di memoria per un massimo di 128 GB di memoria DDR3 o DDR4 con correzione degli errori; molti I / O integrati (8 corsie ciascuna di PCIe Gen3 e SATA da 6 Gbps e due porte Ethernet da 10 Gbps); un "processore di controllo del sistema" Cortex A5 per l'avvio sicuro; e un acceleratore per accelerare la crittografia e la decrittografia. È prodotto con il processo a 28 nm di GlobalFoundries. AMD non ha ancora fornito dettagli sulla frequenza, la potenza o le prestazioni del chip, ma ha mostrato uno schema di base del chip. (sopra)

Applied Micro afferma da tempo di avere il primo chip server ARM sul mercato, con il suo X-Gene 1 (noto come Storm) contenente 8 core ARMv8 proprietari 2.4GHZ, quattro controller di memoria DDR3, PCIe Gen3 e SATA 6Gbps e Ethernet 10Gbps. Questo è attualmente in produzione sul processo a 40 nm di TSMC, afferma la società.

Su Hot Chips, Applied Micro ha spinto il suo design X-Gene 2 (Shadowcat), che sarà disponibile con otto o 16 core "migliorati", funzionante a una velocità compresa tra 2, 4 e 2, 8 GHz, e aggiunge un host RoCE (RDMA over Converged Ethernet) Channel Adapter come interconnessione progettato per consentire connessioni a bassa latenza tra i cluster di microserver. Questo è progettato per essere utilizzato nei cluster, con un singolo server rack che supporta fino a 6.480 thread e 50 TB di memoria, tutti condividendo un singolo pool di archiviazione. La società afferma che X-Gene 2 offrirà prestazioni intere circa il 60 percento migliori, prestazioni due volte superiori su Memcache e circa il 25 percento in più di servizio Web Apache. Viene prodotto con un processo a 28 nm ed è attualmente in fase di campionamento.

Applied Micro afferma che X-Gene 2 colma un divario tra i microserver concorrenti (Cavium ThunderX, Intel Atom C2000 "Avoton" e AMD Opteron A1100 "Seattle") e server Xeon full-size. Ha fornito alcuni dettagli sulla prossima generazione, l'X-Gene 3 (Skylark), che dovrebbe iniziare il campionamento l'anno prossimo. Questo chip avrà 16 core ARMv8 in esecuzione fino a 3 GHz e sarà prodotto utilizzando la tecnologia FinFet 16nm.