Video: ISSCC2020: Plenary - Future Scaling: Where Systems and Technology Meet (Novembre 2024)
Mentre i venditori di chip in genere non introducono nuovi chip all'annuale International Solid State Circuits Conference (ISSCC), spesso forniscono maggiori dettagli sul funzionamento interno dei prodotti già annunciati. Ecco alcune cose che ho trovato interessanti allo show di questa settimana.
Architettura Intel Ivytown Server
Intel ha discusso dell'ultima versione della sua famiglia di processori Xeon E7, un chip con un massimo di 15 core e 30 thread, noto come Ivytown. È basato sull'architettura Ivy Bridge EP utilizzata in Xeon E5 2600 V2. Il processore è realizzato utilizzando la tecnologia di processo Intel a 22 nm con transistor Tri-Gate (le alette sono alte 34 nm e larghe 8 nm) e sostituiranno l'attuale Xeon E7 basato su Westmere EX. In confronto, l'attuale Xeon E7, prodotto su un processore HKMG planare a 32 nm, ha 10 core e 20 thread e ha 30 MB di cache L3 rispetto a 37, 5 MB nella versione Ivytown.
Una delle caratteristiche più interessanti di questa nuova famiglia di processori è la sua architettura modulare. La planimetria è composta da tre colonne di cinque core, ciascuna con la propria porzione di cache L3, un bus ad anello incorporato e IO dedicato nella parte superiore e inferiore delle colonne (collegamenti QPI nella parte superiore e controller di memoria nella parte inferiore). Intel prevede di creare una versione a 10 core rimuovendo la colonna di destra; e per creare una versione a 6 core rimuovendo ulteriormente due righe.
La versione a 15 core ha 4, 31 miliardi di transistor, che secondo Intel è il massimo per qualsiasi microprocessore, e misura 541 millimetri quadrati. La versione a 10 core ha 2, 89 miliardi di transistor e misura 341 millimetri quadrati. La variante a 6 core ha 1, 86 miliardi di transistor e misura 257 millimetri quadrati. Le frequenze operative vanno da 1, 4 GHz a 3, 8 GHz con TDP da 40 W a 150 W.
L'altro aspetto interessante di Ivytown è la sua architettura buffer di memoria. Lo stesso die supporta la memoria DDR3 standard a quattro canali che funziona fino a 1867 MT / se una nuova interfaccia a quattro canali a tensione singola (VMSE) a un buffer di estensione della memoria che funziona a 2667 MT / s. Complessivamente può supportare fino a 12 TB di memoria in un server a 8 socket, tre volte la capacità di memoria di Westmere EX. La versione a 15 core sarà disponibile in due diversi pacchetti: uno compatibile con la piattaforma Romley esistente (Socket-R) per facili aggiornamenti e un altro che abilita una nuova piattaforma utilizzando buffer di memoria.
Ulteriori dettagli su Haswell
Intel ha anche fornito una serie di dettagli sull'architettura Haswell, utilizzata nell'attuale famiglia Core. Questo utilizza anche transistor Tri-Gate 22nm. Intel ha affermato che Haswell integra diverse nuove tecnologie, tra cui un regolatore di tensione completamente integrato o FIVR (che consolida la piattaforma da cinque regolatori di tensione fino a uno), cache DRAM incorporata per prestazioni grafiche migliori, stati a basso consumo, IO ottimizzato, istruzioni AVX2 e un unità intera SIMD più ampia.
Esistono tre varianti di base di Haswell: in primo luogo, esiste un quad-core che comunica con un PCH separato (Platform Controller Hub) con una grafica più veloce (da due a quattro core). In secondo luogo, esiste una piattaforma per ultrabook che combina un Haswell dual-core con il PCH in un unico pacchetto multi-chip. Il processore supporta stati di potenza inferiori, il PCH viene modificato per una potenza inferiore e i due comunicano su un bus a bassa potenza, il che riduce il consumo in standby del 95 percento. Infine c'è una versione con grafica Iris Pro e cache eDRAM da 128 MB nello stesso pacchetto. I pacchetti multi-chip utilizzano un IO sulla confezione che fornisce un'elevata larghezza di banda a bassa potenza tra la CPU, il PCH e l'eDRAM.
A seconda del numero di core della CPU e della grafica (GT2 o GT3), Haswell ha ovunque da 960 milioni a 1, 7 miliardi di transistor e il dado misura da 130 a 260 millimetri quadrati. È progettato per funzionare da 0, 7 a 1, 1 volt con una vasta gamma di frequenze da 1, 1 a 3, 8 GHz.
La matrice eDRAM da 128 GB misura 77 millimetri quadrati e fornisce una larghezza di banda di picco di 102 GBps. Intel ha affermato che rispetto allo stesso sistema senza eDRAM, la cache aggiuntiva offre miglioramenti delle prestazioni fino al 75 percento, sebbene le prestazioni complessive siano aumentate dal 30 al 40 percento.
Steamroller di AMD alimenta Kaveri
AMD, che tende a mettere più grafica su ciò che chiama le sue unità di elaborazione accelerata (APU o processori che combinano CPU e grafica) focalizzata sul suo nuovo core CPU, noto come Steamroller, che viene utilizzato nella nuova serie di processori Kaveri dell'azienda. Il core Steamroller, prodotto in un processo CMOS bulk da 28 nm, ha 236 milioni di transistor in un'area di 29, 47 millimetri quadrati. Ciò include due core interi, due unità di decodifica dell'istruzione e diversi elementi condivisi, tra cui il recupero dell'istruzione, l'unità a virgola mobile e 2 MB di cache L2. AMD usa tipicamente uno di questi moduli Steamroller nei suoi chip "dual-core" (che riflettono i 2 core interi); e due nei suoi chip "quad-core".
Rispetto al precedente core Piledriver, prodotto su un processo SOI a 32 nm, Steamroller aggiunge una seconda unità di decodifica delle istruzioni, una cache di istruzioni condivisa da 96 KB più grande e altri miglioramenti. AMD ha affermato che ciò ha portato a un massimo del 14, 5 percento di istruzioni in più per ciclo, il che si traduce in prestazioni migliori del 9 percento su applicazioni a thread singolo e prestazioni migliori del 18 percento su app a thread doppio. Può anche funzionare a una frequenza maggiore di 500 MHz alla stessa potenza o offrire le stesse prestazioni con una riduzione della potenza del 38 percento. Il core Steamroller è progettato per funzionare a una gamma compresa tra 0, 7 e 1, 45 volt.
Processori mobili di MediaTek, Renesas e Qualcomm
Numerose aziende hanno tenuto presentazioni sui loro processori basati su ARM.
MediaTek ha parlato del suo processore multi-core eterogeneo (HMP) da 28 nm con una CPU quad-core e doppia GPU. Il chip MediaTek ha due core Cortex A15, a 1, 8 GHz e due core Cortex A7, a 1, 4 GHz, combinato con una GPU dual core Core Imagination G6200 400 MHz. Ha anche un codec video hardware Full HD e un processore sensore di immagine da 13 megapixel.
MediaTek ha anche parlato della tecnologia PTP (Performance, Thermal e Power) che monitora il chip e controlla l'alimentazione. In questo caso, la società ha dichiarato che PTP consente un aumento del 23 percento della velocità di clock o un risparmio energetico fino al 41 percento.
Questo chip utilizza la vera elaborazione HMP di ARM, il che significa che qualsiasi combinazione di core grandi e piccoli da uno a quattro può essere eseguita a seconda del carico di lavoro. MediaTek ha affermato che utilizzando il vero HMP, il chip può offrire prestazioni migliori del 33-51 percento su carichi di lavoro pesanti o un'efficienza energetica 2-5x migliore su carichi di lavoro leggeri, mentre la gestione termica adattiva offre un ulteriore aumento delle prestazioni del 10 percento.
Renesas ha presentato un processore "eterogeneo" a otto core HPM "proposto" progettato per dispositivi mobili e sistemi di infotainment per auto. Il chip utilizza quattro core Cortex A15 da 2 GHz e quattro core Cortex A7 da 1 GHz. È in grado di gestire contemporaneamente tutti e 8 i core per le massime prestazioni, ma utilizza anche l'architettura eterogenea e le tecniche di gestione dell'alimentazione per ottimizzare le prestazioni per determinati carichi di lavoro o inviluppi di potenza.
Qualcomm ha descritto il suo processore di segnale digitale Hexagon, che viene utilizzato nei suoi SoC mobili per una varietà di applicazioni multimediali e modem. La versione attuale è prodotta con processo CMOS sfuso HKMG da 28 mm. Questo design si rivolge a istruzioni elevate per clock invece di alte frequenze operative.
Sul lato server ARM, Applied Micro ha parlato del processore ARMv8 a 64 bit di prima generazione dell'azienda, annunciato per la prima volta durante il recente summit di Open Compute. Questo si basa su un modulo processore "Potenza" (PMD), che include due core che condividono 256 KB di cache L2. Potenza è fabbricata in CMOS sfuso a 40 nm e ogni PMD contiene 84 milioni di transistor e utilizza 14, 8 millimetri quadrati di superficie della matrice. Può funzionare fino a 3GHz a 0, 9 volt, ma in media 4, 5 W con carichi di lavoro tipici. La piattaforma server X-Gene 3 include quattro PMD (otto core), 8 MB condivisi di cache L3 e quattro canali di memoria DRAM attorno a uno switch centrale. Integra inoltre Ethernet da 10 GB, SATA 2/3, PCIe Gen. 3 e USB 3.0.
La prossima generazione di Chip Process Tech
Ci sono state anche un paio di presentazioni sulla prossima generazione della tecnologia di processo dei chip, poiché quasi tutti i principali produttori di chip hanno in programma di passare alla produzione 3D o FinFET, sul nodo 14 o 16nm (a seguito di Intel, che sta già distribuendo chip a 22nm con tale tecnologia).
Samsung ha parlato del suo prossimo processo FinFET a 14 nm, mostrando un array SRAM 6T da 128 Mb e un chip di prova. Samsung ha affermato che i FinFET sono una buona soluzione per SoC mobili a basso consumo poiché offrono un buon ridimensionamento, alta corrente e bassa dispersione e un buon controllo del canale corto.
Ciò pone anche alcune sfide per le SRAM, poiché la tensione di alimentazione della SRAM non è stata ridimensionata. SRAM ora occupa il 20-30 percento dell'area del dado di un SoC, ma utilizza circa il 40-50 percento della potenza. Per affrontare questi problemi, Samsung ha proposto alcune nuove tecniche per far funzionare le SRAM usando transistor FinFET a una tensione di alimentazione inferiore.
TSMC ha affrontato problemi simili, mettendo in mostra il suo chip SRAM a 128 Mb da 16 nm. TSMC ha affermato che i FinFETs sono diventati una tecnologia mainstream per la produzione oltre i 20 nm, ma hanno affermato che le dimensioni della larghezza e della lunghezza del canale con FinFETs rappresentano una sfida per ridimensionare il 6T-SRAM convenzionale e la tensione di alimentazione. TSMC ha proposto due tecniche di assistenza alla scrittura per superare questi problemi.
Questi sono problemi abbastanza tecnici, ma la risoluzione dei problemi è fondamentale se vogliamo ottenere chip più densi e più efficienti in futuro.