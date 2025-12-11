Il design 3D HBM-on-GPU raggiunge una densità di calcolo record per i carichi di lavoro IA più esigentiLe temperature di picco della GPU hanno superato i $140\,^{\circ}\text{C}$ senza strategie di mitigazione termica

Dimezzare la frequenza di clock della GPU ha ridotto le temperature ma ha rallentato il training IA del 28%

Imec ha presentato un'analisi del design 3D HBM-on-GPU (High Bandwidth Memory su GPU) volta ad aumentare la densità di calcolo per i carichi di lavoro AI più esigenti, in occasione dell'IEEE International Electron Devices Meeting (IEDM) 2025.

L'approccio di co-ottimizzazione termica sistema-tecnologia prevede il posizionamento di quattro stack di memoria ad alta larghezza di banda (HBM) direttamente sopra una GPU, collegati tramite micro-bump.

Ogni stack è composto da dodici die DRAM collegati con hybrid-bonding, e il raffreddamento viene applicato sopra gli stessi HBM.

Tentativi di mitigazione termica e compromessi sulle prestazioni

La soluzione applica mappe di potenza derivate da carichi di lavoro rilevanti per l'industria per testare come la configurazione risponde in condizioni realistiche di training AI.

Questa disposizione 3D promette un balzo in avanti nella densità di calcolo e nella memoria per GPU. Offre anche una maggiore larghezza di banda della memoria GPU rispetto all'integrazione 2.5D, dove gli stack HBM sono posizionati attorno alla GPU su un interposer di silicio.

Tuttavia, le simulazioni termiche rivelano severe sfide per il design 3D HBM-on-GPU. Senza mitigazione, le temperature di picco della GPU hanno raggiunto i $141,7\,^{\circ}\text{C}$, ben al di sopra dei limiti operativi, mentre il riferimento 2.5D ha toccato un picco di $69,1\,^{\circ}\text{C}$ nelle stesse condizioni di raffreddamento.

Imec ha esplorato diverse strategie a livello tecnologico, come l'unione degli stack HBM e l'ottimizzazione del silicio termico. Le strategie a livello di sistema includevano il raffreddamento a doppio lato e la scalabilità della frequenza della GPU.

Ridurre la frequenza di clock della GPU del 50% ha abbassato le temperature di picco al di sotto dei $100\,^{\circ}\text{C}$, ma questa modifica ha rallentato i carichi di lavoro di training AI.

Nonostante queste limitazioni, Imec sostiene che la struttura 3D possa offrire una densità di calcolo e prestazioni superiori rispetto al design di riferimento 2.5D.

"Dimezzare la frequenza del core della GPU ha portato la temperatura di picco da $120\,^{\circ}\text{C}$ a sotto i $100\,^{\circ}\text{C}$, raggiungendo un obiettivo chiave per il funzionamento della memoria. Sebbene questo passaggio comporti una penalizzazione del 28% sul carico di lavoro...", ha affermato James Myers, Direttore del Programma di Tecnologia di Sistema presso Imec.

"...il package complessivo supera le prestazioni di base del 2.5D grazie a una maggiore densità di throughput offerta dalla configurazione 3D. Stiamo attualmente utilizzando questo approccio per studiare altre configurazioni GPU e HBM...".

L'organizzazione suggerisce che questo approccio potrebbe supportare hardware termicamente resiliente per gli strumenti di Intelligenza Artificiale nei data center ad alta densità.

Imec presenta questo lavoro come parte di uno sforzo più ampio per collegare le decisioni tecnologiche al comportamento del sistema. Ciò include il programma di co-ottimizzazione tra tecnologie (cross-technology co-optimization - XTCO), lanciato nel 2025, che combina le filosofie STCO e DTCO per allineare le roadmap tecnologiche con le sfide di scalabilità dei sistemi.

Imec ha dichiarato che XTCO consente la risoluzione collaborativa dei colli di bottiglia critici in tutto l'ecosistema dei semiconduttori, comprese le aziende fabless e di sistema.

Tuttavia, è probabile che tali tecnologie rimangano confinate a strutture specializzate con budget di potenza e termici controllati.

