Musk vuole 50 milioni di GPU per xAI: un piano da capogiro

Data centre.
(Immagine:: Shutterstock/Sashkin)

Elon Musk ha annunciato un traguardo ambizioso per xAI: raggiungere, entro il 2030, una capacità di calcolo equivalente a 50 milioni di GPU della classe H100.

Non si tratta di un numero reale di unità, ma di una misura indicativa della potenza di calcolo necessaria per l’addestramento dei modelli di intelligenza artificiale.

xAI accelera sull’IA

In un post pubblicato su X, Elon Musk ha dichiarato: "L’obiettivo di xAI è raggiungere 50 milioni in unità equivalenti alla GPU H100 (ma con un’efficienza energetica molto migliore) online entro cinque anni."

Ogni GPU Nvidia H100 per l’intelligenza artificiale può fornire circa 1.000 TFLOPS in FP16 o BF16, due formati comunemente utilizzati per l’addestramento dei modelli AI. Raggiungere 50 ExaFLOPS con questa base di riferimento richiederebbe teoricamente 50 milioni di H100.

Tuttavia, architetture più recenti come Blackwell e Rubin migliorano in modo significativo le prestazioni per chip. Secondo le proiezioni attuali, potrebbero bastare circa 650.000 GPU basate sulla futura architettura Feynman Ultra per raggiungere lo stesso obiettivo.

L’azienda ha già avviato un’espansione su larga scala: il cluster attuale, Colossus 1, è alimentato da 200.000 GPU H100 e H200 basate su Hopper, a cui si aggiungono 30.000 chip GB200 basati su Blackwell.

Un nuovo cluster, Colossus 2, entrerà in funzione a breve e integrerà oltre 1 milione di unità GPU, combinando 550.000 nodi GB200 e GB300.

Questo colloca xAI tra le realtà che stanno adottando più rapidamente le tecnologie più avanzate per la scrittura e l’addestramento di modelli AI.

L’azienda ha probabilmente scelto di utilizzare le H100 invece delle più recenti H200 perché le prime restano un punto di riferimento consolidato all’interno della comunità AI, ampiamente testato e impiegato in numerosi progetti.

La loro resa costante in FP16 e BF16 le rende un’unità di misura chiara per pianificazioni a lungo termine.

Tuttavia, la questione più urgente è quella dell’energia. Un cluster da 50 ExaFLOPS alimentato da GPU H100 richiederebbe 35 GW, l’equivalente di 35 centrali nucleari.

Anche utilizzando GPU di nuova generazione con la massima efficienza prevista, come quelle basate su Feynman Ultra, un cluster da 50 ExaFLOPS potrebbe comunque richiedere fino a 4,685 GW di potenza.

Si tratta di un consumo più che triplo rispetto a quanto previsto per Colossus 2. Nonostante i miglioramenti in termini di efficienza, l’approvvigionamento energetico su scala rimane una variabile critica.

Anche i costi rappresentano un ostacolo significativo. In base ai prezzi attuali, una singola Nvidia H100 supera i 23.000 euro circa. Utilizzare 650.000 GPU di nuova generazione comporterebbe comunque una spesa di decine di miliardi di euro solo in hardware, senza considerare l’infrastruttura di rete, il raffreddamento, le strutture e il sistema energetico necessario.

Nel complesso, il piano di Musk per xAI risulta tecnicamente plausibile, ma comporta sfide considerevoli dal punto di vista economico e logistico.

Via TomsHardware

Nato nel 1995 e cresciuto da due genitori nerd, non poteva che essere orientato fin dalla tenera età verso un mondo fatto di videogiochi e nuove tecnologie. Fin da piccolo ha sempre esplorato computer e gadget di ogni tipo, facendo crescere insieme a lui le sue passioni. Dopo aver completato gli studi, ha lavorato con diverse realtà editoriali, cercando sempre di trasmettere qualcosa in più oltre alla semplice informazione. Amante del cioccolato fondente, continua a esplorare nuove frontiere digitali, mantenendo sempre viva la sua curiosità e la sua dedizione al settore.