xAI de Musk prévoit 50 millions de GPU Nvidia H100 d’ici 2030 : un pari risqué ?

Data centre.
(Crédit photo: Shutterstock/Sashkin)

  • Elon Musk prévoit une puissance de calcul IA équivalente à 50 millions de GPU H100 en seulement cinq ans
  • L'objectif de formation de xAI est de 50 exaflops, mais cela ne signifie pas pour autant 50 millions de GPU au sens littéral
  • Atteindre 50 exaflops avec des H100 nécessiterait une énergie équivalente à celle produite par 35 centrales nucléaires

Elon Musk a annoncé un nouvel objectif ambitieux pour xAI : atteindre l’équivalent de 50 millions de GPU de classe H100 d’ici 2030.

Présentée comme une mesure de performance en entraînement d’intelligence artificielle, cette déclaration fait référence à une capacité de calcul, et non à un nombre réel d’unités physiques.

Malgré les progrès constants dans le matériel d’accélération de l’IA, cet objectif impliquerait des engagements colossaux en matière d’infrastructures, notamment en énergie et en capital.

Un bond gigantesque en puissance de calcul, avec moins de GPU qu’il n’y paraît

Dans une publication sur X, Musk a précisé que « l’objectif de xAI est d’atteindre, sous 5 ans, une capacité en calcul IA équivalente à 50 millions de H100, avec une bien meilleure efficacité énergétique ».

Chaque GPU Nvidia H100 est capable de fournir environ 1 000 téraflops en FP16 ou BF16, des formats courants pour l’entraînement de modèles IA. Pour atteindre 50 ExaFLOPS sur cette base, il faudrait théoriquement 50 millions de H100.

Toutefois, les architectures récentes comme Blackwell et Rubin offrent des performances bien supérieures par puce.

D’après les projections disponibles, environ 650 000 GPU reposant sur la future architecture Feynman Ultra pourraient suffire pour atteindre ce seuil.

L’entreprise a déjà entamé une montée en puissance rapide. Son cluster actuel, Colossus 1, repose sur 200 000 GPU H100 et H200 basés sur Hopper, complétés par 30 000 puces GB200 de la gamme Blackwell.

Un second cluster, baptisé Colossus 2, doit entrer en service prochainement avec plus d’un million d’unités GPU, combinant 550 000 nœuds GB200 et GB300.

xAI figure ainsi parmi les acteurs adoptant le plus rapidement les technologies de pointe en génération de texte et entraînement de modèles.

Le choix du H100 plutôt que du plus récent H200 semble stratégique : ce modèle reste une référence bien connue dans la communauté IA, largement utilisée et documentée dans les déploiements actuels.

Son débit constant en FP16 et BF16 en fait une unité de mesure claire pour les projections à long terme.

Mais la question la plus urgente concerne l’énergie. Un cluster IA de 50 ExaFLOPS alimenté uniquement par des GPU H100 exigerait 35 GW, soit l’équivalent de 35 réacteurs nucléaires.

Même avec des GPU parmi les plus performants projetés, comme le Feynman Ultra, une telle puissance de calcul pourrait nécessiter jusqu’à 4,685 GW.

Cela représente plus de trois fois la consommation estimée de Colossus 2. Malgré les gains d’efficacité, la montée en charge de l’approvisionnement énergétique reste une inconnue majeure.

Le coût constitue également un facteur critique. À l’heure actuelle, un seul GPU Nvidia H100 se négocie à plus de 25 000 dollars.

Même avec 650 000 puces de nouvelle génération, l’investissement pourrait atteindre plusieurs dizaines de milliards de dollars, sans compter les interconnexions, le refroidissement, les bâtiments et les infrastructures énergétiques.

En définitive, le projet annoncé par Musk pour xAI apparaît techniquement envisageable, mais il demeure extrêmement exigeant sur les plans financier et logistique.

Via TomsHardware

Vous aimerez aussi

Adrien Bar Hiyé
Senior Editor

Quand je ne suis pas en train de plonger dans le monde fascinant de la finance et des nouvelles technologies, vous me trouverez probablement en train de parcourir le globe ou de conquérir de nouveaux mondes virtuels sur ma console de jeux.

Avec la contribution de