Elon Musk afirma que xAI contará con 50 millones de GPU Nvidia "equivalentes a H100" para 2030, pero ¿a qué costo?

Data centre.
(Crédito de imagen: Shutterstock/Sashkin)

  • Elon Musk planea alcanzar una potencia de cálculo de IA equivalente a 50 millones de GPU H100 en solo cinco años.
  • El objetivo de entrenamiento de xAI es alcanzar los 50 exaFLOPS, pero eso no significa 50 millones de GPU literales.
  • Alcanzar los 50 exaFLOPS con H100 requeriría una energía equivalente a la de 35 centrales nucleares.

¿Conoces xAI, la empresa de inteligencia artificial fundada por Elon Musk? Si tu respuesta fue negativa, este es el momento perfecto para conocerla.

Ya que Elon Musk compartió un nuevo y audaz hito para xAI, que consiste en implementar el equivalente a 50 millones de GPU de clase H100 para 2030.

Enmarcada como una medida del rendimiento del entrenamiento de IA, la afirmación se refiere a la capacidad de computación, no al recuento literal de unidades.

Aun así, incluso con los continuos avances en el hardware de los aceleradores de IA, este objetivo implica compromisos extraordinarios en materia de infraestructura, especialmente en lo que se refiere a energía y capital.

Un gran avance en la escala de computación, con menos GPU de lo que parece

En una publicación en X, Elon Musk afirmó: “El objetivo de xAI es alcanzar 50 millones de unidades equivalentes a H100 en cómputo para IA (pero con una eficiencia energética mucho mejor) en los próximos cinco años.”

Cada GPU Nvidia H100 especializada en inteligencia artificial puede entregar alrededor de 1,000 TFLOPS en formatos FP16 o BF16, que son comunes en el entrenamiento de modelos de IA. Alcanzar los 50 ExaFLOPS con esa base teórica requeriría aproximadamente 50 millones de H100s.

Sin embargo, arquitecturas más recientes como Blackwell y Rubin mejoran de forma drástica el rendimiento por chip.

De acuerdo con proyecciones de desempeño, solo serían necesarias unas 650,000 GPUs basadas en la futura arquitectura Feynman Ultra para alcanzar ese objetivo.

La compañía ya comenzó a escalar agresivamente, y su actual clúster Colossus 1 opera con 200,000 GPUs Hopper, incluyendo H100 y H200, además de 30,000 chips GB200 basados en Blackwell.

Un nuevo clúster, Colossus 2, está programado para entrar en operación pronto con más de 1 millón de unidades GPU, combinando 550,000 nodos GB200 y GB300.

Esto coloca a xAI entre los adoptantes más rápidos de tecnologías de punta en entrenamiento de modelos y generación de texto con inteligencia artificial.

Probablemente la empresa eligió usar el H100 sobre el más reciente H200 porque el primero sigue siendo un punto de referencia ampliamente comprendido en la comunidad de IA: ha sido sometido a múltiples pruebas de rendimiento y es usado en despliegues importantes.

Su rendimiento constante en FP16 y BF16 lo convierte en una unidad de medida confiable para la planeación a largo plazo.

Pero quizás el desafío más urgente es la energía. Un clúster de 50 ExaFLOPS alimentado por GPUs H100 requeriría 35 GW, lo equivalente a la producción de 35 plantas nucleares.

Incluso usando las GPUs más eficientes proyectadas, como Feynman Ultra, un clúster de esa magnitud seguiría necesitando hasta 4.685 GW de energía.

Eso es más del triple del consumo energético estimado para el próximo Colossus 2 de xAI. A pesar de los avances en eficiencia, escalar el suministro energético sigue siendo una gran incógnita.

Además, el costo también será un factor crítico. Con precios actuales, una sola Nvidia H100 cuesta más de $25,000 dólares.

Incluso usando 650,000 GPUs de próxima generación, el gasto en hardware por sí solo ascendería a decenas de miles de millones de dólares, sin contar la infraestructura de interconexión, enfriamiento, instalaciones y energía.

En resumen, el plan de Musk para xAI es técnicamente posible, pero representa un reto financiero y logístico monumental.

Vía Tom’s Hardware

Antonio Quijano
Editor
Aportaciones de