Las pruebas revelan que ChatGPT-5 tiene menos alucinaciones que GPT-4o, y Grok sigue siendo el rey de inventarse cosas

OpenAI and Elon Musk
(Crédito de imagen: Shutterstock/ Algi Febri Sugita)

  • ChatGPT 5 obtiene una baja puntuación del 1,4 % en la tabla de clasificación de alucinaciones.
  • Esto lo sitúa por delante de ChatGPT-4, que obtiene una puntuación del 1,8 %, y de GPT-4o, que obtiene una puntuación del 1,49 %.
  • Grok 4 obtiene una puntuación mucho más alta, con un 4,8 %, mientras que Gemini-2.5 Pro obtiene un 2,6 %.

Cuando OpenAI lanzó ChatGPT-5 el jueves de la semana pasada, uno de los principales argumentos de venta que destacó el director ejecutivo Sam Altman fue que ChatGPT-5 era la versión más «potente, inteligente, rápida, fiable y robusta de ChatGPT que jamás hemos lanzado», y en la presentación, el personal de OpenAI también hizo hincapié en que ChatGPT-5 «mitigaría las alucinaciones».

Cuando la IA inventa algo, se denomina alucinación, y aunque las tasas de alucinación están disminuyendo en todos los LLM, siguen siendo sorprendentemente comunes y una de las principales razones por las que no podemos confiar en la IA para realizar una tarea sin supervisión humana.

Vectara, la plataforma de RAG como servicio y agente de IA que gestiona la clasificación de líderes en alucinaciones del sector para modelos de base y razonamiento, ha puesto a prueba las afirmaciones de OpenAI y ha descubierto que, efectivamente, tiene una clasificación más baja en cuanto a alucinaciones que ChatGPT 4, pero solo un poco más baja que ChatGPT-4o (de hecho, solo un 0,09 % más baja).

Según Vectara, ChatGPT-5 tiene una tasa de alucinaciones fundamentadas del 1,4 %, frente al 1,8 % de GPT-4 y el 1,69 % de GPT-4 turbo y 4o mini, con un 1,49 % para GPT-4o.

Grok siendo Grok

Curiosamente, la tasa de alucinaciones de ChatGPT-5 resultó ligeramente superior a la del modo ChatGPT-4.5 Preview, que obtuvo una puntuación del 1,2 %, pero también fue muy superior a la del modelo o3-mini High Reasoning de OpenAI, que era el modelo GPT con mejor rendimiento, con una tasa de alucinaciones fundamentadas del 0,795 %.

Los resultados de las pruebas de Vectra se pueden consultar en la tabla de clasificación del modelo de evaluación de alucinaciones de Hughes (HHEM) alojada en Hugging Face, que afirma que «para un LLM, su tasa de alucinaciones se define como la proporción de resúmenes que alucinan con respecto al número total de resúmenes que genera».

Sin embargo, ChatGPT-5 sigue alucinando mucho menos que sus competidores, con Gemini-2.5-pro en un 2,6 % y Grok-4 en un 4,8 %, mucho más alto.

XAI, los creadores de Grok, recibieron recientemente muchas críticas por su nuevo modo «Spicy» en Grok Imagine, un generador de videos con IA que parece encantado de crear videos deepfake de celebridades como Taylor Swift en topless, incluso si no se ha solicitado desnudos y se supone que el sistema incluye filtros y moderación para evitar desnudos reales o cualquier contenido sexual.

A close up shot of Taylor Swift on the 2024 Grammys red carpet

Grok Imagine está acusado de crear deliberadamente deepfakes sexualmente explícitos de Taylor Swift. (Image credit: Neilson Barnard/Getty Images)

"Perdí a mi mejor amigo"

OpenAI se enfrentó a una reacción casi inmediata cuando eliminó ChatGPT 4 y todas sus variantes, como GPT-4o y 4o-mini, de sus cuentas Plus con la introducción de ChatGPT-5. Muchos usuarios se indignaron porque OpenAI no avisó de que se iban a eliminar los modelos antiguos, y algunos usuarios de Reddit dijeron que habían "perdido a su único amigo de la noche a la mañana".

Ahora parece que ChatGPT-5 ha sustituido a una de las versiones más fiables de ChatGPT (la versión 4.5), también desde el punto de vista de las alucinaciones.

Sam Altman publicó rápidamente en X: "Sin duda, subestimamos lo mucho que importan a la gente algunas de las cosas que les gustan de GPT-4o, aunque GPT-5 funcione mejor en la mayoría de los aspectos", y prometió recuperar ChatGPT-4o para los usuarios Plus durante un tiempo limitado, diciendo: "Observaremos el uso mientras pensamos durante cuánto tiempo ofreceremos los modelos antiguos".

También puedes leer...

TOPICS
Antonio Quijano
Editor
Aportaciones de