ChatGPT y Google Gemini son lo peor a la hora de resumir noticias, según un nuevo estudio

ChatGPT
(Crédito de imagen: Shutterstock / Primakov)

  • Un nuevo estudio de la BBC afirma que los chatbots de IA son incapaces de resumir con precisión las noticias
  • En el estudio se pidió a ChatGPT, Gemini, Copilot y Perplexity que resumieran artículos de noticias de la BBC.
  • El 51% de las respuestas presentaba «problemas significativos» y el 19% introducía errores factuales

Un nuevo estudio de la BBC ha descubierto que cuatro de los chatbots de inteligencia artificial más populares del mundo, incluido ChatGPT, resumen incorrectamente las noticias.

La BBC pidió a ChatGPT, Copilot, Gemini y Perplexity que resumieran 100 noticias del canal de noticias y, a continuación, calificó cada respuesta para determinar el grado de precisión de las respuestas de la IA.

El estudio descubrió que «el 51% de todas las respuestas de IA a preguntas sobre las noticias presentaban algún tipo de problema significativo» y «el 19% de las respuestas de IA que citaban contenidos de la BBC introducían errores fácticos, como afirmaciones incorrectas, números y fechas».

El estudio presenta múltiples ejemplos de inexactitudes que mostraban información diferente a las noticias que resumían. Los ejemplos señalan que «Gemini dijo incorrectamente que el NHS no recomendaba el vapeo como ayuda para dejar de fumar» y «ChatGPT y Copilot dijeron que Rishi Sunak y Nicola Sturgeon seguían en el cargo incluso después de haberlo abandonado».

Inexactitudes aparte, hay otro hallazgo crucial. Según el informe, la IA «tenía dificultades para diferenciar entre opinión y hechos, editorializaba y a menudo no incluía el contexto esencial».

Si bien estos resultados no son sorprendentes teniendo en cuenta la frecuencia con la que vemos problemas con las herramientas de resumen de noticias en este momento, incluidas las confusiones de Apple Intelligence que han llevado a Apple a eliminar temporalmente la función en iOS 18.3, es un buen recordatorio para no creer todo lo que lees de la IA.

¿Sorprendido?

Del estudio, la BBC concluye que «Copilot de Microsoft y Gemini de Google tuvieron problemas más significativos que ChatGPT y Perplexity de OpenAI».

Aunque esta investigación no nos aporta necesariamente mucha más información, valida el escepticismo hacia las herramientas de resumen de IA y subraya lo importante que es tomar la información de los chatbots de IA con pinzas. La IA se está desarrollando rápidamente y actualmente se publican grandes modelos lingüísticos (LLM) casi semanalmente, por lo que es de esperar que se produzcan errores. Dicho esto, en mis pruebas personales he comprobado que las imprecisiones y las alucinaciones son menos frecuentes ahora en software como ChatGPT que hace sólo unos meses.

Sam Altman dijo ayer en un blog que la IA avanza más rápido que la ley de Moore y eso significa que seguiremos viendo mejoras constantes en el software y en cómo interactúa con el mundo que le rodea. Por ahora, sin embargo, probablemente sea mejor no confiar en la IA para las noticias diarias, y si se trata de tecnología, mejor venir a TechRadar.

Más para ti...

Antonio Romero

Editor en TechRadar España de día, guitarrista de blues y friki de los cómics de noche. ¿O era al revés?

Aportaciones de