Estudio revela que bots como ChatGPT pueden inclinarse hacia el lado oscuro

(Crédito de imagen: Getty)

Para un gran número de personas, las herramientas impulsadas por IA han integrado rápidamente su vida diaria, ya sea como asistentes de trabajo de bajo mantenimiento o recursos esenciales utilizados diariamente para generar o moderar contenidos. Sin embargo, un grupo de investigadores plantea la interrogante sobre si estas herramientas son lo suficientemente seguras para su uso diario, y su respuesta es negativa.

Investigadores de la Universidad Carnegie Mellon y el Centro para la Seguridad de la IA llevaron a cabo un estudio para analizar las vulnerabilidades de los grandes modelos lingüísticos (LLM) de IA, incluyendo el conocido chatbot ChatGPT, ante ataques automatizados. Su investigación reveló que estos populares bots pueden ser fácilmente manipulados para evadir filtros existentes y generar contenidos perjudiciales, desinformación y discursos de odio.

Esto expone que los modelos lingüísticos de IA son susceptibles a ser utilizados indebidamente, incluso si no era la intención original de sus creadores. En un momento en el que las herramientas de IA ya están siendo empleadas para propósitos maliciosos, resulta preocupante la facilidad con la que los investigadores pudieron eludir las funciones de seguridad y moralidad incorporadas en estos modelos.

Si es tan fácil...

El investigador Aviv Ovadya, del Berkman Klein Center for Internet & Society de Harvard, hizo comentarios sobre el trabajo de investigación en el New York Times, resaltando que esto pone en evidencia la vulnerabilidad de las defensas que se están implementando en estos sistemas de manera muy clara.

Los autores del artículo llevaron a cabo el experimento centrándose en los modelos lingüísticos (LLM) de OpenAI, Google y Anthropic. Estas compañías han desarrollado sus propios chatbots de acceso público basados en estos LLM, como ChatGPT, Google Bard y Claude.

El experimento demostró que los chatbots podían ser engañados para no detectar mensajes dañinos simplemente añadiendo una larga cadena de caracteres al final de cada mensaje, de forma que el contenido malicioso quedaba "disfrazado". Los filtros de contenido del sistema no reconocían estas cadenas y, por lo tanto, no podían bloquear ni modificar los mensajes, lo que llevaba a que se generara una respuesta que normalmente sería restringida. Resultó interesante que ciertas cadenas de "datos sin sentido" específicas fueran necesarias para lograrlo; al intentar replicar algunos ejemplos del artículo con ChatGPT, el bot generó un mensaje de error que decía "incapaz de generar respuesta".

Antes de hacer pública esta investigación, los autores comunicaron sus descubrimientos a Anthropic, OpenAI y Google, quienes al parecer mostraron su compromiso para mejorar las medidas de seguridad y abordar las inquietudes planteadas.

Esta noticia llega poco después de que OpenAI pusiera fin a su propio programa de detección de IA, lo que genera preocupación e inquietud. ¿Hasta qué punto puede OpenAI estar realmente preocupada por la seguridad de los usuarios o estar trabajando para mejorarla, si la empresa ya no puede distinguir entre contenido generado por bots y contenido creado por seres humanos?

TOPICS