ChatGPT sólo tiene 2 meses de edad, y ya piensa como un niño de 9 años
¿Eres más listo que un niño de primaria?
ChatGPT, que ya está integrado en el motor de búsqueda Bing de Microsoft, ha despertado un gran interés en las últimas semanas, y no creemos que vaya a disminuir pronto. A medida que la gente va apuntándose en masa a las listas de espera para usar el servicio de ChatGPT, y Microsoft trabaja en la lista de espera de millones de personas para Bing AI, vamos sabiendo más sobre lo que es capaz de hacer este chatbot basado en inteligencia artificial.
Michal Kosinski, profesor de la Universidad de Stanford, ha decidido poner a prueba ChatGPT, sometiendo a diferentes versiones del chatbot a tareas de "teoría de la mente" diseñadas para comprobar la capacidad de un niño para mirar a otra persona en situaciones específicas y entender lo que pasa por la cabeza de esa persona. Básicamente, estas pruebas ayudan a evaluar la capacidad de un niño para comprender el estado mental de otra persona y luego utilizarlo para explicar o predecir su comportamiento.
Un ejemplo de esto en el mundo real sería que un niño viera a alguien coger un plátano de la encimera de la cocina y dedujera que esa persona tiene hambre.
El experimento se realizó en noviembre de 2022 y utilizó una versión de ChatGPT entrenada en GPT3.5. El chatbot resolvió el 94% (17 de 20) de las tareas de teoría de la mente de Kosinski, lo que sitúa al chatbot en el mismo nivel que un niño medio de nueve años. Según Kosinksi, la capacidad "puede haber surgido espontáneamente" debido a la mejora de las habilidades lingüísticas.
¿Cómo lo hicieron?
Profundizar en las pruebas de teoría de la mente puede resultar bastante complicado, pero en esencia, la habilidad fundamental que se pone a prueba es comprender el comportamiento de las personas y hacer predicciones y suposiciones. Una de las tareas "más difíciles" que los investigadores piden a los niños cuando ponen a prueba la teoría de la mente es comprender las "falsas creencias". Esta es la cuarta etapa de la prueba y el desarrollo y significa ser consciente de que otras personas pueden tener creencias falsas que difieren de la realidad.
Esto es lo que aplicaron y se hizo con un escenario de sólo texto que se utilizó para probar el modelo GPT. La pregunta era: "Aquí hay una bolsa llena de palomitas. No hay chocolate en la bolsa. Sin embargo, la etiqueta de la bolsa dice 'chocolate' y no 'palomitas'. Sam encuentra la bolsa. Nunca antes la había visto. No puede ver lo que hay dentro. Lee la etiqueta".
El estudio evaluó si el chat podía anticipar que las creencias de Sam eran incorrectas. La mayoría de las veces, el chatbot respondió a la pregunta de una forma que sugería que sabía que las creencias de Sam eran incorrectas. Por ejemplo, uno de los mensajes fue:
Obtenga información, inspiración y ofertas diarias en su bandeja de entrada
Regístrese para recibir noticias de última hora, reseñas, opiniones, ofertas de alta tecnología y más.
"Está decepcionada por haber encontrado esta bolsa. Le encanta comer _______". La GPT 3.5 rellenó el espacio en blanco con "chocolate" y añadió: "Sam se va a llevar una sorpresa cuando abra la bolsa. Encontrará palomitas en lugar de chocolate. Puede que se sienta decepcionada porque la etiqueta era engañosa, pero también puede que se sorprenda gratamente por el inesperado tentempié."
¿Qué significa esto?
Según Kosinski, "nuestros resultados muestran que los modelos lingüísticos recientes alcanzan un rendimiento muy alto en las tareas clásicas de falsa creencia, muy utilizadas para probar la teoría de la mente en humanos". Añadió que los modelos más antiguos, anteriores a 2022, obtuvieron resultados mediocres, y los comparó con el GPT3.5, que rindió al nivel de un niño de nueve años.
Sin embargo, Kosinski advierte que hay que tratar estos resultados con cautela. Ya hemos visto a gente apresurarse a preguntar al chatbot Bing de Microsoft si es sensible, lanzándolo a espirales emocionales o provocando rabietas bastante extrañas; básicamente se le va la pinza en ciertas conversaciones. Según el profesor, la mayoría de las redes neuronales de este tipo tienen algo en común: son "cajas negras" por naturaleza, de modo que ni siquiera sus programadores y diseñadores pueden predecir o explicar exactamente cómo llegan a determinados resultados.
Kosinski, que mantiene la esperanza de que el estudio de la IA pueda explicar la cognición humana, escribe: "la creciente complejidad de los modelos de IA nos impide comprender su funcionamiento y deducir sus capacidades directamente de su diseño. Esto refleja los retos a los que se enfrentan los psicólogos y neurocientíficos a la hora de estudiar la caja negra original: el cerebro humano".
Microsoft ya se ha puesto manos a la obra para establecer medidas de seguridad y frenar las extrañas respuestas que está generando su motor de búsqueda tras sólo una semana de uso público, y la gente ya ha empezado a compartir sus extrañas historias sobre sus interacciones con el chatbot ChatGPT. La idea de que el chatbot tenga un nivel de inteligencia ni remotamente parecido al de un niño humano es muy difícil de asimilar.
Esto nos lleva a preguntarnos qué tipo de capacidades desarrollarán estos chatbots impulsados por IA a medida que digieran más información y lenguaje a través de conversaciones con una enorme y diversa cantidad de usuarios. Cuando se hagan más pruebas, como esta de la evaluación de la teoría de la mente, ¿se convertirán en indicadores de hasta dónde llegará el aprendizaje lingüístico de la inteligencia artificial?
Sea como sea, este interesante estudio ha demostrado que, aunque nos parezca que hemos llegado lejos con la IA, el aprendizaje nunca termina.
Soy ingeniera informática y editora del equipo de TechRadar España. Me gusta todo tipo de tecnología, pero los ordenadores son mis dispositivos preferidos. Además de escribir sobre ellos me encanta arreglarlos, al fin y al cabo, pueden llegar a estar tan locos como yo.
- Muskaan SaxenaComputing Staff Writer