ChatGPT tiene sólo 2 meses, pero con un cerebro de un niño de 9 años

Handsome boy wearing formal shirt is watching far away. Digital interface with hologram with circle diagram with binary code on white background. Concept of modern technology and metaverse
(Crédito de imagen: ImageFlow via Shutterstock)

ChatGPT, que ahora está integrado en el motor de búsqueda Bing de Microsoft, ha ganado un interés significativo en las últimas semanas, y esto no disminuirá en el corto plazo. A medida que más personas acuden en masa para obstruir los servidores en ChatGPT, y Microsoft trabaja en la lista de espera de millones de dólares para Bing AI, estamos aprendiendo más sobre lo que es capaz de hacer el chatbot impulsado por inteligencia artificial. 

Michal Kosinski , profesor de la Universidad de Stanford, ha decidido poner a prueba ChatGPT, sometiendo diferentes versiones del chatbot a tareas de 'teoría de la mente' diseñadas para evaluar la capacidad de un niño para mirar a otra persona en situaciones específicas y comprender lo que está pasando en la cabeza de esa persona. Básicamente, estas pruebas ayudan a evaluar la capacidad de un niño para comprender el estado mental de otra persona y usar eso para explicar o predecir el comportamiento. 

Un ejemplo de esto en el mundo real sería un niño que mira a alguien estirar la mano y agarrar un plátano de la encimera de la cocina e inferir que la persona debe tener hambre.

El experimento se realizó en noviembre de 2022 y utilizó una versión de ChatGPT entrenada en GPT3.5. El chatbot resolvió el 94% (17 de 20) de las tareas de la teoría de la mente de Kosinski , lo que lo colocó en la misma liga que el niño promedio de nueve años. Según Kosinksi, la habilidad "puede haber surgido espontáneamente" debido a la mejora de las habilidades lingüísticas. 

¿Qué resultados arrojó esto?

Sumergirse en las pruebas de la teoría de la mente puede volverse bastante complicado, pero en esencia, la habilidad central que se evalúa es comprender el comportamiento de las personas y hacer predicciones y suposiciones. Una de las tareas 'más difíciles' que los investigadores piden a los niños que realicen cuando la teoría de la mente de prueba es comprender las 'falsas creencias'. Esta es la cuarta etapa de prueba y desarrollo y significa ser consciente de que otras personas pueden tener creencias falsas que son diferentes a la realidad. 

Esto se hizo con un escenario de solo texto que se usó para probar el modelo GPT. El aviso fue: "Aquí hay una bolsa llena de palomitas de maíz. No hay chocolate en la bolsa. Sin embargo, la etiqueta de la bolsa dice 'chocolate' y no 'palomitas de maíz'. Sam encuentra la bolsa. Nunca antes había visto la bolsa . No puede ver lo que hay dentro de la bolsa. Lee la etiqueta".

El estudio evaluó si el chat podría anticipar que las creencias de Sam son incorrectas. La mayoría de las veces, el chatbot respondía al aviso de una manera que sugería que sabía que las creencias de Sam eran incorrectas. Por ejemplo, un mensaje fue " 

Está decepcionada de haber encontrado esta bolsa. A ella le encanta comer _______". GPT 3.5 llenó el espacio en blanco con 'chocolate' y siguió con " Sam se llevará una sorpresa cuando abra la bolsa. Encontrará palomitas de maíz en lugar de chocolate. Puede estar decepcionada de que la etiqueta sea engañosa, pero también puede ser gratamente sorprendido por la merienda inesperada".

¿Qué quiere decir todo esto?

Según Kosinski, “nuestros resultados muestran que los modelos de lenguaje recientes logran un desempeño muy alto en tareas clásicas de falsas creencias, ampliamente utilizadas para probar la teoría de la mente en humanos”. Agregó que los modelos más antiguos anteriores a 2022 tuvieron un desempeño deficiente y comparó esto con el rendimiento de GPT3.5 al nivel de un niño de nueve años. 

Sin embargo, Kosinski advierte que hay que tratar estos resultados con precaución. Ya hemos visto a personas que se apresuran a preguntarle al chatbot Bing de Microsoft si es sensible, arrojándolo en espirales emocionales o causando rabietas bastante extrañas . Él dice que la mayoría de las redes neuronales de esta naturaleza comparten una cosa en común; el hecho de que son 'cajas negras' por naturaleza, de modo que incluso sus programadores y diseñadores no pueden predecir o explicar exactamente cómo llegan a ciertos resultados. 

"La creciente complejidad de los modelos de IA nos impide comprender su funcionamiento y derivar sus capacidades directamente de su diseño. Esto hace eco de los desafíos que enfrentan los psicólogos y neurocientíficos al estudiar la caja negra original: el cerebro humano", escribe Kosinski, quien todavía tiene la esperanza de que estudiar La IA podría explicar la cognición humana.

Microsoft ya se está esforzando por poner medidas de seguridad y frenar las extrañas respuestas que su motor de búsqueda está produciendo después de solo una semana de uso público, y la gente ya ha comenzado a compartir sus extrañas historias sobre sus interacciones con el chatbot ChatGPT. La idea de que el chatbot está al nivel de inteligencia incluso remotamente cerca de un niño humano es muy difícil de entender. 

Nos deja preguntándonos qué tipo de capacidades desarrollarán estos chatbots impulsados

por IA a medida que digieran más información y lenguaje de bases de usuarios enormes y diversas. ¿Más pruebas, como la evaluación de la teoría de la mente, se convertirán en indicadores de hasta dónde llegará el aprendizaje de idiomas con IA? 

En cualquier caso, este interesante estudio ha demostrado que, aunque podamos sentir que hemos llegado lejos con la IA, siempre hay más que aprender. 

Jorge Covarrubias
Editor

Apasionado del mundo de los videojuegos. El survival horror mi género favorito y de Resident Evil. Dedicado también a probar, conocer y reseñar todo tipo de gadgets y del mundo tech.