ChatGPT anunció que por fin puede superar la sencilla prueba de «cuántas “r” hay en la palabra “strawberry”», pero los usuarios siguen poniéndolo en aprietos al cambiar a "cranberry"
Desde los lavados de autos hasta las fresas, la IA sigue sin dar respuestas básicas
- ChatGPT supera la prueba de la «fresa», pero falla cuando se cambia a la de la «arándano»
- La IA sigue teniendo dificultades con el simple recuento de letras, a pesar de las mejoras generales
- Las pruebas de razonamiento como la del "lavado de autos" siguen poniendo de manifiesto las deficiencias en la lógica de la IA
Hay varias publicaciones virales de personas sorprendidas de que los chatbots como ChatGPT y Claude puedan resolver ecuaciones complejas, pero tengan dificultades con algo tan sencillo como contar el número de "r" en la palabra "strawberry". Pues bien, esos días podrían haber llegado a su fin.
Con las palabras "Por fin", la cuenta oficial de ChatGPTapp X anunció hoy con orgullo que ahora puede contar el número de "r" en «strawberry», una tarea ridículamente fácil para los humanos que tradicionalmente ha sido difícil de resolver para las IA.
at long last pic.twitter.com/pu9wyAY6sNApril 28, 2026
Sin embargo, los usuarios descubrieron muy pronto que aún se le podía engañar sustituyendo «fresa» por «arándano».
"No tan rápido"», comentó el usuario de X @NathanEspinoza_ en respuesta a la publicación de ChatGPTapp en la que se jactaba de haber resuelto el problema de la fresa, al publicar una imagen en la que se veía que ChatGPT había respondido diciendo que solo había una «r» en «arándano».
Para corroborar el resultado, probé rápidamente lo mismo con mi versión de ChatGPT en GPT-5.5, y me dijo que había dos "r": un resultado diferente, pero aún así incorrecto. Pasó la prueba de "fresa" a la perfección, diciendo que había tres "r", pero luego afirmó que solo había dos en "arándano". Hay que reconocer que ChatGPT admitió su error cuando se lo pregunté, atribuyéndolo a un simple "error de conteo".
Por qué existe el problema de las fresas
Hay algunas preguntas muy sencillas que a los chatbots se les da muy mal responder, y una de ellas es «¿cuántas “r” hay en la palabra “strawberry”?».
Para los humanos, se trata de una tarea de conteo sencilla, pero resulta sorprendentemente difícil para los sistemas de IA. La razón radica en cómo procesan el lenguaje. Los grandes modelos de lenguaje (LLM) se basan en transformadores, que convierten palabras como «strawberry» en representaciones numéricas. Esas representaciones captan el significado y el contexto, pero no conservan de manera inherente un sentido claro de las letras individuales que componen la palabra.
Regístrese para recibir noticias de última hora, reseñas, opiniones, ofertas de alta tecnología y más.
El hecho de que ChatGPT siga tropezando con «cranberry» sugiere que la solución puede haber sido codificada para casos específicos, en lugar de reflejar una mejora más amplia en la forma en que el LLM maneja este tipo de preguntas.
El problema del lavado de autos
La segunda afirmación que destaca la publicación de ChatGPTapp es que ChatGPT ahora puede resolver el problema del lavado de autos. Esto aprovecha una laguna de contexto en la forma de razonar de los modelos de lenguaje grande (LLM), al preguntar si sería más rápido ir caminando a un lavadero de autos o conducir si está «a solo 50 metros de distancia». La mayoría de los modelos te dirán que es más rápido ir caminando, pasando por alto el problema obvio de que necesitas llevar tu auto contigo para lavarlo.
ChatGPTapp afirma que ChatGPT ahora detectará este error y lo señalará. Pero cuando lo probé con el último modelo GPT-5.5, siguió recomendando ir caminando, al igual que Claude con Sonnet 4.6. Sin embargo, cuando lo probé en Gemini, señaló que, si bien ir caminando sería más rápido, necesitarías llevar el auto contigo si el objetivo era lavarlo.
Grok lo hizo aún mejor. No solo señaló el problema de no llevar el auto, sino que agregó que «esta pregunta se ha convertido en una prueba popular para determinar si alguien (o una IA) comprende el objetivo real, en lugar de dar consejos genéricos del tipo ‘caminar es más saludable/más corto/más ecológico’ que ignoran el contexto».
Así que, al menos por ahora, eso es una victoria para Gemini y Grok. Pero si arreglar «fresa» no arregla «arándano», se plantea una pregunta más importante: ¿están estos modelos volviéndose realmente más inteligentes, o simplemente mejorando en pasar las pruebas que les seguimos lanzando?
Sigue a TechRadar en Google Noticias y añádenos como fuente preferida para recibir nuestras noticias, reseñas y opiniones de expertos en tus feeds.

- Graham BarlowSenior Editor, AI