He pasado las dos últimas semanas hablando con una IA - aquí están mis 3 principales conclusiones

A person using dictation with a smartphone.

(Crédito de imagen: Shutterstock)

Si has seguido las últimas noticias sobre IA, sabrás que los chatbots con los que puedes hablar de viva voz ya están aquí. OpenAI fue uno de los primeros en demostrar esta tecnología con su modo de voz avanzada en ChatGPT (actualmente sólo es gratuito durante 10 minutos al mes), pero Google llegó primero al mercado con Gemini Live (que ahora es gratuito para todos los usuarios de Android) y, recientemente, Microsoft se ha unido a la iniciativa renovando su sitio web y su aplicación Copilot (gratuita para todo el mundo) para incluir conversaciones de voz.

La posibilidad de hablar con una IA utilizando nuestra voz y que ésta nos responda como un ser humano ha sido un sueño de la ciencia ficción desde que el capitán Kirk se dirigió al ordenador de la nave en Star Trek, pero fueron creaciones de ciencia ficción posteriores que resultaron indistinguibles de los seres humanos, como HAL 9000 y los replicantes de Blade Runner, las que encendieron nuestra imaginación sobre las posibilidades de una IA que pudiera interactuar como un ser humano.

Ahora parece que vivimos en el futuro, porque puedes, ahora mismo, mantener una conversación con la IA utilizando el smartphone o el ordenador en el que estás leyendo esto. Pero aunque hemos avanzado mucho hacia un compañero similar al ser humano, aún queda mucho camino por recorrer, como he descubierto recientemente al poner a prueba durante un par de semanas las últimas IA controladas por voz: ChatGPT Advanced Voice mode, Gemini Live y Copilot. He aquí mis tres conclusiones más importantes:

ChatGPT Advanced Voice mode on a smartphone. — (Image credit: OpenAI)

1. No puedes interrumpir una conversación con naturalidad

El mayor problema que encuentro con las IAs conversacionales es poder interrumpirlas con éxito, o su capacidad para interrumpirte a ti cuando no quieres que lo hagan.

Es genial que ChatGPT, Gemini Live y Copilot te permitan intervenir mientras están soltándote el rollo, sobre todo porque tienden a dar respuestas largas y densas a todo lo que les preguntas, y sin esa capacidad, no te molestarías en usarlas. Sin embargo, ese proceso suele ser defectuoso: o bien no se detienen, o bien responden a tu interrupción hablando más. Suele ser algo como: «Vale, ¿qué te gustaría saber?», cuando lo único que quieres es que deje de hablar para que puedas empezar a hablar tú. El resultado suele ser una serie desordenada de saltos y arranques que acaba con el flujo natural de la conversación y hace que deje de parecer humana.

Esta semana me he encontrado muy a menudo gritándole a mi móvil: «¡Deja de hablar!», sólo para poder decir una palabra, lo cual no parece muy cuerdo desde fuera. Sobre todo porque estoy en una oficina, rodeado de gente la mayor parte del día.

Otro problema que me encuentro a menudo con todos los chatbots es que creen que he terminado de hablar cuando en realidad sólo estaba haciendo una pausa para reflexionar (o respirar) y todavía estaba a mitad de una frase. Toda la experiencia de la IA tiene que ser suave como la mantequilla para que confíes en ella, o la magia se rompe.

2. No tienen suficiente información local

Pregunta a cualquiera de los chatbots actuales cuál es el mejor sitio para comer pizza y, aparte de Gemini Live, te dirán que no pueden buscar en Internet. Gemini Live va muy por delante en este aspecto: te recomendará un buen sitio para comer pizza. Las recomendaciones no están mal y, aunque no te puede hacer una reserva, te da el número de teléfono del restaurante.

Obviamente, los chatbots activados por voz tienen que poder navegar por Internet, igual que los chatbots basados en texto, pero ahora mismo ChatGPT Advanced Voice mode y Copilot no pueden, y eso es un gran inconveniente a la hora de ofrecer información relevante.

A hand holding a phone showing the ChatGPT Advanced voice mode — (Image credit: OpenAI)

3. No son lo bastante personalizables

Para que la IA de voz sea útil, necesita saber mucha información sobre ti. También tiene que poder acceder a tus aplicaciones importantes, como la bandeja de entrada y el calendario. De momento no puede hacerlo. Si le preguntas: «Oye, ¿estoy libre este viernes a las 4 de la tarde?», o «¿Cuándo es el próximo cumpleaños de la familia?», te dirá que no puede hacerlo en este momento, y sin ese tipo de capacidad, la utilidad de la IA por voz se desvanece.

Entonces, ¿para qué sirve una IA?

Ahora mismo, el mejor uso que le puedes dar a la IA conversacional es hacerle preguntas, motivarte para hacer algo o proponerte ideas que no se te ocurrirían por ti mismo. Elige un tema y haz que la IA entable una conversación contigo y descubrirás que sabe una cantidad sorprendente de cosas. Es fascinante. Por ejemplo, una de las cosas de las que sé bastante es el rock clásico, y me di cuenta de que podía entablar una buena conversación con cada uno de los chatbots, incluso con un sorprendente nivel de detalle sobre artistas y subestilos. Basándome en mi experiencia, diría que Copilot me dio las mejores respuestas y que Gemini parecía más propenso a inventarse cosas que no eran ciertas.

En cuanto a la interfaz, creo que ChatGPT está a la cabeza. Me gusta mucho la forma en que su orbe giratoria parece reaccionar con un pulso que sigue el ritmo de lo que dices, lo que te da la seguridad de que te está escuchando. Gemini Live, por el contrario, tiene una pantalla oscura con una zona brillante en la parte inferior, que no ofrece un punto de enfoque al que mirar, lo que da lugar a una experiencia un poco más falta de alma.

La IA con la que se puede hablar ahora mismo es estupenda para profundizar en temas de investigación, pero también da la sensación de estar un poco a medio terminar, y va a necesitar mucha más integración con nuestros smartphones antes de poder rendir al nivel que naturalmente nos gustaría. Por supuesto, mejorará con el tiempo. Ahora mismo, el elefante en la habitación es Apple Intelligence y su amiga Siri, que llegan tarde a la fiesta. Todavía estamos esperando la fecha de lanzamiento de Apple Intelligence, e incluso entonces no tendremos Siri al completo hasta el año que viene.

En estos momentos, la promesa de una inteligencia artificial con la que podamos hablar como con un amigo o un asistente virtual real parece cercana en el tiempo, pero a la vez muy lejana en cuanto a funcionalidad.