Intente recrear recuerdos con Veo 3 y me ha ido mejor de lo que pensaba, con una gran excepción

Veo 3-generated image based on Lance Ulanoff prompt
(Crédito de imagen: Veo 3)

¿Eres de los que duda mucho de las capacidades de la IA en tareas de creación de video? Tal vez te de la razón.

Así que si alguien te ofrece hacer una recreación en vídeo con IA de tu boda, simplemente di que no. Esta es la dura lección que aprendí cuando empecé a intentar recrear recuerdos con el modelo Gemini Veo de Google. Lo que empezó como un ejercicio divertido acabó en disgusto.

Cuando me casé en 1991, ni siquiera teníamos un videógrafo (sobre todo por cuestión de costes), así que el registro de esa fecha está enteramente en fotos analógicas.

Sin embargo, tengo una memoria decente y me preguntaba si podría combinarla con un poco de magia de la IA para dar vida a esos momentos.

Máquina de memoria ("recuerdos")

Hace poco me apunté a la prueba de tres meses de Google Vertex AI Studio, que incluye acceso a 300 créditos Veo. Veo 3 es el extraordinario modelo Gemini que puede producir audio y vídeo sincronizados con una sola indicación.

Para mi prueba, elegí un par de momentos memorables de los comienzos de mi carrera y de mis 20 años en Manhattan. Son historias 100% reales que me sucedieron, pero de las que no tengo ningún registro visual.

Para la primera, describí a un hombre joven, delgado, con gafas y pelo rizado (sí, una vez tuve toda la cabeza rizada) que conoció a un famoso cómico ganador de un premio Tony en Times Square, en Broadway. El cómico era Jackie Mason (pregunta a tus abuelos), y yo quería su autógrafo. Se detuvo, pero mientras le hablaba e inexplicablemente empezaba a hacerme preguntas sobre qué televisor comprar, una paloma se cagó en mi cabeza. Mason no se dio cuenta, mantuve la compostura y contesté.

Para la pregunta, pinté la escena a grandes rasgos, describiendo mi atuendo de negocios, el año -1989- y el aspecto de Mason con su pelo rizado y su "cara de querubín". Incluí el trozo de diálogo que recordaba y la acción de tocarme la cabeza y darme cuenta de lo que había pasado. Luego le di a Veo 3 el mensaje.

Unos minutos más tarde, tenía una recreación decente de la escena, completa con la paloma. El tipo no se parecía mucho a mí, y el personaje de Jackie Mason sólo tiene un parecido pasajero con el otrora cómico.

Aun así, me animé y busqué en mi memoria otro momento memorable de mis 20 años.

Me decidí por la vez que intenté impresionar a mi primer jefe con mis habilidades técnicas. Su impresora láser (sí, niños, existían en los ochenta) se estaba quedando sin tóner, pero recordé que se podía alargar la vida de un cartucho sacándolo de la impresora y agitándolo. Así que eso fue lo que hice, pero el panel del cartucho estaba atascado y procedí a rociarme a mí mismo y a la oficina con tóner negro ante la mirada atónita de mi jefe.

En mi mensaje, describí la escena, incluidas las paredes de paneles de madera de la oficina de 1986, e incluí una breve descripción de mí mismo y de mi jefe, calvo y de mediana edad, que estaba sentado en su mesa. El diálogo incluía mi explicación de lo que podía hacer, un "lo siento" y la risa bonachona de mi jefe.

Esta vez los resultados fueron aún mejores. Aunque ninguno de los personajes se parecía a sus homólogos en el mundo real, la impresora, la mesa y la oficina se asemejaban inquietantemente a mi memoria, y el momento en que el tóner se fue por todas partes estaba muy bien hecho.

Si pudiera abrir mi cerebro y mostrar a la gente mi recuerdo de ese momento, se parecería un poco a esto. Impresionante.

Una unión demasiado lejana

Imaginando toda una vida de recuerdos reconstruidos con IA, me devané los sesos en busca de otro recuerdo esencial. Entonces me di cuenta: mi boda.

Siempre nos ha molestado, sobre todo a mi mujer, no tener un vídeo de boda. ¿Y si pudiera crear uno con IA (lo sé, lo sé, la prefiguración es demasiado pesada)?

No bastaría con describir una boda en Veo 3 y obtener un vídeo de boda con IA en el que aparecieran personas que no se parecían en nada a nosotros. Pero también sabía que se podía guiar a una IA con material de partida. Tengo muchas fotos de bodas de hace 34 años. Cogí una imagen escaneada de una en la que aparecíamos mi mujer y yo poco después de la ceremonia, caminando cogidos de la mano hacia el altar. Me gustó la imagen, no sólo porque estábamos claramente representados, sino también porque aparecían algunos de nuestros invitados.

Esto es peor que falsos recuerdos; es una distorsión activa de uno de los momentos más importantes de mi vida.

Con la esperanza de crear el tan ansiado montaje de boda (de tan sólo ocho segundos de duración), elaboré este encargo.

"Necesito un montaje de vídeo de boda basado en esta foto de boda. El vídeo debe tener el aspecto de haber sido grabado en una cinta VHS de calidad HD e incluir 2 segundos de la ceremonia, 2 segundos de todo el mundo bailando, un segundo del novio dando de comer a la novia la tarta nupcial, un segundo de la novia lanzando el ramo, un segundo de los recién casados marchándose en limusina mientras todos se despiden con la mano".

Ambicioso, lo sé, pero pensé que si le daba al modelo detalles sobre la duración de la escena, podría apretujarlo todo.

Al instante, me topé con un obstáculo; mi Veo 3 Trial no me permitía incluir una imagen de origen. Si quería empezar con una foto, tendría que volver a Veo 2, lo que también significaba que perdería el audio. Sin embargo, eso no sería un gran problema, ya que, como se describe en el mensaje, no hay mucho diálogo.

Veo 2 tardó unos minutos más en escupir unos cuantos vídeos. Todos empiezan con la imagen de base, pero para decirlo claramente, están muy, muy mal.

En cada video, el hilo de la coherencia se rompe casi al instante, y mi esposa y yo nos transformamos en otras personas. En un momento, estoy bailando mientras sostengo un pastel, y en otro, mi esposa no sabe cómo soltar el ramo que se supone debe lanzar. Nos damos de comer pastel de manera torpe y más o menos bailamos juntos.

El video es aterrador porque se ve más o menos correcto, pero también muy incorrecto. Es peor que tener recuerdos falsos; es una distorsión activa de uno de los momentos más importantes de mi vida. Le mostré los videos a mi esposa, quien quedó horrorizada y me dijo que le causarían pesadillas.

Era difícil no estar de acuerdo, pero le recordé que los modelos mejorarían y que en el futuro el resultado sería mejor. Ella no se inmutó y me miró como si hubiera vendido a uno de nuestros hijos.

Lo que hice no es diferente de las personas que reaniman fotos de parientes fallecidos con MyHeritage. No importa con qué imagen comience, todo lo que pasa después de ese primer milisegundo es falso, o peor aún, es una corrupción de la memoria. Si pasaste tiempo con esa persona cuando estaba viva, ese es el recuerdo verdadero. Una creación de IA es conjetura, y aunque sea buena, también es falsa. Nunca se movieron exactamente así en ese momento específico.

En el caso de mis recuerdos de boda, me doy cuenta de que es mejor dejarlos en el proyector mental de mi materia gris.

En cuanto a las creaciones de Veo 3 sobre mis otros recuerdos, no hay una imagen base que corromper. La IA no está recreando mis recuerdos tanto como se ha convertido en una herramienta de narración, una forma más de ilustrar una anécdota graciosa. Ese no soy yo, ese hombre no es mi antiguo jefe, y ese no es Jackie Mason, pero se entiende la idea de las historias. Y para eso, la IA cumple su propósito.

También puedes leer...

TOPICS
Antonio Quijano
Editor
Aportaciones de