OpenAI sorprende con su modelo Sora, de texto a video, con imágenes increíblemente realistas

Puppy made by OpenAI's Sora
(Crédito de imagen: OpenAI)

OpenAI abre nuevos caminos. El gigante de la inteligencia artificial reveló su primer modelo de conversión de texto a video llamado Sora, capaz de crear contenido sorprendentemente realista.

Nos hemos estado preguntando cuándo la compañía finalmente lanzaría su propio motor de video, ya que muchos de sus rivales, desde Stability AI hasta Google , se les han adelantado. Quizás OpenAI quería hacer las cosas bien antes de un lanzamiento adecuado. A este ritmo, la calidad de sus productos podría eclipsar a la de sus contemporáneos. Según la página oficial, Sora puede generar “escenas realistas e imaginativas” a partir de un solo mensaje de texto; al igual que otros modelos de IA de texto a video. La diferencia con este motor es la tecnología que hay detrás. 

Contenido realista

Open AI afirma que su inteligencia artificial puede comprender cómo las personas y los objetos "existen en el mundo físico". Esto le da a Sora la capacidad de crear escenas con varias personas, diferentes tipos de movimiento, expresiones faciales, texturas y objetos con una gran cantidad de detalles. Los videos generados carecen del aspecto plástico o de las formas de pesadilla que se ven en otros contenidos de IA, en su mayor parte, pero hablaremos de eso más adelante.

Sora también es multimodular. Según se informa, los usuarios podrán cargar una imagen fija que sirva como base para un video. El contenido dentro de la imagen se animará prestando mucha atención a los pequeños detalles. Incluso puede tomar un video ya existente “y ampliarlo o completar los fotogramas faltantes”. 

Puedes encontrar ejemplos de clips, en el sitio web de OpenAI y en X (la plataforma anteriormente conocida como Twitter). Uno de nuestros favoritos presenta a un grupo de cachorros jugando en la nieve. Si miras de cerca, puedes ver que su pelaje y la nieve en sus hocicos tienen una calidad sorprendentemente realista. Otro gran clip muestra una paloma con corona de Victoria moviéndose como un pájaro real.

Un trabajo que sigue en desarrollo

Por más impresionantes que puedan ser estos dos videos, Sora no es perfecto. OpenAI admite que su "modelo tiene debilidades". Puede tener dificultades para simular la física de un objeto, confundir la izquierda con la derecha y malinterpretar los "casos de causa y efecto". Puedes hacer que un personaje de IA muerda una galleta, pero la galleta carece de una marca de mordisco.

También comete muchos errores extraños. Uno de los contratiempos más divertidos involucra a un grupo de arqueólogos que desentierran un gran trozo de papel que luego se transforma en una silla antes de terminar en un trozo de plástico arrugado. La IA también parece tener problemas con las palabras. "Otter" está mal escrito como "Oter" y "Land Rover" ahora es "Danover".

En el futuro, la compañía trabajará con sus “equipos rojos”, que son un grupo de expertos de la industria “para evaluar áreas críticas en busca de daños o riesgos”. Quieren asegurarse de que Sora no genere información falsa, contenido que incite al odio ni tenga prejuicios. Además, OpenAI implementará un clasificador de texto para rechazar mensajes que violen su política. Estos incluyen entradas que solicitan contenido sexual, videos violentos y retratos de celebridades, entre otras cosas.

No se sabe cuándo se lanzará oficialmente Sora, pero los mantendremos al tanto.

Jorge Covarrubias
Editor

Apasionado del mundo de los videojuegos. El survival horror mi género favorito y de Resident Evil. Dedicado también a probar, conocer y reseñar todo tipo de gadgets y del mundo tech.