La IA generativa podría volverse más dinámica con esta actualización de Stable Diffusion

(Crédito de imagen: Stability AI)

Stability AI, la empresa desarrolladora detrás de Stable Diffusion, está presentando una nueva inteligencia artificial generativa capaz de crear videos cortos a partir de un texto descriptivo. Denominada Stable Video Diffusion, consta de dos modelos de IA (conocidos como SVD y SVD-XT) y puede crear clips con una resolución de 576 x 1,024 píxeles. Los usuarios podrán personalizar la velocidad de los fotogramas, que varía entre tres y 30 FPS. La duración de los videos depende del modelo elegido: con SVD, el contenido dura 14 fotogramas, mientras que SVD-XT lo extiende a 25 fotogramas. Sin embargo, la duración no es muy relevante, ya que los clips renderizados solo duran aproximadamente cuatro segundos, según la información oficial en Hugging Face.

La compañía publicó un video en su canal de YouTube mostrando lo que Stable Video Diffusion puede hacer y el contenido es sorprendentemente de alta calidad. Definitivamente, no son las imágenes perturbadoras que se ven en otras IA como Make-A-Video de Meta. Lo más impresionante, en nuestra opinión, es la demostración del Ice Dragon. Se puede apreciar un alto nivel de detalle en las escamas del dragón y las montañas en el fondo parecen sacadas de una pintura. La animación, como se puede imaginar, es bastante limitada, ya que el sujeto solo puede mover lentamente la cabeza. Lo mismo se observa en otras demostraciones, con ciclos de caminata rígidos o tomas de paneo lento.

En las primeras etapas

Las limitaciones de Stable Video Diffusion no terminan ahí. Según se informa, este modelo no puede "lograr un fotorealismo perfecto", tampoco puede generar "texto legible" y tiene dificultades con los rostros. Sin embargo, una demostración en el sitio web de Stability AI muestra que su modelo es capaz de renderizar el rostro de un hombre sin defectos extraños, por lo que podría depender de cada caso.

Es importante tener en cuenta que este proyecto aún está en sus etapas iniciales. Es evidente que el modelo no está listo para un lanzamiento amplio y no hay planes para hacerlo en este momento. Stability AI enfatiza que Stable Video Diffusion no está destinado "para aplicaciones comerciales o del mundo real" en la actualidad. De hecho, actualmente está "destinado solo para fines de investigación". No nos sorprende que el desarrollador sea muy cauteloso con su tecnología. Hubo un incidente el año pasado donde el modelo de Stability Diffusion se filtró en línea, lo que llevó a actores malintencionados a usarlo para crear imágenes falsas profundas (deep fakes).

Disponibilidad

Si estás interesado en probar Stable Video Diffusion, puedes inscribirte en una lista de espera completando un formulario en el sitio web de la compañía. Aún no se sabe cuándo se permitirá el acceso, pero la vista previa incluirá una interfaz de Texto a Video. Mientras tanto, puedes revisar el documento técnico de la IA y leer todos los detalles detrás del proyecto.

Algo interesante que encontramos al revisar el documento es que menciona el uso de "conjuntos de datos de video accesibles al público" como parte del material de entrenamiento. No es sorprendente escuchar esto, considerando que Getty Images demandó a Stability AI por acusaciones de raspado de datos a principios de este año. Parece que el equipo está esforzándose por ser más cuidadoso para no crear más enemigos.

No hay información sobre cuándo se lanzará Stable Video Diffusion.