Skip to main content

Nvidia presenta la próxima generación de videollamadas

Videollamada
(Crédito de imagen: Shutterstock)

El fabricante de GPUs Nvidia ha lanzado una demostración de un nuevo sistema de inteligencia artificial que puede crear un avatar de videollamada a partir de una sola imagen fija. 

Anunciado en diciembre del 2020, Vid2Vid Cameo es un modelo de aprendizaje profundo construido sobre un conjunto de datos de 180.000 vídeos. Utiliza redes generativas de confrontación (GAN) para animar imágenes en 2D utilizando la entrada de vídeo en vivo y también puede reorientar el sujeto del vídeo para que la persona parezca estar hablando directamente a la cámara. 

El sistema requiere dos entradas: una imagen de origen (que puede ser una foto real o un avatar) y una cámara web en vivo. Durante una videollamada, Vid2Vid Cameo mapea los movimientos y expresiones de la persona en la imagen introducida.

Como explica Nvidia en una publicación de blog, esto significa que alguien podría asistir a una reunión importante en pijama y con pelo de recién levantado y, sin embargo, parecer que lleva un atuendo "apropiado para el trabajo".

Videoconferencias mejoradas por IA

Según Nvidia, Vid2Vid Cameo también ayudará a abordar uno de los problemas más frustrantes  a los que la gente se ha enfrentado durante la pandemia: las emisiones de vídeo entrecortadas y de baja resolución. 

Aunque el gran experimento del teletrabajo ha resultado en gran medida como un éxito, problemas como estos han restado valor a la capacidad de comunicarse con la misma eficacia que en persona. 

Sin embargo, Vid2Vid Cameo utiliza técnicas de compresión de vídeo para reducir drásticamente los requisitos de ancho de banda, lo que debería significar que las reuniones pueden funcionar sin problemas independientemente de la calidad de la conexión. 

Bajo este sistema, en lugar de enviar grandes flujos de vídeo entre los participantes, solo se deben enviar datos de audio e información relacionada con el movimiento facial. Luego, estos datos se sintetizan en el vídeo que aparece al receptor. 

"Muchas personas tienen un ancho de banda de internet limitado, pero aun así quieren poder hacer videollamadas fluidas con amigos y familiares", dijo Ming-Yu Liu, investigador de Nvidia y coautor del proyecto. 

Y no solo los teletrabajadores se beneficiarán; Liu dice que la tecnología también podría tener un impacto en varias industrias creativas, como la animación, la edición de fotografía y el desarrollo de juegos. 

Las capacidades de Vid2Vid Cameo pronto serán implementadas a Nvidia Maxine SDK, una plataforma gratuita que ayuda a los desarrolladores a optimizar vídeos y transmisiones en vivo usando una serie de modelos de inteligencia artificial.