YouTube podría contar próximamente con un traductor en tiempo real

An image from the Google I/O 2023 event about the universal translator
(Crédito de imagen: Google IO)

La perfecta integración de las capacidades de IA de PaLM 2 en todo el ecosistema de Google, incluido Bard, ha sido uno de los temas principales del evento Google I/O 2023. Aunque Google cree que hay algunas funciones que deberían mejorarse antes de ser lanzadas.

Durante la keynote de Google I/O, el vicepresidente senior de tecnología y sociedad de la compañía, James Manyika, mostró su preocupación por las posibles tensiones entre la desinformación y algunas capacidades de la IA, concretamente la tecnología que está detrás de los deep fakes.

A lo que se refiere es a los modelos lingüísticos que utilizan los deepfakes para doblar voces en los vídeos: ya sabes, cuando el monólogo de un actor famoso de uno de los mejores programas de televisión o de una de las mejores películas se cambia de repente por una voz sintética que altera lo que decía el guión original.

Dado que Google ve la posibilidad de que gente malintencionada haga un uso indebido de esta tecnología, está tomando algunas medidas para establecer lo que denomina "barandillas". Para evitar el uso indebido de algunas de estas nuevas funciones, la empresa está integrando artefactos en fotos y vídeos, como marcas de agua y metadatos.

Una nueva herramienta que será muy útil y beneficiosa, pero de la que fácilmente se podría hacer un mal uso, es un prototipo que Google está poniendo a disposición de un número determinado de socios, llamado "traductor universal".

Una imagen del evento Google I/O 2023 sobre el traductor universal

(Image credit: Google)

El traductor universal de Google es un servicio experimental de doblaje de vídeo con IA que traduce el habla en tiempo real, lo que permite ver y leer al instante lo que alguien dice en otro idioma mientras se ve un vídeo.

El prototipo se presentó durante el evento a través de vídeos de una prueba que formaba parte de un curso universitario en línea creado en colaboración con la Universidad Estatal de Arizona. Google afirma que los primeros resultados han sido prometedores, ya que los estudiantes universitarios del estudio mostraron un mayor número de finalizaciones del curso.

El modelo funciona en cuatro etapas. En la primera, el modelo compara los movimientos de los labios en un vídeo con las palabras que reconoce. En la segunda, un algoritmo genera el habla al instante. La tercera fase del modelo utiliza la entonación, que mide el aumento y la disminución del ritmo natural del habla, para facilitar la traducción. Por último, una vez que ha reproducido el estilo y ajustado el tono a los movimientos de los labios del hablante, lo combina todo para generar la traducción.

¿Dónde se podrá usar el traductor universal?

Aunque la función de traductor universal aún no está disponible fuera de un pequeño grupo de pruebas, es posible que una vez que Google lo haya probado a fondo y haya pulido los resultados, la extienda a servicios como YouTube y su servicio de videoconferencia Google Meet, por ejemplo.

Al fin y al cabo, poder traducir vídeos en directo en tiempo real a varios idiomas podría ser una herramienta increíblemente útil. Un traductor universal no sólo aumentaría la audiencia mundial de un canal de YouTube, sino que también permitiría llevar a cabo más proyectos de colaboración entre países.

Estaremos atentos para conocer más detalles sobre esta función y sus posibles aplicaciones en el ecosistema de Google.

¿Quieres saber más sobre las principales novedades de Google I/O? Aquí abajo tienes más artículos sobre lo que vimos en el evento.

Antonio Romero

Editor en TechRadar España de día, guitarrista de blues y friki de los cómics de noche. ¿O era al revés?

Aportaciones de