El nuevo sintetizador de voz de OpenAI puede copiar tu voz a partir de 15 segundos

The latest OpenAI tool is Voice Engine (Crédito de imagen: Shutterstock.com / rafapress)

Primero, OpenAI sorprendió al mundo con su chatbot de IA generativa ChatGPT, luego con su creador de video de IA Sora, pero parece que no será todo, ahora tiene una nueva herramienta: Voice Engine, la cual puede generar voces sintéticas a partir de sólo 15 segundos de audio.

En una entrada de blog (vía The Verge), OpenAI afirma que ha estado ejecutando "una vista previa a pequeña escala" de Voice Engine, que lleva en desarrollo desde finales de 2022. De hecho, ya se está utilizando en la función Read Aloud de la aplicación ChatGPT, que (como su nombre indica) te lee las respuestas.

Una vez que has entrenado la voz a partir de una muestra de 15 segundos, puedes hacer que te lea el texto que quieras, de forma "emotiva y realista". OpenAI afirma que podría utilizarse con fines educativos, para traducir podcasts a nuevos idiomas, para llegar a comunidades remotas y para ayudar a personas que no hablan.

No es algo que todo el mundo pueda utilizar ahora mismo, pero puedes ir a escuchar las muestras creadas por Voice Engine. Los clips publicados por OpenAI suenan bastante bien, aunque tienen un ligero toque robótico y rebuscado.

La seguridad es primero

ChatGPT Android app — Voice Engine is already used in ChatGPT's Read Aloud feature (Image credit: OpenAI)

La preocupación por el uso indebido es la principal razón por la que Voice Engine sólo está en una versión preliminar limitada por ahora: OpenAI afirma que quiere investigar más a fondo cómo proteger herramientas como ésta para que no se utilicen para difundir información errónea y copiar voces sin consentimiento.

"Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y sobre cómo la sociedad puede adaptarse a estas nuevas capacidades", afirma OpenAI. "Basándonos en estas conversaciones y en los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a escala y cómo hacerlo".

Con las importantes elecciones que se celebrarán este año tanto en Estados Unidos como en el Reino Unido, y las herramientas de IA generativa cada vez más avanzadas, preocupa todo tipo de contenido de IA -audio, texto y vídeo- y cada vez es más difícil saber en qué confiar.

Como señala la propia OpenAI, esto puede causar problemas con las medidas de autenticación de voz y estafas en las que no sepas con quién estás hablando por teléfono o quién te ha dejado un mensaje de voz. No son problemas fáciles de resolver, pero tendremos que encontrar la manera de solucionarlos.