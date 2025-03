¿Crees que eres capaz de identificar una voz generada por IA de una voz real?

Esa voz que oyes -incluso una que reconoces- podría no ser real, y puede que no tengas forma de saberlo. La síntesis de voz no es un fenómeno nuevo, pero un número creciente de aplicaciones gratuitas están poniendo esta potente capacidad de clonación de voz en manos de la gente corriente, y las ramificaciones podrían ser de gran alcance e imparables.

Un reciente estudio de Consumer Reports que analizaba media docena de estas herramientas pone de manifiesto los riesgos. Plataformas como ElevenLabs, Speechify, Resemble AI y otras utilizan potentes modelos de síntesis del habla para analizar y recrear voces, a veces sin apenas salvaguardias. Algunas lo intentan: Descript, por ejemplo, pide el consentimiento de la voz grabada antes de que el sistema recree una firma vocal. Pero otras no son tan cuidadosas.

He encontrado una aplicación llamada PlayKit de Play.ht que te permite clonar una voz gratis durante tres días y luego te cobra 5,99 dólares a la semana. El muro de pago es, en teoría, una especie de barrera contra posibles usos indebidos, salvo que yo pude clonar una voz sin iniciar el periodo de prueba.

Di: "Demasiado fácil"

La aplicación te guía a través de la configuración y luego te presenta algunos clones de voz ya hechos, incluidos los del presidente Donald Trump y Elon Musk (sí, puedes hacer que el presidente diga cosas como «Creo que DEI debería apoyarse y expandirse por todo el mundo»). Pero en la parte superior hay una opción de «Clonar una voz».

Todo lo que tuve que hacer fue seleccionar un vídeo de mi biblioteca de fotos y subirlo. Los vídeos deben durar al menos 30 segundos (pero no más de un minuto) y estar en inglés. Podía haber elegido uno en el que saliera cualquiera y, si hubiera grabado, por ejemplo, un fragmento de una entrevista a George Clooney, podría haberlo subido (más adelante hablaremos de ello).

El sistema analizó rápidamente el audio. La aplicación no te dice si esto se hace localmente o en la nube, pero supongo que es lo segundo, ya que modelos tan potentes rara vez funcionan localmente en un dispositivo móvil (véase ChatGPT en Apple Intelligence). He guardado mi clon de voz con mi nombre para poder volver a seleccionarlo de la lista de voces clonadas.

Cuando quiero que mi clon diga algo con mi voz, simplemente escribo el texto y pulso un gran botón Generar. Ese proceso suele durar entre 10 y 15 segundos.

Las voces que genera PlayKit, incluida la mía, son inquietantemente precisas. Si tengo una crítica, es que el tono y la emoción están un poco fuera de lugar. Mi clonación suena igual tanto si habla de qué comprar para cenar como si dice que ha sufrido un terrible accidente de coche. Ni siquiera los signos de exclamación cambian la expresión.

Y, sin embargo, podría ver a la gente dejándose engañar por esto. Recuerda, cualquiera con acceso a 30 segundos de vídeo tuyo hablando podría clonar tu voz y usarla como quisiera. Claro que tendrían que pagar 5,99 dólares a la semana para seguir utilizándola, pero si alguien está planeando una estafa financiera, podría pensar que merece la pena.

Plataformas como ésta, que no exigen permiso explícito para clonar la voz, proliferarán con toda seguridad, y lo que me preocupa es que no haya salvaguardias ni regulaciones a la vista. Servicios como Descript, que exigen el consentimiento sonoro de la persona clonada, son atípicos.

Play.ht afirma que protege los derechos de voz de las personas. He aquí un extracto de su página sobre AI ética:

Nuestra plataforma valora los derechos de propiedad intelectual y la propiedad personal. Los usuarios sólo pueden clonar sus propias voces o aquellas para las que tengan permiso explícito. Esta estricta política está diseñada para evitar cualquier posible infracción de los derechos de autor y mantener un alto nivel de respeto y responsabilidad.

Es una promesa noble, pero la realidad es que empecé a grabar fragmentos de 30 segundos de monólogos de películas famosas de Benedict Cumberbatch y Al Pacino, y en menos de un minuto tenía clones de voz utilizables de ambos actores.

Lo que se necesita aquí es una regulación global de la IA, pero para ello es necesario el acuerdo y la cooperación a nivel gubernamental, y ahora mismo eso no se está produciendo. En 2023, el entonces presidente Joe Biden firmó una orden ejecutiva sobre IA que pretendía, en parte, ofrecer cierta orientación reguladora (siguió con otra orden relacionada con la IA a principios de este año). La administración Trump es alérgica a la regulación gubernamental (y a cualquier orden ejecutiva de Biden) y rápidamente la revocó. El problema es que aún no ha propuesto nada para sustituirla. Parece que el nuevo plan es esperar que las empresas de IA sean buenos ciudadanos digitales y, al menos, intenten no hacer daño.

Por desgracia, la mayoría de estas empresas son como fabricantes de armas. No hacen daño a la gente directamente -nadie que fabrique un clonador de voz está llamando a tu tío anciano y convenciéndole con tu clon de voz de que necesita transferirte urgentemente miles de dólares-, pero algunas personas que utilizan sus armas de IA sí lo hacen.

No hay una solución fácil para lo que me temo que se convertirá en una crisis de clonación de voz, pero yo sugeriría que ya no te fíes rotundamente de las voces que oyes en vídeos, por teléfono o en mensajes de voz. Si tiene alguna duda, póngase en contacto directamente con la persona en cuestión.

Mientras tanto, espero que más plataformas de voz insistan en la voz y/o el permiso documentado antes de permitir a los usuarios clonar la voz de nadie.