Ces voix générées par l’IA trompent désormais même les oreilles les plus averties
Créer une voix deepfake crédible coûte désormais moins qu’un café
- Les voix générées par intelligence artificielle imitent désormais si bien les humains qu’il devient presque impossible de les détecter
- Créer une voix clonée convaincante ne prend plus que quelques minutes et ne nécessite presque aucune compétence technique
- Certaines voix synthétiques ont même été jugées plus dignes de confiance que des enregistrements humains réels
Pendant des années, beaucoup ont considéré que les voix issues de l’intelligence artificielle restaient facilement identifiables, à cause d’un ton toujours un peu “faux”.
De nouvelles recherches menées par l’Université Queen Mary de Londres remettent en cause cette idée. Les chercheurs montrent que la technologie vocale actuelle a atteint un niveau tel que les « clones vocaux » et les deepfakes sont désormais presque impossibles à distinguer de véritables enregistrements.
Dans cette étude, les participants ont comparé des voix humaines avec deux types d’audio synthétique : des voix clonées conçues pour imiter des locuteurs réels et des voix générées par un système LLM sans modèle humain spécifique.
Un réalisme qui dépasse les attentes
Les auditeurs ont souvent eu du mal à faire la différence, ce qui montre que le réalisme vocal n’est plus une ambition, mais une réalité technologique.
L’équipe de recherche ne s’est pas seulement intéressée à la capacité des participants à distinguer ces voix, mais aussi à la manière dont elles étaient perçues.
De façon surprenante, les deux types de voix générées par IA ont été évalués comme plus dominants que les voix humaines, et dans certains cas, jugés plus dignes de confiance.
La psychologue Nadine Lavan, maître de conférences à l’Université Queen Mary de Londres, a souligné à quel point la création de ces clones vocaux était simple et peu coûteuse.
« Les voix générées par IA sont partout aujourd’hui. Il était inévitable que cette technologie finisse par produire un discours réaliste et naturel. Quelques minutes d’enregistrement suffisent, aucune compétence particulière n’est requise, et cela coûte presque rien », a-t-elle expliqué.
Elle insiste sur le fait que cette facilité d’usage reflète l’évolution fulgurante de cette technologie.
Une telle accessibilité ouvre la voie à des usages dans l’éducation, la communication ou encore l’accessibilité, où des voix synthétiques personnalisées pourraient améliorer l’engagement et la portée des messages.
Mais comme pour les textes générés par IA qui suscitent des débats sur l’originalité ou le plagiat, la synthèse vocale soulève des questions autour de l’identité et du consentement.
Si un échantillon court suffit à produire une voix convaincante, le clonage vocal non autorisé devient une menace difficile à ignorer.
À mesure que ces outils se démocratisent et gagnent en puissance, l’enjeu sera de garantir que leurs bénéfices ne deviennent pas les portes d’entrée de nouvelles formes de manipulation.
Comprendre comment les voix synthétiques sont perçues constitue seulement la première étape pour anticiper les implications éthiques, juridiques et sociales d’une technologie qui ne relève plus de la science-fiction, mais du quotidien.
Vous aimerez aussi

Quand je ne suis pas en train de plonger dans le monde fascinant de la finance et des nouvelles technologies, vous me trouverez probablement en train de parcourir le globe ou de conquérir de nouveaux mondes virtuels sur ma console de jeux.
- Efosa UdinmwenFreelance Journalist