L’IA en passe de devenir le « Roi de Babel » en maîtrisant des langues oubliées
Un basculement en cours
- Les modèles d’IA affichent désormais de solides performances dans des langues rares avec très peu de données d’entraînement
- Le transfert interlinguistique permet aux schémas partagés d’améliorer les performances dans les langues peu répandues
- Les améliorations de l’efficacité des tokenizers ont un impact significatif sur le coût et la qualité du traitement multilingue
Les grands modèles de langage (LLM) réduisent l’écart linguistique mondial à un rythme inattendu, les modèles de pointe affichant désormais de bonnes performances dans des langues rares avec lesquelles les générations précédentes rencontraient des difficultés.
Selon l’étude TrainAI Multilingual LLM Synthetic Data Generation Study de RWS, le modèle Gemini Pro de Google a obtenu des scores de haute qualité supérieurs à 4,5 sur 5 en kinyarwanda, une langue parlée par environ 12 millions de personnes au Rwanda, en Ouganda et en République démocratique du Congo.
« Cette étude marque un moment transformateur : il ne s’agit pas de remplacer l’expertise humaine, mais de l’élever grâce à la technologie appropriée », a déclaré Vasagi Kothandapani, PDG de TrainAI by RWS.
Comment les LLM apprennent des langues avec peu de données d’entraînement
Contrairement à la « Tour de Babel » biblique, où la confusion soudaine des langues avait interrompu la construction, l’IA semble aujourd’hui démanteler des barrières linguistiques autrefois jugées insurmontables.
Tomáš Burkert, responsable de l’innovation chez TrainAI, explique que les outils d’IA partagent souvent des schémas statistiques entre les langues.
Les modèles de pointe n’ont pas besoin de jeux de données massifs pour chaque langue afin de produire des résultats fiables, car le transfert interlinguistique permet aux connaissances partagées de compenser le manque de données d’entraînement.
L’équipe de RWS a également documenté des améliorations de l’efficacité des tokenizers, qui influencent la manière dont les modèles traitent le texte dans une langue donnée.
Ces améliorations s’additionnent aux autres avancées des modèles pour produire des gains de performance significatifs dans des langues rares ou peu documentées.
L’équipe de Burkert a identifié un phénomène de « dérive des benchmarks », selon lequel les capacités des LLM peuvent évoluer de manière inattendue d’une version à l’autre.
Par exemple, la dernière version de GPT s’est révélée moins performante que des modèles plus petits sur plusieurs tâches de génération de contenu, alors que sa version précédente était compétitive sur ces mêmes tâches.
L’efficacité des tokenizers variait également fortement entre les générations de modèles, l’un d’eux se montrant 3,5 fois plus rentable qu’un autre dans certaines langues.
Cela signifie que les entreprises ne peuvent pas se fier aux performances passées pour choisir le modèle à déployer dans des applications multilingues.
Jusqu’à récemment, les laboratoires d’IA privilégiaient les performances en anglais et dans quelques grandes langues. Désormais que ces performances se sont améliorées, certains laboratoires commencent à accorder davantage d’attention aux publics mondiaux, et les experts s’attendent à ce que d’autres suivent.
Des stratégies d’IA efficaces en entreprise nécessitent une validation continue reposant sur des données de haute qualité et culturellement nuancées, plutôt que sur des classements publics.
Cela dit, un score de 4,5 sur 5 dans un benchmark synthétique ne garantit pas une aisance réelle en situation concrète, et les données multilingues ne constituent pas réellement une priorité.
Selon Burkert, les laboratoires d’IA se tournent en partie vers les données multilingues parce qu’ils ont probablement épuisé les sources de haute qualité en anglais.
Malgré cela, en réduisant les barrières linguistiques, l’IA s’impose comme un véritable « Roi de Babel » — non pas celui qui a construit une tour, mais celui qui a abattu les murs séparant les langues humaines.
Pour l’instant, la couronne ne s’ajuste évidemment pas parfaitement, mais la direction prise et les intentions sont très claires.

Efosa has been writing about technology for over 7 years, initially driven by curiosity but now fueled by a strong passion for the field. He holds both a Master's and a PhD in sciences, which provided him with a solid foundation in analytical thinking.