Cette start-up indienne affirme battre ChatGPT et Gemini sur leur propre terrain

Who will win the AI race?
Crédit image : Geralt / Pixabay (Crédit photo: Pixabay)

  • Sarvam AI affirme que son modèle Sarvam Vision surpasse Gemini et ChatGPT sur des benchmarks clés en OCR
  • La startup se concentre sur les 22 langues officielles de l’Inde
  • Son approche dite « IA souveraine » vise à développer une technologie spécifiquement adaptée aux besoins de l’Inde

ChatGPT, Gemini et d’autres chatbots d’intelligence artificielle se montrent souvent très performants pour lire l’anglais et de nombreuses autres langues. Ils peuvent interpréter l’hindi, mais commencent à vaciller face à des écritures plus complexes ou à des nuances régionales propres aux langues indiennes.

Une startup basée à Bengaluru, Sarvam AI, entend désormais relever le défi avec des modèles qui, selon elle, surpassent leurs rivaux internationaux en matière de reconnaissance optique de caractères (OCR) et de parole multilingue, en particulier pour les langues du sous-continent.

Les modèles Sarvam Vision et Bulbul V3 ont été conçus en tenant compte de la complexité linguistique de l’Inde. Sarvam Vision peut interpréter des tableaux complexes, comprendre des graphiques, reconnaître du texte dans des scènes réelles et générer des légendes, tandis que Bulbul V3 prend en charge le système de synthèse vocale. Ils prennent en charge les 22 langues officielles de l’Inde.

Avec 35 voix disponibles, Bulbul parvient à sonner systématiquement comme un locuteur local. De nombreux utilisateurs multilingues connaissent le malaise provoqué par une langue prononcée comme si elle n’était qu’une lointaine cousine de l’anglais, ce qui peut freiner l’adoption de la technologie. Un modèle de synthèse vocale bien entraîné, capable de restituer plus fidèlement le rythme et l’intonation, peut rendre l’expérience nettement plus naturelle.

Et même si l’OCR ne paraît pas particulièrement spectaculaire, cette technologie alimente discrètement de nombreux usages quotidiens, comme la numérisation d’un document avec un téléphone, le téléversement d’un PDF ou la digitalisation d’archives anciennes. Des caractères déformés, des noms mal lus ou un contexte manquant peuvent poser de véritables problèmes. Sarvam affirme que sa solution aidera les petites entreprises et les administrations à transformer leurs dossiers en archives consultables plus rapidement et avec davantage de précision.

IA souveraine

Sarvam AI se présente comme un concepteur d’IA souveraine. L’objectif consiste à se différencier des plateformes étrangères. À mesure que les modèles d’IA se diffusent dans les administrations, les entreprises et le secteur éducatif, la question de leur conception et des données qu’ils comprennent devient centrale. Sarvam souhaite proposer des outils véritablement adaptés au contexte indien.

L’émergence de Sarvam alimente également une réflexion plus large sur l’origine de l’innovation. L’essor de l’IA est souvent présenté comme une compétition entre quelques acteurs dominants. Pourtant, des avancées majeures proviennent de plus en plus d’équipes spécialisées qui résolvent des problématiques précises. Sarvam semble avoir identifié un manque en matière de systèmes OCR et vocaux performants et riches sur le plan linguistique pour les écritures indiennes.

Les benchmarks constituent toutefois des instantanés et non des garanties de performance, en particulier dans des conditions réelles. La véritable mesure de l’impact de Sarvam résidera dans son adoption. Si ses affirmations se confirment, les grandes entreprises de l’IA seront incitées à renforcer leur prise en charge d’un plus grand nombre de langues et d’écritures.

Dans sa meilleure expression, l’histoire de Sarvam AI dépasse la simple comparaison avec Gemini ou ChatGPT dans un classement et illustre une technologie qui reflète les personnes qui l’utilisent. Si l’IA doit façonner la prochaine décennie de la vie numérique, elle devra parler de nombreuses langues avec aisance et savoir lire bien plus que de l’anglais standardisé.

Sarvam mise sur l’attention portée aux détails et à la spécificité culturelle pour rivaliser avec la puissance des acteurs à grande échelle. Pour des millions d’utilisateurs qui se sont sentis insuffisamment servis par les outils d’IA traditionnels, ce pari pourrait sembler particulièrement solide.


TOPICS
Eric Hal Schwartz
Contributor

Eric Hal Schwartz is a freelance writer for TechRadar with more than 15 years of experience covering the intersection of the world and technology. For the last five years, he served as head writer for Voicebot.ai and was on the leading edge of reporting on generative AI and large language models. He's since become an expert on the products of generative AI models, such as OpenAI’s ChatGPT, Anthropic’s Claude, Google Gemini, and every other synthetic media tool. His experience runs the gamut of media, including print, digital, broadcast, and live events. Now, he's continuing to tell the stories people want and need to hear about the rapidly evolving AI space and its impact on their lives. Eric is based in New York City.