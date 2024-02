L'IA Gemini de Google n'existe que depuis deux mois à l'heure où nous écrivons ces lignes, et l'entreprise lance déjà son modèle de nouvelle génération, baptisé Gemini 1.5.

L'annonce entre dans le vif du sujet en expliquant en détail toutes les améliorations apportées à l'IA. C'est assez technique, mais l'essentiel est que Gemini 1.5 offrira "des performances considérablement améliorées". Cela a été possible grâce à la mise en œuvre d'une "Mixture-of-Experts architecture" (ou MoE en abrégé) qui permet à plusieurs modèles d'IA de travailler ensemble à l'unisson. La mise en œuvre de cette structure a rendu Gemini plus facile à former et plus rapide à apprendre des tâches compliquées qu'auparavant.

Il est prévu de déployer la mise à jour sur les trois principales versions de l'IA, mais la seule version publiée aujourd'hui pour les premiers tests est Gemini 1.5 Pro.

Ce qui est unique, c'est que le modèle dispose d'une "fenêtre contextuelle pouvant aller jusqu'à 1 million de jetons". Les tokens, dans le cadre de l'IA générative, sont les plus petits éléments de données que les LLM (grands modèles de langage) utilisent "pour traiter et générer du texte". Des fenêtres contextuelles plus grandes permettent à l'IA de traiter plus d'informations à la fois. Et un million de tokens, c'est énorme, dépassant de loin ce que GPT-4 Turbo peut faire. À titre de comparaison, le moteur de l'OpenAI dispose d'une fenêtre contextuelle limitée à 128 000 tokens.

Gemini Pro en action

Avec tous ces chiffres, la question est de savoir à quoi ressemble Gemini 1.5 Pro en action. Google a réalisé plusieurs vidéos présentant les capacités de l'IA. Il faut admettre que c'est assez intéressant, car elles révèlent comment le modèle amélioré peut analyser et résumer de grandes quantités de texte en fonction d'une requête.

Dans un exemple, ils ont donné à Gemini 1.5 Pro la transcription de plus de 400 pages de la mission lunaire Apollo 11. L'IA a montré qu'elle pouvait "comprendre, raisonner et identifier" certains détails du document. Le prompteur demande à l'IA de repérer les "moments comiques" de la mission. Au bout de 30 secondes, Gemini 1.5 Pro a réussi à trouver quelques blagues que les astronautes ont racontées pendant leur séjour dans l'espace, en indiquant qui les a racontées et en expliquant les références qui y ont été faites.

Ces capacités d'analyse peuvent être utilisées pour d'autres modalités. Dans une autre démonstration, l'équipe de développement a donné à l'IA un film de 44 minutes de Buster Keaton. Elle a téléchargé une esquisse d'un château d'eau jaillissant, puis a demandé l'horodatage d'une scène impliquant un château d'eau. L'IA a trouvé la scène exacte dix minutes après le début du film. Gardez à l'esprit que cela a été fait sans aucune explication sur le dessin lui-même ou tout autre texte en dehors de la question. Gemini 1.5 Pro a compris qu'il s'agissait d'un château d'eau sans aide supplémentaire.

Technologie expérimentale

Le modèle n'est pas encore disponible pour le grand public. Il est actuellement proposé en avant-première aux "développeurs et entreprises clientes" par l'intermédiaire des plateformes AI Studio et Vertex AI de Google, et ce gratuitement. L'entreprise avertit les testeurs qu'ils risquent d'être confrontés à de longs temps de latence, car il s'agit encore d'une solution expérimentale. Il est toutefois prévu d'améliorer les vitesses par la suite.

Nous avons contacté Google pour obtenir des informations sur la date de lancement de Gemini 1.5 et Gemini 1.5 Ultra, ainsi que sur la diffusion plus large de ces modèles d'IA de nouvelle génération. Cette histoire sera mise à jour ultérieurement. En attendant, TechRadar vous propose un tour d'horizon des meilleurs générateurs de contenu d'IA pour 2024.