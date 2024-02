Le fabricant de ChatGPT, OpenAI, vient de dévoiler Sora, son moteur d'intelligence artificielle permettant de convertir des messages textes en vidéos. Pensez à Dall-E (également développé par OpenAI), mais pour des films plutôt que des images statiques.

Sora n'en est qu'à ses débuts, mais le modèle d'IA fait déjà beaucoup parler de lui sur les médias sociaux, avec de nombreux clips qui circulent [en anglais] - des clips qui semblent avoir été réalisés par une équipe d'acteurs et de cinéastes.

Nous vous expliquons ici tout ce que vous devez savoir sur OpenAI Sora : ce dont il est capable, comment il fonctionne et quand vous pourrez peut-être l'utiliser vous-même. L'ère de la réalisation de films à l'aide d'un texte d'IA est désormais arrivée.

En février 2024, OpenAI Sora a été mis à la disposition des "red teamers", c'est-à-dire des personnes chargées de tester la sécurité et la stabilité d'un produit. L'OpenAI a également invité un certain nombre d'artistes graphiques, de concepteurs et de réalisateurs de films à tester les capacités de génération de vidéos et à faire part de leurs commentaires.

"Nous partageons nos progrès de recherche très tôt pour commencer à travailler avec des personnes extérieures à l'OpenAI et obtenir leurs commentaires, et pour donner au public une idée des capacités d'IA qui se profilent à l'horizon", explique OpenAI.

En d'autres termes, le reste d'entre nous ne peut pas encore l'utiliser. Pour l'instant, rien n'indique quand Sora sera disponible pour le grand public, ni combien il faudra payer pour y accéder.

Nous pouvons faire quelques suppositions approximatives sur l'échelle de temps en nous basant sur ce qui s'est passé avec le ChatGPT. Avant que ce chatbot d'IA ne soit rendu public en novembre 2022, il a été précédé d'un modèle appelé InstructGPT plus tôt dans l'année. En outre, le DevDay de l'OpenAI a lieu chaque année en novembre.

Il est donc tout à fait possible que Sora suive un schéma similaire et soit lancé au public à la même période en 2024. Mais il ne s'agit pour l'instant que de spéculations et nous mettrons cette page à jour dès que nous aurons des indications plus claires sur la date de sortie de Sora.

En ce qui concerne le prix, nous n'avons pas non plus d'indications sur le coût de Sora. À titre indicatif, ChatGPT Plus - qui offre l'accès aux derniers Grands Modèles de Langage (LLM) et à Dall-E - coûte actuellement 20 $ (environ 18.50 €) par mois.

Mais Sora demande également beaucoup plus de puissance de calcul que, par exemple, la génération d'une seule image avec Dall-E, et le processus prend également plus de temps. On ne sait donc pas encore exactement dans quelle mesure Sora, qui n'est en fait qu'un document de recherche, pourrait se transformer en un produit de consommation abordable.

Qu'est-ce que Sora d'OpenAI ?

Vous connaissez sans doute les modèles d'IA générative - tels que Google Gemini pour le texte et Dall-E pour les images - qui peuvent produire de nouveaux contenus sur la base de grandes quantités de données d'entraînement. Si vous demandez à ChatGPT de vous écrire un poème, par exemple, ce que vous obtiendrez sera basé sur de très nombreux poèmes que l'IA a déjà absorbés et analysés.

OpenAI Sora propose une idée similaire, mais pour des clips vidéo. Vous lui donnez un texte, comme "femme marchant dans une rue de ville la nuit" ou "voiture roulant dans une forêt", et vous obtenez une vidéo en retour. Comme pour les modèles d'images d'IA, vous pouvez être très précis lorsqu'il s'agit d'indiquer ce qui doit être inclus dans le clip et le style de la séquence que vous souhaitez voir.

Pour avoir une meilleure idée de la manière dont cela fonctionne, regardez quelques-unes des vidéos d'exemple postées par le PDG d'OpenAI, Sam Altman. Peu de temps après que Sora a été dévoilé au monde, Altman a répondu à des requêtes proposées sur les médias sociaux, renvoyant des vidéos basées sur un texte comme "un sorcier portant un chapeau pointu et une robe bleue avec des étoiles blanches lançant un sort qui projette des éclairs de sa main et tenant un vieux livre dans l'autre main".

À un niveau simplifié, la technologie derrière Sora repose sur le même principe que celui qui vous permet de rechercher des images de chiens ou de chats sur le web. Montrez suffisamment de photos de chiens ou de chats à une IA, et elle sera capable de reconnaître les mêmes motifs dans de nouvelles images ; de la même manière, si vous entraînez une IA sur un million de vidéos de couchers de soleil ou de chutes d'eau, elle pourra générer ses propres versions.

Bien sûr, il y a beaucoup de complexité sous-jacente, et OpenAI a fourni une explication détaillée du fonctionnement de son modèle d'IA. Il est entraîné sur des données à l'échelle d'Internet pour savoir à quoi ressemblent des vidéos réalistes, analysant d'abord les clips pour comprendre ce qu'il voit, puis apprenant à produire ses propres versions sur demande.

Demandez donc à Sora de produire un clip d'un aquarium, et il vous fournira une approximation basée sur toutes les vidéos d'aquariums qu'il a vues. Il utilise ce que l'on appelle des patchs visuels, des blocs de construction plus petits qui aident l'IA à comprendre ce qui doit aller où et comment les différents éléments d'une vidéo doivent interagir et évoluer, image par image.

Sora repose sur un modèle de diffusion, où l'IA commence avec une réponse "bruyante" puis travaille vers une sortie "propre" à travers une série de boucles de rétroaction et de calculs prédictifs. Vous pouvez voir cela dans les cadres ci-dessus, où une vidéo d'un chien jouant dans la neige se transforme de blobs non sensiques en quelque chose qui paraît réaliste.

Et comme d'autres modèles d'IA générative, Sora utilise la technologie des transformateurs (le dernier T de ChatGPT signifie Transformer). Les transformateurs utilisent une variété de techniques d'analyse de données sophistiquées pour traiter d'énormes quantités de données – ils peuvent comprendre les parties les plus importantes et les moins importantes de ce qui est analysé, et déterminer le contexte environnant et les relations entre ces blocs de données.

Ce que nous ne savons pas entièrement, c'est d'où OpenAI tire ses données d'entraînement – l'entreprise n'a pas précisé quelles bibliothèques vidéo ont été utilisées pour alimenter Sora, bien que nous sachions qu'elle a des partenariats avec des bases de données de contenu telles que Shutterstock. Dans certains cas, vous pouvez voir les similitudes entre les données d'entraînement et le résultat produit par Sora.

Que pouvez-vous faire avec Sora d'OpenAI ?

Actuellement, Sora est capable de produire des vidéos HD jusqu'à une minute, sans son, à partir de simples instructions textuelles, incluant des personnages animés dans le style Pixar et des astronautes avec des casques tricotés.

"Sora peut générer des vidéos jusqu'à une minute tout en maintenant une qualité visuelle et en respectant les consignes de l'utilisateur," dit OpenAI, mais ce n'est pas tout. Il peut également générer des vidéos à partir d'images fixes, compléter les cadres manquants dans des vidéos existantes, et assembler de manière transparente plusieurs vidéos. Il peut créer des images statiques aussi, ou produire des boucles infinies à partir de clips fournis.

Il peut même produire des simulations de jeux vidéo tels que Minecraft, encore une fois basé sur d'énormes quantités de données d'entraînement qui lui apprennent à quoi un jeu comme Minecraft devrait ressembler. Nous avons déjà vu une démo où Sora est capable de contrôler un joueur dans un environnement de style Minecraft, tout en rendant précisément les détails environnants.

OpenAI reconnaît certaines des limites de Sora pour le moment. La physique n'est pas toujours logique, avec des gens qui disparaissent, se transforment ou se fondent dans d'autres objets. Sora ne cartographie pas une scène avec des acteurs et des accessoires individuels, il effectue un nombre incroyable de calculs sur l'endroit où les pixels devraient aller d'une image à l'autre.

Dans les vidéos Sora, les gens pourraient se déplacer de manière à défier les lois de la physique, ou des détails – comme une bouchée prise dans un cookie – pourraient ne pas être mémorisés d'une image à l'autre. OpenAI est conscient de ces problèmes et travaille à les résoudre, et vous pouvez consulter certains des exemples sur le site web OpenAI Sora pour voir ce que nous voulons dire.

Malgré ces bugs, OpenAI espère que Sora pourrait évoluer pour devenir un simulateur réaliste de mondes physiques et numériques. Dans les années à venir, la technologie Sora pourrait être utilisée pour générer des mondes virtuels imaginaires à explorer, ou nous permettre d'explorer pleinement des lieux réels qui sont reproduits en IA.

Pour le moment, vous ne pouvez pas accéder à Sora sans une invitation : il semble qu'OpenAI sélectionne des créateurs et des testeurs individuels pour aider à préparer son modèle d'IA générée par vidéo pour un lancement public complet. Combien de temps cette période de prévisualisation va durer, que ce soit des mois ou des années, reste à voir – mais OpenAI a précédemment montré sa volonté d'avancer aussi rapidement que possible en ce qui concerne ses projets d'IA.

Basé sur les technologies existantes qu'OpenAI a rendues publiques – Dall-E et ChatGPT – il semble probable que Sora sera initialement disponible en tant qu'application web. Depuis son lancement, ChatGPT est devenu plus intelligent et a ajouté de nouvelles fonctionnalités, y compris des bots personnalisés, et il est probable que Sora suivra le même chemin lors de son lancement complet.

Avant cela, OpenAI dit vouloir mettre en place certaines barrières de sécurité : vous ne pourrez pas générer de vidéos montrant une violence extrême, du contenu sexuel, des images haineuses, ou des ressemblances avec des célébrités. Il y a aussi des plans pour combattre la désinformation en incluant des métadonnées dans les vidéos Sora qui indiquent qu'elles ont été générées par IA.