Google a publié un nouveau benchmark open source qui, selon lui, permettra aux robots d'effectuer des tâches en écrivant leur propre code en réponse à des instructions écrites par l'homme.
La société a lancé un nouveau site web (s'ouvre dans un nouvel onglet) pour révéler le "Code as Policies" (CAP), grâce auquel des invites rédigées en anglais simple peuvent être interprétées en programmes générés par un modèle de langage (LMP) écrits en code Python.
CAP est le successeur de PaLM-SayCan (s'ouvre dans un nouvel onglet), un projet qui permettait, de manière similaire, de diriger un robot d'assistance physique par des commandes en anglais simple. CAP promet de permettre l'exécution de tâches plus complexes avec une précision accrue, en partie grâce à la possibilité pour les machines d'écrire leur propre code.
Des robots qui écrivent leur propre code
Dans un billet de blog (s'ouvre dans un nouvel onglet) consacré à la sortie de CAP, Jacky Liang, stagiaire en recherche chez Google, et Andy Zeng, chercheur, décrivent la motivation derrière cette technologie et ce qu'elle pourrait signifier pour l'avenir.
"Et si, lorsqu'ils reçoivent des instructions de l'homme, les robots pouvaient écrire de manière autonome leur propre code pour interagir avec le monde ? [...] Compte tenu des instructions en langage naturel, les modèles de langage actuels sont très compétents pour écrire non seulement du code générique, mais aussi, comme nous l'avons découvert, du code qui peut également contrôler les actions des robots."
Mais ce n'est peut-être pas encore le moment de jeter votre ordinateur portable pour programmer. Lors des tests, les chercheurs de Google ont fait la démonstration de commandes simples présentant une structure similaire. Les robots testés ont été capables de "dessiner un hexagone de 5 cm autour du milieu" [d'un tableau blanc] et de "placer les blocs sur une ligne horizontale près du sommet" [d'une limite carrée].
Dans le rapport (s'ouvre dans un nouvel onglet) correspondant, intitulé "Code as Policies : Language Model Programs for Embodied Control", l'équipe du projet concède que CAP n'a actuellement pas la capacité de traiter des commandes particulièrement abstraites ou complexes ou de percevoir des descriptions de trajectoire. L'approche de l'équipe ne tient pas compte non plus des commandes impossibles à transmettre au CAP.
En théorie, la nature open source de l'implémentation "centrée sur le robot" des LMP en Python par Google pourrait permettre une mise en œuvre beaucoup plus rapide de solutions à ces problèmes. Le site Web du PAC contient également des releases (s'ouvre dans un nouvel onglet) via Github, ainsi qu'une démo (s'ouvre dans un nouvel onglet) interactive via Google Colab pour décrire comment les robots "écrivent" du code en réponse à des commandes.