OpenAI-Experten haben ein neuronales Netzwerk darauf trainiert, Minecraft auf dem Niveau eines menschlichen Spielers zu spielen - Mit Erfolg!
Das neuronal Netzwerk wurde hierfür mithilfe von 70.000 Stunden Spielmaterial trainiert. Ergänzt wurde der Lernprozess durch zusätzliche Videoinhalte, in welchen Auftragnehmer bestimmte Aufgaben im Spiel ausführten, wobei auch deren Tastatur- und Mauseingaben aufgezeichnet wurden.
Nach Feinabstimmung stellten die Mitarbeiter fest, dass das Modell schließlich fähig war, allerlei Arten komplexer Manöver auszuführen. Diese reichen von Tätigkeiten wie Essen, Jagen oder Schwimmen bis hin zum charakteristischen „Säulensprung“ - einer Bewegung, bei der der Spieler inmitten eines Sprungs einen Materialblock unter sich platziert, um an Höhe zu gewinnen.
Das Beeindruckendste ist jedoch die Herstellung von Diamantwerkzeugen, was an eine umfängliche Reihe von aufeinanderfolgenden Aktionen gekoppelt ist. OpenAI bezeichnet das Ergebnis als „beispiellose“ Leistung für Computeragenten.
Durchbruch in Sachen künstliche Intelligenz?
Weiterführend dient das Minecraft-Projekt zur Demonstration einer neuen Technik, welche von OpenAI für das Training diverser KI-Modelle eingesetzt wird - dem Video PreTraining (VPT). Nach Angabe des Unternehmens könnte dies die Entwicklung „allgemeiner Computer-Agenten“ weiter beschleunigen.
Hiermit sollen KI-Modelle in Zukunft in der Lage sein, nicht nur das Ergebnis zu reproduzieren, sondern auch den genauen Hinführungsweg und notwendige Schritte zu verstehen sowie nachzuahmen.
Das VPT-Basismodell besteht hierbei aus einer Kombination großer, öffentlicher Videodatensätze und einem kuratierten Pool aus Filmmaterial, mit allen relevanten Tastatur- und Mausbewegungen.
Zur Feinabstimmung wird dieses Basismodell vom Team durch kleinere Datensätze erweitert, die zum Erlenen spezifischer Aufgaben entwickelt wurden. Im Falle von Minecraft wurde hier insbesondere Videomaterial der frühen Tätigkeiten im Spiel genutzt, welches in einer "massiven Verbesserung" der Umsetzbarkeit und Zuverlässigkeit durch das Modell mündete.
Eine weitere Technik für KI-Learning ist das verstärkende Lernen durch "Belohnen" nach Aufgabenerfüllung. Infolgedessen gelang es dem neuronalen Netz schließlich sogar die notwendigen Zutaten zur Herstellung einer Diamantspitzhacke zu erwerben - mit einer Erfolgsquote auf menschlichem Niveau.
"VPT ebnet den Weg dafür, dass Agenten lernen zu handeln, indem sie sich die große Anzahl von Videos im Internet ansehen. Im Vergleich zu generativer Videomodellierung oder kontrastiven Methoden, die nur repräsentative Prioritäten liefern würden, bietet VPT die aufregende Möglichkeit, direkt groß angelegte Verhaltensprioritäten in mehr Bereichen als nur Sprache zu erlernen", erklärt OpenAI in einem Blogpost.
"Wir haben zwar nur mit Minecraft experimentiert, aber das Spiel hat ein sehr offenes Ende und die native menschliche Schnittstelle (Maus und Tastatur) ist sehr allgemein, so dass wir glauben, dass unsere Ergebnisse auch für andere ähnliche Domänen, z.B. die Computernutzung, vielversprechend sind."
Zur weiteren Förderung von Experimenten in diesem Bereich hat sich OpenAI sogar mit dem MineRL NeurIPS-Wettbewerb zusammengetan. Gefordert wird von den Teilnehmern die Lösung komplexer Minecraft-Aufgaben entlang der KI-Nutzung. OpenAI stellt hierfür sowohl Vertragsdaten, als auch Modellcode zur Verfügung und verspricht dem Gewinner eine Prämie von 100.000 Dollar.