Eine Künstliche Intelligenz hat einen Videospielrekord aufgestellt – dank einem virtuellen Gedächtnis

Michael · 26. Februar 2021 um 10:40

Künstliche Intelligenz ist nicht gut darin, sich in unbekannten Umgebungen zurecht zu finden. Entwickler beim Fahrdienstleister Uber und dem KI-Institut OpenAI haben das Problem nun gelöst. Sie gaben der Software eine Art von Gedächtnis. Damit stellte die KI nun einen Weltrekord im Videospiel Montezuma’s Revenge auf – und auch in Pitfall ist sie ziemlich gut.

Von Michael Förtsch

In echten Spieleklassikern wie Schach und Go kann der Mensch kaum noch punkten. Hier haben Künstliche Intelligenzen in den vergangenen Jahren schon mehrfach gezeigt, dass sie dem menschlichen Gehirn überlegen sind. Auch in modernen Computerspielen wie StarCraft 2 sind trainierte Programme deutlich besser als das Gros der menschlichen Spieler. Zumindest wenn die Künstliche Intelligenz dabei wortwörtlich einen guten Überblick über das Spielfeld hat. Deutlich schwieriger wird es, wenn eine Künstliche Intelligenz in komplexen Umgebungen zu recht kommen muss, die aus mehreren Ebenen oder Abschnitten bestehen, in denen ganze Stränge von Aufgaben erfüllt werden müssen. Jedenfalls bis jetzt.

Denn ein Team um Adrien Ecoffet von den Uber AI Labs und Joost Huizinga von OpenAI haben einer Künstlichen Intelligenz namens Go-Explore nun beigebracht, die Atari-2600-Klassiker Pitfall von 1982 und Montezuma’s Revenge von 1983 zu spielen. Pitfall wurde von David Crane entwickelt und ist eines der ersten Jump’n’Runs. Der Spieler steuert hier eine Figur namens Pitfall Harry durch eine Dschungelwelt, um Gold- und Silberschätze einzusammeln. Dabei muss er verschiedenen Hindernissen wie Baumstämmen, Skorpionen und Krokodilen ausweichen, die die insgesamt 255 Bildschirmabschnitte füllen. Montezuma’s Revenge von Robert Jaeger ist ein ganz ähnliches Videospiel, bei dem in einem aztekischen Tempel jedoch nicht nur nach Schätzen, sondern auch nach Schlüsseln gesucht werden muss, um weitere Räume zu erschließen.

In den vergangenen Jahren verliefen Versuche von OpenAI, Google DeepMind und anderen KI-Unternehmen an Pitfall und Montezuma’s Revenge eher misslich. Denn bei der eigentlich aussichtsreichsten Methode, um eine Künstliche Intelligenz zu erschaffen, die ein solches Videospiel meistern soll, wird auf das sogenannte Reinforcement Learning gesetzt. Ein System wird bei diesem Lernen durch Verstärkung für das Erreichen von oder dem Scheitern an bestimmten Zielen belohnt oder bestraft. Ziele können zum Beispiel das Erreichen eines neuen Bildschirms oder das Finden eines Schlüssels sein.

„Das funktioniert gut, wenn die Belohnungen so dicht [beieinander] sind, dass zufällige Aktionen mit angemessener Wahrscheinlichkeit zu einer Belohnung führen“, hieß es 2018 bei OpenAI. „Viele der komplizierteren Spiele erfordern jedoch lange Sequenzen sehr spezifischer Aktionen, um eine Belohnung zu erhalten.“ Heißt: Videospiele wie Pitfall oder Montezuma’s Revenge brauchen zu viele Einzelschritte, das Erkunden zu vieler Bildschirmbereiche, um eine Belohnung zu erreichen – und damit einen Lernerfolg für eine Künstliche Intelligenz einzustellen. Stattdessen treiben sich die KI-Spieler in Sackgassen.

Verstehe, was die Zukunft bringt!

Als Mitglied von 1E9 bekommst Du unabhängigen, zukunftsgerichteten Tech-Journalismus, der für und mit einer Community aus Idealisten, Gründerinnen, Nerds, Wissenschaftlerinnen und Kreativen entsteht. Außerdem erhältst Du vollen Zugang zur 1E9-Community, exklusive Newsletter und kannst bei 1E9-Events dabei sein. Schon ab 2,50 Euro im Monat!

Jetzt Mitglied werden!

Die Lösung der Forscher des Uber AI Labs und von OpenAI für die Herausforderung ist recht logisch. Sie haben dem KI-System eine Art digitales Gedächtnis spendiert. Denn das „Haupthindernis für eine effektive Exploration darin besteht, dass Algorithmen vergessen, wie sie zuvor besuchte Zustände erreichen können“, heißt es in der Studie der Forscher im Magazin Nature . Spielt die Künstliche Intelligenz, werden Meilenstein im Spielverlauf aufgezeichnet. Scheitert sie und startet eine neue Spielrunde, beginnt sie mit einer Auswertung vorheriger Spielrunden und extrapoliert Zwischenschritte, die den höchsten Erfolg und schnellsten Weg zu einer Belohnung versprechen. Sie tut also im Idealfall das gleiche wie ein Mensch: Sie spielt sich dorthin durch, wo sie zuletzt gescheitert ist, um von dort aus weiterzumachen.

Go-Explore war dadurch bei Pitfall sehr erfolgreich und im Durchschnitt etwas besser als die meisten menschlichen Spieler. Bei Montezuma’s Revenge gelang es der Künstlichen Intelligenz sogar einen neuen Rekord aufzustellen. Dafür hatte die Künstliche Intelligenz aber auch aus Spieldurchläufen von menschlichen Spielern gelernt. Laut den Entwicklern könnte diese Methode natürlich nicht nur bei Videospielen nützlich sein, sondern auch in ganz anderen Bereichen. Etwa der Robotik. So überließen die Forscher der KI auch die Steuerung eines simulierten Roboterarms, der Gegenstände in Fächer einsortieren sollte. Die Künstliche Intelligenz lernte sehr schnell, dass manche der Fächer nur mit einem nicht offensichtlichen Mechanismus zu öffnen waren, den es jedoch schnell herausfand.

Teaser-Bild: Activision/OpenAI/Uber AI Lab

SamS · 28. Februar 2021 um 11:12

Wär spannend zu beobachten, ob die RL-basierten Algorithmen dadurch robuster werden. Also, ob die Algorithmen, die in mehr oder weniger kontrollierter Spielumgebung funktionieren, auch in der echten Welt funktionieren. Gegenstände in Fächer einsortieren ist ja auch noch eine klar umrissenen Problemstellung in einer kontrollierbaren Umgebung. Aber es ist wohl ein weiterer Schritt getan

Michael · 28. Februar 2021 um 13:56

Ich schätze mal, dass, da Uber da mit drinhängt, sie wohl darauf hoffen, das auf die Straße zu bringen.