Auf der RSS in Freiburg stellten Robotic-Forscher neuere Ideen vor, das eigenständige Lernen von Robotern effizienter zu machen. Das richtige Weglassen ist das Wichtigste.
Robotern präzise Bewegungsabläufe vorzugeben, die sie ermüdungsfrei und zuverlässig wiederholen, das ist aus Sicht der KI- und Roboterforschung eher digitale Steinzeit. Die Gegenwart beschäftigt sich damit, Roboter mit Algorithmen auszustatten, die es ihnen erlauben, sich möglichst eigenständig, flexibel und schnell mit Unbekanntem zurechtzufinden. Das Firmenmotto von DeepMind, einem KI-Unternehmen der Alphabet-Gruppe, bringt das damit verbundene Versprechen prägnant auf den Punkt: Solve intelligence. Use it to make the world a better place. Wer es schafft, die Intelligenz digital nachzubilden, braucht sich um den ganzen Rest keine Gedanken mehr machen.
Auch Lehrer machen Fehler
Die konkreten Probleme, denen sich die Forscher derzeit stellen, sehen allerdings eher ernüchternd profan aus: Ein Roboterarm soll lernen, eine Art Wischvorgang mit unterschiedlichen Objekten auszuführen, verschiedenartige Objekte in einen Setzkasten zu werfen und dabei zu sortieren, ein Computer soll ein Fahrzeug unfallfrei über eine Straße steuern usw.
Mindestens zwei grundsätzliche Probleme stellen sich dabei: die physikalischen Eigenschaften der beteiligten Objekte sind in der Regel nicht zu 100 Prozent bekannt und die durch Trainer vorgegebenen Lösungsabläufe sind oft nur Teillösungen und außerdem nicht perfekt. Roboter sollen also lernen, in unzureichend definierten Situationen durch Versuch und Irrtum eine eigene Lösung zu finden und die erfolgsversprechenden Elemente zu einer neuen, besseren Lösung zusammenzusetzen. Reinforcement Learning, also interaktives Ausprobieren mit einer positiven Verstärkung der erfolgreichsten Versuche, ist hier in der Regel das Mittel der Wahl. Entscheidend ist die Wahl des Belohnungssystems. Schließlich will man endloses Ausprobieren verhindern und erfolgreiche Versuche nicht von vornherein ausschließen.
500 präzise Picks pro Stunde
Einem Roboter eines Teams aus Forschern von Princeton, Google, Columbia und MIT ist es jetzt gelungen, die Steuerparameter für das Greifen und Werfen von unterschiedlichen Objekten aus visuellen Beobachtungen im Versuch-und-Irrtum-Verfahren abzuleiten. In diesem Vorgang verstecken sich viele Herausforderungen: Der Roboter muss im unstrukturierten Haufen Objekte und deren Lage erkennen, sie greifen, beschleunigen und im rechten Moment am richtigen Ort loslassen. Masse und Gewichtsverteilung der Objekte sind dabei genauso unbekannt wie die jeweiligen Flugeigenschaften.
Gleichzeitig sind die Möglichkeiten einer solchen Lösung verlockend: Roboter, die in der Industrie ähnliche Arbeiten verrichten, könnten deutlich schneller werden und ihre maximale Reichweite durch Werfen vervielfachen.
Der neuentwickelte Tossingbot korrigiert über die eigenen Beobachtungen die Vorhersagen, die ein einfaches physikalisches Wurfmodell vorschlägt und optimiert dabei Griffposition, Wurfgeschwindigkeit und Abwurfpunkt selbstständig. Um im Schnitt 500 Objekte in der Stunde in die richtigen Kästen zu werfen, waren 15.000 Test-Versuche nötig. Danach warf er die Objekte fehlerfrei.
Den Trainer übertrumpfen
Man muss Roboter nicht von Null starten lassen. Trainer können dem Gerät unterschiedliche Lösungsansätze mit auf den Weg geben. Die typischen Probleme beim sogenannten Imitation Learning: Man will die Anzahl der nötigen Trainings reduzieren, der Roboter soll Lösungen entwickeln, die besser sind als der Ausgangsinput und das System soll robust sein gegen sehr schlechten Input.
Eine Forschergruppe an der König-Abdullah-Universität in Thuwal, Saudi Arabien, schlägt dazu ein Verfahren namens OIL vor, Observational Imitation Learning. OIL liefere deutlich robustere Ergebnisse als das bloße Nachahmen von mehr oder weniger guten Trainingsdurchgängen und komme so schneller zum Ergebnis, als Lernsysteme, die vor allem auf Belohnung basierten. Die kämen zwar komplett ohne menschliche Trainings aus, blieben aber oft weit unter den Möglichkeiten, weil das Belohnungssystem zu große Spielräume lasse.
OIL bewertet deshalb den Input und übernimmt nur die erfolgreichsten Sequenzen, etwa beim Steuern eines Wagens über eine Teststrecke. Der Input einer großen Zahl von Trainern könne so verarbeitet werden und ermögliche auf diese Weise auch das Ausloten unterschiedlicher Strategien. Gleichzeitig vergeude OIL keine Zeit mit dem Erforschen von sinnlosen Optionen, da die Trainer diese, im Gegensatz zu den autonomen Lernsystemen, von vornherein ausschlössen.
Das Team setzte den Algorithmus bei der Steuerung einer Drohne und eines simulierten Autos ein. Im Vergleich zu anderen Algorithmen und menschlichen Piloten war OIL äußerst erfolgreich. Der als Experte eingestufte menschliche Fahrer konnte beispielsweise das Auto zwar noch etwas schneller über die Strecke steuern, machte dabei aber mehr als doppelt so viele Fehler wie OIL. Was dabei stutzig macht: auch OIL machte Fehler.