Trainingscamp für intelligente Maschinen
Sinnesreize kombinieren
Wie aber bringt man einer Maschine bei, Befehle auszuführen? Wie sieht diese Kombination aus Künstlicher Intelligenz und Robotik aus? Dafür muss man verstehen, wie das menschliche Gehirn funktioniert: Wir nehmen unsere Umwelt wahr, indem wir unterschiedliche Sinnesreize kombinieren. Unser Gehirn integriert Bilder, Geräusche, Gerüche, Geschmäcker und haptische Reize meist mühelos zu einem stimmigen Gesamtbild. Diese Fähigkeit ermöglicht es dem Menschen, sich schnell an neue Situationen anzupassen. Wir erkennen intuitiv, wie wir Gelerntes anwenden müssen, um unbekannte Aufgaben zu meistern.
«Computern und Robotern fehlt diese Fähigkeit oft noch», erklärt Nava, der nach einem Studium in Mailand für einen Master in Data Science an die ETH Zürich kam. Dank maschinellem Lernen schreiben Computerprogramme heute zwar Texte, führen Gespräche und malen Bilder, und auch Roboter bewegen sich schnell und selbstständig in schwierigem Gelände. Doch die dahintersteckenden Lernalgorithmen basieren in der Regel nur auf einer Datenquelle. Sie sind, um es in Fachjargon der Informatik zu sagen, nicht multimodal.
Für Nava ist genau dies eine entscheidende Hürde auf dem Weg zu intelligenteren Robotern: «Algorithmen werden mittels grosser, online verfügbarer Datensätze oft nur für einen Aufgabenbereich trainiert: Sprachverarbeitungsmodelle können zwar das Wort ‹Katze› grammatikalisch korrekt verwenden, sie wissen aber nicht, wie eine Katze aussieht. Und Roboter können sich zwar effektiv in schwierigem Gelände bewegen, ihnen fehlt aber meist die Fähigkeit zur Sprach- und Bilderkennung.»
Roboter müssen in die Vorschule
Elvis Nava entwickelt daher Lernalgorithmen für Roboter, die genau das können sollen: Informationen aus verschiedenen Quellen miteinander verknüpfen. «Wenn ich dem Roboterarm sage ‹reich mir den Apfel am Tisch›, dann muss er das Wort Apfel mit den visuellen Eigenschaften eines Apfels verknüpfen. Zudem muss er den Apfel am Tisch erkennen und wissen, wie man nach ihm greift.»
Doch wie bringt der Forscher dem Roboterarm all das bei? Etwas vereinfacht gesagt, schickt Nava ihn in ein zweistufiges Trainingslager. In einer Art Vorschule lernt der Roboter zunächst allgemeine Fähigkeiten wie Sprach- und Bilderkennung sowie einfache Handbewegungen.
Für diese Fähigkeiten gibt es bereits öffentlich zugängliche Modelle, die anhand von riesigen Text-, Bild-, oder Videodatensätzen trainiert wurden. Dabei füttern Forschende zum Beispiel einen Bilderkennungsalgorithmus mit tausenden Bildern, die das Label «Hund» oder «Katze» tragen. Dieser lernt dann selbst, welche Eigenschaften – in diesem Fall Pixelstrukturen – Hunde- oder Katzenbilder ausmachen.
Für diese Fähigkeiten gibt es bereits öffentlich zugängliche Modelle, die anhand von riesigen Text-, Bild-, oder Videodatensätzen trainiert wurden. Dabei füttern Forschende zum Beispiel einen Bilderkennungsalgorithmus mit tausenden Bildern, die das Label «Hund» oder «Katze» tragen. Dieser lernt dann selbst, welche Eigenschaften – in diesem Fall Pixelstrukturen – Hunde- oder Katzenbilder ausmachen.
Ein neuer Lernalgorithmus für Roboter
Navas Aufgabe besteht nun darin, die besten verfügbaren Modelle in einem neuen Lernalgorithmus zu kombinieren. Dieser muss unterschiedliche Daten wie Bilder, Texte oder räumliche Angaben in eine einheitliche Befehlssprache für den Roboterarm übersetzen. «Das Wort ‹Bier› und Bilder mit dem Label ‹Bier› werden im Modell vom selben Vektor repräsentiert», erläutert der ETH-Forscher. Dadurch weiss der Roboter, nach was er greifen soll, wenn man ihm die Aufgabe «Schenk mir ein Bier ein» gibt.
Forschende, die sich intensiver mit künstlicher Intelligenz beschäftigten, wissen schon länger, dass es vielversprechend wäre, unterschiedliche Datenquellen und Modelle zu integrieren. Die entsprechenden Modelle sind aber erst seit kurzem vorhanden und öffentlich zugänglich. Zudem gibt es mittlerweile genug Rechenleistung, um sie auch gemeinsam zum Laufen zu bringen.
Wenn Nava über diese Dinge spricht, wirken sie einfach und intuitiv. Doch das täuscht: «Man muss nicht nur die neusten Modelle sehr gut kennen. Manchmal ist es mehr eine Kunst als eine Wissenschaft, sie gemeinsam zum Laufen zu bringen», sagt er. Es sind solche kniffligen Probleme, die Nava besonders reizen. Stundenlang kann er sich an ihnen abarbeiten und immer wieder neue Lösungen ausprobieren.
Autor(in)
Christoph
Elhardt, ETH-News