Machine Learning: das Talent unserer Roboter
Technology
2. Oktober 2018
Share
Machine Learning ist ein Key-Faktor in der Entwicklung künstlicher Intelligenz und in der Herausbildung von autonomen Systemen und Technologien. Unsere Roboter zeichnen sich genau dadurch aus: Sie handeln autonom und das auch in dynamischen, unbekannten Umgebungen. Damit sie das erfolgreich tun können, müssen sie konstant dazu lernen: Sie brauchen die Fähigkeit, aus einer Menge an Daten Schlüsse zu ziehen und ihre Handlungen entsprechend anzupassen.
Natürlich haben all unsere Roboter eine hervorragende Kinderstube: Wir haben sie mit vielen wichtigen Informationen bereits vor ihrem Einsatz versorgt. Das sind zum Beispiel die grundlegenden Handlungs- und Bewegungsabläufe des zielsicheren Greifens und Ablegens, die richtige Geschwindigkeit in verschiedenen Situationen oder die Default-Reaktionen auf Hindernisse und Fehler. Aber die Welt im Lagerhaus ist komplex und verändert sich konstant. Besonders wenn sich Menschen in der Lagerumgebung bewegen, kann der Roboter mit seinen anfänglich gespeicherten Informationen nicht erfolgreich auf Änderungen reagieren – denn diese sind nicht vorhersehbar. Ein Beispiel: Der Roboter möchte einen Karton aus dem Fachbodenregal greifen, dieser ist aber nicht korrekt abgelegt worden. Der Roboter steht nun vor einer großen Herausforderung: Wo genau soll er greifen? Hier kommt Machine Learning ins Spiel.
Die verschiedenen Ansätze von Machine Learning
Wir können dem Roboter auf verschiedene Weisen die Fähigkeit zur Problemlösung antrainieren: Zum einen, ganz ähnlich wie beim menschlichen Lernen, gibt es das Überwachte oder„Supervised Learning“: Hier bekommt der Roboter eine Menge Beispiele und Vergleichsbilder sowie die dazugehörigen Ergebnisse als Input. Da unsere Roboter aber eine eigene Wahrnehmung besitzen und durch ihre Kameras und Sensoren konstant selbst Daten generieren, können sie sich auch selbst ein „Supervised-Lernproblem“ erstellen – diese Art Machine Learning haben wir bei Magazino „Self-Supervised-Learning“ genannt. Durch intelligente Algorithmen kann der Roboter Erfahrungswerte bzw. Daten abstrahieren und daraus Schlüsse ziehen: Wenn er z.B. den geplanten mit dem beobachteten Effekt seiner Aktion vergleicht oder die Welt vor und nach seiner Aktion, kann er daraus ein Modell seiner Aktion lernen, das entweder vorhersagt, welcher Effekt für eine gegebene Startsituation und Aktionsparameter zu erwarten ist oder z.B. eine Objekt-Segmentierung lernen. Das bedeutet, ein Modell des Objektes als Delta zwischen vorher und nachher, und eine Methode, die auch andere Objekte aus Sensordaten ausschneiden kann.
Eine dritte Art des Machine Learnings ist das „Reinforcement Learning“. Hier werden beide Varianten kombiniert. Dem System werden außerdem über ein Belohnungs- bzw. Strafensystem Anreize gesetzt. Potentielles Anwendungsgebiet bei Magazino ist die Auftragsverteilung zwischen den Robotern, also innerhalb der Roboterflotte. Pro gefahrenen Meter oder gebrauchte Sekunde werden hier Strafpunkte gegeben, für den erfolgreichen Pick bzw. Putdown gibt es viele Belohnungspunkte.
Doch Machine Learning ist komplex, besonders bei mobilen Robotern mit vielfältiger Sensorik.
Zu den Herausforderungen zählt hier, dass die gewonnen Sensordaten extrem unterschiedlich sind – kein Vergleich zu zweidimensionalen digitalen Fotos, über die eine einfache Bilderkennungssoftware läuft. Die Roboter müssen sinnvolle Bildausschnitte filtern: Das bedeutet, sie müssen entscheiden können, welche Daten aus den Kameras für sie in diesem Moment tatsächlich relevant sind.
Das kann man sich in etwas so vorstellen: Wenn Menschen fotografieren, fokussieren sie üblicherweise ein bestimmtes Objekt, welches sich dann relativ gut erkennbar auf dem Bild befindet. Wenn ein Roboter fotografiert bzw. wahrnimmt, geschieht das im ersten Moment ohne speziellen Fokus.
Deshalb geht es danach darum herauszufinden, wo ein Objekt anfängt, aufhört und in welchem Abstand es sich zu seiner Kamera oder zum Sensor befindet. Dies wird beispielsweise relevant, wenn die Roboter vor einem dicht gepackten Regal voller Schuhkartons stehen. Sie müssen dann zwischen allen Kartons die richtigen identifizieren sowie die entsprechende Greifbewegung genau so planen, dass die anderen Kartons nicht tangiert werden.
Wo wir Machine Learning konkret einsetzen
Unsere Roboter lernen durch Feedback-Kreisläufe, die wir „Self-Supervised-Learning“ nennen: Wahrnehmung, Reaktion, Feedback, Erkenntnis. Beim Anwendungsfall „optimale Greifpunkte auf Schuhkartons identifizieren“ ist das sehr anschaulich. Hier werden die Bewegungen des Greifarms auf die identifizierten Greifpunkte optimiert:
So verläuft das Lernen
- Mit unserem mobilen Kommissionier-Roboter TORU werden im Live-Betrieb Daten von zahlreichen Zugriffen bzw. „Picks“ auf Schuhkartons aufgezeichnet.
- Besonderer Fokus liegt darauf, welcher der sechs Saugnäpfe im Vakuumgreifer beim Zugriff korrekt auf dem Karton sitzt und somit genug Unterdruck erzeugen kann.
- Gleichzeitig wird vor jedem Zugriff ein Foto über die Kamera im Greifer aufgenommen und mit den jeweiligen Ergebnissen des anschließend erfolgten Picks verknüpft.
- Auch wenn fast alle Picks erfolgreich verlaufen, ist etwa die Hälfte der individuellen Saugnapf- Rückmeldungen negativ.
- Die gewonnen Daten werden in ein sogenanntes neuronales Netz eingespeist. Mit den Erkenntnissen daraus wird eine Heatmap erstellt, in welchem Bereich eines Kartons die Saugnäpfe tendenziell erfolgreich sind und wo nicht.
- Anschließend wird dem System die Aufnahme eines völlig unbekannten Schuhkartons gezeigt. Aufgrund der zuvor gewonnen Erkenntnisse kann das System auf Anhieb den Punkt auf dem Karton identifizieren, bei dem möglichst alle sechs Saugnäpfe erfolgreich ein Vakuum aufbauen können. Der Roboter hat also erfolgreich gelernt und kann sein Wissen auch in Zukunft anwenden.
Der Einsatz effektiven Machine Learnings verbessert die Performance unserer Roboter konstant und macht sie anpassungsfähig. Mit ihren intelligenten Algorithmen können sie so problemlos auf neue Situationen reagieren, zum Beispiel unbekannte oder verschobene Kartons erfolgreich greifen und neue Wege durch das Warenlager finden. Und da unsere Roboter lokal und global über eine Cloud miteinander vernetzt sind, lernt ein Roboter nicht nur für sich allein, sondern für die ganze Flotte: Gewinnt ein TORU im Warenlager eine neue Erkenntnis über einen versperrten Gang, teilt er diese in Echtzeit mit allen anderen. So wird sich in Zukunft auch der Deployment-Prozess deutlich verkürzen und im besten Fall nahezu automatisieren lassen. Unser langfristiges Ziel: Einmal aufgesetzt finden sich die Roboter in ihrer neuen Umgebung nach einem kurzen Lernprozess selbst zurecht und unterstützt tatkräftig – mit ihrem Handeln und mit ihrer Intelligenz.
nächster Artikel