Machine Lear­ning: das Talent unse­rer Roboter

Technology

2. Oktober 2018

Share

Machine Lear­ning ist ein Key-Fak­tor in der Ent­wick­lung künst­li­cher Intel­li­genz und in der Her­aus­bil­dung von auto­no­men Sys­te­men und Tech­no­lo­gien. Unsere Robo­ter zeich­nen sich genau dadurch aus: Sie han­deln auto­nom und das auch in dyna­mi­schen, unbe­kann­ten Umge­bun­gen. Damit sie das erfolg­reich tun kön­nen, müs­sen sie kon­stant dazu ler­nen: Sie brau­chen die Fähig­keit, aus einer Menge an Daten Schlüsse zu zie­hen und ihre Hand­lun­gen ent­spre­chend anzupassen.

Natür­lich haben all unsere Robo­ter eine her­vor­ra­gende Kin­der­stube: Wir haben sie mit vie­len wich­ti­gen Infor­ma­tio­nen bereits vor ihrem Ein­satz ver­sorgt. Das sind zum Bei­spiel die grund­le­gen­den Hand­lungs- und Bewe­gungs­ab­läufe des ziel­si­che­ren Grei­fens und Able­gens, die rich­tige Geschwin­dig­keit in ver­schie­de­nen Situa­tio­nen oder die Default-Reak­tio­nen auf Hin­der­nisse und Feh­ler. Aber die Welt im Lager­haus ist kom­plex und ver­än­dert sich kon­stant. Beson­ders wenn sich Men­schen in der Lager­um­ge­bung bewe­gen, kann der Robo­ter mit sei­nen anfäng­lich gespei­cher­ten Infor­ma­tio­nen nicht erfolg­reich auf Ände­run­gen reagie­ren – denn diese sind nicht vor­her­seh­bar. Ein Bei­spiel: Der Robo­ter möchte einen Kar­ton aus dem Fach­bo­den­re­gal grei­fen, die­ser ist aber nicht kor­rekt abge­legt wor­den. Der Robo­ter steht nun vor einer gro­ßen Her­aus­for­de­rung: Wo genau soll er grei­fen? Hier kommt Machine Lear­ning ins Spiel.

Die ver­schie­de­nen Ansätze von Machine Learning

Wir kön­nen dem Robo­ter auf ver­schie­dene Wei­sen die Fähig­keit zur Pro­blem­lö­sung antrai­nie­ren: Zum einen, ganz ähn­lich wie beim mensch­li­chen Ler­nen, gibt es das Über­wachte oder„Super­vi­sed Lear­ning“: Hier bekommt der Robo­ter eine Menge Bei­spiele und Ver­gleichs­bil­der sowie die dazu­ge­hö­ri­gen Ergeb­nisse als Input. Da unsere Robo­ter aber eine eigene Wahr­neh­mung besit­zen und durch ihre Kame­ras und Sen­so­ren kon­stant selbst Daten gene­rie­ren, kön­nen sie sich auch selbst ein „Super­vi­sed-Lern­pro­blem“ erstel­len – diese Art Machine Lear­ning haben wir bei Maga­zino „Self-Super­vi­sed-Lear­ning“ genannt. Durch intel­li­gente Algo­rith­men kann der Robo­ter Erfah­rungs­werte bzw. Daten abs­tra­hie­ren und dar­aus Schlüsse zie­hen: Wenn er z.B. den geplan­ten mit dem beob­ach­te­ten Effekt sei­ner Aktion ver­gleicht oder die Welt vor und nach sei­ner Aktion, kann er dar­aus ein Modell sei­ner Aktion ler­nen, das ent­we­der vor­her­sagt, wel­cher Effekt für eine gege­bene Start­si­tua­tion und Akti­ons­pa­ra­me­ter zu erwar­ten ist oder z.B. eine Objekt-Seg­men­tie­rung ler­nen. Das bedeu­tet, ein Modell des Objek­tes als Delta zwi­schen vor­her und nach­her, und eine Methode, die auch andere Objekte aus Sen­sor­da­ten aus­schnei­den kann.

Eine dritte Art des Machine Lear­nings ist das „Rein­force­ment Lear­ning“. Hier wer­den beide Vari­an­ten kom­bi­niert. Dem Sys­tem wer­den außer­dem über ein Beloh­nungs- bzw. Stra­fen­sys­tem Anreize gesetzt. Poten­ti­el­les Anwen­dungs­ge­biet bei Maga­zino ist die Auf­trags­ver­tei­lung zwi­schen den Robo­tern, also inner­halb der Robo­ter­flotte. Pro gefah­re­nen Meter oder gebrauchte Sekunde wer­den hier Straf­punkte gege­ben, für den erfolg­rei­chen Pick bzw. Put­down gibt es viele Belohnungspunkte.

Doch Machine Lear­ning ist kom­plex, beson­ders bei mobi­len Robo­tern mit viel­fäl­ti­ger Sensorik.
Zu den Her­aus­for­de­run­gen zählt hier, dass die gewon­nen Sen­sor­da­ten extrem unter­schied­lich sind – kein Ver­gleich zu zwei­di­men­sio­na­len digi­ta­len Fotos, über die eine ein­fa­che Bil­der­ken­nungs­soft­ware läuft. Die Robo­ter müs­sen sinn­volle Bild­aus­schnitte fil­tern: Das bedeu­tet, sie müs­sen ent­schei­den kön­nen, wel­che Daten aus den Kame­ras für sie in die­sem Moment tat­säch­lich rele­vant sind.
Das kann man sich in etwas so vor­stel­len: Wenn Men­schen foto­gra­fie­ren, fokus­sie­ren sie übli­cher­weise ein bestimm­tes Objekt, wel­ches sich dann rela­tiv gut erkenn­bar auf dem Bild befin­det. Wenn ein Robo­ter foto­gra­fiert bzw. wahr­nimmt, geschieht das im ers­ten Moment ohne spe­zi­el­len Fokus.
Des­halb geht es danach darum her­aus­zu­fin­den, wo ein Objekt anfängt, auf­hört und in wel­chem Abstand es sich zu sei­ner Kamera oder zum Sen­sor befin­det. Dies wird bei­spiels­weise rele­vant, wenn die Robo­ter vor einem dicht gepack­ten Regal vol­ler Schuh­kar­tons ste­hen. Sie müs­sen dann zwi­schen allen Kar­tons die rich­ti­gen iden­ti­fi­zie­ren sowie die ent­spre­chende Greif­be­we­gung genau so pla­nen, dass die ande­ren Kar­tons nicht tan­giert werden.

Wo wir Machine Lear­ning kon­kret einsetzen

Unsere Robo­ter ler­nen durch Feed­back-Kreis­läufe, die wir „Self-Super­vi­sed-Lear­ning“ nen­nen: Wahr­neh­mung, Reak­tion, Feed­back, Erkennt­nis. Beim Anwen­dungs­fall „opti­male Greif­punkte auf Schuh­kar­tons iden­ti­fi­zie­ren“ ist das sehr anschau­lich. Hier wer­den die Bewe­gun­gen des Greif­arms auf die iden­ti­fi­zier­ten Greif­punkte optimiert:

Die blauen Berei­che ver­spre­chen eine hohe Erfolgs­wahr­schein­lich­keit beim Pick der Kartons.

;

Der Greif­arm mit sei­nen sechs Vaku­um­saug­näp­fen beim Zugriff auf einen Schuhkarton.

;

So ver­läuft das Lernen

  • Mit unse­rem mobi­len Kom­mis­sio­nier-Robo­ter TORU wer­den im Live-Betrieb Daten von zahl­rei­chen Zugrif­fen bzw. „Picks“ auf Schuh­kar­tons aufgezeichnet.
  • Beson­de­rer Fokus liegt dar­auf, wel­cher der sechs Saug­näpfe im Vaku­um­grei­fer beim Zugriff kor­rekt auf dem Kar­ton sitzt und somit genug Unter­druck erzeu­gen kann.
  • Gleich­zei­tig wird vor jedem Zugriff ein Foto über die Kamera im Grei­fer auf­ge­nom­men und mit den jewei­li­gen Ergeb­nis­sen des anschlie­ßend erfolg­ten Picks verknüpft.
  • Auch wenn fast alle Picks erfolg­reich ver­lau­fen, ist etwa die Hälfte der indi­vi­du­el­len Saug­napf- Rück­mel­dun­gen negativ.
  • Die gewon­nen Daten wer­den in ein soge­nann­tes neu­ro­na­les Netz ein­ge­speist. Mit den Erkennt­nis­sen dar­aus wird eine Heat­map erstellt, in wel­chem Bereich eines Kar­tons die Saug­näpfe ten­den­zi­ell erfolg­reich sind und wo nicht.
  • Anschlie­ßend wird dem Sys­tem die Auf­nahme eines völ­lig unbe­kann­ten Schuh­kar­tons gezeigt. Auf­grund der zuvor gewon­nen Erkennt­nisse kann das Sys­tem auf Anhieb den Punkt auf dem Kar­ton iden­ti­fi­zie­ren, bei dem mög­lichst alle sechs Saug­näpfe erfolg­reich ein Vakuum auf­bauen kön­nen. Der Robo­ter hat also erfolg­reich gelernt und kann sein Wis­sen auch in Zukunft anwenden.
;

Der Ein­satz effek­ti­ven Machine Lear­nings ver­bes­sert die Per­for­mance unse­rer Robo­ter kon­stant und macht sie anpas­sungs­fä­hig. Mit ihren intel­li­gen­ten Algo­rith­men kön­nen sie so pro­blem­los auf neue Situa­tio­nen reagie­ren, zum Bei­spiel unbe­kannte oder ver­scho­bene Kar­tons erfolg­reich grei­fen und neue Wege durch das Waren­la­ger fin­den. Und da unsere Robo­ter lokal und glo­bal über eine Cloud mit­ein­an­der ver­netzt sind, lernt ein Robo­ter nicht nur für sich allein, son­dern für die ganze Flotte: Gewinnt ein TORU im Waren­la­ger eine neue Erkennt­nis über einen ver­sperr­ten Gang, teilt er diese in Echt­zeit mit allen ande­ren. So wird sich in Zukunft auch der Deploy­ment-Pro­zess deut­lich ver­kür­zen und im bes­ten Fall nahezu auto­ma­ti­sie­ren las­sen. Unser lang­fris­ti­ges Ziel: Ein­mal auf­ge­setzt fin­den sich die Robo­ter in ihrer neuen Umge­bung nach einem kur­zen Lern­pro­zess selbst zurecht und unter­stützt tat­kräf­tig – mit ihrem Han­deln und mit ihrer Intelligenz.