[…] understanding the surrounding scenes is not merely a task of image classification or object recognition. To perform actual tasks, it is critical for the robot to have a functional understanding of the visual scene.
Dieses Zitat ist aus dem Artikel „What can i do around here? Deep functional scene understanding for cognitive robots“ (*hust*) von Ye, C. et al. in 2017 IEEE International Conference on Robotics and Automation (ICRA), Singapore, 2017, pp. 4604–4611.
Diese beiden Aussagen druecken das aus, was die meisten Menschen vom Potential der Roboter halten. Mich duenkt insbesondere diejenigen, die von sich denken, dass sie informiert waeren.
Oder anders: „Jaja, Bilderkennung geht ja mittlerweile doch schon manchmal, aber das ist nicht relevant … und schon gar nicht fuer mich persønlich (!) … denn wenn das Bild nur ein bisschen anders ist, dann wird das Buttermesser als Elefant kategorisiert und mit ’nem Elefanten kann man kein Brot schmieren.“
Und das stimmt. Das ist ein ganz groszes Problem, wenn immer mehr Aufgaben von Robotern uebernommen werden. Ein Butterbrot illustriert die Schwere dieses Problems nicht, aber Geschichten davon, dass man bspw. keinen Kredit bekommt, weil man im falschen Stadtteil wohnt, oder dass man als potentieller Krimineller eingestuft wird, blosz weil man die falsche Hautfarbe hat, sind ja bekannt. Auch DIES ist nicht falsch zu verstehen, denn solche Sachen passierten lange bevor es Computer gab und passieren auch heute noch, selbst wenn keine Computer in den Entscheidungen involviert sind.
Worauf ich hinaus will, ich gebe den Kritikern durchaus recht. Gleichzeitig meine ich aber auch, dass dies eine Kopf-in-den-Sand-Methode ist. Die Menschheit arbeitet an diesem harten Problem und im oben zitierten Artikel sind die Autoren schon ein gutes Stueck voran gekommen.
Dort werden Kuechen als komplexe und interaktive Szenen genommen. Ein Beispiel fuer funktionelles Verstehen ist
[…] a round knoblike object indicates that an action of spherical grasping and perhaps turning could be applied to it […].
Und als Menschen erkennen wir …
[…] such functional areas in our daily environments with vision, so we can perform different actions and tasks.
Da muss man erstmal drauf kommen. Hørt sich leicht an, aber wir machen das ueberhaupt nicht bewusst. Wo ist der Unterschied zwischen einer Schuessel und einer Bratpfanne? Ist das Øffnen der Mikrowelle in der selben Aktionskategorie wie das Øffnen des Besteckfachs? Warum ist mein Gehirn ueberhaupt nicht damit beschaeftigt das auseinander zu klamuesern sondern macht das einfach? Nun ja, streng genommen klamuesert mein Gehirn das auseinander, aber das geschieht eben automatisch und unterbewusst nachdem wir das gelernt haben.
Und die Autoren des Artikels haben sich daran gemacht und versucht einem Computer beizubringen unterschiedliche Objekte in einer Kueche funktional zu erkennen.
Ihr bestes Modell hat Zeug zwar in nur ca. 32 % aller Faelle den richtigen Kategorien zuordnen kønnen, aber bei der Vielzahl von verschiedenen Aktionskategorien in einer Kueche, finde ich das schon bemerkenswert. So bemerkenswert, dass ich besagte Kopf-in-den-Sand-Strategie fuer all zu gefaehrlich halte. Natuerlich sind Resultate wie …
[…] a bulb […] is recognized as a “spherical grasp to open” functional area […]
… eine Bestaetigung genau dessen was ich oben schrieb. Aber wenn man bedenkt, dass …
[…] the bulb [was] not labeled with any specific functionality in the training data
… dann ist das kein Fehlschlag, sondern ein Erfolg! Genauso wie Kinder die Sandkuchen essen kein Fehlschlag sind, sondern nur eine von der Evolution als (meistens) erfolgreich erkannte und erprobte Strategie anwenden um zu lernen. Und trotz des Fehlschlags (Sand ist schlieszlich objektiv nicht essbar) erlauben wir den jungen Menschen nach ein paar Jahren Kuechenchef zu werden, Auto zu fahren oder neuen jungen Menschen Dinge beizubringen.
Und auf der Stufe sind (trainierte) Computer — Kleinkinder … und die werden auch mal grosz und kønnen dann alles was auch wir kønnen. Toll wa!
Leave a Reply