Springe zu Navigation | Suche | Inhalte | Footer

Cognitive Robotics

Die elektronischen Augen der TFH Georg Agricola sehen mehr

Die Verbindung von Cognitive Robotics und Augmented Reality eröffnet einen intelligenteren Blick in unsere Umgebung 

Die farbigen Bildeinblendungen in Fussballübertragungen zur Aufdeckung von Abseitsstellungen und unglaubliche Bildverschmelzungen in Kinofilmen und in der Werbung sind uns als Anwendungen von Augmented Reality (AR) wohl vertraut. Augmented Reality verknüpft reale (Video-)daten mit abstrakten Modelldaten in Echtzeit. Sie hilft zu messen, aufzufinden, zu verdeutlichen, zu erklären und zu warnen. Diese Technik steht somit zwischen erdachter 3D Virtual Reality und realen Stereo-Videodaten. Den Ursprung hat Augmented Reality bereits im Bluebox-Verfahren aus den Anfängen des Farbfernsehens in den 70er-Jahren zur Einblendung zusätzlicher Videoquellen in Bildsequenzen erfahren. Und doch steht diese Technologie steht erst am Anfang.

Durch den Einsatz von Cognitive Robotics (CR) können Augmented-Reality-Systeme leistungsfähiger und autonomer werden. Es werden neue Anwendungen wie zum Beispiel Bremshilfen und Einparkhilfen in Verkehrstelematik- und Assistenz-Systemen für Kraftfahrzeuge mit entsprechender Aktorik erschlossen. Auch Fußgänger bis hin zu Luftfahrzeugen können von diesen Technologien profitieren. Entwicklungs-, Service- und Reparaturaufgaben werden erleichtert, Fernüberwachung und Leittechnik in betrieblichen Gefahrenbereichen werden transparenter und sicherer. Komplexe Szenarien in der Wehrtechnik und in der Medizin können zuverlässiger unterstützt werden. 

 

Plattform zur Demonstration von Cognitive Robotics und Augmented Reality

Im Labor für Informationstechnik des Wissenschaftsbereichs für Elektro- und Informationstechnik der TFH Georg Agricola wird eine Forschungsplattform betrieben, die eine Infrastruktur für Cognitive- Robotics- und Augmented-Reality-Technologien bietet.

Die Mensch-Maschine-Schnittstelle des Demonstrators besteht aus einer Video- und Audioerfassung, einer Visualisierung sowie einer Audioerzeugung.

Für den Kamerateil stehen vier Kamerasysteme zur Verfügung. Diese Kamerasysteme können über WLAN oder Analog-Funk drahtlos räumlich getrennt vom restlichen System betrieben werden:

  • Stereo-Kamerasystem: zwei hochauflösende Gigabit-Ethernet-Kameras mit fester Brennweite sind auf einem schnellen Schwenk-Neigekopf in doppeltem Augenabstand montiert.
  • Doppelkamera-System: zwei Videokonferenz-Kameraeinheiten bilden ein Kamerasystem. Je Kameraeinheit setzt sich aus Composite-Video-Kameras mit einem Schwenk-Neigekopf zusammen.
  • Mini-Stereo-Kamerasystem: zwei Mini-PCB-Module wahlweise mit Schwenk-Neigekopf besitzen Composite-Video-Ausgänge. Die kompakte und leichte Bauweise erlaubt den Einsatz in Flugdrohnen oder Modellautos. Der Kameraabstand entspricht dem einfachen Augenabstand.
  • USB-Kamerasystem: zwei kostengünstige USB-Webcams wahlweise mit Schwenk-Neigekopf können angeschlossen werden.

Anstelle von Kameras ist es ebenfalls möglich, aufgezeichnete oder simulierte Echtzeit-Videosequenzen unter Beibehaltung des Zeitverhaltens einzuspielen über:

  • Dateien
  • Pipes
  • Netzwerkschnittstellen 

Die Visualisierung kann über drei Möglichkeiten mit unterschiedlicher Immersionswirkung geschehen: 

  • Head-Mounted Display: Die erste Variante besteht aus einem Head-Mounted Display (Helmsichtbrille) mit eingebauten Lautsprechern in Stereo-SVGA-Auflösung und einem Head Tracker (Kopforientierungssensor), der die Winkelstellung des Kopfes misst. Hierdurch können in Abhängigkeit von der Kopfstellung stets die passenden Bilddaten eingespielt werden. Der Betrachter genießt eine direkte Kopplung mit dem Demonstrator.
  • TFT-Monitor: Shutter-Brillen sind heutzutage der üblichste Weg, ohne großen Kalibrieraufwand hochauflösend Stereo-Bilder anzusehen. Der Demonstrator kann ein digitales Videosignal erzeugen, das entsprechend schnelle TFT-Monitore synchron zu den Shutter-Brillen anzeigen. Betrachter sind unnatürlicherweise gezwungen, immer geradeaus zu schauen. Autostereoskopische Monitore sind für den Demonstrator in Vorbereitung.
  • Stereo-Projektion: Die 3D-Stereo-Videodaten können ebenfalls über eine Stereo-Projektion, die mit polarisiertem Licht arbeitet, auf einer Silberleinwand für mehrere Betrachter visualisiert werden. Über Lautsprecher wird der Nutzer akustisch mit synthetischer Sprachinformation versorgt. 

Die Sensoren und Aktoren werden über einen Linux-basierten PC verbunden, der zwei Videoaufnahme- und eine leistungsfähige 3D-Stereografikkarte enthält. Auf dem PC sind die Gerätetreiber und die Basissoftware in den Programmiersprachen C, C++ und Java implementiert. Zur grafischen 3D-Stereo-Darstellung wird das weitgehend plattformunabhängige OpenGL genutzt. Der Demonstrator ist in der Lage, ein aktives oder passives Stereo-SVGA-Signal zu liefern. 

Die Audioschnittstellen erlauben eine eine Spracheingabe für einfache Kommandos und eine Text-To-Speech-Sprachsynthese.

Die Software-Architektur ist als verteiltes System ausgelegt. So können prinzipiell steuerungs- oder rechenintensive Prozesse zur inhärenten Parallelverarbeitung ausgelagert werden, um die Video-Echtzeitbedingung zu gewährleisten. Die Kommunikation der beteiligten Prozesse erfolgt über einen Austausch von Nachrichten in dynamischer Größe. Die Nachrichten sind plattformunabhängig.

Eine netzwerkfähige LabVIEW-Schnittstelle ist in einem Steuerknoten vorhanden. Damit kann über eine Graphikoberfläche die Überwachung, die Analyse und die Steuerung des Systems durchgeführt werden.

Eine besondere Herausforderung stellt die Transformation und die Kalibrierung der Koordinatensysteme der Informationsquellen und -senken dar. Erst moderne Hochgeschwindigkeitsverfahren der Videoübertragung und latenzzeitarme Videodatenkompressionen erlauben auch eine Übermittlung der Bilddaten an verteilte Bilderkennungsprozesse.

 

Biologisch motivierte Anwendungen für Menschen und Maschinen

Die Anwendungen, die zunächst auf dem Demonstrator für vereinfachte Umwelten entwickelt und getestet werden, sind die automatische Ansteuerung der Schwenk-Neige-Köpfe (Augenbewegung) und die Ergänzung bzw. Ersetzung eines teilverdeckten Objektes im 3D-Stereobildes (Objektergänzung bzw. Objektsubstitution).

Sechs Verhaltensweisen können für die Kameraansteuerung durch den Demonstrator abgebildet werden: 
 

  • Autokalibierung: Die Kameras bestimmen durch Verändern der Blickrichtungen und durch Analyse eines Kalibrierungsmusters initial essentielle Kamera- und Systemparameter.
  • Joysticksteuerung: Die Kamerablickrichtungen bzw. die Positionen in einer Szene werden durch Joystickbewegungen vorgeben.
  • Telepräsenz: Die Kamerablickrichtungen werden mit der Kopfausrichtung über den Kopforientierungssensor gekoppelt. Die Kameras folgen der Kopfbewegung.
  • Objektverfolgung: Die Kameras verfolgen ein bewegtes Objekt im Sichtfeld durch visuelle Mustererkennung. Hierdurch wird das Objekt in einer Szene für die nachfolgenden Erkennungsschritte lageinvariant.
  • Text vorlesen: Die Kameras erfassen visuell einen maschinengeschriebenen Text. Der Text, den die optische Zeichenerkennung liefert, wird durch eine computer-synthetisierte Stimme auditiv über die Lautsprecher ausgegeben.
  • QR-Code vorlesen: Die Kameras erfassen visuell einen QR-Code und lesen diesen vor.

Weitere, insbesondere wissensbasierte Verhaltensweisen sind in Vorbereitung. Die Softwarearchitektur erlaubt eine weitgehend modulare Erweiterung.

Für die Objektsubstitution müssen mehrere Teilaufgaben gelöst werden: Das Objekt muss im 3D-Stereobild lokalisiert und segmentiert werden.

 

Demonstration einer Objektdetektion durch eine lernende Farbsegmentierung. Erkannte Bildpunkte im Suchbereich (grüne Ecken) werden blau gekennzeichnet. Die geschätzte Objektmitte wird über ein Fadenkreuz markiert.
Demonstration einer grafischen 3D-Tiefendarstellung. Tiefer gelegene Bildpunkte sind grau eingezeichnet. Weiße Bildpunkte befinden sich im Vordergrund.

Die anschließende Mustererkennung kann das Objekt identifizieren und dessen Ausrichtung schätzen. Das Objekt wird abschließend aus der Szene durch Einfügen von Hintergrundinformation oder neuen Modellobjekten gelöscht. Die eingesetzten Algorithmen müssen selbstkalibrierend, anpassungs- und lernfähig sein. Dabei werden Erkenntnisse aus der Verhaltensbiologie und der Hirnforschung technisch umgesetzt.

Die untenstehenden Abbildungen zeigen einfache Objektergänzungen. Das gesuchte Objekt (roter Kegel) ist dem AR-System bekannt und wird durch ein abgespeichertes 3D-OpenGL-Modell grafisch in einer Szene unter Berücksichtigung der Verdeckung und der Tiefeninformation ergänzt.

 

Das Leporello eines Maulwurfs in einem Einheitswürfel dient als Modellobjekt zur Objektergänzung. Der Maulwurf trägt hier zur Erhöhung seiner Sehkraft eine Lesebrille für den Nahbereich.
Demonstration einer Objektergänzung. Das Leporello eines Maulwurfs wird positions- und tiefengerecht um einen Kegel gefaltet. Die Szene besteht aus einem bekannten Satz von Stereotestbildern.

 

Die virtuelle Kamerastellung kann im Demonstrator interaktiv zum einfacheren Verständnis des 3D-Szenenaufbaus verändert werden.

 

 

Darstellung der internen 3D-Bild-repräsentation mit einem eingeblendeten Gitternetz und Detektionsinformationen. Das eingeblendete Leporello des Maulwurfs durchdringt die 2,5D-Szenen-Ebene.
Andere Modellobjekte wie z.B. ein Zylinder können alternativ eingeblendet werden.

 

Einzelne Marker mit individuellen, farbigen Identifikationsmustern oder Markergruppen erlauben eine geometrische Vermessung deren dreidimensionalen Ausrichtung. Damit können asymmetrische Standardkörper aber auch sehr komplexe Objektmodelle im 3ds-Max-Format zur Objektergänzung bzw. Objektersetzung im Augmented-Reality-Demonstrator verwendet werden.

 

Marker mit orangeblauer Identifikation und perspektivischer Einblendung des korrespondierenden 3D-Objektes im 3ds-Max-Format.
Stereo-Kamerasystem blickt auf zwei verschiedene Markierungen, denen jeweils Objekte zugeordnet sind.
Laborszene mit drei verschiedenen Markern.
Laborszene mit Markern und den beiden zugehörigen Objekteinblendungen.

Cognitive Robotics und Augmented Reality entstehen im Zusammenspiel

Das nachfolgende Systemschaubild verdeutlicht das Zusammenspiel der einzelnen Verarbeitungsschritte mit den speziellen Cognitive-Robotics-Hardwarekomponenten und Augmented-Reality-Techniken. Je nach gewählter Verhaltensweise der Kameraansteuerung ergeben sich Regelkreise in Kaskadenstruktur.

 

 

Vereinfachtes Systemschaubild der Augmented Reality Plattform. Je nach gewählter Verhaltensweise der Kameraansteuerung ergeben sich Regelkreise in Kaskadenstruktur.

 

"Durch die enormen, stetig wachsenden Rechnerleistungen können bestehende CR-Systeme über den Einsatz für eingeschränkte Umwelten hinaus verbessert und neue Anwendungen in der Augmented Reality erschlossen werden. Dies sind Anwendungen, die noch vor wenigen Jahren als nicht machbar galten. Die Hard- und Softwarelösungen aus der Rechnervernetzung, Multimedia und anspruchsvollen Spielsimulationen schaffen Standards und erlauben kostengünstige Entwicklungsplattformen für Industrie und Hochschulen. Der Immersionseffekt steigt kontinuierlich durch besser tragbare und integrierte Mensch-Maschine-Schnittstellen. So ist es absehbar, dass CR-Systeme ein fester Bestandteil mobiler Multimedia-Endgeräte mit hohem Marketingeffekt werden.", so Prof. Giefing.

 

 

Verteilter Systemzustand

 

Die Verarbeitung setzt auf dem Prinzip verteilter, kommunizierender Prozesse auf. Jeder Prozess befindet sich in einem Zustand. Der aktuelle Systemzustand stützt sich ggf. nur auf einen Teil der Prozesse. Der Benutzer, die Umwelt und das System selbst kann den Systemzustand ändern.

 

Matrix Transfer Protocol als vereinheitlichtes Nachrichtenformat

Die Kommunikation wird über das an der TFH Georg Agricola entwickelte Matrix Transfer Protocol (MTP) abgewickelt. Hierbei werden Eigenschaften aus klassischen Echtzeit-Netzwerk-Protokollen und Erkenntnissen der Neurobiologie abgebildet. Die Protokoll-Dateneinheit (PDU) des MTP besitzt u.a. eine dynamische Größe, ist routingfähig und verwendet generell eine zweidimensionale Struktur für die Nutzdaten. Die Nutzdaten sind anwendungsorientiert strukturiert.

 

Aufbau der MTP-PDU
Vereinheitlichtes Matrix-Daten-Objekt

 

Durch das Matrix Transfer Protocol kann leicht die Kommunikation überwacht und ausgewertet werden. Es gestattet eine schnelle Erweiterung der Systemfähigkeiten.

 

Anwendungsbeispiel Sicherheitstechnik

Das Kamerabild zeigt einen (leeren) Feuerlöscher, der detektiert wird. Positions- und tiefengerecht wird ein Hinweisobjekt um den Feuerlöscher eingeblendet. Das Hinweisobjekt wird vom Rucksack im Vordergrund teilweise verdeckt.
Darstellung der internen 3D-Bild-repräsentation in einer Seitenansicht

Vielfältigste Technik und anwendungsnahe Forschung pur

Gefordert sind in der Entwicklung von Cognitive-Robotics-Systemen mit Augmented-Reality-Techniken Ingenieurinnen und Ingenieure, die interdiziplinär denken können, die sich bei Bits und Bytes genauso wohl fühlen wie in der Systemintegration von Hardware, der Systemtheorie und der Simulation physikalischer Systeme.

Die Weiterentwicklung der CR-und AR-Anwendungen geschieht unter anderem durch TFH-interne Forschungsaktivitäten sowie Master- und Bachelorarbeiten. Der Demonstrator ist auch offen für eine Zusammenarbeit mit Kooperationspartnern aus der Industrie.

Zahlreiche Themenstellungen bieten sich an: Taktile Datenhandschuhe und weitere Sensoren für bildgebende Verfahren wie Videosensoren von Computerspiel-Konsolen, Laserscanner, Infrarotkameras und multifokale Kameras werden integriert. Die Träger des Cognitive-Robotics-Systems können mobile Plattformen wie Raupen, gehende, tauchende oder schwimmende ROVs und Flugdrohnen sein. Durch Aktoren wie z.B. spezialisierte Greifer wird das Einsatzspektrum erheblich erweitert. Ein entsprechender Stereo-Basisabstand der Sensoren wandelt einen Fernbereich in bestimmten Anwendungen in einen Nahbereich mit atemberaubenden und informationstragenden Stereoeffekten um.

 

Einstieg in die Programmierung von Visual Computing

Für einen einfachen Einstieg in Visual Computing (Bildverarbeitung, Mustererkennung, Computergrafik) ist ein Starter Kit in der Programmiersprache C vorhanden. Auf der Lernplattform der TFH Georg Agricola (siehe Giefing/Arbeitsschwerpunkt und Projekte) kann eine Bildverarbeitungsanwendung mit einer Visualisierung in OpenGL unter Linux erstellt und getestet werden.

Referenzen

G.-J. Giefing, “An Internet Protocol for the Brain: Toward a Unified Message Format and Data Representation in Cognitive Robotics,” in Proc. of 55. IWK Internationales Wissenschaftliches Kolloquium, Workshop C3 Human Robot Interaction, P. Scharff, Ed. Ilmenau: Verlag ISLE, pp. 600-605, Sep 2010

 

Professor Dr.-Ing.
Gerd-Jürgen Giefing

Tel. (0234) 968 3373

giefing  (at)  tfh-bochum.de

Abstract

The Laboratory for Information Technology at the University of Applied Sciences Georg Agricola, Bochum, Germany sets up a demonstrator as a low-cost infrastructure and testbed for cognitive robotics and augmented reality techniques.

This demonstrator consists of two pan-tilt cameras, a head mounted display in stereo SVGA resolution, a stereo beamer system, a head tracker and a PC with two frame grabber cards und a stereo graphics card. The Linux based software platform uses a unified message oriented communication for distributed processing called matrix transfer protocol.

Four behavioural patterns for camera gazes have been implemented: user given positions in a scene, head tracker controlled positions, visually tracked object position and text reading.

The demonstrator software calculates stereo depth maps and is able to perform a real-time substitution of partially occluded objects in stereo video streams by stored OpenGL 3D-models.

Forschungsplattform im  

Labor für Informationstechnik

Mensch-Maschine-Schnittstelle

Stereo-Kamerasystem (zwei Gigabit-Ethernet-Kameras auf einem Schwenk-Neigekopf
Doppel-Kamerasystem (zwei Composite-Video-Kameras auf je einem Schwenk-Neigekopf
Mini-Stereo-Kamerasystem(zwei PCB-Module mit je einem Video_HF-Sender)

Visualisierung

Head-Mounted Display
Kopf-Orientierungsensor

Stereo-Projektion

Stereo-Projektoren
Polfilter-Brillen
Stereo-Projektion

Monitoring und Steuerung

Monitoring und optionale Steuerung durch LabVIEW-Applikation