Menschliche Bewegung aus Bewegtbildern und Inertial-Messsystemen

Die Aufzeichnung menschlicher Bewegungen ist notwendig, um menschliche Ganzkörperbewegungen zu modellieren, zu verstehen und automatisch zu animieren. Herkömmliche markerbasierte optische Motion Capture-Systeme (MoCap) sind aufdringlich und beschränken die Bewegungen auf kontrollierte Laborräume. Daher können einfache tägliche Aktivitäten wie Radfahren oder Kaffeetrinken mit Freunden mit solchen Systemen nicht aufgezeichnet werden. Bildbasierte Bewegungserfassungsmethoden bieten eine Alternative, aber sie sind immer noch nicht genau genug und erfordern eine direkte Sichtverbindung mit der Kamera.

Um diese Probleme anzugehen und um menschliche Bewegungen in alltäglichen, natürlichen Situationen erfassen zu können, setzen wir Inertialmesssysteme (IMUs) ein, die die lokale Orientierung und Beschleunigung messen. Die IMUs liefern Hinweise auf die menschliche Bewegung, ohne dass externe Kameras erforderlich sind, was gerade bei Außenaufnahmen, bei denen es häufig zu Verdeckungen kommt, wünschenswert ist.

Körperhaltung aus 6 IMU: Bestehende IMU-Systeme sind aufdringlich, weil sie eine große Anzahl von Sensoren (17 oder mehr) erfordern, die am Körper getragen werden. In der früheren Arbeit, Abbildung links, haben wir einen auf Raum-Zeit-Optimierung basierenden Ansatz demonstriert, der mit nur 6 IMUs, die an Handgelenken, Unterschenkel, Taille und Kopf befestigt sind, die vollständige Körperbewegung rekonstruieren kann.

Körperhaltung in Echtzeit aus 6 IMU: SIP ist zwar weniger aufdringlich, aber von Natur aus offline, was viele Anwendungen einschränkt. In der jüngsten Arbeit, Abbildung 1-rechts, stellen wir einen auf Deep Learning basierenden Echtzeit-Algorithmus für die Ganzkörperrekonstruktion aus allein 6 IMUs vor. Wir fanden heraus, dass die zeitliche Fortpflanzung von Informationen vorwärts und rückwärts für die Rekonstruktion natürlicher menschlicher Bewegungen, für die wir ein bidirektionales rekursives neuronales Netzwerk verwenden, von entscheidender Bedeutung ist. Wir lernen aus synthetischen IMU-Daten und verallgemeinern sie durch Transfer-Lernen auf reale Daten.

Visuell-inertiale menschliche Pose: Im Gegensatz zu visuellen Messungen kann die IMU keine absolute Gelenkpositionsinformation liefern. Dies macht reine IMU-basierte Methoden für bestimmte Bewegungsarten ungenau. Daher haben wir in unserer jüngsten Arbeit VIP eingeführt, bei der IMUs und eine einzelne bewegliche Kamera kombiniert werden, um die menschliche Pose in schwierigen Außenszenen robust zu erfassen. Die sich bewegende Kamera, die Drift des Sensorkopfes, der unübersichtliche Hintergrund, die Verdeckungen und viele im Video sichtbare Personen machen das Problem sehr schwierig. Wir ordnen die 2D-Positionserkennung in jedem Bild den entsprechenden Personen mit IMU-Ausrüstung zu, indem wir ein neuartiges graphenbasiertes Optimierungsproblem lösen, das die 3D-zu-2D-Kohärenz innerhalb eines Rahmens und über große Entfernungen hinweg erzwingt. Angesichts dieser Assoziationen optimieren wir gemeinsam die Pose des SMPL-Körpermodells, die Kameraposition und die Kursverschiebung mit Hilfe einer kontinuierlichen Optimierung.

Mit Hilfe von VIP sammelten wir den 3DPW-Datensatz, der Videos von Menschen in problematischen Szenen mit genauen 3D-Parametern enthält, die erstmals die Möglichkeit bieten, monokulare Methoden in schwierigen Szenen quantitativ zu bewerten und neue Forschungen in diesem Bereich anzuregen, siehe Abbildung 2.

 

Gerard Pons-Moll

DEPT.  Computer Vision and Machine Learning
Phone
+49.681.9325-2135
Email: gpons@mpi-inf.mpg.de