Bildbearbeitung ist mittlerweile allen bekannt, weniger gut kennen die meisten die Möglichkeiten von Veränderungen an Videos. In Hollywood wurden mit grafischen Programmen schon diverse Filme animiert, aber aus dem Bereich der Forschung kommt nun eine völlig neue Software. Justus Thies ist Doktorand an der Friedrich-Alexander Universität Erlangen-Nürnberg (FAU) am Lehrstuhl für Graphische Datenverarbeitung, und hat die Facial Reenactment Software entwickelt. Damit ist es möglich Mimik und Lippenbewegungen eines Menschen zu erfassen und – das ist geradezu revolutionär – das Ganze in Echtzeit auf das Videobild einer anderen Person zu übertragen. Entstanden ist die Technologie in Zusammenarbeit mit Forschern der FAU, der Universität Stanford und des Max-Planck-Instituts für Informatik.
Defaulttext aus wp-youtube-lyte.php
Herr Thies, Ihre Facial Reenactment Software mutet geradezu unglaublich an. Was leistet diese Software und wie funktioniert sie?
Im Mittelpunkt unserer Entwicklung steht bzw. stand die Weiterentwicklung von Gesichtstrackern, also Software die die Mimik einer Person verfolgen kann. Dabei wurde darauf geachtet das keine speziellen Kameras von Nöten sind und stattdessen eine gewöhnliche Webcam benutzt.
Um die Mimik einer Person zu verfolgen, wird das Gesicht einer Person dreidimensional erfasst. Dazu verwenden wir ein statistisches Modell, das auf einer Datenbank von ca. 200 Personen besteht, die mit Hilfe eines Laserscanners dreidimensional erfasst wurden.
Nach der Rekonstruktion der Gesichtsform und Gesichtsfarbe wird ein Ansatz der Analyse durch Synthese verwendet, um die Mimik einer Person in einem Bild zu schätzen. Das heisst das Gesichtsmodell wird solang verformt, bis jedes Pixel des synthetischen Bildes mit dem originalen Bild bestmöglich übereinstimmt.
Als Demonstration für die Genauigkeit unseres Gesichtstracker haben wir das Facial Reenactment gewählt. Dabei demonstrieren wir einerseits die Geschwindigkeit unseres Trackers, aber auch andererseits die erreichte Rekonstruktionsqualität.
Um das Facial Reenactment zu ermöglichen werden zwei Videos benötigt. Ein Video mit dem “Source Actor”, also dem treibenden Schauspieler, und einem zweiten Video mit dem “Target Actor”, also dem Schauspieler, dem eine neue Mimik gegeben wird. Beide Personen werden mit unserer Software dreidimensional erfasst. Nun wird die Mimik des “Source Actors” auf den “Target Actor” übertragen. Das neue Gesicht des “Target Actors” wird anschliessend mit Standard Computergraphik- Techniken auf das Ursprungsvideo gezeichnet.
Worin unterscheidet sich die Software von Filmproduktionen, wo animierte Filme bereits gang und gäbe sind?
Unsere Software benötigt keinen komplizierten Aufbau von Spezial-Kameras und auch keine Marker die in das Gesicht geklebt werden müssen.
Wir benötigen lediglich eine gewöhnliche Kamera oder Webcam, um die Gesichtszüge einer Person zu erfassen.
Wo liegen die Schwierigkeiten bei der Software? Wo gibt es noch Entwicklungsbedarf?
Die Software kann nur solche Mundbewegungen wiedergeben, die in dem Video des “Target Actors” vorhanden sind. Das liegt vor allem daran, dass der Mundinnenraum nicht dreidimensional rekonstruiert wird. Anstelle dessen wird eine Datenbank von Mundinnenräumen aufgebaut.
Wenn nun der Mund eine bestimmte Pose einnehmen soll, wird in dieser Datenbank nach einem passenden Mundinnenraum gesucht und dieser in das Bild eingefügt.
In Zukunft planen wir auch den Mundinnenraum dreidimensional zu rekonstruieren, dadurch wird es möglich sein auch Mundposen zu synthetisieren, die nicht in dem Beispielmaterial vorhanden sind.
In unserer digitalisierten Welt sind manipulierte Bilder und Fake Videos sehr verbreitet. Ihre Software könnte auch missbräuchlich genutzt werden, indem man z.B. Politikern oder Konzernchefs falsche Worte in den Mund legt. Wie sehen Sie diese Problematik und was tun Sie gegen Missbrauch?
Unsere Software ist zurzeit nur in der Lage die Mimik einer Person zu verändern. Sie ist nicht fähig Sprache einer Person zu synthetisieren. D.h. die Software kann so noch nicht eingesetzt werden um jemanden ein falsches Wort in den Mund zu legen.
Uns ist bewusst, dass die Synthese von Stimmen auch grosse Fortschritte macht, in gleichem Masse wird aber auch an Programmen entwickelt, die Fälschungen erkennen. Dieses Teilgebiet der Informatik nennt sich digitale Forensik. Dabei werden Spuren von Manipulationen gesucht. Dies kann zum einen durch falsche physikalische Effekte (insbesondere Beleuchtung, Schatten) in einem Bild erkannt werden, aber auch durch statistische Effekte (insbesondere Rauschverhalten einzelner Kameras). Wir arbeiten auch an solcher Software, da unser Tracking-Algorithmus nicht nur die Mimik und Gesichtsform, sondern auch die Beleuchtung in einem Bild schätzen kann.
Könnte diese Software auch für das Marketing genutzt werden, wo gerade Augmented und Virtual Reality ein grosses Thema sind?
Die Anwendungsgebiete sind zahlreich. Marketing gehört sicherlich auch dazu. Ich hatte bereits interessante Anfragen von Sozialwissenschaftlern, die analysieren möchten, wie Menschen auf bestimmte Nachrichten reagieren, wenn sie visuell von verschiedenen Personen vermittelt werden.
Im Bereich Augmented und Virtual Reality haben wir unsere Forschung bereits weitergebracht, siehe dazu unser aktuelles Projekt FaceVR.
Ein Verkauf dieser Software würde sicherlich einen hohen finanziellen Gewinn generieren. Sind Pläne angedacht, die Software auch kommerziell zu vermarkten? Sehen wir Sie nach erfolgreichem Abschluss der Doktorarbeit als zukünftigen Geschäftsführer, oder wollen Sie sich weiterhin der Forschung und Entwicklung widmen?
Zu dem Projekt wurden von dem Max Planck Institut Informatik (MPII) Patente eingereicht. Eine Kommerzialisierung steht aber zurzeit nicht auf der Tagesordnung.
In Zukunft werde ich mich vorerst auf Forschung und Entwicklung konzentrieren.
Mehr Informationen zur Facial Reenactment Software
http://lgdv.cs.fau.de/publications/publication/Pub.2016.tech.IMMD.IMMD9.face2f/
Friedrich-Alexander Universität Erlangen-Nürnberg (FAU)