Das ZHAW Institut für Marketing Management erforscht regelmässig die Wahrnehmung und Akzeptanz neuer Technologien (z.B. Virtual Reality, Augmented Reality, AI-Anwendungen) aus Kundensicht und untersucht, wie diese für Marketingzwecke genutzt werden können.
Eine solche Anwendung stellt die Facial Reenactment Software dar, die es ermöglicht, Mimik und Lippenbewegungen eines Menschen zu erfassen und – das ist geradezu revolutionär – das Ganze in Echtzeit auf das Videobild einer anderen Person zu übertragen. Entwickelt hat die Technologie Justus Thies, Doktorand an der Friedrich-Alexander Universität Erlangen-Nürnberg (FAU) am Lehrstuhl für Graphische Datenverarbeitung, in Zusammenarbeit mit Forschern der FAU, der Universität Stanford und des Max-Planck-Instituts für Informatik.
Wir haben uns mit Justus Thies über die Chancen und Risiken der Software unterhalten.
Herr Thies, Ihre Facial Reenactment Software mutet geradezu unglaublich an. Was leistet diese Software und wie funktioniert sie?
Im Mittelpunkt unserer Entwicklung steht bzw. stand die Weiterentwicklung von Gesichtstrackern, also Software die die Mimik einer Person verfolgen kann. Dabei wurde darauf geachtet das keine speziellen Kameras von Nöten sind und stattdessen eine gewöhnliche Webcam benutzt.
Um die Mimik einer Person zu verfolgen, wird das Gesicht einer Person dreidimensional erfasst. Dazu verwenden wir ein statistisches Modell, das auf einer Datenbank von ca. 200 Personen besteht, die mit Hilfe eines Laserscanners dreidimensional erfasst wurden.
Nach der Rekonstruktion der Gesichtsform und Gesichtsfarbe wird ein Ansatz der Analyse durch Synthese verwendet, um die Mimik einer Person in einem Bild zu schätzen. Das heisst das Gesichtsmodell wird solang verformt, bis jedes Pixel des synthetischen Bildes mit dem originalen Bild bestmöglich übereinstimmt.
Als Demonstration für die Genauigkeit unseres Gesichtstracker haben wir das Facial Reenactment gewählt. Dabei demonstrieren wir einerseits die Geschwindigkeit unseres Trackers, aber auch andererseits die erreichte Rekonstruktionsqualität.
Um das Facial Reenactment zu ermöglichen werden zwei Videos benötigt. Ein Video mit dem “Source Actor”, also dem treibenden Schauspieler, und einem zweiten Video mit dem “Target Actor”, also dem Schauspieler, dem eine neue Mimik gegeben wird. Beide Personen werden mit unserer Software dreidimensional erfasst. Nun wird die Mimik des “Source Actors” auf den “Target Actor” übertragen. Das neue Gesicht des “Target Actors” wird anschliessend mit Standard Computergraphik- Techniken auf das Ursprungsvideo gezeichnet.
Wo liegen die Schwierigkeiten bei der Software? Wo gibt es noch Entwicklungsbedarf?
Die Software kann nur solche Mundbewegungen wiedergeben, die in dem Video des “Target Actors” vorhanden sind. Das liegt vor allem daran, dass der Mundinnenraum nicht dreidimensional rekonstruiert wird. Anstelle dessen wird eine Datenbank von Mundinnenräumen aufgebaut.
Wenn nun der Mund eine bestimmte Pose einnehmen soll, wird in dieser Datenbank nach einem passenden Mundinnenraum gesucht und dieser in das Bild eingefügt.
In Zukunft planen wir auch den Mundinnenraum dreidimensional zu rekonstruieren, dadurch wird es möglich sein auch Mundposen zu synthetisieren, die nicht in dem Beispielmaterial vorhanden sind.
In unserer digitalisierten Welt sind manipulierte Bilder und Fake Videos sehr verbreitet. Ihre Software könnte auch missbräuchlich genutzt werden, indem man z.B. Politikern oder Konzernchefs falsche Worte in den Mund legt. Wie sehen Sie diese Problematik und was tun Sie gegen Missbrauch?
Unsere Software ist zurzeit nur in der Lage die Mimik einer Person zu verändern. Sie ist nicht fähig Sprache einer Person zu synthetisieren. D.h. die Software kann so noch nicht eingesetzt werden um jemanden ein falsches Wort in den Mund zu legen.
Uns ist bewusst, dass die Synthese von Stimmen auch grosse Fortschritte macht, in gleichem Masse wird aber auch an Programmen entwickelt, die Fälschungen erkennen. Dieses Teilgebiet der Informatik nennt sich digitale Forensik. Dabei werden Spuren von Manipulationen gesucht. Dies kann zum einen durch falsche physikalische Effekte (insbesondere Beleuchtung, Schatten) in einem Bild erkannt werden, aber auch durch statistische Effekte (insbesondere Rauschverhalten einzelner Kameras). Wir arbeiten auch an solcher Software, da unser Tracking-Algorithmus nicht nur die Mimik und Gesichtsform, sondern auch die Beleuchtung in einem Bild schätzen kann.
Könnte diese Software auch für das Marketing genutzt werden, wo gerade Augmented und Virtual Reality ein grosses Thema sind?
Die Anwendungsgebiete sind zahlreich. Marketing gehört sicherlich auch dazu. Ich hatte bereits interessante Anfragen von Sozialwissenschaftlern, die analysieren möchten, wie Menschen auf bestimmte Nachrichten reagieren, wenn sie visuell von verschiedenen Personen vermittelt werden.
Im Bereich Augmented und Virtual Reality haben wir unsere Forschung bereits weitergebracht, siehe dazu unser aktuelles Projekt FaceVR.
Mehr Informationen zur Facial Reenactment Software
http://lgdv.cs.fau.de/publications/publication/Pub.2016.tech.IMMD.IMMD9.face2f/
Friedrich-Alexander Universität Erlangen-Nürnberg (FAU)
Blogautoren:
Rolf Rellstab und Michael Klaas