A pesar de varios años de hipérbole en los medios sobre el potencial de las imágenes falsas para socavar nuestra fe en la autenticidad de las secuencias de video, todos los métodos actualmente populares se basan en encontrar ‘anfitriones faciales’ que tienen una forma similar a la cara objetivo.
Cuando el metraje original presenta una cara ancha, pero el sujeto de destino tiene una cara estrecha, los resultados siempre han sido problemáticos, porque dicha transferencia implica cortar parte de la cara original y reconstruir el fondo ahora expuesto. Los paquetes actuales, como DeepFaceLab y FaceSwap, pueden producir resultados limitados cuando la configuración se invierte (estrecha>ancha), pero no tienen la capacidad de abordar este escenario de manera convincente.
Ahora, una colaboración entre Tencent y la Universidad de Xiamen de China ha desarrollado un nuevo enfoquetitulado HifiFace, diseñado para corregir este déficit.
Dos deepfakes de HifiFace, el primero de Anne Hathaway, donde se obtiene un buen parecido a pesar de la forma incompatible de la cara del anfitrión. HifiFace también funciona bien en objetivos con gafas, tradicionalmente un obstáculo en las falsificaciones profundas. Fuente: https://arxiv.org/pdf/2106.09965.pdf
Remodelación de una cara Deepfake
Enfoques anteriores, como el intercambio y la recreación de rostros agnósticos de sujeto de 2019 (FSGAN), han dependido de Ajuste 3DMM (Modelos transformables en 3D) u otras metodologías basadas en el reconocimiento o transformación de puntos de referencia faciales, donde los rasgos faciales de la cara que se ‘sobrescribirán’ prácticamente dictan los límites del intercambio:
Detección de puntos de referencia faciales 3DMM. Fuente: https://github.com/Yinghao-Li/3DMM-fitting
Aunque los métodos de la competencia se han basado en características derivadas de las redes de reconocimiento facial, su objetivo principal es reconstituir la textura en lugar de la estructura y, de manera similar, producen un efecto “similar a una máscara” en los casos en que la cara del anfitrión no es totalmente compatible (es decir, los límites y la forma de la línea del cabello, la mandíbula y los pómulos).
Para abordar estos problemas, los investigadores chinos, con base en el Laboratorio de Computación y Análisis de Medios en el Departamento de Inteligencia Artificial de la universidad, desarrollaron una red de extremo a extremo que hace una regresión de los coeficientes del objetivo y la fuente utilizando un modelo de reconstrucción 3D, que luego se vuelve a combinar como información de forma y se concatena con información de vector de identidad de una red de reconocimiento facial.
Estos datos geométricos luego se introducen en un modelo de codificador-decodificador como información estructural, mezclándose con la expresión y disposición de la cara del objetivo, que se aprovechan como fuentes auxiliares para una transferencia precisa.
Fusión facial semántica
Además, HifiFace incluye un componente de fusión facial semántica (SFF), que utiliza una característica de bajo nivel en el codificador para preservar la información espacial y de textura, sin sacrificar la identidad de la imagen de destino. Las funciones del codificador y del decodificador se integran en una máscara adaptativa aprendida, y la información de fondo se mezcla con la salida por medio de la máscara facial aprendida.
Hifi Face en acción. Fuente: https://johann.wang/HifiFace/
De esta manera, HifiFace se aparta del uso de los límites de la cara del material original como un límite estricto, mediante el uso de la segmentación semántica de la cara dilatada, en la que el modelo puede realizar una mejor fusión adaptativa en los límites de los bordes de la cara.
Dos enfoques anteriores (arriba y abajo a la izquierda) y la nueva arquitectura HifiFace, que consta de un codificador, un decodificador, un extractor de identidad con reconocimiento de forma 3D y un módulo SFF.
En una comparación con métodos anteriores FSGAN, Intercambio de Sim y FaceShifterHifiFace demuestra una reconstrucción superior de la forma del rostro, ya que no se aproxima a elementos ‘fantasmas’ donde las delimitaciones faciales confunden el mapeo identidad>identidad, sino que los reconstruye definitivamente.
Pruebas
Los investigadores implementaron el sistema usando el VGGFace2 y el brillo profundo asiático-celebridad conjuntos de datos Las caras se alinearon a través de 5 puntos de referencia externos y se volvieron a recortar a 256 × 256 píxeles. También se utilizó una red de mejora de retratos para generar una versión de 512 × 512 píxeles, para un modelo adicional de mayor resolución. La modelo fue entrenada bajo Adán.
Aunque FaceShifter conserva bien la identidad, no puede abordar problemas como la expresión, el color y la oclusión con la misma eficacia que HifiFace, y tiene una estructura de red más compleja. FSGAN tiene problemas para transferir la iluminación de la fuente al objetivo.
Los investigadores utilizan FaceForensics++ para comparaciones cuantitativas, muestreando diez fotogramas cada uno en un lote de videos convertidos a través de los métodos de la competencia, y descubriendo que HifiFace logró un puntaje de recuperación de ID superior. Al probar una variedad de otros factores, como la calidad de la imagen, los investigadores también descubrieron que su método superó a las metodologías rivales.
Los rasgos faciales de Benedict Cumberbatch se reproducen fielmente.
El trabajo representa un paso más hacia la abstracción del material de origen para que sea solo una plantilla aproximada a la que se pueden transferir identidades precisas. Algunos de los paquetes FOSS actuales, incluido DeepFaceLab, cuentan con una funcionalidad incipiente para el reemplazo de cabeza completa, pero, como HifiFace, estos no tienen en cuenta el cabello y son más efectivos para “construir” una cara que para cincelarla para que coincida. una fuente objetivo deseada.