El aumento de datos CGI se está utilizando en un nuevo proyecto para obtener un mayor control sobre las imágenes falsas. Aunque todavía no puede usar cabezas CGI de manera efectiva para llenar los vacíos que faltan en los conjuntos de datos faciales falsos profundos, una nueva ola de investigación para desentrañar la identidad del contexto significa que pronto, es posible que no tenga que hacerlo.
Los creadores de algunos de los videos deepfake virales más exitosos de los últimos años seleccionan sus videos de origen con mucho cuidado, evitando tomas de perfil sostenidas (es decir, el tipo de fotografías policiales laterales popularizadas por los procedimientos de arresto policial), ángulos agudos y expresiones inusuales o exageradas. . Cada vez más, los videos de demostración producidos por los deepfakers virales son recopilaciones editadas que seleccionan los ángulos y las expresiones «más fáciles» de falsificar.
De hecho, el video de destino más complaciente en el que insertar una celebridad falsa es uno en el que la persona original (cuya identidad será borrada por la falsificación profunda) mira directamente a la cámara, con un rango mínimo de expresiones.
La mayoría de los deepfakes populares de los últimos años han mostrado sujetos directamente frente a la cámara, y solo con expresiones populares (como sonreír), que se pueden extraer fácilmente de la salida de los paparazzi en la alfombra roja, o (como con la falsificación de 2019 de Sylvester Stallone como Terminator, en la foto de la izquierda), idealmente sin ninguna expresión, ya que las expresiones neutrales son extremadamente comunes, lo que las hace fáciles de incorporar en modelos falsos.
Debido a que las tecnologías deepfake como DeepFaceLab y Intercambio cara realizar estos intercambios más simples muy bien, estamos lo suficientemente deslumbrados por lo que logran como para no darnos cuenta de lo que son incapaces de hacer y, a menudo, ni siquiera intentan:
Capturas de un aclamado video falso donde Arnold Schwarzenegger se transforma en Sylvester Stallone, a menos que los ángulos sean demasiado complicados. Los perfiles siguen siendo un problema persistente con los enfoques deepfake actuales, en parte porque el software de código abierto utilizado para definir las poses faciales en los marcos deepfake no está optimizado para las vistas laterales, pero principalmente debido a la escasez de material de origen adecuado en uno o ambos de los necesarios. conjuntos de datos Fuente: https://www.youtube.com/watch?v=AQvCmQFScMA
Nueva investigación de Israel propone un método novedoso para usar datos sintéticos, como cabezas CGI, para llevar la falsificación profunda a la década de 2020, separando realmente las identidades faciales (es decir, las características faciales esenciales de ‘Tom Cruise’, desde todos los ángulos) de su contexto (es decir, mirando hacia arriba, mirando hacia los lados, frunciendo el ceño, frunciendo el ceño en la oscuridad, el ceño fruncido, los ojos cerrados, etc.).
El nuevo sistema separa discretamente la pose y el contexto (es decir, guiñar un ojo) de la codificación de la identidad del individuo, utilizando datos faciales sintéticos no relacionados (imagen de la izquierda). En la fila superior, vemos un ‘guiño’ transferido a la identidad de Barack Obama, provocado por la ruta no lineal aprendida del espacio latente de una GAN, representada por la imagen CGI de la izquierda. En la fila de abajo, vemos la faceta de la comisura de la boca estirada transferida al expresidente. Abajo a la derecha, vemos ambas características aplicadas simultáneamente. Fuente: https://arxiv.org/pdf/2111.08419.pdf
Esto no es mero marionetas de cabeza falsasuna técnica más adecuada para avatares y sincronización de labios de cara parcial, y que tiene un potencial limitado para transformaciones de video deepfake completas.
Más bien, esto representa un camino a seguir para una separación fundamental de la instrumentalidad (como ‘cambiar el ángulo de la cabeza’, ‘crear un ceño fruncido’) de la identidad, ofreciendo un camino hacia una síntesis de imagen de alto nivel en lugar de ‘derivada’. marco basado en deepfake.
El nuevo artículo se titula Delta-GAN-Encoder: Codificación de cambios semánticos para la edición explícita de imágenes, utilizando pocas muestras sintéticas, y proviene de investigadores del Technion, Instituto de Tecnología de Israel.
Para comprender lo que significa el trabajo, echemos un vistazo a cómo se producen deepfakes actualmente en todas partes, desde sitios de pornografía deepfake hasta Luz y Magia Industrial (dado que el repositorio de código abierto de DeepFaceLab es actualmente dominante tanto en el deepfaking ‘aficionado’ como en el profesional).
¿Qué está frenando la tecnología Deepfake actual?
Actualmente, los deepfakes se crean entrenando un modelo de aprendizaje automático codificador/descodificador en dos carpetas de imágenes de rostros: la persona que desea ‘pintar sobre’ (en el ejemplo anterior, ese es Arnie) y la persona que desea superponer en el metraje (Sly ).
Ejemplos de diferentes poses y condiciones de iluminación en dos conjuntos de caras diferentes. Tenga en cuenta la expresión distintiva al final de la tercera fila en la columna A, que es poco probable que tenga un equivalente cercano en el otro conjunto de datos.
Entonces, el sistema codificador/decodificador compara cada imagen en cada carpeta entre sí, manteniendo, mejorando y repitiendo esta operación durante cientos de miles de iteraciones (a menudo durante una semana), hasta que comprende las características esenciales de ambas identidades lo suficientemente bien como para intercambiarlas a voluntad.
Para cada una de las dos personas que se intercambian en el proceso, lo que la arquitectura deepfake aprende sobre la identidad está enredado con el contexto. No puede aprender y aplicar principios sobre una pose genérica ‘para siempre’, pero necesita abundantes ejemplos en el conjunto de datos de entrenamiento, para todas y cada una de las identidades que estarán involucradas en el intercambio de caras.
Por lo tanto, si desea intercambiar dos identidades que están haciendo algo más inusual que solo sonreír o mirar directamente a la cámara, necesitará muchas instancias de esa pose/identidad en particular en los dos conjuntos de caras:
Debido a que las características de identificación facial y pose están actualmente tan entrelazadas, se necesita una amplia paridad de expresión, pose de la cabeza y (en menor medida) iluminación en dos conjuntos de datos faciales para entrenar un modelo deepfake efectivo en sistemas como DeepFaceLab. Cuanto menos se presente una configuración particular (como ‘vista lateral/sonriente/iluminada por el sol’) en ambos conjuntos de caras, con menos precisión se representará en un video falso profundo, si es necesario.
Si el conjunto A contiene la pose inusual, pero el conjunto B carece de ella, no tiene suerte; no importa cuánto tiempo entrenes al modelo, nunca aprenderá a reproducir bien esa pose entre las identidades, porque solo tenía la mitad de la información necesaria cuando fue entrenado.
Incluso si tiene imágenes coincidentes, puede que no sea suficiente: si el conjunto A tiene la pose correspondiente, pero con una iluminación lateral fuerte, en comparación con la pose equivalente con iluminación plana en el otro conjunto de caras, la calidad del intercambio ganó No sería tan bueno como si cada uno compartiera características de iluminación comunes.
Por qué los datos son escasos
A menos que te arresten regularmente, probablemente no tengas tantas fotos de perfil de ti mismo. Todo lo que surgió, probablemente lo tiraste. Dado que las agencias de fotografía hacen lo mismo, las fotos de perfil son difíciles de conseguir.
Los deepfakers a menudo incluyen varias copias de los datos de perfil de vista lateral limitados que tienen para una identidad en un conjunto de rostros, solo para que esa pose reciba al menos un poco de atención y tiempo durante el entrenamiento, en lugar de ser descartada como un parte aislada.
Pero hay muchos más tipos posibles de imágenes de caras de vista lateral de las que probablemente estén disponibles para su inclusión en un conjunto de datos: sonriendo, frunciendo el ceño, gritando, llorando, con poca luz, desdeñoso, aburrido, alegre, con flash, mirando hacia arriba, mirando hacia abajo, ojos abiertos, ojos cerrados… y así sucesivamente. Cualquiera de estas poses, en múltiples combinaciones, podría ser necesaria en un video de destino falso profundo.
Y eso es solo perfiles. ¿Cuántas fotos tienes de ti mirando hacia arriba? ¿Tiene suficiente para representar ampliamente el 10.000 expresiones posibles podría estar usando mientras mantiene esa pose exacta desde ese ángulo de cámara exacto, cubriendo al menos algunos de los un millón de entornos de iluminación posibles?
Lo más probable es que ni siquiera tengas una foto tuya mirando hacia arriba. Y eso es solo dos ángulos de los cien o más necesarios para una cobertura completa.
Incluso si fuera posible generar una cobertura completa de una cara desde todos los ángulos bajo una variedad de condiciones de iluminación, el conjunto de datos resultante sería demasiado grande para entrenar, del orden de cientos de miles de imágenes; e incluso si pudiera entrenarse, la naturaleza del proceso de entrenamiento para los marcos de deepfake actuales desecharía la gran mayoría de esos datos adicionales a favor de un número limitado de características derivadas, porque los marcos actuales son reduccionistas y no muy escalables.
sustitución sintética
Desde los albores de los deepfakes, los deepfakers han experimentado con el uso de imágenes de estilo CGI, cabezas creadas en aplicaciones 3D como Cinema4D y Maya, para generar esas ‘poses perdidas’.
No se necesita IA; se recrea a una actriz en un programa CGI tradicional, Cinema 4D, utilizando mallas y texturas de mapas de bits, tecnología que data de la década de 1960, aunque su uso generalizado solo se logró a partir de la década de 1990. En teoría, este modelo facial podría usarse para generar datos fuente falsos profundos para poses inusuales, estilos de iluminación y expresiones faciales. En realidad, ha sido de uso limitado o nulo en la falsificación profunda, ya que la «falsedad» de los renderizados tiende a filtrarse en los videos intercambiados. Fuente: imagen del autor de este artículo en https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/
Este método generalmente es abandonado temprano por los nuevos practicantes de deepfake, porque aunque puede proporcionar poses y expresiones que de otro modo no estarían disponibles, la apariencia sintética de las caras CGI generalmente se filtra a través de los intercambios debido al enredo de ID e información contextual/semántica.
Esto puede conducir a la aparición repentina de caras de ‘valle inquietante’ en un video deepfake convincente, ya que el algoritmo comienza a basarse en los únicos datos que puede tener para una pose o expresión inusual: caras manifiestamente falsas.
Entre los temas más populares para los deepfakers, se incluye un algoritmo de deepfake en 3D para la actriz australiana Margot Robbie en la instalación predeterminada de DeepFaceLive, una versión de DeepFaceLab que puede realizar deepfakes en una transmisión en vivo, como una sesión de cámara web. Se podría usar una versión CGI, como se muestra arriba, para obtener ángulos «faltantes» inusuales en conjuntos de datos falsos. Fuente: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace
Caras CGI como pautas conceptuales separadas
En cambio, el nuevo método Delta-GAN Encoder (DGE) de los investigadores israelíes es más efectivo, porque la pose y la información contextual de las imágenes CGI se han separado completamente de la información de «identidad» del objetivo.
Podemos ver este principio en acción en la imagen a continuación, donde se han obtenido varias orientaciones de la cabeza utilizando las imágenes CGI como guía. Dado que las características de identidad no están relacionadas con las características contextuales, no se filtra la apariencia sintética de aspecto falso de la cara CGI ni la identidad representada en ella:
Con el nuevo método, no es necesario encontrar tres imágenes de origen de la vida real separadas para representar una falsificación profunda desde múltiples ángulos; simplemente puede rotar la cabeza CGI, cuyas características abstractas de alto nivel se imponen a la identidad sin filtrar ninguna identificación. información.
Codificador Delta-GAN. Grupo superior izquierdo: el ángulo de una imagen de origen se puede cambiar en un segundo para generar una nueva imagen de origen, que se refleja en la salida; grupo superior derecho: la iluminación también se desenreda de la identidad, lo que permite la superposición de estilos de iluminación; grupo inferior izquierdo: múltiples detalles faciales se modifican para crear una expresión «triste»; grupo inferior derecho: se cambia un solo detalle de la expresión facial, de modo que los ojos entrecierran los ojos.
Esta separación de identidad y contexto se logra en la etapa de formación. La canalización para la nueva arquitectura deepfake busca el vector latente en una Red adversa generativa (GAN) preentrenada que coincide con la imagen que se va a transformar: una metodología Sim2Real que se basa en un 2018 proyecto de la sección de investigación de IA de IBM.
Los investigadores observan:
‘Con solo unas pocas muestras, que difieren por un atributo específico, uno puede aprender el comportamiento desenredado de un modelo generativo enredado previamente entrenado. No hay necesidad de muestras exactas del mundo real para alcanzar ese objetivo, lo cual no es necesariamente factible.
“Al utilizar muestras de datos no realistas, se puede lograr el mismo objetivo gracias al aprovechamiento de la semántica de los vectores latentes codificados. La aplicación de cambios deseados sobre muestras de datos existentes se puede hacer sin una exploración explícita del comportamiento del espacio latente.’
Los investigadores anticipan que los principios básicos de desenredo explorados en el proyecto podrían transferirse a otros dominios, como las simulaciones de arquitectura interior, y que el método Sim2Real adoptado para Delta-GAN-Encoder podría eventualmente permitir una instrumentalidad profunda basada en meros bocetos, en lugar de Entrada de estilo CGI.
Se podría argumentar que la medida en que el nuevo sistema israelí podría o no sintetizar videos falsos profundos es mucho menos significativa que el progreso que ha logrado la investigación para desenredar el contexto de la identidad, en el proceso ganando más control sobre el espacio latente. de una GAN.
El desenredo es un campo activo de investigación en la síntesis de imágenes; en enero de 2021, una investigación dirigida por Amazon papel demostró control de pose y desenredo similares, y en 2018 un papel de los Institutos de Tecnología Avanzada de Shenzhen en la Academia de Ciencias de China lograron avances en la generación de puntos de vista arbitrarios en una GAN.