Los detectores de deepfakes buscan nuevos caminos: modelos de difusión latente y GAN

Últimamente, la comunidad de investigación de detección de falsificaciones profundas, que desde fines de 2017 se ha ocupado casi exclusivamente con el marco basado en codificador automático que se estrenó en ese momento ante tal asombro público (y consternación), ha comenzado a tomar un interés forense en arquitecturas menos estancadas, incluyendo difusión latente modelos como DALL-E 2 y Stable Diffusion, así como la salida de Generative Adversarial Networks (GAN). Por ejemplo, en junio, UC Berkeley publicó los resultados de su investigación sobre el desarrollo de un detector para la salida del entonces dominante DALL-E 2.

Lo que parece estar impulsando este creciente interés es el repentino salto evolutivo en la capacidad y disponibilidad de los modelos de difusión latente en 2022, con el código cerrado y el acceso limitado. liberación de DALL-E 2 en primavera, seguido a finales de verano por el sensacional fuente abierta de Difusión Estable por la estabilidad.ai.

Las GAN también han sido largamente estudiado en este contexto, aunque con menor intensidad, ya que es muy difícil usarlos para recreaciones de personas basadas en videos convincentes y elaboradas; al menos, en comparación con los ahora venerables paquetes de codificador automático como Intercambio cara y DeepFaceLab – y el primo de transmisión en vivo de este último, DeepFaceLive.

Imágenes en movimiento

En cualquier caso, el factor estimulante parece ser la perspectiva de un sprint de desarrollo posterior para la síntesis de video. El comienzo de octubre, y la principal temporada de conferencias de 2022, se caracterizó por una avalancha de soluciones repentinas e inesperadas a varios problemas persistentes de síntesis de video: apenas Facebook muestras publicadas de su propia plataforma de texto a video, que Google Research ahogó rápidamente esa aclamación inicial al anunciar su nueva arquitectura T2V de imagen a video, capaz de producir metraje de alta resolución (aunque solo a través de una red de escaladores de 7 capas).

Si cree que este tipo de cosas vienen de tres en tres, considere también la enigmática promesa de la estabilidad.ai de que «el video está llegando» a Stable Diffusion, aparentemente a finales de este año, mientras que el co-desarrollador de Stable Diffusion Runway tiene hizo una promesa similar, aunque no está claro si se refieren al mismo sistema. Él mensaje de discordia del CEO de Stability, Emad Mostaque, también prometió ‘audio, video [and] 3d’.

¿Qué pasa con una oferta inesperada de varios nuevos marcos de generación de audio (algunos basado sobre difusión latente), y un nuevo modelo de difusión que puede generar movimiento de personaje auténticola idea de que los marcos «estáticos» como GAN y difusores finalmente tomarán su lugar como complementos de soporte para marcos de animación externos está comenzando a ganar fuerza.

En resumen, parece probable que el mundo paralizado de las falsificaciones profundas de video basadas en codificadores automáticos, que solo pueden sustituir de manera efectiva la parte central de una cara, podría ser eclipsado el próximo año por una nueva generación de tecnologías con capacidad de falsificación profunda basadas en la difusión: Enfoques populares de código abierto con el potencial de falsificar de manera fotorrealista no solo cuerpos completos, sino escenas completas.

Quizás por esta razón, la comunidad de investigación anti-deepfake está comenzando a tomarse en serio la síntesis de imágenes y a darse cuenta de que podría servir para más fines que simplemente generar fotos de perfil de LinkedIn falsas; y que si todos sus intratables espacios latentes pueden lograr en términos de movimiento temporal actuar como un gran renderizador de texturas, eso podría ser más que suficiente.

Cazarecompensas

Los dos últimos documentos que abordan, respectivamente, la difusión latente y la detección de falsificación profunda basada en GAN son, respectivamente, DE-FAKE: detección y atribución de imágenes falsas generadas por modelos de difusión de texto a imagen, una colaboración entre el Centro Helmholtz para la Seguridad de la Información de CISPA y Salesforce; y BLADERUNNER: Contramedida rápida para rostros StyleGAN sintéticos (generados por IA)de Adam Dorian Wong en el Laboratorio Lincoln del MIT.

Antes de explicar su nuevo método, el último documento se toma un tiempo para examinar los enfoques anteriores para determinar si una GAN generó o no una imagen (el documento trata específicamente de la familia StyleGAN de NVIDIA).

El método ‘Brady Bunch’, quizás un referencia sin sentido para cualquier persona que no estaba viendo televisión en la década de 1970, o que se perdió las adaptaciones cinematográficas de la década de 1990: identifica el contenido falsificado de GAN en función de las posiciones fijas que seguramente ocuparán partes particulares de una cara de GAN, debido a la naturaleza de memoria y plantilla de la ‘proceso de producción’.

El método 'Brady Bunch' propuesto por un webcast del instituto SANS en 2022: un generador de rostros basado en GAN realizará una colocación increíblemente uniforme de ciertos rasgos faciales, desmintiendo el origen de la foto, en ciertos casos.  Fuente: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

El método ‘Brady Bunch’ propuesto por un webcast del instituto SANS en 2022: un generador de rostros basado en GAN realizará una colocación increíblemente uniforme de ciertos rasgos faciales, desmintiendo el origen de la foto, en ciertos casos. Fuente: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

Otra indicación conocida útil es la incapacidad frecuente de StyleGAN para representar múltiples caras (primera imagen a continuación), si es necesario, así como su falta de talento en la coordinación de accesorios (imagen central a continuación) y una tendencia a usar una línea de cabello como el comienzo de un improvisado sombrero (tercera imagen a continuación).

El tercer método sobre el que llama la atención el investigador es la superposición de fotografías (un ejemplo del cual se puede ver en nuestro artículo de agosto sobre el diagnóstico de trastornos de salud mental asistido por IA), que utiliza un software de «combinación de imágenes» de composición como la serie CombineZ para concatenar múltiples imágenes en una sola imagen, a menudo revelando elementos comunes subyacentes en la estructura, una posible indicación de síntesis.

La arquitectura propuesta en el nuevo documento se titula (posiblemente en contra de todos los consejos de SEO) Blade Runner, haciendo referencia a la Prueba de Voight-Kampff eso determina si los antagonistas en la franquicia de ciencia ficción son ‘falsos’ o no.

La tubería se compone de dos fases, la primera de las cuales es el analizador PapersPlease, que puede evaluar datos extraídos de sitios web conocidos de GAN-face como thispersondoesnotexist.com, o generado.fotos.

Aunque se puede inspeccionar una versión reducida del código en GitHub (ver a continuación), se proporcionan pocos detalles sobre este módulo, excepto que OpenCV y DLIB se utilizan para delinear y detectar rostros en el material recopilado.

El segundo módulo es el detector AmongUs. El sistema está diseñado para buscar la ubicación coordinada de los ojos en las fotos, una característica persistente de la salida de rostros de StyleGAN, tipificada en el escenario ‘Brady Bunch’ detallado anteriormente. AmongUs funciona con un detector estándar de 68 puntos de referencia.

Anotaciones de puntos faciales a través del Grupo de comprensión del comportamiento inteligente (IBUG), cuyo código de trazado de puntos faciales se utiliza en el paquete Blade Runner.

Anotaciones de puntos faciales a través del Grupo de comprensión del comportamiento inteligente (IBUG), cuyo código de trazado de puntos faciales se utiliza en el paquete Blade Runner.

AmongUs depende de puntos de referencia preentrenados basados ​​en las coordenadas conocidas del ‘grupo de Brady’ de PapersPlease, y está diseñado para usarse contra muestras en vivo de cara a la web de imágenes de rostros basadas en StyleGAN.

Blade Runner, sugiere el autor, es una solución plug-and-play destinada a empresas u organizaciones que carecen de recursos para desarrollar soluciones internas para el tipo de detección de falsificación profunda que se trata aquí, y una «medida provisional para ganar tiempo para contramedidas más permanentes».

De hecho, en un sector de la seguridad tan volátil y de rápido crecimiento, no hay muchas soluciones de proveedores de nube personalizadas o listas para usar a las que una empresa con pocos recursos pueda recurrir con confianza.

Aunque Blade Runner se desempeña mal contra personas falsificadas con StyleGAN con gafas, este es un problema relativamente común en sistemas similares, que esperan poder evaluar las delineaciones de los ojos como puntos centrales de referencia, oscurecidos en tales casos.

Una versión reducida de Blade Runner ha sido publicado para abrir el código en GitHub. Existe una versión propietaria más rica en funciones, que puede procesar varias fotos, en lugar de una sola foto por operación del repositorio de código abierto. El autor tiene la intención, dice, de actualizar la versión de GitHub al mismo estándar eventualmente, según lo permita el tiempo. También admite que es probable que StyleGAN evolucione más allá de sus debilidades conocidas o actuales, y que el software también deberá desarrollarse en conjunto.

DE-FALSO

La arquitectura DE-FAKE tiene como objetivo no solo lograr una «detección universal» para imágenes producidas por modelos de difusión de texto a imagen, sino también proporcionar un método para discernir qué modelo de difusión latente (LD) produjo la imagen.

El marco de detección universal en DE-FAKE aborda imágenes locales, un marco híbrido (verde) e imágenes de mundo abierto (azul).  Fuente: http://export.arxiv.org/pdf/2210.06998

El marco de detección universal en DE-FAKE aborda imágenes locales, un marco híbrido (verde) e imágenes de mundo abierto (azul). Fuente: http://export.arxiv.org/pdf/2210.06998

Para ser honesto, en este momento, esta es una tarea bastante fácil, ya que todos los modelos populares de LD, cerrados o de código abierto, tienen características distintivas notables.

Además, la mayoría comparte algunas debilidades comunes, como una predisposición a cortar cabezas, debido a la forma arbitraria que las imágenes web raspadas no cuadradas se ingieren en los conjuntos de datos masivos que alimentan sistemas como DALL-E 2, Stable Diffusion y MidJourney:

Los modelos de difusión latente, al igual que todos los modelos de visión artificial, requieren una entrada de formato cuadrado;  pero el web-scraping agregado que alimenta el conjunto de datos LAION5B no ofrece 'extras de lujo' como la capacidad de reconocer y enfocar rostros (o cualquier otra cosa), y trunca las imágenes brutalmente en lugar de rellenarlas (lo que retendría la fuente completa). imagen, pero a menor resolución).  Una vez entrenados, estos 'cultivos' se normalizan y ocurren con mucha frecuencia en la salida de sistemas de difusión latente como Stable Diffusion.  Fuentes: https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac y Stable Diffusion.

Los modelos de difusión latente, al igual que todos los modelos de visión artificial, requieren una entrada de formato cuadrado; pero el web-scraping agregado que alimenta el conjunto de datos LAION5B no ofrece ‘extras de lujo’ como la capacidad de reconocer y enfocar rostros (o cualquier otra cosa), y trunca las imágenes brutalmente en lugar de rellenarlas (lo que retendría la fuente completa). imagen, pero a menor resolución). Una vez entrenados, estos ‘cultivos’ se normalizan y ocurren con mucha frecuencia en la salida de sistemas de difusión latente como Stable Diffusion. Fuentes: https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac y Stable Diffusion.

DE-FAKE está destinado a ser independiente de los algoritmos, un objetivo anhelado durante mucho tiempo por los investigadores anti-falsificación profunda del codificador automático y, en este momento, bastante alcanzable con respecto a los sistemas LD.

La arquitectura utiliza el entrenamiento previo de imagen de lenguaje contrastivo de OpenAI (ACORTAR) biblioteca multimodal, un elemento esencial en Stable Diffusion, y que se está convirtiendo rápidamente en el corazón de la nueva ola de sistemas de síntesis de imagen/video, como una forma de extraer incrustaciones de imágenes LD ‘falsificadas’ y entrenar a un clasificador en los patrones y clases observados.

En un escenario más de «caja negra», donde los fragmentos PNG que contienen información sobre el proceso de generación han sido eliminados durante mucho tiempo por los procesos de carga y por otras razones, los investigadores utilizan Salesforce Marco BLIP (también un componente en al menos uno distribución de Stable Diffusion) para sondear ‘a ciegas’ las imágenes en busca de la probable estructura semántica de las indicaciones que las crearon.

Los investigadores utilizaron Stable Diffusion, Latent Diffusion (en sí mismo un producto discreto), GLIDE y DALL-E 2 para completar un conjunto de datos de capacitación y prueba que aprovecha MSCOCO y Flickr30k.

Los investigadores utilizaron Stable Diffusion, Latent Diffusion (en sí mismo un producto discreto), GLIDE y DALL-E 2 para completar un conjunto de datos de capacitación y prueba que aprovecha MSCOCO y Flickr30k.

Normalmente echaríamos un vistazo bastante extenso a los resultados de los experimentos de los investigadores para un nuevo marco; pero, en verdad, los hallazgos de DE-FAKE parecen ser más útiles como un punto de referencia futuro para iteraciones posteriores y proyectos similares, en lugar de una métrica significativa del éxito del proyecto, considerando el entorno volátil en el que está operando y que el sistema en el que se encuentra. está compitiendo en las pruebas del artículo tiene casi tres años, cuando la escena de la síntesis de imágenes era realmente incipiente.

Las dos imágenes más a la izquierda: el marco anterior 'desafiado', originado en 2019, previsiblemente tiene peor desempeño frente a DE-FAKE (las dos imágenes más a la derecha) en los cuatro sistemas LD probados.

Las dos imágenes más a la izquierda: el marco anterior ‘desafiado’, originado en 2019, predeciblemente le fue peor frente a DE-FAKE (las dos imágenes más a la derecha) en los cuatro sistemas LD probados.

Los resultados del equipo son abrumadoramente positivos por dos razones: hay poco trabajo previo con el que compararlo (y ninguno que ofrezca una comparación justa, es decir, que cubra las meras doce semanas desde que Stable Diffusion se lanzó al código abierto).

En segundo lugar, como se mencionó anteriormente, aunque el campo de la síntesis de imágenes LD se está desarrollando a una velocidad exponencial, el contenido de salida de las ofertas actuales se marca de manera efectiva a sí mismo debido a sus propias deficiencias y excentricidades estructurales (y muy predecibles), muchas de las cuales es probable que se solucionen. en el caso de Stable Diffusion al menos, por el lanzamiento del punto de control 1.5 de mejor rendimiento (es decir, el modelo entrenado de 4 GB que alimenta el sistema).

Al mismo tiempo, Stability ya ha indicado que tiene una hoja de ruta clara para la V2 y la V3 del sistema. Dados los eventos que acapararon los titulares de los últimos tres meses, es probable que se haya evaporado cualquier letargo corporativo por parte de OpenAI y otros jugadores competidores en el espacio de síntesis de imágenes, lo que significa que podemos esperar un ritmo de progreso similarmente rápido también en el espacio de síntesis de imágenes de código cerrado.

Publicado por primera vez el 14 de octubre de 2022.

Deja un comentario