Una nueva investigación de Italia descubrió que la información de profundidad obtenida de las imágenes puede ser una herramienta útil para detectar falsificaciones profundas, incluso en tiempo real.
Mientras que la mayoría de las investigaciones sobre la detección de falsificaciones profundas en los últimos cinco años se ha concentrado en identificación de artefactos (que puede mitigarse con técnicas mejoradas o confundirse con una mala compresión del códec de video), la iluminación ambiental, los rasgos biométricos, la interrupción temporal e incluso el instinto humano, el nuevo estudio es el primero en sugerir que la información de profundidad podría ser un cifrado valioso para deepfake contenido.
Ejemplos de mapas de profundidad derivados y la diferencia en la información de profundidad perceptiva entre imágenes reales y falsas. Fuente: https://arxiv.org/pdf/2208.11074.pdf
Fundamentalmente, los marcos de detección desarrollados para el nuevo estudio funcionan muy bien en una red ligera como Xcepcióny aceptablemente bien en MobileNety el nuevo documento reconoce que la baja latencia de inferencia que se ofrece a través de dichas redes puede permitir la detección de falsificación profunda en tiempo real contra la nueva tendencia hacia el fraude de falsificación profunda en vivo, ejemplificado por el reciente ataque a binance.
Se puede lograr una mayor economía en el tiempo de inferencia porque el sistema no necesita imágenes a todo color para determinar la diferencia entre mapas de profundidad falsos y reales, sino que puede operar de manera sorprendentemente eficiente únicamente con imágenes en escala de grises de la información de profundidad.
Los autores afirman: «Este resultado sugiere que la profundidad en este caso agrega una contribución más relevante a la clasificación que los artefactos de color».
Los hallazgos representan parte de una nueva ola de investigación de detección de falsificación profunda dirigida contra sistemas de síntesis facial en tiempo real como DeepFaceLive, un centro de esfuerzo que se ha acelerado notablemente en los últimos 3 o 4 meses, a raíz de la investigación del FBI. advertencia en marzo sobre el riesgo de falsificaciones profundas de video y audio en tiempo real.
Él papel se titula DepthFake: una estrategia basada en profundidad para detectar videos Deepfake, y proviene de cinco investigadores de la Universidad Sapienza de Roma.
Casos de borde
Durante el entrenamiento, los modelos deepfake basados en codificadores automáticos priorizan las regiones internas de la cara, como los ojos, la nariz y la boca. En la mayoría de los casos, en distribuciones de código abierto como DeepFaceLab y Intercambio cara (ambos bifurcados del original 2017 código reddit antes de su eliminación), los rasgos externos de la cara no se vuelven bien definidos hasta una etapa muy avanzada del entrenamiento y es poco probable que coincidan con la calidad de síntesis en el área de la cara interna.
De un estudio anterior, vemos una visualización de «mapas de prominencia» de la cara. Fuente: https://arxiv.org/pdf/2203.01318.pdf
Normalmente, esto no es importante, ya que nuestra tendencia a enfocarnos primero en los ojos y priorizar ‘hacia afuera’ en niveles de atención decrecientes significa que es poco probable que nos perturben estas caídas en la calidad periférica, especialmente si estamos hablando en vivo con el persona que está fingiendo otra identidad, lo que desencadena convenciones sociales y limitaciones de procesamiento no está presente cuando evaluamos imágenes falsas ‘renderizadas’.
Sin embargo, la falta de detalle o precisión en las regiones marginales afectadas de un rostro falsificado puede detectarse algorítmicamente. En marzo, se anunció un sistema que pulsa en el área periférica de la cara. Sin embargo, dado que requiere una cantidad de datos de entrenamiento superior al promedio, solo está destinado a celebridades que probablemente aparezcan en conjuntos de datos faciales populares (como ImageNet) que tienen su origen en la visión artificial actual y las técnicas de detección de falsificaciones profundas.
En cambio, el nuevo sistema, titulado DepthFake, puede operar de manera genérica incluso con identidades oscuras o desconocidas, al distinguir la calidad de la información del mapa de profundidad estimada en contenido de video real y falso.
Ir a fondo
La información del mapa de profundidad se integra cada vez más en los teléfonos inteligentes, incluidos Implementaciones estéreo asistidas por IA que son particularmente útiles para los estudios de visión artificial. En el nuevo estudio, los autores han utilizado la Universidad Nacional de Irlanda Modelo FaceDepthuna red de codificador/descodificador convolucional que puede estimar eficientemente mapas de profundidad a partir de imágenes de una sola fuente.
El modelo FaceDepth en acción. Fuente: https://tinyurl.com/3ctcazma
A continuación, la tubería para el nuevo marco de los investigadores italianos extrae un parche de 224 × 224 píxeles de la cara del sujeto tanto de la imagen RGB original como del mapa de profundidad derivado. Fundamentalmente, esto permite que el proceso copie el contenido central sin cambiar su tamaño; esto es importante, ya que los algoritmos de cambio de tamaño estándar afectarán negativamente la calidad de las áreas seleccionadas.
Utilizando esta información, tanto de fuentes reales como falsas, los investigadores entrenaron una red neuronal convolucional (CNN) capaz de distinguir instancias reales de falsas, en función de las diferencias entre la calidad perceptiva de los respectivos mapas de profundidad.
Canalización conceptual para DepthFake.
El modelo FaceDepth se entrena con datos realistas y sintéticos mediante una función híbrida que ofrece mayor detalle en los márgenes exteriores de la cara, lo que lo hace ideal para DepthFake. Utiliza una instancia de MobileNet como extractor de funciones y se entrenó con imágenes de entrada de 480 × 640 que generan mapas de profundidad de 240 × 320. Cada mapa de profundidad representa una cuarta parte de los cuatro canales de entrada utilizados en el discriminador del nuevo proyecto.
El mapa de profundidad se incrusta automáticamente en la imagen RGB original para proporcionar el tipo de imagen RGBD, repleta de información de profundidad, que las cámaras de los teléfonos inteligentes modernos pueden generar.
Capacitación
El modelo se entrenó en una red Xception que ya se entrenó previamente en ImageNet, aunque la arquitectura necesitaba cierta adaptación para acomodar la información de profundidad adicional mientras se mantenía la inicialización correcta de los pesos.
Además, una falta de coincidencia en los rangos de valores entre la información de profundidad y lo que espera la red requirió que los investigadores normalizaran los valores a 0-255.
Durante el entrenamiento, solo se aplicaron volteretas y rotaciones. En muchos casos, se presentarían otras perturbaciones visuales al modelo para desarrollar una inferencia sólida, pero la necesidad de preservar la limitada y muy frágil información del mapa de profundidad de borde en las fotos de origen obligó a los investigadores a adoptar un régimen reducido.
El sistema también se entrenó en escala de grises simple de 2 canales, para determinar qué tan complejas debían ser las imágenes de origen para obtener un algoritmo viable.
La capacitación se llevó a cabo a través de la API de TensorFlow en una NVIDIA GTX 1080 con 8 GB de VRAM, utilizando el optimizador ADAMAX, durante 25 épocas, con un tamaño de lote de 32. La resolución de entrada se fijó en 224 × 224 durante el recorte, y la detección y extracción de rostros fue logrado con el dlib biblioteca C++.
Resultados
La precisión de los resultados se probó contra Deepfake, cara2caraIntercambio cara, textura neuronaly el conjunto de datos completo con entradas RGB y RGBD, utilizando el RostroForense++ marco.
Resultados sobre la precisión en cuatro métodos de falsificación profunda y en comparación con todo el conjunto de datos no dividido. Los resultados se dividen entre el análisis de las imágenes RGB de origen y las mismas imágenes con un mapa de profundidad inferido incorporado. Los mejores resultados están en negrita, con cifras porcentuales debajo que demuestran hasta qué punto la información del mapa de profundidad mejora el resultado.
En todos los casos, el canal de profundidad mejora el rendimiento del modelo en todas las configuraciones. Xception obtiene los mejores resultados, seguido de cerca por el ágil MobileNet. Al respecto, los autores comentan:
‘[It] Es interesante notar que MobileNet es ligeramente inferior a Xception y supera al ResNet50 más profundo. Este es un resultado notable cuando se considera el objetivo de reducir los tiempos de inferencia para aplicaciones en tiempo real. Si bien esta no es la principal contribución de este trabajo, todavía lo consideramos un resultado alentador para desarrollos futuros.’
Los investigadores también notaron una ventaja constante de RGBD y la entrada de escala de grises de 2 canales sobre RGB y la entrada de escala de grises directa, y observaron que las conversiones de escala de grises de las inferencias de profundidad, que son computacionalmente muy baratas, permiten que el modelo obtenga mejores resultados con recursos locales muy limitados. facilitando el desarrollo futuro de la detección de falsificación profunda en tiempo real basada en información de profundidad.
Publicado por primera vez el 24 de agosto de 2022.