LipSync3D de Google ofrece sincronización mejorada del movimiento de la boca ‘Deepfaked’

A colaboración entre los investigadores de Google AI y el Instituto Indio de Tecnología Kharagpur ofrece un nuevo marco para sintetizar cabezas parlantes a partir de contenido de audio. El proyecto tiene como objetivo producir formas optimizadas y con recursos razonables para crear contenido de video de “cabeza parlante” a partir de audio, con el fin de sincronizar los movimientos de los labios con audio doblado o traducido automáticamente, y para usar en avatares, en aplicaciones interactivas y en otros entornos en tiempo real.

Fuente: https://www.youtube.com/watch?v=L1StbX9OznY

Fuente: https://www.youtube.com/watch?v=L1StbX9OznY

Los modelos de aprendizaje automático entrenados en el proceso, llamados LipSync3D, requieren solo un video de la identidad de la cara del objetivo como datos de entrada. El canal de preparación de datos separa la extracción de la geometría facial de la evaluación de la iluminación y otras facetas de un video de entrada, lo que permite una capacitación más económica y enfocada.

El flujo de trabajo de dos etapas de LipSync3D.  Arriba, la generación de una cara 3D texturizada dinámicamente a partir del audio 'objetivo';  a continuación, la inserción de la malla generada en un video de destino.

El flujo de trabajo de dos etapas de LipSync3D. Arriba, la generación de una cara 3D texturizada dinámicamente a partir del audio ‘objetivo’; a continuación, la inserción de la malla generada en un video de destino.

De hecho, la contribución más notable de LipSync3D al esfuerzo de investigación en esta área puede ser su algoritmo de normalización de iluminación, que desacopla la iluminación de formación e inferencia.

El desacoplamiento de los datos de iluminación de la geometría general ayuda a LipSync3D a producir una salida de movimiento de labios más realista en condiciones difíciles.  Otros enfoques de los últimos años se han limitado a condiciones de iluminación 'fijas' que no revelarán su capacidad más limitada en este sentido.

El desacoplamiento de los datos de iluminación de la geometría general ayuda a LipSync3D a producir una salida de movimiento de labios más realista en condiciones difíciles. Otros enfoques de los últimos años se han limitado a condiciones de iluminación ‘fijas’ que no revelarán su capacidad más limitada en este sentido.

Durante el procesamiento previo de los cuadros de datos de entrada, el sistema debe identificar y eliminar los puntos especulares, ya que estos son específicos de las condiciones de iluminación en las que se tomó el video y, de lo contrario, interferirán con el proceso de reencendido.

LipSync3D, como sugiere su nombre, no realiza un mero análisis de píxeles en las caras que evalúa, sino que utiliza activamente los puntos de referencia faciales identificados para generar mallas de estilo CGI móviles, junto con las texturas ‘desplegadas’ que las envuelven en un CGI tradicional. tubería.

Normalización de poses en LipSync3D.  A la izquierda están los marcos de entrada y las características detectadas;  en el medio, los vértices normalizados de la evaluación de la malla generada;  ya la derecha, el atlas de texturas correspondiente, que proporciona la verdad básica para la predicción de texturas.  Fuente: https://arxiv.org/pdf/2106.04185.pdf

Normalización de poses en LipSync3D. A la izquierda están los marcos de entrada y las características detectadas; en el medio, los vértices normalizados de la evaluación de la malla generada; ya la derecha, el atlas de texturas correspondiente, que proporciona la verdad básica para la predicción de texturas. Fuente: https://arxiv.org/pdf/2106.04185.pdf

Además del novedoso método de reiluminación, los investigadores afirman que LipSync3D ofrece tres innovaciones principales en trabajos anteriores: la separación de geometría, iluminación, pose y textura en flujos de datos discretos en un espacio normalizado; un modelo de predicción de textura autorregresivo fácil de entrenar que produce síntesis de video consistente temporalmente; y mayor realismo, según lo evaluado por calificaciones humanas y métricas objetivas.

Dividir las diversas facetas de las imágenes faciales de video permite un mayor control en la síntesis de video.

Dividir las diversas facetas de las imágenes faciales de video permite un mayor control en la síntesis de video.

LipSync3D puede derivar el movimiento de la geometría de los labios apropiado directamente del audio mediante el análisis de fonemas y otras facetas del habla, y traduciéndolos en posturas musculares correspondientes conocidas alrededor del área de la boca.

Este proceso utiliza una canalización de predicción conjunta, donde la geometría y la textura inferidas tienen codificadores dedicados en una configuración de codificador automático, pero comparten un codificador de audio con el habla que se pretende imponer en el modelo:

La síntesis de movimiento lábil de LipSync3D también está destinada a impulsar avatares CGI estilizados, que en efecto son solo el mismo tipo de malla e información de textura que las imágenes del mundo real:

Un avatar 3D estilizado tiene movimientos de labios impulsados ​​en tiempo real por un video de altavoz fuente.  En tal escenario, los mejores resultados se obtendrían mediante un pre-entrenamiento personalizado.

Un avatar 3D estilizado tiene movimientos de labios impulsados ​​en tiempo real por un video de altavoz fuente. En tal escenario, los mejores resultados se obtendrían mediante un pre-entrenamiento personalizado.

Los investigadores también anticipan el uso de avatares con una sensación un poco más realista:

Los tiempos de capacitación de muestra para los videos oscilan entre 3 y 5 horas para un video de 2 a 5 minutos, en una canalización que usa TensorFlow, Python y C++ en una GeForce GTX 1080. Las sesiones de capacitación utilizaron un tamaño de lote de 128 cuadros en 500-1000 épocas, con cada época representando una evaluación completa del video.

Hacia la Resincronización Dinámica del Movimiento de los Labios

El campo de la resincronización de labios para acomodar una pista de audio novedosa ha recibido mucha atención en la investigación de visión por computadora en los últimos años (ver más abajo), sobre todo porque es un subproducto de la controvertida tecnología deepfake.

En 2017 la Universidad de Washington investigación presentada capaz de aprender la sincronización de labios del audio, usándolo para cambiar los movimientos de los labios del entonces presidente Obama. En 2018; el Instituto Max Planck de Informática dirigió otra iniciativa de investigación para habilitar la transferencia de video de identidad>identidad, con sincronización de labios a subproducto del proceso; y en mayo de 2021, la startup de IA FlawlessAI reveló su tecnología patentada de sincronización de labios TrueSyncampliamente recibió en la prensa como facilitador de tecnologías de doblaje mejoradas para estrenos de películas importantes en todos los idiomas.

Y, por supuesto, el desarrollo continuo de repositorios de código abierto deepfake proporciona otra rama de investigación activa aportada por los usuarios en esta esfera de la síntesis de imágenes faciales.

Deja un comentario