Los investigadores han desarrollado una nueva técnica de aprendizaje automático para imponer arbitrariamente nuevas emociones en los rostros en video, adaptando las tecnologías existentes que han surgido recientemente como soluciones para hacer coincidir los movimientos de los labios con el doblaje de idiomas extranjeros.
La investigación es una colaboración equitativa entre la Universidad Northeastern de Boston y el Media Lab del MIT, y se titula Invertable Frowns: Video-to-Video Facial Emotion Translation. Aunque los investigadores admiten que la calidad inicial de los resultados debe desarrollarse a través de más investigaciones, afirman que la técnica, llamada Wav2Lip-Emotion, es la primera de su tipo en abordar directamente la modificación de la expresión de video completo a través de técnicas de redes neuronales.
El código base ha sido publicado en GitHub, aunque los puntos de control del modelo se agregarán al repositorio de código abierto más adelante, prometen los autores.
A la izquierda, un cuadro ‘triste’ del video fuente. A la derecha, un marco ‘feliz’. En el centro hay dos enfoques emergentes para sintetizar emociones alternativas: fila superior: una cara completamente enmascarada donde se ha sustituido la totalidad de la superficie de expresión; fila inferior: un método Wav2Lip más tradicional, que solo sustituye la parte inferior de la cara. Fuente: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf
Vídeo único como datos de origen
En teoría, tales manipulaciones ahora se pueden obtener a través de un entrenamiento completo en repositorios tradicionales de deepfake como DeepFaceLab o FaceSwap. Sin embargo, el flujo de trabajo estándar implicaría el uso de una identidad alternativa a la identidad del ‘objetivo’, como un actor que se hace pasar por el objetivo, cuyas propias expresiones se transferirían a otro individuo, junto con el resto de la actuación. Además, las técnicas de clonación de voz deepfake generalmente serían necesarias para completar la ilusión.
Además, cambiar la expresión de target1>target1 en un video de fuente única bajo estos marcos populares implicaría cambiar la Vectores de alineacion facial de una manera que estas arquitecturas no facilitan actualmente.
Wav2Lip-Emotion mantiene la sincronización de los labios del diálogo de audio y video original mientras transforma las expresiones asociadas.
En cambio, Wav2Lip-Emotion busca de manera efectiva ‘copiar y pegar’ expresiones relacionadas con las emociones de una parte de un video y sustituirlas en otros puntos, con una frugalidad autoimpuesta de los datos de origen que pretende eventualmente ofrecer un método de menor esfuerzo para manipulación de expresiones.
Posteriormente, se podrían desarrollar modelos fuera de línea que se entrenan en videos alternativos del orador, obviando la necesidad de que cualquier video contenga una ‘paleta’ de estados de expresión con los que manipular el video.
Propósitos potenciales
Los autores sugieren una serie de aplicaciones para la modificación de la expresión, incluido un filtro de video en vivo para compensar los efectos del TEPT y los pacientes con parálisis facial. El documento observa:
“Las personas con o sin expresiones faciales inhibidas pueden beneficiarse al ajustar sus propias expresiones para adaptarse mejor a sus circunstancias sociales. Uno puede querer alterar las expresiones en los videos que se les muestran. Los oradores pueden estar gritándose unos a otros durante una videoconferencia, pero aún así quieren recopilar el contenido en su intercambio sin las expresiones desagradables. O un director de cine puede querer aumentar o disminuir las expresiones de un actor.
Dado que la expresión facial es un indicador clave y central de la intenciónincluso cuando puede rozar las palabras que se hablan, la capacidad de alterar la expresión también ofrece, hasta cierto punto, la capacidad de cambiar la forma en que se comunica. recibió.
Trabajo prioritario
El interés en la alteración de la expresión del aprendizaje automático se remonta al menos a 2012, cuando un colaboración entre Adobe, Facebook y la Universidad de Rutgers propusieron un método para alterar las expresiones mediante el uso de un enfoque de reconstrucción de geometría 3D basado en Tensor, que impuso laboriosamente una malla CGI sobre cada cuadro de un video de destino para efectuar el cambio.
La investigación de Adobe/Facebook de 2012 manipuló expresiones al imponer cambios tradicionales impulsados por CGI en secuencias de video. Las expresiones se pueden aumentar o suprimir. Fuente: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf
Aunque los resultados fueron prometedores, la técnica era onerosa y los recursos necesarios eran considerables. En este punto, CGI estaba muy por delante de los enfoques basados en la visión por computadora para dirigir el espacio de funciones y la manipulación de píxeles.
Más estrechamente relacionado con el nuevo documento está MEAD, un conjunto de datos y un modelo de generación de expresiones lanzado en 2020, capaz de generar videos de “cabezas parlantes”, aunque sin el nivel de sofisticación que se puede obtener modificando directamente el video fuente real.
Generación de expresión con MEAD de 2020, una colaboración entre SenseTime Research, Carnegie Mellon y tres universidades chinas. Fuente: https://wywu.github.io/projects/MEAD/MEAD.html
En 2018, otro artículo, titulado GANimation: Anatomically-aware Facial Animation from a Single Image, surgió como una colaboración de investigación académica entre EE. UU. y España, y utilizó Generative Adversarial Networks para aumentar o cambiar expresiones solo en imágenes fijas.
Cambio de expresiones en imágenes fijas con GANimation. Fuente: https://arxiv.org/pdf/1807.09251.pdf
Wav2Lip-Emoción
En cambio, el nuevo proyecto se basa en Wav2Lip, que obtuvo publicidad en 2020 al ofrecer un método potencial para volver a sincronizar el movimiento de los labios para adaptarse al habla novedosa (o canción) entrada que nunca apareció en el video original.
El original Arquitectura Wav2Lip fue entrenado en un corpus de oraciones habladas de los archivos de la BBC. Para adaptar Wav2Lip a la tarea de alteración de la expresión, los investigadores “afinaron” la arquitectura en el conjunto de datos MEAD mencionado anteriormente.
MEAD consiste en 40 horas de video con 60 actores leyendo la misma oración mientras realizan una variedad de expresiones faciales. Los actores provienen de 15 países diferentes y ofrecen una gama de características internacionales destinadas a ayudar al proyecto (y proyectos derivados) a producir síntesis de expresión aplicables y bien generalizadas.
En el momento de la investigación, MEAD solo había publicado la primera parte del conjunto de datos, con 47 personas que realizaban expresiones como “enojado”, “disgusto”, “miedo”, “desprecio”, “feliz”, “triste” y “sorpresa”. ‘. En esta incursión inicial en un nuevo enfoque, los investigadores limitaron el alcance del proyecto a superponer o alterar de otro modo las emociones percibidas “feliz” y “triste”, ya que son las más fáciles de reconocer.
Método y Resultados
La arquitectura Wav2Lip original reemplaza solo la sección inferior de la cara, mientras que Wav2Lip-Emotion también experimenta con una máscara de reemplazo facial completa y síntesis de expresión. Por lo tanto, fue necesario que los investigadores modificaran adicionalmente los métodos de evaluación incorporados, ya que estos no fueron diseñados para una configuración de cara completa.
Los autores mejoran el código original conservando la entrada de audio original y manteniendo la consistencia del movimiento de los labios.
El elemento generador presenta un codificador de identidad, un codificador de voz y un decodificador de rostro, de acuerdo con el trabajo anterior. El elemento de voz se codifica adicionalmente como convoluciones 2D apiladas que posteriormente se concatenan a su trama o tramas asociadas.
Además del elemento generativo, la arquitectura modificada presenta tres componentes discriminadores principales, que apuntan a la calidad de la sincronización de labios, un elemento objetivo de emoción y un objetivo de calidad visual entrenado adversariamente.
Para la reconstrucción facial completa, el trabajo original de Wav2Lip no tenía precedentes y, por lo tanto, el modelo se entrenó desde cero. Para el entrenamiento de la parte inferior de la cara (media máscara), los investigadores procedieron de los puntos de control incluidos en el código Wav2Lip original.
Además de la evaluación automática, los investigadores utilizaron la opinión de una multitud proporcionada por una plataforma de servicio semiautomática. En general, los trabajadores calificaron altamente la salida en términos de reconocimiento de las emociones superpuestas, mientras que solo informaron evaluaciones “moderadas” de la calidad de la imagen.
Los autores sugieren que, además de mejorar la calidad del video generado con más refinamientos, las iteraciones futuras del trabajo podrían abarcar una gama más amplia de emociones, y que el trabajo podría aplicarse igualmente en el futuro a conjuntos de datos y datos de origen etiquetados o inferidos automáticamente, conduciendo, eventualmente, , a un sistema auténtico en el que las emociones pueden aumentar o disminuir según el antojo del usuario o, en última instancia, reemplazarse por emociones contrastantes con respecto al video fuente original.