Disney combina CGI con Neural Rendering para abordar el ‘Uncanny Valley’

La división de investigación de IA de Disney ha desarrollado un método híbrido para la simulación facial con calidad de película, que combina las fortalezas de la representación neuronal facial con la consistencia de un enfoque basado en CGI.

El documento pendiente se titula Representación con estilo: combinación de enfoques tradicionales y neuronales para la representación de rostros de alta calidad, y se muestra en una vista previa en un nuevo video de 10 minutos en el canal de YouTube de Disney Research (incrustado al final de este artículo*).

Mallas combinadas con renders neurales faciales.  Fuente: https://www.youtube.com/watch?v=k-RKSGbWLng

Mallas combinadas con renders neurales faciales. Vea el video incrustado al final del artículo para obtener más detalles y calidad. Fuente: https://www.youtube.com/watch?v=k-RKSGbWLng (desde que se reemplazó por https://www.youtube.com/watch?v=TwpLqTmvqVk)

Como señala el video, la representación neuronal de rostros (incluidos los deepfakes) puede producir interiores de ojos y boca mucho más realistas de lo que es capaz de CGI, mientras que las texturas faciales impulsadas por CGI son más consistentes y adecuadas para la salida de VFX a nivel de cine.

Por lo tanto, Disney está experimentando con dejar que NVIDIA EstiloGan2 El generador neuronal maneja las características circundantes de una cara y los elementos «críticos para la vida», como los ojos, mientras superpone la piel facial CGI consistente y los elementos relacionados en la salida.

Del video (ver el final del artículo), el concepto arquitectónico detrás del enfoque híbrido de Disney, donde una malla CGI de la vieja escuela, del tipo que se usa para recrear a la 'joven' Carrie Fisher y al difunto Peter Cushing para Rogue One (2016), es integrado en entornos faciales renderizados neuronalmente.

Del video (ver el final del artículo), el concepto arquitectónico detrás del enfoque híbrido de Disney, donde una malla CGI de la vieja escuela, del tipo que se usa para recrear a la ‘joven’ Carrie Fisher y al difunto Peter Cushing para Rogue One (2016), es integrado en entornos faciales renderizados neuronalmente.

El video hace una referencia tácita a críticas frecuentes de la falta de autenticidad y el efecto de ‘valle inquietante’ de la recreación CGI del fallecido actor británico de Star Wars Peter Cushing en Rogue One (2016), concediendo:

‘[There’s] Todavía hay una gran brecha entre lo que las personas pueden capturar y renderizar fácilmente y los dobles digitales fotorrealistas finales, completos con cabello, ojos y boca interna. Para cerrar esta brecha, por lo general se necesita mucho trabajo manual por parte de artistas expertos.’

En verdad, incluso los sistemas de captura facial más modernos ni siquiera intentan recrear ojos, interiores de boca o cabello, que tienen problemas de autenticidad en tales técnicas (ojos) o bien de consistencia temporal (cabello).

El video ilustra lo que obtendrán los artistas de VFX después de una típica sesión de captura facial moderna.  Los ojos, el cabello, el vello facial y el interior de la boca deberán ser manejados por equipos separados en la tubería de producción.

El video ilustra lo que obtendrán los artistas de VFX después de una típica sesión de captura facial moderna. Los ojos, el cabello, el vello facial y el interior de la boca tendrán que ser manejados por equipos separados en la tubería de producción, además de texturizar e iluminar.

Control de iluminación

El enfoque híbrido también es un beneficio con la reiluminación, un desafío notable para la representación neuronal de rostros, ya que las superposiciones de piel CGI se pueden volver a iluminar más fácilmente.

Una versión animada del enfoque CGI/Neural.

Una versión animada del enfoque CGI/Neural.

En entornos más desafiantes, como tomas exteriores, los investigadores han desarrollado un método para pintar alrededor de una especie de zona desmilitarizada que rodea a la persona que se está «creando».

Se genera un margen negro para permitir un

Se genera un margen negro para permitir un «lienzo» para volver a pintar las partes exteriores de la identidad e integrar la máscara CGI en la salida neuronal/CGI combinada.

El video señala:

‘[The] el renderizado neuronal no coincide perfectamente con la restricción de fondo. – solo pretende ser una guía, ya que el objetivo principal es optimizar para componentes humanos realistas como el cabello, los ojos y los dientes. Más desafiante es tratar de mantener una identidad consistente, mientras se cambia la iluminación ambiental.’

Creación de mallas CGI a partir de renderizaciones neuronales

El equipo de investigación también desarrolló un codificador automático variacional entrenado en una gran base de datos (no especificada) de imágenes faciales en 3D, y afirma que puede producir mallas faciales en 3D «aleatorias pero plausibles» a partir de datos reales.

Hay limitaciones que esta investigación debe superar, incluida la dificultad de lograr que el cabello se mantenga temporalmente consistente en las representaciones neuronales, y el video (ver a continuación) muestra varios ejemplos de cabello que muta rápidamente en una panorámica consistente alrededor de una cara CGI/neural.

La consistencia temporal en la reproducción de videos neuronales es un problema mucho más amplio que solo el de Disney, y parece probable que las iteraciones posteriores de este sistema recurran a agregar cabello ‘en la publicación’, u otros enfoques posibles para la generación de cabello, en lugar de esperar que un enfoque neuronal novedoso lo haga. eventualmente resolverlo.

Usos para la generación de conjuntos de datos

El método también se propone como un método potencial para generar datos sintéticos y enriquecer el paisaje del conjunto de imágenes faciales, que en los últimos años se ha vuelto peligrosamente monótono.

Disney contempla la nueva técnica poblando conjuntos de datos de imágenes faciales.

Disney contempla la nueva técnica poblando conjuntos de datos de imágenes faciales.

‘[Every] El resultado fotorrealista que generamos tiene una geometría correspondiente subyacente y mapas de apariencia, renderizados desde puntos de vista de cámara desconocidos con iluminación conocida. Esta información de ‘verdad sobre el terreno’ puede ser vital para entrenar aplicaciones posteriores, como monocular, reconstrucción de rostros en 3D, reconocimiento facial o comprensión de escenas. Entonces, cada renderizado de resultados podría considerarse una muestra de datos, y podemos generar muchas variaciones de muchos individuos diferentes.

«Además, incluso para una sola persona renderizada en una sola expresión con un solo punto de vista e iluminación, podemos generar variaciones aleatorias del renderizado fotorrealista variando la semilla de aleatorización durante la optimización».

Los investigadores señalan que esta diversidad de salida configurable podría ser útil para entrenar aplicaciones de reconocimiento facial y concluyen:

‘[Our] El método puede aprovechar la tecnología actual para capturar, modelar y renderizar la piel del rostro, y crear automáticamente renderizados faciales fotorrealistas completos que coincidan con la identidad, la expresión y la configuración de la escena deseadas. Este enfoque tiene aplicaciones y representación facial para cine y entretenimiento, ahorrando trabajo manual a los artistas y también para la generación de datos en diferentes campos de aprendizaje profundo”.

Para una mirada más profunda al nuevo enfoque, vea el video de 10 minutos publicado hoy:

* El enlace del video original fue sustituido por otro aparentemente idéntico 8 horas después de la publicación de este artículo. Cambié todos los enlaces relevantes, ya que no hay rastro del video original.

8:24 GMT + 2: video reemplazado, ya que fue cambiado por el canal de YouTube de Disney Research por alguna razón.

Deja un comentario