SofGAN: un generador de caras GAN que ofrece un mayor control

Investigadores en Shanghái y EE. UU. han desarrollado un sistema de generación de retratos basado en GAN que permite a los usuarios crear caras nuevas con un nivel de control hasta ahora no disponible sobre aspectos individuales como el cabello, los ojos, las gafas, las texturas y el color.

Para demostrar la versatilidad del sistema, los creadores han proporcionado una interfaz estilo Photoshop en la que un usuario puede dibujar directamente elementos de segmentación semántica que se reinterpretarán en imágenes realistas, y que incluso se pueden obtener dibujando directamente sobre fotografías existentes.

En el siguiente ejemplo, se usa una imagen del actor Daniel Radcliffe como plantilla de calco (y el objetivo no es producir una imagen de él, sino una imagen generalmente fotorrealista). A medida que el usuario completa varios elementos, incluidas facetas discretas como anteojos, se identifican e interpretan en la imagen del dibujo de salida:

Usar una imagen como material de calco para un retrato generado por SofGAN.  Fuente: https://www.youtube.com/watch?v=xig8ZA3DVZ8

Usar una imagen como material de calco para un retrato generado por SofGAN. Fuente: https://www.youtube.com/watch?v=xig8ZA3DVZ8

Él papel se titula SofGAN: un generador de imágenes de retratos con estilo dinámico y está dirigido por Anpei Chen y Ruiyang Liu, junto con otros dos investigadores de la Universidad ShanghaiTech y otro de la Universidad de California en San Diego.

Funciones de desenredado

La contribución principal del trabajo no es tanto proporcionar una UX fácil de usar, sino más bien ‘desenredar’ las características de los rasgos faciales aprendidos, como la pose y la textura, lo que permite que SofGAN también genere caras que están en ángulos indirectos con respecto a la punto de vista de la cámara.

SofGAN, algo inusual entre los generadores faciales basados ​​en redes adversarias generativas, puede cambiar el ángulo de visión a voluntad, dentro de los límites de la matriz de ángulos presentes en los datos de entrenamiento.  Fuente: https://arxiv.org/pdf/2007.03780.pdf

SofGAN, algo inusual entre los generadores faciales basados ​​en redes adversarias generativas, puede cambiar el ángulo de visión a voluntad, dentro de los límites de la matriz de ángulos presentes en los datos de entrenamiento. Fuente: https://arxiv.org/pdf/2007.03780.pdf

Dado que las texturas ahora están separadas de la geometría, la forma de la cara y la textura también se pueden manipular como entidades separadas. En efecto, esto permite el cambio de raza de una cara fuente, una práctica escandalosa que ahora tiene una aplicación potencialmente útil, para la creación de conjuntos de datos de aprendizaje automático racialmente equilibrados.

SofGAN también es compatible con el envejecimiento artificial y el ajuste de estilo coherente con los atributos a un nivel granular que no se ve en sistemas de imagen>segmentación similares, como GauGAN de NVIDIA y el sistema de representación neuronal basado en juegos de Intel.

SofGAN puede implementar el envejecimiento como un estilo iterativo.

SofGAN puede implementar el envejecimiento como un estilo iterativo.

Otro avance de la metodología de SofGAN es que el entrenamiento no requiere segmentación emparejada/imágenes reales, sino que puede entrenarse directamente en imágenes del mundo real no emparejadas.

Los investigadores afirman que la arquitectura de “desenredo” de SofGAN se inspiró en los sistemas tradicionales de representación de imágenes, que descomponen las facetas individuales de una imagen. En los flujos de trabajo de efectos visuales, los elementos de una composición se descomponen rutinariamente en los componentes más pequeños, con especialistas dedicados a cada componente.

Campo de ocupación semántica (SOF)

Para lograr esto en un marco de síntesis de imágenes de aprendizaje automático, los investigadores desarrollaron un campo de ocupación semántica (SOF), una extensión del campo de ocupación tradicional que individualiza los elementos componentes de los retratos faciales. La SOF fue entrenada en mapas de segmentación semántica de vista múltiple calibrados, pero sin ninguna supervisión de la verdad del terreno.

Múltiples iteraciones de un solo mapa de segmentación (abajo a la izquierda).

Múltiples iteraciones de un solo mapa de segmentación (abajo a la izquierda).

Además, los mapas de segmentación 2D se obtienen mediante el trazado de rayos de la salida de la SOF, antes de ser texturizados por un generador GAN. Los mapas de segmentación semántica ‘sintéticos’ también se codifican en un espacio dimensional bajo a través de un codificador de tres capas para garantizar la continuidad de la salida cuando se cambia el punto de vista.

El esquema de entrenamiento mezcla espacialmente dos estilos aleatorios para cada región semántica:

La arquitectura para SofGAN.

La arquitectura para SofGAN.

Los investigadores afirman que SofGAN logra una menor distancia de inicio de Frechet (DEFENSOR) que los enfoques alternativos actuales del estado del arte (SOTA), así como una mayor similitud de parche de imagen perceptual aprendida (LPIPS) métrica.

Los enfoques anteriores de StyleGAN se han visto obstaculizados con frecuencia por el enredo de características, en el que los elementos que componen una imagen están irremediablemente unidos entre sí, lo que hace que aparezcan elementos no deseados junto con un elemento deseado (es decir, pueden aparecer aretes cuando se representa una forma de oreja que fue informado en el momento del entrenamiento por una imagen que presentaba aretes).

La marcha de rayos se utiliza para calcular el volumen de los mapas de segmentación semántica, lo que permite múltiples puntos de vista.

rayo marchando se utiliza para calcular el volumen de los mapas de segmentación semántica, lo que permite múltiples puntos de vista.

Conjuntos de datos y entrenamiento

Se utilizaron tres conjuntos de datos en el desarrollo de varias implementaciones de SofGAN: CelebAMask-HQ, un depósito de 30.000 imágenes de alta resolución tomadas del conjunto de datos CelebA-HQ; Flickr-Faces-HQ de NVIDIA (FFHQ), que contiene 70 000 imágenes, donde los investigadores etiquetaron las imágenes con un analizador de rostros previamente entrenado; y un grupo de producción propia de 122 escaneos de retratos con regiones semánticas etiquetadas manualmente.

El SOF se compone de tres submódulos entrenables: la hiperred, un ray marcher (ver imagen arriba) y un clasificador. El generador StyleGAN de Semantic Instance Wised (SIW) del proyecto está configurado de manera similar a StyleGAN2 en ciertos aspectos. El aumento de datos se aplica a través de escalado y recorte aleatorios, y las funciones de entrenamiento regularizan la ruta cada cuatro pasos. Todo el procedimiento de capacitación tomó 22 días para llegar a 800 000 iteraciones en cuatro GPU RTX 2080 Ti sobre CUDA 10.1.

El documento no menciona la configuración de las tarjetas 2080, que pueden acomodar entre 11 gb y 22 gb de VRAM cada una, lo que significa que la VRAM total empleada durante la mayor parte de un mes para entrenar SofGAN está entre 44 Gb y 88 Gb.

Los investigadores observaron que los resultados generalizados aceptables de alto nivel comenzaron a surgir bastante temprano en el entrenamiento, en 1500 iteraciones, tres días después del entrenamiento. El resto del entrenamiento se dedicó al predecible y lento avance hacia la obtención de detalles finos como el cabello y las facetas de los ojos.

SofGAN generalmente logra resultados más realistas a partir de un solo mapa de segmentación que los métodos rivales como el de NIVDIA. PALA y Pix2Pix HDy SEAN.

A continuación se muestra el video publicado por los investigadores. Hay más videos autohospedados disponibles en el página del proyecto.

Deja un comentario