Un equipo de investigadores de NetEase, una empresa china de juegos, ha creado un sistema que puede extraer automáticamente caras de fotos y generar modelos en el juego con los datos de la imagen. Los resultados del trabajo, titulado Traducción cara a parámetro para la creación automática de personajes de juegosSomos resumido por Synced en Medium.
Cada vez más desarrolladores de juegos optan por utilizar la IA para automatizar tareas que consumen mucho tiempo. Por ejemplo, los desarrolladores de juegos han estado usando algoritmos de IA para ayudar renderizar los movimientos de personajes y objetos. Otro uso reciente de la IA por parte de los desarrolladores de juegos es la creación de herramientas de personalización de personajes más potentes.
La personalización de personajes es una característica muy querida de los videojuegos de rol, que permite a los jugadores personalizar sus avatares de jugador de muchas maneras diferentes. Muchos jugadores eligen hacer que sus avatares se parezcan a ellos mismos, lo que se vuelve más factible a medida que aumenta la sofisticación de los sistemas de personalización de personajes. Sin embargo, a medida que estas herramientas de creación de personajes se vuelven más sofisticadas, también se vuelven mucho más complejas. Crear un personaje que se parezca a uno mismo puede llevar horas ajustando los controles deslizantes y alterando parámetros crípticos. El equipo de investigación de NetEase tiene como objetivo cambiar todo eso mediante la creación de un sistema que analiza una foto del jugador y genera un modelo de la cara del jugador en el personaje del juego.
La herramienta de creación automática de personajes se compone de dos mitades: un sistema de aprendizaje por imitación y un sistema de traducción de parámetros. El sistema de traducción de parámetros extrae características de la imagen de entrada y crea parámetros para que los use el sistema de aprendizaje. Luego, el modelo de aprendizaje por imitación utiliza estos parámetros para generar y mejorar iterativamente la representación de la cara de entrada.
El sistema de aprendizaje por imitación tiene una arquitectura que simula la forma en que el motor del juego crea modelos de personajes con un estilo constante. El modelo de imitación está diseñado para extraer la realidad básica del rostro, teniendo en cuenta variables complejas como la barba, el lápiz labial, las cejas y el peinado. Los parámetros de la cara se actualizan a través del proceso de descenso de gradiente, en comparación con la entrada. La diferencia entre las funciones de entrada y el modelo generado se comprueba constantemente y se realizan ajustes en el modelo hasta que el modelo del juego se alinea con las funciones de entrada.
Una vez que se ha entrenado la red de imitación, el sistema de traducción de parámetros compara las salidas de la red de imitación con las características de la imagen de entrada, decidiendo un espacio de características que permita el cálculo de parámetros faciales óptimos.
El mayor desafío fue garantizar que los modelos de personajes en 3D pudieran conservar los detalles y las apariencias basadas en fotografías de humanos. Este es un problema de dominio cruzado, donde las imágenes generadas en 3D y las imágenes en 2D de personas reales deben compararse y las características principales de ambas deben ser las mismas.
Los investigadores resolvieron este problema con dos técnicas diferentes. La primera técnica fue dividir el entrenamiento de su modelo en dos tareas de aprendizaje diferentes: una tarea de contenido facial y una tarea discriminatoria. La forma y estructura generales del rostro de una persona se distinguen minimizando la diferencia/pérdida entre dos valores de apariencia global, mientras que los detalles finos/discriminatorios se rellenan minimizando la pérdida entre cosas como sombras en una región pequeña. Las dos tareas de aprendizaje diferentes se fusionan para lograr una representación completa.
La segunda técnica utilizada para generar modelos 3D fue un sistema de construcción de rostros en 3D que utiliza una estructura esquelética simulada, teniendo en cuenta la forma del hueso. Esto permitió a los investigadores crear imágenes 3D mucho más sofisticadas y precisas en comparación con otros sistemas de modelado 3D que se basan en cuadrículas o mallas faciales.
La creación de un sistema que puede crear modelos 3D realistas basados en imágenes 2D es lo suficientemente impresionante por derecho propio, pero el sistema de generación automática no solo funciona en fotos 2D. El sistema también puede tomar bocetos y caricaturas de rostros y convertirlos en modelos 3D con una precisión impresionante. El equipo de investigación sospecha que el sistema puede generar modelos precisos basados en caracteres 2D porque el sistema analiza la semántica facial en lugar de interpretar valores de píxeles sin procesar.
Si bien el generador automático de caracteres se puede usar para crear caracteres basados en fotos, los investigadores dicen que los usuarios también deberían poder usarlo como una técnica complementaria y editar más el carácter generado de acuerdo con sus preferencias.