Si bien los sistemas capaces de generar geometría 3D a partir de imágenes únicas estáticas han proliferado en los últimos años, los objetos que obtienen tienden a estar ‘fusionados’, sin ningún esquema semántico real que refleje cómo las partes contribuyen al todo.
Hay una serie de buenas razones para generar modelos inferidos jerárquicos con una división significativa de partes, incluido el análisis industrial, la investigación médica y las aplicaciones de imágenes, la generación automática de geometría para videojuegos, simuladores y entornos VR/AR, y efectos visuales. entre otros.
Muchos métodos desarrollados en los últimos años, tales como Supercuádricas análisis de forma, producen resultados menos que satisfactorios y han luchado para progresar en el estado del arte más allá del corte indicativo de estilo cuboide.
La segmentación por Superquadrics y otros enfoques proporcionan subpartes crudas o ampliamente representativas de una imagen inferida. Fuente: https://www.youtube.com/watch?v=6WK3B0IZJsw
Sin embargo, nuevo investigar del Instituto Max Planck, titulado Neural Parts: Learning Expressive 3D Shape Abstractions with Invertible Neural Networks, ofrece un nuevo sistema de representación neuronal primitivo en 3D que crea secciones semánticamente útiles.
Los métodos anteriores pueden descomponer grandes objetos inferidos, pero no de una manera semánticamente útil. A la derecha, el método Neural Parts crea fragmentos más prácticos. Fuente: https://paschalidoud.github.io/neural_parts
La segmentación se logra a través de una Red Neuronal Invertible (POSADA), que utiliza condicional homeomorfismo deformar una forma geométrica base en primitivas, y viceversa, calculando la jerarquía topológica en ambas direcciones. De esta manera, cada forma primitiva se asocia con una incrustación de primitiva aprendible para generar la incrustación de forma para esa primitiva.
Arquitectura
Las partes neuronales deben lograr un equilibrio entre la calidad de la reconstrucción y la integridad primitiva, ya que las primitivas complejas tenderán al sistema hacia deconstrucciones complejas. Por lo tanto, la arquitectura de Neural Parts ha sido diseñada para sortear estas consideraciones en conflicto de una manera elegante.
La arquitectura de partes neuronales consiste en un extractor de características que mapea la entrada de un vector y un componente de homeomorfismo condicional que aprende mapeos homeomorfos que están condicionados por la incrustación de formas.
La sección inicial del extractor de características utiliza un ResNet-18 componente para extraer imágenes de características. El componente de homeomorfismo condicional utiliza un valor real que no preserva el volumen (NVP real) módulo de transformación.
Evaluación
El sistema se probó con tres conjuntos de datos: Dynamic FAUST de 2017 (D-FAUSTO), FreiMANO (2019) y el popular 2015 de la Universidad de Stanford ShapeNet. D-FAUST contiene 38 640 mallas centradas en humanos, que resultaron adecuadas para la comparación, mientras que las primeras 5000 poses de manos en FreiHAND se usaron para generar mallas. Para ShapeNet, los investigadores siguieron el mismo entrenamiento específico de categoría descrito por los investigadores de Stanford. en 2016.
Las pruebas se realizaron con métodos basados en primitivas, incluidas las supercuádricas, CvxNety H-SQ.
Bajo ShapeNet, los investigadores encontraron que el modelo de Partes Neurales resultó en reconstrucciones más precisas que CvxNet a un nivel de 5 y 25 primitivas. Algunos de los objetos más simples de la base de datos, como las sillas, no contenían suficiente geometría para una deconstrucción significativa.
Para FreiHAND, Neural Parts dio como resultado reconstrucciones geométricamente más precisas, con una mejor captura de detalles finos como la posición del pulgar. Los investigadores señalan que, en comparación, CvxNet y SQs se centran más en la estructura central general y carecen de estos detalles.
Para Dynamic FAUST, CvxNet y SQs se compararon con la salida de Neural Parts usando cinco primitivas para capturar la integridad del cuerpo humano inferida inicialmente de los datos. Neural Parts pudo lograr una segmentación más suave, sin sacrificar los elementos esenciales de la topología.
Trabajo futuro
Los investigadores tienen la intención de extender Neural Parts a estudios que no ofrecen mallas de destino directamente, mediante el uso de técnicas de representación diferenciables. Dado que una esfera base es la primitiva empleada actualmente en el marco de las partes neuronales, los investigadores también están considerando el uso de primitivas geométricas más complejas y expresivas.