Investigadores de Adobe han creado un sistema de representación neuronal para escenas interiores del mundo real que es capaz de volver a iluminar de manera sofisticada, ofrece una interfaz en tiempo real y maneja superficies brillantes y reflejos, un desafío notable para los métodos de síntesis de imágenes de la competencia, como Neural Radiance Fields (NeRF). .
Aquí, se ha reconstruido una escena del mundo real a partir de una serie de imágenes fijas, lo que hace que la escena sea navegable. La iluminación se puede agregar y cambiar en color y calidad, mientras que los reflejos se mantienen precisos y las superficies brillantes expresan correctamente el cambio del usuario en las fuentes y/o estilos de iluminación. Fuente: https://www.youtube.com/watch?v=d3ma4opFpgM
El nuevo sistema permite un control basado en GUI al estilo de Photoshop sobre los aspectos de iluminación de una escena 3D real que ha sido capturada en un espacio neuronal, incluidas las sombras y los reflejos.
La GUI permite al usuario agregar (y ajustar) una fuente de iluminación a una escena del mundo real que ha sido reconstruida a partir de una cantidad escasa de fotos, y navegar libremente a través de ella como si fuera un escenario basado en una malla de estilo CGI.
Él papelpresentado a ACM Transactions on Graphics y titulado Free-viewpoint Indoor Neural Relighting from Multi-view Stereo, es una colaboración entre Adobe Research e investigadores de la Université Côte d’Azur.
Fuente: https://arxiv.org/ftp/arxiv/papers/2106/2106.13299.pdf (haga clic para ver la versión de resolución completa)
Al igual que con Neural Radiance Fields (NeRF), el sistema utiliza fotogrametría (arriba a la izquierda), en la que la comprensión de una escena se infiere a partir de un número limitado de fotografías, y los puntos de vista “faltantes” se entrenan a través del aprendizaje automático hasta obtener un modelo completo y completamente abstracto. de la escena está disponible para una reinterpretación ad hoc.
El sistema se entrenó completamente con datos sintéticos (CGI), pero los modelos 3D utilizados se trataron exactamente como ocurriría si una persona estuviera tomando varias fotografías limitadas de una escena real para la interpretación neuronal. La imagen de arriba muestra una escena sintética que se vuelve a encender, pero la vista del ‘dormitorio’ en la imagen superior (animada) de arriba se deriva de fotos reales tomadas en una habitación real.
La representación implícita de la escena se obtiene del material de origen a través de una red neuronal convolucional (CNN) y se divide en varias capas, incluida la reflectancia, la irradiancia de la fuente (radiosidad/iluminación global) y el albedo.
La arquitectura del sistema de iluminación de Adobe. El conjunto de datos de vista múltiple se procesa previamente y la geometría de malla 3D se genera a partir de los datos de entrada. Cuando se debe agregar una nueva luz, la irradiancia se calcula en tiempo real y se sintetiza la vista de reiluminación. (haga clic para ver la versión de resolución completa)
El algoritmo combina facetas del trazado de rayos tradicional (Monte Carlo) y la representación basada en imágenes (IBR, representación neuronal).
Aunque una cantidad notable de investigaciones recientes sobre Neural Radiance Fields se ha preocupado por la extracción de geometría 3D de imágenes planas, la oferta de Adobe es la primera vez que se demuestra una reiluminación altamente sofisticada a través de este método.
El algoritmo también aborda otra limitación tradicional de NeRF y enfoques similares, al calcular un mapa de reflexión completo, donde a cada parte de la imagen se le asigna un material 100 % reflectante.
Las texturas espejadas trazan rutas de iluminación. (haga clic para ver la versión de resolución completa)
Con este mapa integral de reflectividad en su lugar, es posible ‘reducir’ la reflectividad para acomodar varios niveles de reflexión en diferentes tipos de materiales como madera, metal y piedra. El mapa de reflectividad (arriba) también proporciona una plantilla completa para el mapeo de rayos, que se puede reutilizar con fines de ajuste de iluminación difusa.
Otras capas en el sistema de renderizado neuronal de Adobe. (haga clic para ver la versión de resolución completa)
La captura inicial de la escena utiliza 250-350 fotos RAW a partir de las cuales se calcula una malla a través de Multi-View Stereo. Los datos se resumen en mapas de características de entrada 2D que luego se reproyectan en la nueva vista. Los cambios en la iluminación se calculan promediando las capas difusas y brillantes de la escena capturada.
La capa de imagen especular se genera a través de un cálculo rápido de espejo de un solo rayo (un rebote), que estima los valores originales de la fuente y luego los valores objetivo. Los mapas que contienen información sobre la iluminación original de la escena se almacenan en los datos neuronales, de forma similar a como se suelen almacenar los mapas de radiosidad con los datos de escena CGI tradicionales.
Resolución de reflejos de representación neuronal
Tal vez el principal logro del trabajo sea el desacoplamiento de la información de reflectancia de las capas difusas y de otro tipo en los datos. El tiempo de cálculo se reduce al garantizar que las vistas habilitadas para la ‘reflectancia’ en vivo, como los espejos, se calculen solo para la vista del usuario activo, en lugar de para toda la escena.
Los investigadores afirman que este trabajo representa la primera vez que las capacidades de reiluminación se combinan con las capacidades de navegación de vista libre en un solo marco para escenas que deben reproducir superficies reflectantes de manera realista.
Se han hecho algunos sacrificios para lograr esta funcionalidad, y los investigadores admiten que los métodos anteriores que usan mallas por vista más complejas demuestran una geometría mejorada para objetos pequeños. Las direcciones futuras para el enfoque de Adobe incluirán el uso de geometría por vista para mejorar este aspecto.