Datos sintéticos: cerrar la brecha de oclusión con Grand Theft Auto

Investigadores de la Universidad de Illinois han creado un nuevo conjunto de datos de visión por computadora que utiliza imágenes sintéticas generadas por un motor de juego Grand Theft Auto para ayudar a resolver uno de los obstáculos más espinosos en la segmentación semántica: reconocer objetos que solo son parcialmente visibles en imágenes y videos de origen.

Para ello, como se describe en el papellos investigadores han utilizado el motor de videojuegos GTA-V para generar un conjunto de datos sintéticos que no solo presenta un número récord de instancias de oclusión, sino que presenta una segmentación y etiquetado semánticos perfectos, y da cuenta de la información temporal de una manera que no es abordados por conjuntos de datos de código abierto similares.

Comprensión completa de la escena

El video a continuación, publicado como material de apoyo para la investigación, ilustra las ventajas de una comprensión 3D completa de una escena, ya que los objetos oscurecidos son conocidos y expuestos en la escena en todas las circunstancias, lo que permite que el sistema de evaluación aprenda a asociar vistas parciales ocluidas. con todo el objeto (etiquetado).

Fuente: http://sailvos.web.illinois.edu/_site/index.html

Los autores afirman que el conjunto de datos resultante, llamado SAIL-VOS 3D, es el primer conjunto de datos de malla de video sintético con anotación cuadro por cuadro, segmentación a nivel de instancia, profundidad real del terreno para vistas de escena y anotaciones 2D delineadas por cuadros delimitadores.

Fuente (Click para agrandar)

Las anotaciones de SAIL-VOS 3D incluyen profundidad, nivel de instancia modal y amodal segmentación, etiquetas semánticas y mallas 3D. Los datos incluyen 484 videos con un total de 237 611 cuadros con una resolución de 1280 × 800, incluidas las transiciones de tomas.

Arriba, los marcos CGI originales;  segunda fila, segmentación a nivel de instancia;  tercera fila, segmentación amodal, que ilustra la profundidad de la comprensión de la escena y la transparencia disponible en los datos.  Fuente

Arriba, los marcos CGI originales; segunda fila, segmentación a nivel de instancia; tercera fila, segmentación amodal, que ilustra la profundidad de la comprensión de la escena y la transparencia disponible en los datos. Fuente (Click para agrandar)

El conjunto se divide en 6.807 clips con un promedio de 34,6 fotogramas cada uno, y los datos se anotan con 3.460.213 instancias de objetos originadas a partir de 3.576 modelos de malla en el motor de juego GTA-V. Estos se asignan a un total de 178 categorías semánticas.

Reconstrucción de mallas y etiquetado automatizado

Dado que es probable que la investigación posterior del conjunto de datos se realice en imágenes del mundo real, las mallas en SAIL-VOS 3D son generadas por el marco de aprendizaje automático, en lugar de derivarse del motor GTA-V.

Con una comprensión programática y esencialmente 'holográfica' de toda la representación de la escena, las imágenes 3D de SAIL-VOS pueden sintetizar representaciones de objetos normalmente ocultos por oclusiones, como el brazo que mira hacia el fondo del personaje que gira aquí, de una manera que de otro modo dependen de muchas instancias representativas en imágenes del mundo real.  Fuente: https://arxiv.org/pdf/2105.08612.pdf

Con una comprensión programática y esencialmente ‘holográfica’ de toda la representación de la escena, las imágenes 3D de SAIL-VOS pueden sintetizar representaciones de objetos normalmente ocultos por oclusiones, como el brazo que mira hacia el fondo del personaje que gira aquí, de una manera que de otro modo dependen de muchas instancias representativas en imágenes del mundo real. (Haga clic para ampliar) Fuente: https://arxiv.org/pdf/2105.08612.pdf

Dado que cada objeto en el mundo de GTA-V contiene una identificación única, SAIL-VOS los recupera del motor de renderizado utilizando la biblioteca de ganchos de secuencias de comandos de GTA-V. Esto resuelve el problema de volver a adquirir el sujeto si debe abandonar el campo de visión temporalmente, ya que el etiquetado es persistente y confiable. Hay 162 objetos disponibles en el entorno, que los investigadores asignaron a un número correspondiente de clases.

Una variedad de escenas y objetos.

Muchos de los objetos en el motor de GTA-V son de naturaleza común y, por lo tanto, el inventario de SAIL-VOS contiene un afortunado 60 % de las clases presentes en el 2014 de uso frecuente de Microsoft. Conjunto de datos MS-COCO.

El conjunto de datos SAIL-VOS incluye una gran variedad de escenas interiores y exteriores bajo diferentes condiciones climáticas, con personajes que visten ropa variada.

El conjunto de datos SAIL-VOS incluye una gran variedad de escenas interiores y exteriores bajo diferentes condiciones climáticas, con personajes que visten ropa variada. (Click para agrandar)

Aplicabilidad

Para garantizar la compatibilidad con el funcionamiento general de la investigación en esta área y para confirmar que este enfoque sintético puede beneficiar a los proyectos no sintéticos, los investigadores evaluaron el conjunto de datos utilizando el enfoque de detección basado en marcos empleado para MS-COCO y el 2012 Desafío de clases de objetos visuales (VOC) de PASCALcon precisión promedio como la métrica.

Los investigadores descubrieron que el entrenamiento previo en el conjunto de datos SAIL-VOS mejora el rendimiento de Intersection over Union (pagaré) en un 19%, con la correspondiente mejora en VideoPartido rendimiento, del 55% al ​​74% en datos no vistos.

Sin embargo, en casos de oclusión extrema, hubo ocasiones en las que todos los métodos anteriores no pudieron identificar un objeto o una persona, aunque los investigadores pronosticaron que esto podría remediarse en el futuro examinando marcos adyacentes para establecer el razonamiento de la máscara amodal. .

En las dos imágenes de la derecha, los algoritmos de segmentación tradicionales no lograron identificar la figura femenina a partir de la porción muy limitada de su cabeza que es visible.  Las innovaciones posteriores con evaluación de flujo óptico pueden mejorar estos resultados.

En las dos imágenes de la derecha, los algoritmos de segmentación tradicionales no lograron identificar la figura femenina a partir de la porción muy limitada de su cabeza que es visible. Las innovaciones posteriores con evaluación de flujo óptico pueden mejorar estos resultados. (Click para agrandar)

Deja un comentario