El Centro de Investigación de Computación Visual de la Universidad de Shenzhen en China ha desarrollado un conjunto de datos de escenas urbanas a gran escala que ofrece simulaciones diversas, totalmente etiquetadas semánticamente, de varias ciudades importantes de todo el mundo, como recurso para la conducción, los drones y otros tipos de máquinas. ambiente de aprendizaje-simulación de iniciativas de investigación.
Con derecho Escena Urbana3D, el simulador presenta una variedad de reconstrucciones urbanas navegables densas y detalladas con texturas realistas. Muchos de los escenarios son creados por modeladores profesionales que trabajan a partir de datos aéreos disponibles públicamente y cuentan con un nivel de optimización dirigido por humanos que actualmente es difícil o costoso de simular en sistemas de captura RGB-D y síntesis de imágenes totalmente programáticos basados en fotogrametría, como Campos de radiación neuronal (NeRF).
El proyecto aborda uno de los principales desequilibrios en la investigación de la visión por computadora: la falta de conjuntos de datos de entornos urbanos ricos y etiquetados semánticamente con una estructura de modelo de alta calidad, en comparación con el nivel muy alto de disponibilidad de datos semánticos y de modelado similares relacionados con escenas interiores.
Las simulaciones que se ejecutan en UrbanScene3D pueden proporcionar datos reales para la generación de conjuntos de datos específicos de proyectos posteriores relacionados con vehículos autónomos y drones, entre otras posibilidades.
UrbanScene3D ejecutando AirSim y produciendo mapas de profundidad. Fuente: https://arxiv.org/pdf/2107.04286.pdf
Los archivos fuente del proyecto, alrededor de 70 gb, se han liberado de forma gratuita con fines de investigación y uso educativo. La implementación puede ejecutarse en un entorno C++ o en Python, y requiere Motor irreal 4 (con 4.24 recomendado). Para proyectos aéreos, como entrenamiento y simulación de drones, el proyecto también es compatible con Microsoft AirSim.
UrbanScene3D presenta seis entornos CAD modelados profesionalmente generados por artistas profesionales a partir de imágenes o mapas satelitales, junto con cinco entornos del mundo real reconstruidos. Las escenas CAD presentan reconstrucciones de la ciudad de Nueva York, Chicago, San Francisco, Shenzhen, Suzhou y Shanghái. Los datos derivados de imágenes se centran en cinco escenas específicas de estas ciudades, incluido un hospital y un campus universitario.
Ciudades representadas en UrbanScene3D.
Los datos de adquisición sin procesar para UrbanScene3D también están disponibles, con imágenes aéreas de alta resolución a 6000×4000 píxeles y videos aéreos 4K, junto con poses y modelos 3D reconstruidos.
El proyecto tiene como objetivo abordar las limitaciones de los conjuntos de datos de escenas urbanas existentes y es el primero en proporcionar detalles de nivel CAD de alta calidad junto con etiquetado semántico e información de mapas de profundidad. Los esfuerzos anteriores incluyen:
COCO
Lanzado en 2014, Common Objects in Context (COCO) de Microsoft conjunto de datos presenta 1,5 millones de instancias de objetos en 80 categorías, junto con el reconocimiento de objetos en contexto y cinco leyendas por imagen. COCO no cuenta con malla GT con información de pose o profundidad.
El conjunto de iconos del explorador COCO. Fuente: https://arxiv.org/pdf/1405.0312.pdf
La suite de puntos de referencia de visión de KITTI
Producido por el Instituto de Tecnología de Karlsruhe y el Instituto Tecnológico de Toyota en Chicago, KITTI proporciona información de profundidad, pero no máscaras de instancia.
paisaje urbano
Él Conjunto de datos de paisajes urbanos para la comprensión de la escena urbana semántica (también conocida como paisaje urbano) se lanzó en 2016 y presenta una segmentación semántica densa y una segmentación de instancias de personas y vehículos. Como tal, su objetivo principal es ayudar en el desarrollo de sistemas de conducción autónoma y sectores adyacentes de monitoreo urbano.
Cuenta con ocho clases, que incluyen plano, humano, vehículo, construcción, objeto, naturaleza, cielo y vacío, y ofrece excelentes anotaciones a través de 5000 imágenes.
Fuente: https://www.cityscapes-dataset.com/examples/#fine-annotations
CityScape se lanzó en 2020 y tiene características similares a UrbanScene3D, excepto que carece de modelado CAD.
ApoloCoche3D
Lanzado en 2018 y dirigido por Baidu Research, ApolloCar3D es una colaboración entre varias unidades de investigación académica en el oeste y Asia, incluida la Universidad de California en San Diego, la Universidad Nacional de Australia y la Universidad Politécnica del Noroeste en Xi’an. Porcelana.
ApolloCar3D está específicamente dirigido a la investigación de vehículos autónomos a nivel del suelo y presenta 5277 imágenes de conducción y más de 60 000 instancias de vehículos impulsadas por modelos CAD 3D detallados representados en tamaños absolutos y etiquetados para puntos clave semánticos. El conjunto de datos es más de 20 veces más grande que KITTI, pero, a diferencia de UrbanScene3D, solo presenta información de profundidad parcial.
Se definen 66 puntos clave para cada vehículo aumentado con CAD en el conjunto de datos ApolloCar3D. Fuente: https://arxiv.org/pdf/1811.12222.pdf
HoliCiudad
HoliCity, descrita como ‘Una plataforma de datos a escala de ciudad para el aprendizaje de estructuras 3D holísticas’, es un 2021 colaboración entre UC Berkeley, Stanford, USC y Bytedance Research en Palo Alto. Comprende un conjunto de datos 3D a escala de ciudad con un alto nivel de detalle estructural y ofrece 6300 escenas panorámicas del mundo real que cubren un área de más de 20 kilómetros cuadrados.
El proyecto está dirigido a aplicaciones del mundo real como localización, realidad aumentada, mapeo y reconstrucción a escala de ciudad. Aunque cuenta con modelado CAD, el nivel de detalle está por debajo del de UrbanScene3D.
Fuente: https://github.com/zhou13/holicity