Una nueva investigación de Alemania ofrece un novedoso sistema portátil alimentado por GPU para ayudar a las personas con problemas de visión a navegar en el mundo real. El sistema aborda uno de los principales desafíos en los marcos de visión por computadora en tiempo real: la identificación de vidrio y otros obstáculos transparentes.
Él papeldel Instituto de Tecnología de Karlsruhe, detalla la construcción de un sistema usado por el usuario, titulado Trans4Trans, que consta de un par de gafas inteligentes conectadas a una carcasa de GPU portátil, en realidad una computadora portátil liviana, que captura imágenes RGB y de profundidad a 640 × 480 píxeles. en un flujo continuo, que luego se ejecuta a través de un marco de segmentación semántica.
Los sensores móviles en la plataforma Trans4Trans. Fuente: https://arxiv.org/pdf/2107.03172.pdf
Las capacidades de retroalimentación sensorial del sistema se ven reforzadas por un par de auriculares de conducción ósea, que emiten retroalimentación acústica en respuesta a los obstáculos ambientales.
El sistema Trans4Trans también ha sido probado en la plataforma de realidad aumentada Microsoft HoloLens 2, logrando una segmentación completa y consistente (es decir, reconocimiento) de obstrucciones potencialmente peligrosas, como puertas de vidrio.
Trans4Trans ejecutándose en HoloLens 2.
Arquitectura
Trans4Trans utiliza un enfoque dual, utilizando un codificador y un decodificador basados en transformadores, y aprovechando un Módulo de emparejamiento de transformadores (TPM) patentado capaz de cotejar mapas de características generados por las incrustaciones de particiones densas, mientras que el decodificador basado en transformadores puede analizar mapas de características de su codificador emparejado.
La arquitectura de Trans4Trans.
Cada TPM consta de una sola capa basada en un transformador, esencial para el bajo consumo de recursos y la portabilidad del sistema. El decodificador contiene cuatro etapas simétricas para el codificador, con un módulo TPM asignado a cada una. El sistema ahorra recursos al integrar la funcionalidad de múltiples enfoques en un sistema coherente, en lugar de implementar dos modelos separados en un flujo de trabajo lineal.
Hardware
Las gafas utilizadas en el sistema incorporan un sensor RealSense R200 RGB-D, mientras que la máquina host alberga un Supersónico AGX Xavier GPU NVIDIA, diseñada para sistemas integrados y con 384 núcleos NVIDIA CUDA y 48 núcleos Tensor.
El R200 ofrece proyección de motas y combinación estéreo pasiva, lo que lo hace adecuado para ambientes interiores y exteriores. La función de moteado es de particular beneficio en la evaluación de superficies transparentes, ya que aumenta y aclara los datos visuales entrantes sin quedar cegado por fuentes de luz extremas. Las capacidades de infrarrojos del sensor también ayudan a obtener una geometría distinta y formar mapas de profundidad procesables, que son fundamentales para evitar obstáculos, en el contexto de los objetivos del proyecto.
Prevención de la sobrecarga cognitiva para el usuario
El sistema debe lograr un equilibrio entre la frecuencia de datos adecuada y el exceso de información, ya que el usuario debe poder distinguir el entorno de manera coherente a través de la retroalimentación de audio y la retroalimentación de vibración.
En consecuencia, Trans4Trans limita artificialmente el volumen de los datos de retroalimentación, con un único umbral predeterminado establecido en un metro, en lugar de obligar al usuario a aprender una variedad de configuraciones de vibración que se adaptan a las diferentes distancias de los objetos y barreras que se avecinan.
Probando Trans4Trans
El sistema Trans4Trans se probó en dos conjuntos de datos relacionados con la segmentación de objetos transparentes: Trans10K-V2, de la Universidad de Hong Kong et al, que contiene 10.428 imágenes de objetos transparentes para validación, entrenamiento y prueba; y el conjunto de datos Stanford2D3D, que contiene 70 496 imágenes de objetos de transparencia mixta, capturadas con una resolución de 1080×1080.
Imágenes y máscaras correspondientes del conjunto de datos Trans10k. Fuente: https://arxiv.org/pdf/2101.08461.pdf
El sistema Stanford2D3D en acción. Fuente: http://buildingparser.stanford.edu/dataset.html
En las pruebas, Trans4Trans también pudo segmentar objetos transparentes que fueron mal clasificados por el Trans2Seg iniciativa lanzado a principios de 2021 por los mismos investigadores, mientras que requiere menos GFLOPS para calcular y segmentar las superficies.
A diferencia de Trans2Seq, que utiliza un codificador basado en CNN y un decodificador basado en transformador, Trans4Trans usa solo una arquitectura de codificador-descodificador basada en transformador, superando el enfoque anterior y también mejorando en gran medida PVT.
El algoritmo también logró resultados de última generación para un número particular de clases transparentes, incluidos frascos, ventanas, puertas, vasos, cajas y botellas.