Los ingenieros del MIT están trabajando para dar a los robots la capacidad de seguir comandos de alto nivel, como ir a otra habitación para recuperar un artículo para una persona. Para que esto sea posible, los robots deberán tener la capacidad de percibir su entorno físico de manera similar a como lo hacemos los humanos.
Luca Carlone es profesor asistente de aeronáutica y astronáutica en el MIT.
“Para tomar cualquier decisión en el mundo, necesitas tener un modelo mental del entorno que te rodea”, dice Carlone. “Esto es algo tan sencillo para los humanos. Pero para los robots es un problema dolorosamente difícil, donde se trata de transformar los valores de píxeles que ven a través de una cámara, en una comprensión del mundo”.
Para asumir este desafío, los investigadores modelaron una representación de la percepción espacial de los robots en función de cómo los humanos perciben y navegan por sus entornos físicos.
Gráficos de escena dinámicos en 3D
El nuevo modelo se llama 3D Dynamic Scene Graphs y permite que un robot genere un mapa 3D de su entorno físico, incluidos los objetos y sus etiquetas semánticas. El robot también puede mapear personas, habitaciones, paredes y otras estructuras en el entorno.
Luego, el modelo permite que el robot extraiga información del mapa 3D, información que se puede usar para ubicar objetos, habitaciones y el movimiento de personas.
“Esta representación comprimida del entorno es útil porque permite que nuestro robot tome decisiones rápidamente y planifique su camino”, dice Carlone. “Esto no está muy lejos de lo que hacemos como humanos. Si necesita planificar un camino desde su hogar hasta el MIT, no planifica todos los puestos que debe tomar. Solo piensas a nivel de calles y puntos de referencia, lo que te ayuda a planificar tu ruta más rápido”.
Según Carlone, los robots que dependan de este modelo podrían hacer mucho más que tareas domésticas. También podrían usarse para habilidades de alto nivel y trabajar junto con personas en fábricas, o ayudar a localizar a los sobrevivientes del sitio de un desastre.
Métodos actuales frente a nuevo modelo
Los métodos actuales de navegación y visión robótica se centran principalmente en el mapeo 3D que permite a los robots reconstruir su entorno en tres dimensiones en tiempo real, o la segmentación semántica, que ocurre cuando los robots clasifican las características del entorno como objetos semánticos, como un coche frente a un bicicleta. La segmentación semántica a menudo se realiza en imágenes 2D.
El modelo de percepción espacial recientemente desarrollado es el primero de su tipo en generar un mapa 3D del entorno en tiempo real y etiquetar objetos, personas y estructuras dentro del mapa 3D al mismo tiempo.
Para lograr este nuevo modelo, los investigadores confiaron en Kimera, una biblioteca de código abierto. Kimera fue desarrollado previamente por el mismo equipo para construir un modelo geométrico 3D de un entorno, mientras que al mismo tiempo codifica lo que probablemente sea el objeto, como una silla frente a un escritorio.
“Al igual que la criatura mítica que es una mezcla de diferentes animales, queríamos que Kimera fuera una mezcla de mapeo y comprensión semántica en 3D”, dice Carlone.
Kimera usó imágenes de la cámara de un robot y medidas inerciales de sensores integrados para reconstruir la escena como una malla 3D en tiempo real. Para hacer esto, Kimera utilizó una red neuronal que ha sido entrenada en millones de imágenes del mundo real. Luego, podría predecir la etiqueta de cada píxel y usar la proyección de rayos para proyectarlos en 3D.
Mediante el uso de esta técnica, el entorno del robot se puede trazar en una malla tridimensional donde cada cara está codificada por colores, identificándola como parte de objetos, estructuras o personas en el entorno.
Malla 3D a «Gráficos de escena» dinámicos en 3D
Debido a que el modelo de malla semántica 3D requiere mucha potencia computacional y requiere mucho tiempo, los investigadores utilizaron Kimera para desarrollar algoritmos que dieron como resultado «gráficos de escena» dinámicos en 3D.
La malla semántica 3D se descompone en distintas capas semánticas, y el robot puede ver una escena a través de una capa. Las capas van desde objetos y personas, hasta espacios abiertos y estructuras, habitaciones, pasillos, vestíbulos y edificios completos.
Este método de estratificación permite que el robot reduzca su enfoque en lugar de tener que analizar miles de millones de puntos y caras. Este método de capas también permite que los algoritmos rastreen a los humanos y su movimiento dentro del entorno en tiempo real.
El nuevo modelo se probó en un simulador fotorrealista que simula un robot que navega en un entorno de oficina con personas en movimiento.
“Básicamente, estamos permitiendo que los robots tengan modelos mentales similares a los que usan los humanos”, dice Carlone. “Esto puede afectar muchas aplicaciones, incluidos los automóviles autónomos, la búsqueda y el rescate, la fabricación colaborativa y la robótica doméstica.
Carlone estuvo acompañado por el autor principal y estudiante graduado del MIT, Antoni Rosinol.
“Nuestro enfoque acaba de ser posible gracias a los avances recientes en el aprendizaje profundo y décadas de investigación sobre localización y mapeo simultáneos”, dice Rosinol. “Con este trabajo, estamos dando el salto hacia una nueva era de percepción robótica llamada IA espacial, que está en sus inicios pero tiene un gran potencial en robótica y realidad virtual y aumentada a gran escala”.
La investigación fue presentada en la Robótica: conferencia virtual de ciencia y sistemas.