Un equipo de investigadores del MIT, el MIT-IBM Watson AI Lab y otras instituciones ha desarrollado un nuevo enfoque que permite a los agentes de inteligencia artificial (IA) lograr una perspectiva con visión de futuro. En otras palabras, la IA puede pensar en el futuro lejano al considerar cómo sus comportamientos pueden incluir los comportamientos de otros agentes de IA al completar una tarea.
Él investigar está previsto que se presente en el Conferencia sobre Sistemas de Procesamiento de Información Neural.
AI considerando las acciones futuras de otros agentes
El marco de aprendizaje automático creado por el equipo permite a los agentes de IA cooperativos o competitivos considerar lo que harán otros agentes. Esto no es solo sobre los próximos pasos, sino más bien a medida que el tiempo se acerca al infinito. Los agentes adaptan sus comportamientos en consecuencia para influir en los comportamientos futuros de otros agentes, ayudándolos a llegar a soluciones óptimas a largo plazo.
Según el equipo, el marco podría ser utilizado, por ejemplo, por un grupo de drones autónomos que trabajen juntos para encontrar a un excursionista perdido. También podría ser utilizado por vehículos autónomos para anticipar los movimientos futuros de otros vehículos para mejorar la seguridad de los pasajeros.
Dong-Ki Kim es estudiante de posgrado en el Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT y autor principal del artículo de investigación.
“Cuando los agentes de IA cooperan o compiten, lo que más importa es cuándo sus comportamientos convergen en algún momento en el futuro”, dice Kim. “Hay muchos comportamientos transitorios en el camino que no importan mucho a largo plazo. Alcanzar este comportamiento convergente es lo que realmente nos importa, y ahora tenemos una forma matemática de habilitarlo”.
El problema que abordan los investigadores se denomina aprendizaje por refuerzo de múltiples agentes, y el aprendizaje por refuerzo es una forma de aprendizaje automático en la que los agentes de IA aprenden por ensayo y error.
Cuando hay múltiples agentes cooperativos o competidores que aprenden simultáneamente, el proceso puede volverse mucho más complejo. Como los agentes consideran más pasos futuros de los otros agentes, así como su propio comportamiento y cómo influye en los demás, el problema requiere demasiado poder computacional.
IA pensando en el infinito
“La IA realmente quiere pensar en el final del juego, pero no saben cuándo terminará”, dice Kim. “Necesitan pensar en cómo seguir adaptando su comportamiento hasta el infinito para poder ganar en algún momento lejano en el futuro. Nuestro artículo propone esencialmente un nuevo objetivo que permite a una IA pensar en el infinito”.
Es imposible integrar el infinito en un algoritmo, por lo que el equipo diseñó el sistema de manera que los agentes se centren en un punto futuro en el que su comportamiento convergerá con el de otros agentes. Esto se conoce como equilibrio, y un punto de equilibrio determina el desempeño a largo plazo de los agentes.
Es posible que existan múltiples equilibrios en un escenario de múltiples agentes, y cuando un agente efectivo influye activamente en los comportamientos futuros de otros agentes, pueden alcanzar un equilibrio deseable desde la perspectiva del agente. Cuando todos los agentes se influyen entre sí, convergen en un concepto general denominado “equilibrio activo”.
Marco ADEMÁS
El marco de aprendizaje automático del equipo se llama FURTHER y permite a los agentes aprender a ajustar sus comportamientos en función de sus interacciones con otros agentes para lograr un equilibrio activo.
El marco se basa en dos módulos de aprendizaje automático. El primero es un módulo de inferencia que permite a un agente adivinar los comportamientos futuros de otros agentes y los algoritmos de aprendizaje que utilizan en función de acciones anteriores. Luego, la información se introduce en el módulo de aprendizaje por refuerzo, en el que el agente se basa para adaptar su comportamiento e influir en otros agentes.
“El desafío era pensar en el infinito. Tuvimos que usar muchas herramientas matemáticas diferentes para habilitar eso, y hacer algunas suposiciones para que funcionara en la práctica”, dice Kim.
El equipo probó su método con otros marcos de trabajo de aprendizaje por refuerzo de múltiples agentes en diferentes escenarios en los que los agentes de IA que usaban FURTHER salieron ganando.
El enfoque es descentralizado, por lo que los agentes aprenden a ganar de forma independiente. Además de eso, está mejor diseñado para escalar en comparación con otros métodos que requieren una computadora central para controlar a los agentes.
Según el equipo, FURTHER podría usarse en una amplia gama de problemas de múltiples agentes. Kim tiene especial esperanza en sus aplicaciones en economía, donde podría aplicarse para desarrollar políticas sólidas en situaciones que involucran muchas entidades que interactúan con comportamientos e intereses que cambian con el tiempo.