Agentes de IA demuestran propiedades de inteligencia emergente en el escondite virtual

Uno de los hechos interesantes sobre la investigación de la IA es que a menudo puede ejecutar acciones y seguir estrategias que sorprenden a los mismos investigadores que las diseñan. Esto sucedió durante un juego virtual reciente de escondite donde múltiples agentes de IA se enfrentaron entre sí. Los investigadores de OpenAI, una empresa de IA con sede en San Francisco, se sorprendieron al descubrir que sus agentes de IA comenzó a explotar estrategias en el mundo del juego que los investigadores ni siquiera sabían que existía.

OpenAI ha entrenado a un grupo de agentes de IA para jugar al escondite entre ellos. Los programas de IA se entrenan con aprendizaje de refuerzo, una técnica en la que el comportamiento deseado se obtiene de los algoritmos de IA al proporcionar retroalimentación a los algoritmos. La IA comienza realizando acciones aleatorias, y cada vez que realiza una acción que la acerca a su objetivo, el agente es recompensado. La IA desea obtener la máxima cantidad de recompensa posible, por lo que experimentará para ver qué acciones le otorgan más recompensa. A través de prueba y error, la IA es capaz de distinguir las estrategias que los llevarán a la victoria, aquellas que les darán la mayor recompensa.

Aprendizaje por refuerzog ya ha demostrado un éxito impresionante en el aprendizaje de las reglas de los juegos. OpenAI capacitó recientemente a un equipo de IA para jugar el MMORPG DOTA 2, y la IA derrotó a un equipo campeón mundial de jugadores humanos el año pasado. Algo similar sucedió con el juego StarCraft cuando DeepMind entrenó una IA en el juego. El aprendizaje por refuerzo también se ha utilizado para enseñar a los programas de IA a jugar Pictionary con humanos, aprender a interpretar imágenes y usar el razonamiento básico del sentido común.

En el videojuego de escondite creado por los investigadores, múltiples agentes de IA se enfrentaron entre sí. El resultado fue una especie de carrera armamentista, en la que cada agente quiere superar al otro y obtener la mayor cantidad de puntos de recompensa. Una nueva estrategia adoptada por un agente hará que su oponente busque una nueva estrategia para contrarrestarlo, y viceversa. Igor Mordatch, investigador de OpenAI, explicó a IEEE Spectrum que el experimento demuestra que este proceso de juego de prueba y error entre agentes “es suficiente para que los agentes aprendan comportamientos sorprendentes por sí mismos, es como niños jugando entre ellos”.

¿Cuáles fueron exactamente los comportamientos sorprendentes? Los investigadores tenían cuatro estrategias básicas que esperaban que los agentes de IA aprendieran, y las aprendieron con bastante rapidez, volviéndose competentes en ellas después de solo 25 millones de juegos simulados. El juego tuvo lugar en un entorno 3D lleno de rampas, bloques y paredes. Los agentes de IA aprendieron a perseguirse unos a otros, a mover bloques para construir fuertes en los que pudieran esconderse y a mover rampas. Los buscadores de IA aprendieron a arrastrar rampas para entrar en los fuertes de los escondidos, mientras que los escondidos aprendieron a intentar llevar las rampas a sus fuertes para que los buscadores no pudieran usarlas.

Sin embargo, alrededor del punto de referencia de 380 millones de juegos, sucedió algo inesperado. Los agentes de IA aprendieron a usar dos estrategias que los investigadores no esperaban. Los agentes buscadores aprendieron que saltando sobre una caja e inclinando/montando la caja hacia un fuerte cercano, podían saltar al fuerte y encontrar al escondite. Los investigadores ni siquiera se habían dado cuenta de que esto era posible dentro de la física del entorno del juego. Los escondidos aprendieron a lidiar con este problema arrastrando las cajas a su lugar dentro de su fuerte.

Si bien el comportamiento inesperado de los agentes entrenados en algoritmos de aprendizaje por refuerzo es inofensivo en este caso, plantea algunas preocupaciones potenciales sobre cómo se aplica el aprendizaje por refuerzo a otras situaciones. Bowen Baker, miembro del equipo de investigación de OpenAI, explicó a IEEE Spectrum que estos comportamientos inesperados podrían ser potencialmente peligrosos. Después de todo, ¿qué pasaría si los robots comenzaran a comportarse de manera inesperada?

“Construir estos entornos es difícil”, explicó Baker. “A los agentes se les ocurrirán estos comportamientos inesperados, que serán un problema de seguridad en el futuro cuando los coloque en entornos más complejos”.

Sin embargo, Baker también explicó que las estrategias de refuerzo podrían conducir a soluciones innovadoras a los problemas actuales. Los sistemas entrenados con aprendizaje por refuerzo podrían resolver una amplia gama de problemas con soluciones que tal vez ni siquiera podamos imaginar.

Deja un comentario