AI lucha por dominar Minecraft a través del aprendizaje por imitación

En los últimos meses, Microsoft y otras empresas que investigan el aprendizaje automático desafiaron a los equipos de desarrolladores de IA a crear un sistema de IA que pudiera jugar a Minecraft y encontrar un diamante dentro del juego. Según informa la BBCmientras que las plataformas de IA han logrado dominar el ajedrez y el juego, pero ha tenido problemas para dominar una tarea en Minecraft.

El desafío de IA basado en Minecraft de Microsoft se llamó MineRL, y los resultados de la competencia se anunciaron formalmente en la reciente conferencia NeurIPS. La intención de la competencia era entrenar una IA a través de un enfoque de «aprendizaje por imitación». El aprendizaje por imitación es un método en el que se entrena una IA mediante el uso de la observación. El aprendizaje por imitación tiene la intención de permitir que los sistemas de IA aprendan acciones observando a los humanos realizar esas acciones, aprendiendo a través del acto de observación. El aprendizaje por imitación, en comparación con el aprendizaje por refuerzo, es una forma mucho menos costosa computacionalmente y sustancialmente más eficiente de entrenar una IA.

El aprendizaje por refuerzo a menudo requiere muchas computadoras poderosas conectadas en red y cientos o miles de horas de capacitación para ser efectivo en una tarea. Por el contrario, una IA entrenada con un método de aprendizaje por imitación se puede entrenar mucho más rápido, ya que la IA ya tiene una base de conocimientos para trabajar con la cortesía de los operadores humanos que la han seguido.

El aprendizaje por imitación tiene aplicaciones prácticas en el entrenamiento de una IA donde la IA no puede explorar de manera segura hasta que descubra las acciones correctas. Dichos escenarios incluirían el entrenamiento de un vehículo autónomo, ya que no se puede permitir que el automóvil deambule por una calle hasta que haya aprendido los comportamientos deseados. El uso de los datos de un demostrador humano para entrenar el vehículo podría hacer que el proceso sea más rápido y seguro.

El acto de encontrar un diamante en Minecraft requiere llevar a cabo muchos pasos en secuencia, como talar árboles para fabricar herramientas, explorar las cuevas que contienen los diamantes y, de hecho, encontrar un diamante dentro de la cueva. A pesar de la complejidad de la tarea, un jugador humano familiarizado con el juego debería poder obtener un diamante en unos 20 minutos.

Más de 660 agentes de IA diferentes se presentaron a la competencia, pero ninguno de los IA pudo encontrar un diamante. Los datos proporcionados para entrenar la IA eran un conjunto de datos que contenía más de 60 millones de fotogramas de juego recopilados de muchos jugadores humanos. Las ubicaciones de los diamantes se asignan al azar cuando se inicia una instancia del juego, lo que significa que las IA no pueden simplemente mirar dónde encontraron los diamantes los jugadores humanos. En otras palabras, las IA deben comprender cómo se vinculan conceptos, como fabricar herramientas, usar herramientas, explorar y encontrar recursos.

A pesar de que ninguno de los agentes de la IA pudo encontrar un diamante con éxito, el equipo de organización aún estaba satisfecho con los resultados de la competencia y se aprendió mucho del experimento. La investigación que realizaron los equipos de IA puede ayudar a avanzar en el campo de la IA, encontrando alternativas a las estrategias de aprendizaje por refuerzo.

El aprendizaje por refuerzo a menudo ofrece un rendimiento superior al aprendizaje por imitación, y un éxito notable del aprendizaje por refuerzo es AlphaGo de DeepMind. Sin embargo, como se señaló anteriormente, el aprendizaje por refuerzo requiere recursos informáticos masivos, lo que limita su uso por parte de organizaciones que no pueden permitirse procesadores informáticos a gran escala.

William Guss, estudiante de doctorado en la Universidad Carnegie Mellon y organizador principal de la competencia, explicó a la BBC que la competencia MineRL tenía la intención de investigar alternativas a la IA computacional. Gus dijo:

“…Lanzar computación masiva a los problemas no es necesariamente la forma correcta para nosotros de impulsar el estado del arte como un campo… Funciona directamente en contra de la democratización del acceso a estos sistemas de aprendizaje por refuerzo, y deja la capacidad de entrenar agentes en entornos complejos para corporaciones con franjas de computación”.

Deja un comentario