DeepMind informa sobre un nuevo método para entrenar el aprendizaje por refuerzo de la IA de forma segura

El aprendizaje por refuerzo es una vía prometedora para el desarrollo de la IA, que produce una IA que puede manejar tareas extremadamente complejas. Los algoritmos de IA de refuerzo se utilizan en la creación de sistemas de robótica móvil y automóviles autónomos, entre otras aplicaciones. Sin embargo, debido a la forma en que se entrena la IA de refuerzo, ocasionalmente pueden manifestar comportamientos extraños e inesperados. Estos comportamientos pueden ser peligrosos, y los investigadores de IA se refieren a este problema como el problema de «exploración segura», que es donde la IA se atasca en la exploración de estados inseguros.

Recientemente, el laboratorio de investigación de IA de Google, DeepMind, publicó un documento que proponía nuevos métodos para abordar el problema de la exploración segura y entrenar la IA de aprendizaje por refuerzo de una manera más segura. El método sugerido por DeepMind también corrige la piratería de recompensas o lagunas en los criterios de recompensa.

El nuevo método de DeepMind tiene dos sistemas diferentes destinados a guiar el comportamiento de la IA en situaciones en las que podría surgir un comportamiento inseguro. Los dos sistemas utilizados por la técnica de entrenamiento de DeepMind son un modelo generativo y un modelo dinámico directo. Ambos modelos están entrenados en una variedad de datos, como demostraciones de expertos en seguridad y trayectorias de vehículos completamente aleatorias. Los datos son etiquetados por un supervisor con valores de recompensa específicos, y el agente de IA detectará patrones de comportamiento que le permitirán obtener la mayor recompensa. Los estados inseguros también han sido etiquetados, y una vez que el modelo ha logrado predecir con éxito las recompensas y los estados inseguros, se implementa para llevar a cabo las acciones específicas.

El equipo de investigación explica en el documento que la idea es crear posibles comportamientos desde cero, sugerir los comportamientos deseados y hacer que estos escenarios hipotéticos sean lo más informativos posible y, al mismo tiempo, eviten la interferencia directa con el entorno de aprendizaje. El equipo de DeepMind se refiere a este enfoque como ReQueST, o síntesis de consulta de recompensa a través de la optimización de la trayectoria.

ReQueST es capaz de conducir a cuatro tipos diferentes de comportamiento. El primer tipo de comportamiento trata de maximizar la incertidumbre con respecto a los modelos de recompensa grupal. Mientras tanto, el comportamiento dos y tres intenta minimizar y maximizar las recompensas previstas. Las recompensas pronosticadas se minimizan para conducir al descubrimiento de comportamientos que el modelo puede estar prediciendo incorrectamente. Por otro lado, la recompensa predicha se maximiza para generar etiquetas de comportamiento que posean el valor de información más alto. Finalmente, el cuarto tipo de comportamiento trata de maximizar la novedad de las trayectorias, para que el modelo continúe explorando independientemente de las recompensas proyectadas.

Una vez que el modelo ha alcanzado el nivel deseado de recolección de recompensas, se utiliza un agente de planificación para tomar decisiones basadas en las recompensas aprendidas. Este esquema de control predictivo del modelo permite que los agentes aprendan a evitar estados inseguros mediante el uso del modelo dinámico y la predicción de posibles consecuencias, en contraste con los comportamientos de los algoritmos que aprenden a través de pura prueba y error.

Según lo informado por VentureBeatlos investigadores de DeepMind creen que su proyecto es el primer sistema de aprendizaje por refuerzo capaz de aprender de forma controlada y segura:

“Hasta donde sabemos, ReQueST es el primer algoritmo de modelado de recompensas que aprende de manera segura sobre estados inseguros y escala para entrenar modelos de recompensas de redes neuronales en entornos con estados continuos de alta dimensión. Hasta ahora, solo hemos demostrado la efectividad de ReQueST en dominios simulados con dinámicas relativamente simples. Una dirección para el trabajo futuro es probar ReQueST en dominios 3D con física más realista y otros agentes que actúan en el medio ambiente”.

Deja un comentario