El cerebro humano a menudo recuerda recuerdos pasados (aparentemente) sin previo aviso. A medida que avanzamos a lo largo del día, tenemos destellos espontáneos de memoria de nuestras vidas. Si bien esta conjuración espontánea de recuerdos ha sido de interés para los neurocientíficos durante mucho tiempo, la empresa de investigación de inteligencia artificial DeepMind recientemente publicó un artículo detallando cómo una IA suya replicó este extraño patrón de recuerdo.
La conjuración de recuerdos en el cerebro, la repetición neuronal, está estrechamente relacionada con la hipocampo. El hipocampo es una formación en forma de caballito de mar en el cerebro que pertenece al sistema límbico y está asociado con la formación de nuevos recuerdos, así como con las emociones que provocan los recuerdos. Las teorías actuales sobre el papel de los hipocampos (hay uno en cada hemisferio del cerebro), afirman que diferentes regiones del hipocampo son responsables del manejo de diferentes tipos de recuerdos. Por ejemplo, se cree que la memoria espacial se maneja en la región posterior del hipocampo.
Según lo informado por Jesús Rodríguez, Dr. John O’Keefe es responsable de muchas contribuciones a nuestra comprensión del hipocampo, incluido el hipocampo celdas de “lugar”. Las células de lugar en el hipocampo son activadas por estímulos en un entorno específico. Como ejemplo, los experimentos con ratas mostraron que neuronas específicas se activarían cuando las ratas recorrieran ciertas partes de una pista. Los investigadores continuaron monitoreando a las ratas incluso cuando estaban descansando, y encontraron que los mismos patrones de neuronas que denotaban una parte del laberinto se dispararían, aunque lo hicieran a una velocidad acelerada. Las ratas parecían estar reproduciendo los recuerdos del laberinto en sus mentes.
En los humanos, recordar recuerdos es una parte importante del proceso de aprendizaje, pero cuando se intenta permitir que la IA aprenda, es difícil recrear el fenómeno.
El equipo de DeepMind se dispuso a intentar recrear el fenómeno del recuerdo mediante el aprendizaje por refuerzo. Los algoritmos de aprendizaje por refuerzo funcionan obteniendo retroalimentación de sus interacciones con el entorno que los rodea, siendo recompensados cada vez que toman acciones que los acercan a la meta deseada. En este contexto, el agente de aprendizaje por refuerzo registra eventos y luego los reproduce en momentos posteriores, y el sistema se refuerza para mejorar la eficiencia con la que termina recordando experiencias pasadas.
DeepMind agregó la reproducción de experiencias a un algoritmo de aprendizaje de refuerzo utilizando un búfer de reproducción que reproduciría recuerdos/experiencias grabadas en el sistema en momentos específicos. Algunas versiones del sistema tenían las experiencias reproducidas en orden aleatorio, mientras que otros modelos tenían órdenes de reproducción preseleccionados. Si bien los investigadores experimentaron con el orden de reproducción de los agentes de refuerzo, también experimentaron con diferentes métodos para reproducir las experiencias.
Hay dos métodos principales que se utilizan para proporcionar algoritmos de refuerzo con experiencias recordadas. Estos métodos son el método de repetición de la imaginación y el método de repetición de la película. El artículo de DeepMind usa una analogía para describir ambas estrategias:
“Supongamos que llegas a casa y, para tu sorpresa y consternación, descubres que el agua se acumula en tus hermosos pisos de madera. Al entrar al comedor, encuentras un jarrón roto. Luego escuchas un gemido y miras por la puerta del patio para ver a tu perro luciendo muy culpable”.
Según lo informado por Rodríguez, el método de repetición de la imaginación no registra los eventos en el orden en que fueron experimentados. Más bien, se infiere una causa probable entre los eventos. Los eventos se infieren en función de la comprensión del mundo por parte del agente. Mientras tanto, el método de repetición de la película almacena recuerdos en el orden en que ocurrieron los eventos y reproduce la secuencia de estímulos: «agua derramada, jarrón roto, perro». Se conserva el orden cronológico de los hechos.
La investigación del campo de la neurociencia implica que el método de reproducción de películas es integral para la creación de asociaciones entre conceptos y la conexión de neuronas entre eventos. Sin embargo, el método de repetición de la imaginación podría ayudar al agente a crear nuevas secuencias cuando razona por analogía. Por ejemplo, el agente podría razonar que si un barril es al aceite como un jarrón al agua, un robot de fábrica podría derramar un barril en lugar de un perro. De hecho, cuando DeepMind investigó más a fondo las posibilidades del método de repetición de la imaginación, descubrió que su agente de aprendizaje podía crear secuencias impresionantes e innovadoras teniendo en cuenta las experiencias previas.
La mayor parte del progreso actual que se está logrando en el área de la memoria de aprendizaje por refuerzo se está logrando con la estrategia de la película, aunque los investigadores han comenzado a progresar recientemente con la estrategia de la imaginación. La investigación de ambos métodos de memoria de IA no solo puede permitir un mejor rendimiento de los agentes de aprendizaje por refuerzo, sino que también puede ayudarnos a obtener una nueva visión de cómo podría funcionar la mente humana.