Los científicos informáticos utilizan el refuerzo positivo para enseñar a los robots

Los científicos informáticos de la Universidad Johns Hopkins han implementado la técnica de entrenamiento de larga data de refuerzo positivo, que a menudo se usa para entrenar animales como perros, en un robot para que pueda aprender nuevos trucos. Entre esas nuevas habilidades estaba la capacidad de apilar bloques.

El robot se llama Spot y, según los investigadores, puede aprender habilidades en días que tradicionalmente toman alrededor de un mes.

Refuerzo positivo

El equipo utilizó el refuerzo positivo para aumentar las habilidades del robot. La velocidad a la que el equipo pudo hacer esto facilita la implementación de este tipo de robots en el mundo real.

El trabajo fue publicado en IEEE Robotics and Automation Letters, titulado “¡Buen robot!: Eficiente Aprendizaje por refuerzo para tareas visuales de varios pasos con transferencia de simulación a real.

Andrew Hundt es un estudiante de doctorado que trabaja en la Universidad Johns Hopkins y autor principal de la investigación.

“La pregunta aquí era ¿cómo hacemos que el robot aprenda una habilidad?” él dijo. «He tenido perros, así que sé que las recompensas funcionan y esa fue la inspiración para diseñar el algoritmo de aprendizaje».

Una de las razones por las que el refuerzo positivo funciona en las computadoras es que no tienen cerebros intuitivos, lo que significa que son básicamente un lienzo en blanco en el que se puede proyectar cualquier cosa. En otras palabras, deben aprender todo de la nada. Uno de los métodos más efectivos de aprendizaje para computadoras es el ensayo y error, que es algo en lo que los robóticos todavía están trabajando en la actualidad.

Esto es exactamente lo que hicieron los investigadores cuando crearon un sistema de recompensas para el robot, similar al proceso de entrenar a un perro dándole golosinas. La diferencia es que el robot recibirá puntos numéricos cuando complete una tarea correctamente.

Habilidades Aprendidas

Cuando se trataba de aprender a apilar bloques, el robot tenía que aprender a concentrarse en acciones constructivas. En el método Spot, el robot recibió puntos más altos cuando completó comportamientos correctos durante el apilamiento de los bloques. En el extremo opuesto, no ganaba nada por comportamientos incorrectos. Obtuvo la mayor cantidad de puntos al completar una pila de cuatro bloques con el último bloque en la parte superior.

Los investigadores vieron un gran éxito en este método, con el robot aprendiendo en días lo que hubiera tomado semanas en el pasado. Al entrenar un robot simulado, el equipo redujo el tiempo de práctica antes de pasar al robot Spot.

“El robot quiere la puntuación más alta”, dijo Hundt. “Aprende rápidamente el comportamiento correcto para obtener la mejor recompensa. De hecho, solía tomar un mes de práctica para que el robot lograra una precisión del 100 %. Pudimos hacerlo en dos días”.

Además de aprender a apilar bloques, el robot también usó el refuerzo positivo para aprender otras tareas, como jugar un juego de navegación simulado.

“Al principio, el robot no tiene idea de lo que está haciendo, pero mejorará cada vez más con cada práctica. Nunca se da por vencido y sigue tratando de apilar y puede terminar la tarea el 100% del tiempo”, dijo Hundt.

Algunas de las posibles aplicaciones de este método incluyen entrenar robots domésticos para completar ciertas tareas, así como mejorar los vehículos autónomos.

“Nuestro objetivo es eventualmente desarrollar robots que puedan realizar tareas complejas en el mundo real, como el ensamblaje de productos, el cuidado de ancianos y la cirugía”, dijo Hager. “Actualmente no sabemos cómo programar tareas como esa, el mundo es demasiado complejo. Pero un trabajo como este nos muestra que la idea de que los robots pueden aprender cómo realizar tareas del mundo real de una manera segura y eficiente es prometedora.

Deja un comentario