El equipo de investigación del MIT diseña una red de inteligencia artificial para resistir ejemplos adversarios

Un equipo de investigadores del MIT hcomo desarrolló un algoritmo de aprendizaje profundo destinado a ayudar a las IA a hacer frente a ejemplos “adversarios”, lo que puede hacer que una IA haga predicciones incorrectas y lleve a cabo acciones incorrectas. El algoritmo diseñado por el equipo del MIT puede ayudar a los sistemas de IA a mantener su precisión y evitar cometer errores cuando se enfrentan a puntos de datos confusos.

Los sistemas de IA analizan las características de entrada de un evento para decidir cómo responder a ese evento. Una IA responsable de maniobrar un vehículo autónomo tiene que tomar datos de las cámaras del vehículo y decidir qué hacer en función de los datos contenidos en esas imágenes. Sin embargo, existe la posibilidad de que los datos de imagen que analiza la IA no sean una representación precisa del mundo real. Una falla en el sistema de la cámara podría alterar algunos de los píxeles, lo que llevaría a la IA a sacar conclusiones incorrectas sobre el curso de acción apropiado.

Las “entradas adversarias” son como ilusiones ópticas para un sistema de IA. Son entradas que confunden a una IA de alguna forma. Las entradas adversarias se pueden diseñar con el objetivo expreso de hacer que una IA cometa errores, al representar los datos de una manera que haga que la IA crea que el contenido de un ejemplo es una cosa en lugar de otra. Por ejemplo, es posible crear un ejemplo contradictorio para un sistema de visión por computadora haciendo pequeños cambios en las imágenes de gatos, lo que hace que la IA clasifique erróneamente las imágenes como monitores de computadora. El equipo de investigación del MIT diseñó un algoritmo para ayudar a protegerse contra ejemplos contradictorios al permitir que el modelo mantenga un grado de “escepticismo” sobre las entradas que recibe.

Los investigadores del MIT llamaron a su enfoque “Robustez antagónica certificada para el aprendizaje de refuerzo profundo”, o CARRL. CARRL se compone de una red de aprendizaje por refuerzo y una red neuronal profunda tradicional unidas. El aprendizaje por refuerzo utiliza el concepto de “recompensas” para entrenar un modelo, dándole al modelo una recompensa proporcionalmente mayor cuanto más se acerca a su objetivo. El modelo de aprendizaje por refuerzo se utiliza para entrenar un Deep Q-Netowrkk o DQN. Los DQN funcionan como redes neuronales tradicionales, pero también asocian valores de entrada con un nivel de recompensa, al igual que los sistemas de aprendizaje por refuerzo.

CARRL opera modelando un rango de diferentes valores posibles para los datos de entrada.

Suponiendo que la IA está tratando de rastrear la posición de un punto dentro de una imagen más grande, la IA considera que la posición del punto podría ser el resultado de la influencia del adversario y considera las regiones donde podría estar el punto. Luego, la red toma decisiones basadas en el peor de los casos para la posición del punto, decidiéndose por la acción que produciría la mayor recompensa en este peor de los casos.

El método típico para protegerse contra ejemplos contradictorios consiste en ejecutar versiones ligeramente alteradas de la imagen de entrada a través de la red de IA para ver si siempre se toma la misma decisión. Si las alteraciones de la imagen no afectan drásticamente el resultado, es muy probable que la red sea resistente a los ejemplos adversarios. Sin embargo, esta no es una estrategia viable para escenarios en los que se deben tomar decisiones rápidas, ya que estos son métodos de prueba que requieren mucho tiempo y computacionalmente costosos. Por esta razón, el equipo del MIT se propuso crear una red neuronal que pudiera tomar decisiones basadas en suposiciones en el peor de los casos, capaz de operar en escenarios donde la seguridad es crítica.

Los investigadores del MIT probaron sus algoritmos haciendo que la IA jugara un juego de Pong. Incluyeron ejemplos contradictorios al alimentar las instancias de IA donde la pelota se mostraba un poco más abajo en la pantalla de lo que realmente era. A medida que crecía la influencia de los ejemplos adversarios, las técnicas correctivas estándar comenzaron a fallar, mientras que CARRL pudo ganar más juegos en comparación. CARRL también se probó en una tarea para evitar colisiones. La tarea se desarrolló en un entorno virtual donde dos agentes diferentes intentaron cambiar de posición sin chocar entre sí. El equipo de investigación alteró la percepción que el primer agente tenía del segundo agente y CARRL pudo dirigir con éxito al primer agente alrededor del otro agente, incluso en condiciones de alta incertidumbre, aunque llegó un punto en el que CARRL se volvió demasiado cauteloso y terminó evitando su destino en total.

Independientemente, el posdoctorado del Departamento de Aeronáutica y Astronáutica del MIT, Michael Everett, quien dirigió el estudio, explicó que la investigación podría tener implicaciones en la capacidad de los robots para manejar situaciones impredecibles. Como explicó Everett a través de las noticias del MIT:

“Las personas pueden ser antagónicas, como ponerse frente a un robot para bloquear sus sensores o interactuar con ellos, no necesariamente con las mejores intenciones”, dice Everett. “¿Cómo puede un robot pensar en todas las cosas que la gente podría intentar hacer y tratar de evitarlas? ¿De qué tipo de modelos antagónicos queremos defendernos? Eso es algo que estamos pensando en cómo hacer”.

Deja un comentario