Un nuevo estudio de la Universidad de York muestra que las redes neuronales convolucionales profundas (DCNN) no coinciden con el procesamiento visual humano mediante el uso de la percepción de forma configurable. Según el profesor James Elder, coautor del estudio, esto podría tener implicaciones serias y peligrosas en el mundo real para las aplicaciones de IA.
El nuevo estudio titulado “Los modelos de aprendizaje profundo no logran capturar la naturaleza configuracional de la percepción de la forma humana” fue publicado en la revista iScience de Cell Press.
Fue un estudio colaborativo de Elder, quien ocupa la Cátedra de Investigación de York en Visión Humana e Informática, así como el puesto de Codirector del Centro de Inteligencia Artificial y Sociedad de York, y el Profesor Nicholas Baker, quien es profesor asistente de psicología y ex VISTA becario postdoctoral en York.
Novela Estímulos Visuales “Frankensteins”
El equipo se basó en nuevos estímulos visuales denominados «Frankensteins», que les ayudaron a explorar cómo tanto el cerebro humano como las DCNN procesan las propiedades holísticas y configurables de los objetos.
“Los Frankenstein son simplemente objetos que han sido desarmados y vueltos a armar al revés”, dice Elder. “Como resultado, tienen todas las características locales correctas, pero en los lugares equivocados”.
El estudio encontró que las DCNN no se confunden con los Frankenstein como lo hace el sistema visual humano. Esto revela una insensibilidad a las propiedades del objeto configuracional.
“Nuestros resultados explican por qué los modelos de IA profunda fallan en ciertas condiciones y apuntan a la necesidad de considerar tareas más allá del reconocimiento de objetos para comprender el procesamiento visual en el cerebro”, continúa Elder. “Estos modelos profundos tienden a tomar ‘atajos’ cuando resuelven tareas de reconocimiento complejas. Si bien estos atajos pueden funcionar en muchos casos, pueden ser peligrosos en algunas de las aplicaciones de IA del mundo real en las que estamos trabajando actualmente con nuestra industria y socios gubernamentales”.
Imagen: Universidad de York
Implicaciones del mundo real
Elder dice que una de estas aplicaciones son los sistemas de seguridad de video de tráfico.
“Los objetos en una escena de mucho tráfico (vehículos, bicicletas y peatones) se obstruyen entre sí y llegan al ojo del conductor como un revoltijo de fragmentos desconectados”, dice. “El cerebro necesita agrupar correctamente esos fragmentos para identificar las categorías y ubicaciones correctas de los objetos. Un sistema de inteligencia artificial para el monitoreo de la seguridad del tráfico que solo puede percibir los fragmentos individualmente fallará en esta tarea, lo que podría malinterpretar los riesgos para los usuarios vulnerables de la carretera”.
Los investigadores también dicen que las modificaciones en el entrenamiento y la arquitectura destinadas a hacer que las redes se parezcan más al cerebro no lograron el procesamiento configuracional. Ninguna de las redes pudo predecir con precisión los juicios de objetos humanos ensayo por ensayo.
«Especulamos que para igualar la sensibilidad configuracional humana, las redes deben estar entrenadas para resolver una gama más amplia de tareas de objetos más allá del reconocimiento de categorías», concluye Elder.