La inteligencia artificial ha sido capaz de desarrollar una comprensión de la física a través del aprendizaje por refuerzo desde hace algún tiempo, pero una nueva técnica desarrollado por investigadores del MIT podría ayudar a los ingenieros a diseñar modelos que demuestren una comprensión intuitiva de la física.
La investigación psicológica ha demostrado que, hasta cierto punto, los humanos tienen una comprensión intuitiva de las leyes de la física. Los bebés tienen expectativas de cómo deben interactuar y moverse los objetos, y las violaciones de estas expectativas harán que los bebés reaccionen con sorpresa. La investigación realizada por el equipo del MIT tiene el potencial no solo de impulsar nuevas aplicaciones de inteligencia artificial, sino también de ayudar a los psicólogos a comprender cómo los bebés perciben y aprenden sobre el mundo.
El modelo diseñado por el equipo del MIT se llama ADEPT y funciona haciendo predicciones sobre cómo deberían comportarse los objetos en un espacio físico. El modelo observa objetos y realiza un seguimiento de una métrica «sorpresa» mientras lo hace. Si sucede algo inesperado, el modelo responde aumentando su valor de sorpresa. Las acciones inesperadas y aparentemente imposibles, como un objeto que se teletransporta o desaparece por completo, verán un aumento dramático en la sorpresa.
El objetivo del equipo de investigación era lograr que su modelo registrara los mismos niveles de sorpresa que registran los humanos cuando ven objetos que se comportan de maneras inverosímiles.
ADEPT tiene dos componentes principales, un motor de física y un módulo de gráficos inversos. El motor de física es responsable de predecir cómo se moverá un objeto, prediciendo una representación futura de un objeto, a partir de una gama de estados posibles. Mientras tanto, el módulo de gráficos inversos es responsable de crear las representaciones de los objetos que se alimentarán al motor de física.
El módulo de gráficos inversos rastrea varios atributos diferentes, como la velocidad, la forma y la orientación de un objeto, y extrae esta información de los fotogramas de los videos. El módulo gráfico inverso solo se enfoca en los detalles más destacados, ignorando los detalles que no ayudarán al motor de física a interpretar el objeto y predecir nuevos estados. Al centrarse solo en los detalles más importantes, el modelo puede generalizarse mejor a nuevos objetos. Luego, el motor de física toma estas descripciones de objetos y simula un comportamiento físico más complejo, como fluidez o rigidez, para hacer predicciones sobre cómo debería comportarse el objeto.
Después de que ocurre este proceso de admisión, el modelo observa el siguiente cuadro real en el video, que usa para volver a calcular su distribución de probabilidad con respecto a los posibles comportamientos de los objetos. La sorpresa es inversamente proporcional a la probabilidad de que ocurra un evento, y solo se registra una gran sorpresa cuando hay una gran discrepancia entre lo que el modelo cree que debería suceder a continuación y lo que realmente sucede a continuación.
El equipo de investigación necesitaba alguna forma de comparar la sorpresa de su modelo con la sorpresa de las personas que observan el mismo comportamiento del objeto. En psicología del desarrollo, los investigadores a menudo evalúan a los bebés mostrándoles dos videos diferentes. En un video, se presenta un objeto que se comporta como se esperaría de los objetos en el mundo real, no como un juego espontáneo que se desvanece o se teletransporta. En el otro video y el objeto viola las leyes de la física de alguna manera. El equipo de investigación tomó estos mismos conceptos básicos e hizo que 60 adultos miraran 64 videos diferentes de comportamiento físico esperado e inesperado. Luego se pidió a los participantes que calificaran su sorpresa en varios momentos del video en una escala del 1 al 100.
El análisis del rendimiento del modelo demostró que se desempeñó bastante bien en videos en los que un objeto se movía detrás de una pared y desaparecía cuando se quitaba la pared, por lo general, igualando los niveles de sorpresa de los humanos en estos casos. La modelo también pareció estar sorprendida por los videos en los que los humanos no demostraron sorpresa, pero podría decirse que deberían haberlo hecho. Por ejemplo, para que un objeto se mueva detrás de una pared a una velocidad dada y salga inmediatamente al otro lado de la pared, debe haberse teletransportado o experimentado un aumento dramático en la velocidad.
Cuando se comparó con el desempeño de las redes neuronales tradicionales que son capaces de aprender a partir de la observación pero que no registran explícitamente la representación de un objeto, los investigadores encontraron que la red ADEPT era mucho más precisa para discriminar entre escenas sorprendentes y no sorprendentes y que el desempeño de ADEPT se alineaba con las reacciones humanas más de cerca.
El equipo de investigación del MIT tiene como objetivo realizar más investigaciones y obtener una visión más profunda de cómo los bebés observan el mundo que los rodea y aprenden de estas observaciones, incorporando sus hallazgos en nuevas versiones del modelo ADEPT.