El investigador principal de Amazon Alexa argumenta que la prueba de Turing es obsoleta

Rohit Prasad, vicepresidente y científico principal de Alexa en Amazon, argumentado recientemente que el prueba de Turingutilizado durante mucho tiempo para medir la sofisticación de los modelos de IA, debe retirarse como punto de referencia para la IA.

El informático y matemático Alan Turing introdujo originalmente el concepto de la prueba de Turing hace más de 70 años. La intención de la prueba de Turing era ayudar a responder la pregunta de la inteligencia de las máquinas, determinando si una máquina era capaz de «pensar» en el sentido humano. Para responder a esta pregunta, Turing argumentó que si las máquinas podían exhibir un comportamiento conversacional tan sofisticado que un observador humano no pudiera discernir entre el diálogo de la computadora y el diálogo de un humano, la máquina debería considerarse capaz de pensar.

Limitaciones de la prueba de Turing

Prasad argumentó que la prueba de Turing está limitada de muchas maneras y que el propio Turing incluso comentó sobre algunas de estas limitaciones. en su trabajo inicial. A medida que la IA se integra cada vez más en cada faceta de nuestras vidas, a las personas les importa menos que no se distinga de un ser humano y más que sus interacciones con la IA sean perfectas, argumenta Prasad. Por esta razón, la prueba de Turing debe considerarse obsoleta y reemplazarse por puntos de referencia más útiles.

Prasad señaló que muchos de los primeros chatbots se diseñaron pensando en pasar la prueba de Turing, y en los últimos años algunos chatbots han logrado engañar constantemente a más de un tercio de los jueces humanos (la barra que se requería para pasar la prueba de Turing). Sin embargo, ser capaz de imitar con éxito los patrones de habla de los humanos no significa que una máquina pueda considerarse verdaderamente “inteligente”. Los modelos de IA pueden ser extremadamente competentes en un área y extremadamente deficientes en otras, sin poseer ningún tipo de inteligencia general. A pesar de esto, la prueba de Turing sigue siendo un punto de referencia de uso común para chatbots y asistentes digitales, y Prasad señala que los líderes empresariales y los periodistas preguntan constantemente cuándo Alexa será capaz de pasar la prueba de Turing.

Según Prasad, uno de los principales problemas con el uso de la prueba de Turing para evaluar la inteligencia de las máquinas es que descarta casi por completo la capacidad de las máquinas para buscar información y realizar cálculos ultrarrápidos. Los programas de IA inyectan pausas artificiales en respuesta a preguntas complicadas de matemáticas y geografía para engañar a los humanos, pero tienen una respuesta a tales preguntas casi al instante. Más allá de esto, la prueba de Turing no tiene en cuenta la creciente capacidad de la IA para utilizar los datos recopilados por sensores externos, ignorando cómo la IA puede interactuar con el mundo que la rodea a través de algoritmos de visión y movimiento, basándose únicamente en la comunicación de texto.

Creación de nuevos puntos de referencia

Prasad argumentó que se deben crear nuevas formas de medir la inteligencia, métodos que se adapten mejor a la evaluación de un tipo general de inteligencia. Estas pruebas deben reflejar cómo se usa realmente la IA en la sociedad moderna y los objetivos de las personas para usarla. Las pruebas deberían poder determinar qué tan bien una IA aumenta la inteligencia humana y qué tan bien la IA mejora la vida diaria de las personas. Además, una prueba debe comprender cómo una IA manifiesta características de inteligencia similares a las humanas, incluido el dominio del idioma, la autosupervisión y el «sentido común».

La prueba de Turing no evalúa los campos actuales e importantes de la investigación de la IA, como el razonamiento, la equidad, la conversación y la comprensión sensorial, pero se pueden medir de varias maneras. Prasad explicó que una forma de medir estas características de la inteligencia es dividir los desafíos en tareas constituyentes. Otro método para evaluar es crear un desafío del mundo real a gran escala para la interacción humano-computadora.

Cuando Amazon creó el Premio Alexa, creó una rúbrica que requería que los bots sociales hablaran con un humano durante 20 minutos. Se evaluaría la capacidad de los bots para conversar coherentemente sobre una amplia variedad de temas como tecnología, deportes, política y entretenimiento. Los clientes eran responsables de puntuar los bots durante la fase de desarrollo, asignándoles puntuaciones en función de su deseo de volver a chatear con el bot. Durante la ronda final, jueces independientes se encargaron de calificar los bots utilizando una escala de 5 puntos. La rúbrica utilizada por los jueces se basó en métodos que permiten que las IA muestren importantes atributos humanos como la empatía cuando corresponda.

En última instancia, Prasad argumentó que la creciente proliferación de dispositivos impulsados ​​por IA como Alexa representa una oportunidad importante para medir el progreso de la IA, pero necesitaremos diferentes métricas para aprovechar esta nueva oportunidad.

“Dichas IA deben ser expertas en una gran cantidad de tareas cada vez mayor, lo que solo es posible con una capacidad de aprendizaje más generalizada en lugar de inteligencia específica para tareas”, explicó Prasad. “Por lo tanto, para la próxima década y más allá, la utilidad de los servicios de IA, con sus capacidades de asistencia conversacional y proactiva en dispositivos ambientales, son una prueba digna”.

Deja un comentario