Los sistemas de IA podrían preferir el lenguaje humano en lugar de los datos numéricos

Nueva investigación procedente de Columbia Engineering sugiere que los sistemas de inteligencia artificial (IA) prefieren el lenguaje humano en lugar de datos numéricos como 1 y 0. El nuevo estudio es del profesor de ingeniería mecánica Hod Lipson y el estudiante de doctorado Boyuan Chen, y demostró que los sistemas de IA podrían alcanzar niveles de rendimiento más altos si se programan con archivos de sonido de lenguaje humano.

En una comparación lado a lado, los investigadores encontraron que una red neuronal entrenada por archivos de sonido alcanzó niveles de rendimiento más altos en la identificación de objetos, en comparación con la otra red programada con entradas binarias simples.

Lipson es profesor de innovación de James and Sally Scapa y miembro del Instituto de ciencia de datos de Columbia.

“Para entender por qué este hallazgo es significativo, es útil entender cómo se programan normalmente las redes neuronales y por qué usar el sonido de la voz humana es un experimento radical”, dijo.

El uso de números binarios es compacto y preciso, mientras que el lenguaje humano es más complejo y no binario cuando se captura en un archivo digital. Los programadores generalmente no se desvían de los números cuando desarrollan una red neuronal, ya que es altamente eficiente.

El equipo se embarcó en esta investigación después de pensar que las redes neuronales no estaban alcanzando su máximo potencial y creían que podrían ser más rápidas y mejores si se entrenaban con la voz humana y palabras específicas.

Entrenando las Redes

Al probar una nueva técnica de aprendizaje automático, los investigadores de IA a menudo entrenan una red neuronal para reconocer objetos y animales específicos en una colección de fotografías.

El equipo, que incluía a Chen, Lipson, Yu Li y Susan Raghupathi, realizó un experimento controlado para probar su hipótesis y crearon dos nuevas redes neuronales. Se propusieron entrenarlos para reconocer 10 tipos diferentes de objetos entre 50,000 fotografías llamadas «imágenes de entrenamiento».

Uno de los sistemas de IA se entrenó de una manera más tradicional con valores numéricos, mientras que la red neuronal experimental se entrenó de manera muy diferente. Se alimentó una tabla de datos con filas que contenían una fotografía de un animal u objeto, y la segunda columna tenía un archivo de audio de voz humana, que expresaba la palabra para el animal u objeto. No había 1 ni 0 involucrados en la red experimental.

Ambos sistemas de IA fueron entrenados durante un total de 15 horas. Los resultados mostraron que la red original respondió con una serie de diez 1 y 0, mientras que la red neuronal experimental produjo una voz que claramente intentaba «decir» cuál era el objeto en la imagen. Si bien la voz original no era comprensible, finalmente llegó a un punto en el que en su mayoría era correcta.

Las dos redes funcionaron igualmente bien, identificando correctamente al animal u objeto el 92% de las veces. Luego, los investigadores decidieron realizar el experimento por segunda vez, pero esta vez usaron menos fotografías durante el proceso.

La red tradicional funcionó mal debido a los datos sobrantes, como era de esperar, cayendo a un 35 % de precisión. Sin embargo, la red experimental lo hizo el doble de bien, con un 70 % de precisión, a pesar de tener menos datos.

Resultados Sorprendentes

La próxima vez, el equipo usó imágenes más difíciles, como una imagen corrupta de un perro. Incluso con las imágenes más duras, la red neuronal entrenada por voz era correcta aproximadamente el 50 % de las veces, mientras que la red tradicional solo tenía una precisión del 20 %.

Boyuan Chen es el investigador principal del estudio.

“Nuestros hallazgos van directamente en contra de cuántos expertos han sido capacitados para pensar en computadoras y números; es una suposición común que las entradas binarias son una forma más eficiente de transmitir información a una máquina que los flujos de audio de ‘riqueza’ de información similar”, explicó Chen. «De hecho, cuando presentamos esta investigación a una gran conferencia de IA, un revisor anónimo rechazó nuestro artículo simplemente porque sintió que nuestros resultados eran ‘demasiado sorprendentes y poco intuitivos'».

“Si piensas en el hecho de que el lenguaje humano ha estado pasando por un proceso de optimización durante decenas de miles de años, entonces tiene mucho sentido que nuestras palabras habladas hayan encontrado un buen equilibrio entre el ruido y la señal”, dijo Lipson. «Por lo tanto, cuando se ve a través de la lente de Shannon Entropy, tiene sentido que una red neuronal entrenada con lenguaje humano supere a una red neuronal entrenada con simples 1 y 0».

El estudio se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje el 3 de mayo de 2021.

“Deberíamos pensar en usar formas novedosas y mejores para entrenar sistemas de IA en lugar de recopilar conjuntos de datos más grandes”, dijo Chen. “Si reconsideramos cómo presentamos los datos de capacitación a la máquina, podríamos hacer un mejor trabajo como maestros”.

“Uno de los mayores misterios de la evolución humana es cómo nuestros antepasados ​​adquirieron el lenguaje y cómo los niños aprenden a hablar sin esfuerzo”, agrega Lipson. “Si los niños pequeños humanos aprenden mejor con instrucciones habladas repetitivas, entonces quizás los sistemas de IA también puedan hacerlo”.

Deja un comentario