Investigadores de la Universidad de Texas en San Antonio han creado una aplicación basada en IA capaz de observar las acciones que tienen lugar en un video y crear efectos de sonido artificiales para que coincidan con esas acciones. Según los informes, los efectos de sonido generados por el programa son tan realistas que cuando se encuestó a los observadores humanos, por lo general pensaron que los efectos de sonido eran legítimos.
El programa encargado de generar los efectos de sonido, AudioFoley, fue detallado en un estudio publicado recientemente en IEEE Transactions on Multimedia. Según IEEE Spectrum, el programa de IA fue desarrollado por Jeff Provost, profesor de UT San Antonio y Ph.D. estudiante Sanchita Ghose. Los investigadores crearon el programa utilizando múltiples modelos de aprendizaje automático unidos.
La primera tarea para generar efectos de sonido apropiados para las acciones en una pantalla fue reconocer esas acciones y asignarlas a efectos de sonido. Para lograr esto, los investigadores diseñaron dos modelos diferentes de aprendizaje automático y probaron sus diferentes enfoques. El primer modelo opera extrayendo fotogramas de los videos que recibe y analizando estos fotogramas en busca de características relevantes como movimientos y colores. Posteriormente, se empleó un segundo modelo para analizar cómo cambia la posición de un objeto a lo largo de los fotogramas, para extraer información temporal. Esta información temporal se utiliza para anticipar las próximas acciones probables en el video. Los dos modelos tienen diferentes métodos para analizar las acciones en el clip, pero ambos usan la información contenida en el clip para adivinar qué sonido lo acompañaría mejor.
La siguiente tarea es sintetizar el sonido, y esto se logra haciendo coincidir actividades/movimientos previstos con posibles muestras de sonido. Según Ghose y Prevost, AutoFoley se usó para generar sonido para 1000 clips cortos, con acciones y elementos como un fuego, un caballo corriendo, relojes que hacen tictac y lluvia cayendo sobre las plantas. Si bien AutoFoley tuvo más éxito en la creación de sonido para clips en los que no era necesario que hubiera una combinación perfecta entre las acciones y los sonidos, y tuvo problemas para hacer coincidir los clips en los que las acciones sucedían con más variación, el programa aún podía engañar a muchos observadores humanos. en recoger sus sonidos generados sobre el sonido que originalmente acompañaba a un clip.
Prevost y Ghose reclutaron a 57 estudiantes universitarios y les pidieron que vieran diferentes videos. Algunos clips contenían el audio original, algunos contenían audio generado por AutoFoley. Cuando se probó el primer modelo, aproximadamente el 73% de los estudiantes seleccionaron el audio sintetizado como el audio original, dejando de lado el sonido real que acompañaba al clip. El otro modelo funcionó un poco peor, con solo el 66% de los participantes seleccionando el audio generado sobre el audio original.
Prevost explicó que AutoFoley podría usarse potencialmente para acelerar el proceso de producción de películas, televisión y otros medios. Prevost señala que una pista de Foley realista es importante para hacer que los medios sean atractivos y creíbles, pero que el proceso de Foley a menudo toma mucho tiempo para completarse. Tener un sistema automatizado que pueda manejar la creación de elementos básicos de Foley podría hacer que la producción de medios sea más barata y rápida.
Actualmente, AutoFoley tiene algunas limitaciones notables. Por un lado, si bien el modelo parece funcionar bien al observar eventos que tienen movimientos estables y predecibles, sufre al intentar generar audio para eventos con variaciones en el tiempo (como tormentas eléctricas). Más allá de esto, también requiere que el sujeto de clasificación esté presente en todo el clip y no salga del marco. El equipo de investigación tiene como objetivo abordar estos problemas con futuras versiones de la aplicación.