Síntesis unificadora de voz y gestos

Cuando regresé a Gran Bretaña después de algunos años en el sur de Italia, me llevó bastante tiempo dejar de gesticular mientras hablaba. En el Reino Unido, apoyar tu discurso con movimientos audaces de la mano solo te hace ver con exceso de cafeína; en Italia, como alguien que está aprendiendo el idioma, realmente me ayudó Sera entendido. Incluso ahora, en las raras ocasiones en que hablo italiano, las ‘manos salvajes’ vuelven a estar en servicio. Es casi imposible hablar italiano sin moverse.

En los últimos años, la comunicación asistida por gestos en la cultura italiana y judía ha llamado la atención del público como algo más que un tropo del trabajo de Martin Scorsese y las primeras películas de Woody Allen. En 2013, el New York Times compiló una breve historial de vídeo de gestos italianos con las manos; el mundo académico está comenzando a estudiar las propensiones raciales a gesticular con las manos, en lugar de descartar el tema como un estereotipo; y nuevos emojis del Consorcio Unicode son cerrando el déficit de gestos que viene con la comunicación puramente digital basada en texto.

Un enfoque unificado del habla y la gesticulación

Ahora, nueva investigación del Departamento de Habla, Música y Audición del KTH Royal Institute of Technology de Suecia busca combinar el reconocimiento de voz y gestos en un sistema unificado y multimodal que podría aumentar potencialmente nuestra comprensión de la comunicación basada en el habla mediante el uso del lenguaje corporal como un adjunto al habla, en lugar de un campo paralelo de estudio.

Visuales de la página de prueba del proyecto sueco de habla/gestos.  Fuente: https://swatsw.github.io/isg_icmi21/

Visuales de la página de prueba del proyecto sueco de habla/gestos. Fuente: https://swatsw.github.io/isg_icmi21/

La investigación propone un nuevo modelo llamado síntesis integrada de voz y gestos (ISG), y reúne una serie de modelos neuronales de última generación de la investigación del habla y los gestos.

El nuevo enfoque abandona lo lineal modelo de tubería (donde la información de gestos se deriva secuencialmente del habla como una etapa de procesamiento secundaria) para un enfoque más integrado, que se califica de la misma manera que los sistemas existentes según los usuarios finales, y que logra un tiempo de síntesis más rápido y un recuento de parámetros reducido.

Enfoques lineales versus integrados.  Fuente: https://arxiv.org/pdf/2108.11436.pdf

Enfoques lineales versus integrados. Fuente: https://arxiv.org/pdf/2108.11436.pdf

El nuevo sistema multimodal incorpora un sintetizador de texto a voz espontáneo y un generador de gestos controlado por voz de audio, ambos entrenados en el Trinity Speech Gesture existente. conjunto de datos. El conjunto de datos contiene 244 minutos de audio y captura corporal de un hombre hablando sobre diferentes temas y gesticulando libremente.

La obra es un equivalente novedoso y tangencial a la durian proyecto, que genera expresiones faciales y habla, en lugar de gesto y habla, y que cae más en el ámbito del reconocimiento y la síntesis de expresión.

arquitecturas

Los componentes de voz y visuales (gestos) del proyecto están mal equilibrados en términos de datos; el texto es escaso y la gesticulación es rica y requiere muchos datos: un desafío en términos de definición de objetivos y métricas. Por lo tanto, los investigadores evaluaron el sistema principalmente por la respuesta humana a la salida, en lugar de enfoques mecánicos más obvios como el error cuadrático medio (MSE).

Los dos modelos ISG principales se desarrollaron en torno a la segunda iteración de Google 2017 tacotrón proyecto de síntesis de voz de extremo a extremo, y el surcoreano Resplandor-TTS iniciativa publicada en 2020. Tacotron utiliza una arquitectura LSTM autorregresiva, mientras que Glow-TTS actúa en paralelo a través de operadores de convolución, con un rendimiento de GPU más rápido y sin los problemas de estabilidad que pueden presentar los modelos autorregresivos.

Los investigadores probaron tres sistemas efectivos de habla/gestos durante el proyecto: una versión modificada de un sistema multimodal de generación de habla y gestos publicado en 2021 por varios de los mismos investigadores sobre el nuevo proyecto; una versión ISG dedicada y modificada del Tacotron 2 de código abierto; y una versión ISG altamente alterada de Glow-TTS.

Para evaluar los sistemas, los investigadores crearon un entorno de retroalimentación basado en la web con personas articuladas en 3D hablando y moviéndose en segmentos de texto predefinidos (el aspecto general del entorno se puede ver en la página pública del proyecto).

El entorno de prueba.

El entorno de prueba.

Se pidió a los sujetos de prueba que evaluaran el rendimiento del sistema en función del habla y los gestos, solo el habla y solo los gestos. Los resultados mostraron una ligera mejora en la nueva versión de ISG con respecto a la versión de canalización anterior, aunque el sistema más nuevo funciona más rápidamente y con recursos reducidos.

Cuando se le preguntó

Cuando se le preguntó “¿Qué tan humano es el gesto?”, el modelo ISG completamente integrado termina ligeramente por delante del modelo de canalización más lento, con los modelos basados ​​en Tacotron y Glow más atrás.

Encogimiento de hombros incrustado

El modelo Tacotron2-ISG, el más exitoso de los tres enfoques, demuestra un nivel de aprendizaje ‘subliminal’ relacionado con algunas de las frases más comunes en el conjunto de datos, como ‘No sé’, a pesar de la falta de datos explícitos. eso haría que generara un encogimiento de hombros para acompañar esta frase, los investigadores encontraron que el generador sí se encoge de hombros.

Los investigadores señalan que la naturaleza muy específica de este novedoso proyecto inevitablemente significa una escasez de recursos generales, como conjuntos de datos dedicados que incorporan datos de voz y gestos de una manera adecuada para entrenar dicho sistema. No obstante, ya pesar del carácter vanguardista de la investigación, la consideran una vía prometedora y poco explorada en el reconocimiento del habla, la lingüística y los gestos.

Deja un comentario