Investigadores crean modelo de IA capaz de cantar tanto en chino como en inglés

Un equipo de investigadores de Microsoft y la Universidad de Zhajiang ha creado recientemente un modelo de IA capaz de cantar en numerosos idiomas. Como informó VentureBeatla IA de DeepSinger desarrollada por el equipo fue entrenado en datos de varios sitios web de música, utilizando algoritmos que capturaron el timbre de la voz del cantante.

Generar la «voz» de un cantante de IA requiere algoritmos que sean capaces de predecir y controlar tanto el tono como la duración del audio. Cuando las personas cantan, los ruidos que producen tienen ritmos y patrones mucho más complejos en comparación con el habla simple. Otro problema que tuvo que superar el equipo fue que, si bien hay una buena cantidad de datos de entrenamiento de habla/habla disponibles, los conjuntos de datos de entrenamiento de canto son bastante raros. Combine estos desafíos con el hecho de que las canciones necesitan analizar tanto el sonido como la letra, y el problema de generar canciones es increíblemente complejo.

El sistema DeepSinger creado por los investigadores superó estos desafíos mediante el desarrollo de una canalización de datos que extrajo y transformó datos de audio. Los clips de canto se extrajeron de varios sitios web de música, y luego el canto se aisló del resto del audio y se dividió en oraciones. El siguiente paso fue determinar la duración de cada fonema dentro de la letra, lo que resultó en una serie de muestras, cada una de las cuales representaba un fonema único en la letra. La limpieza de los datos se realiza para lidiar con cualquier muestra de entrenamiento distorsionada después de que la letra y las muestras de audio que la acompañan se clasifiquen de acuerdo con la puntuación de confianza.

Los mismos métodos exactos parecen funcionar para una variedad de idiomas. DeepSinger se entrenó con muestras vocales en chino, cantón e inglés compuestas por 89 cantantes diferentes cantando durante más de 92 horas. Los resultados del estudio encontraron que el sistema DeepSinger pudo generar de manera confiable muestras de «canto» de alta calidad de acuerdo con métricas como la precisión del tono y la naturalidad del sonido del canto. Los investigadores hicieron que 20 personas calificaran tanto las canciones generadas por DeepSinger como las canciones de entrenamiento de acuerdo con estas métricas y la brecha entre las puntuaciones de las muestras generadas y el audio genuino fue bastante pequeña. Los participantes le dieron a DeepSinger una puntuación de opinión media que se desvió entre 0,34 y 0,76.

De cara al futuro, los investigadores quieren probar y mejorar la calidad de las voces generadas mediante el entrenamiento conjunto de los diversos submodelos que componen DeepSinger, hecho con la ayuda de tecnologías especializadas como WaveNet que están diseñadas específicamente para la tarea de generar voz con sonido natural a través de formas de onda de audio. .

El sistema DeepSinger podría usarse para ayudar a los cantantes y otros artistas musicales a realizar correcciones en el trabajo sin tener que regresar al estudio para otra sesión de grabación. La TI también podría usarse potencialmente para crear falsificaciones profundas de audio, haciendo que parezca que un artista cantó una canción que en realidad nunca cantó. Si bien podría usarse para parodia o sátira, también es de dudosa legalidad.

DeepSinger es solo uno de una ola de nuevos sistemas de música y audio basados ​​en IA que podrían transformar la forma en que interactúan la música y el software. OpenAI lanzó recientemente su propio sistema de IA, apodado JukeBox, que es capaz de producir pistas de música originales al estilo de un determinado género o incluso de un artista específico. Otras herramientas musicales de IA incluyen Magenta de Google y Deep Composer de Amazon. Magnets es una biblioteca de manipulación de audio (e imágenes) de código abierto que se puede usar para producir de todo, desde acompañamiento de batería automatizado hasta videojuegos simples basados ​​en música. Mientras tanto, DeepComposer de Amazon está dirigido a aquellos que desean entrenar y personalizar sus propios modelos de aprendizaje profundo basados ​​en música, lo que permite al usuario tomar modelos de muestra previamente entrenados y ajustarlos a sus necesidades.

Puedes escuchar algunas de las muestras de audio generadas por DeepSinger en este enlace

Deja un comentario