La alta huella de carbono de los modelos alemanes de traducción automática

Una nueva investigación sobre la huella de carbono creada por los modelos de traducción de aprendizaje automático indica que el alemán puede ser el idioma popular más intensivo en carbono para entrenar, aunque no está del todo claro por qué. El nuevo informe tiene como objetivo abrir vías adicionales de investigación sobre métodos de entrenamiento de IA más eficientes en carbono, en el contexto de una mayor conciencia de la medida en que los sistemas de aprendizaje automático consumen electricidad.

la preimpresión papel se titula Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation, y proviene de investigadores del Manipal Institute of Technology de la India.

Los autores probaron los tiempos de entrenamiento y calcularon los valores de emisión de carbono para una variedad de posibles modelos de traducción entre idiomas, y encontraron “una disparidad notable” entre el tiempo necesario para traducir los tres pares de idiomas más intensivos en carbono y los tres modelos más económicos en carbono. .

Un promedio de emisiones de carbono liberadas durante 10 épocas de entrenamiento.  A la izquierda, resultados usando ConvSeq (ver abajo), a la derecha, Transformers.  Fuente: https://arxiv.org/pdf/2109.12584.pdf

Un promedio de emisiones de carbono liberadas durante 10 épocas de entrenamiento. A la izquierda, resultados usando ConvSeq (ver abajo), a la derecha, Transformers. Fuente: https://arxiv.org/pdf/2109.12584.pdf

El documento encontró que los pares de idiomas más “ecológicos” para entrenar son inglés>francés, francés>inglés y, paradójicamente, alemán a inglés, mientras que el alemán aparece en todos los pares de mayor consumo: francés>alemán, inglés>alemán y alemán>. Francés.

Interés compuesto

Los hallazgos sugieren que la diversidad léxica ‘es directamente proporcional al tiempo de entrenamiento para lograr un nivel adecuado de desempeño’, y señalan que el idioma alemán tiene el puntaje de diversidad léxica más alto entre los tres idiomas evaluados según lo estimado por su Relación tipo-token (TTR): una medida del tamaño del vocabulario basada en la longitud del texto.

Las mayores demandas de procesamiento de alemán en los modelos de traducción no se reflejan en los datos de origen que se utilizaron para el experimento. De hecho, los tokens del idioma alemán generados a partir de los datos de origen tienen menos tokens derivados (299445) que los del inglés (320108) y muchos menos que los del francés (335917).

El desafío, desde el punto de vista del procesamiento del lenguaje natural (NLP), es descomponer palabras alemanas compuestas en palabras constituyentes. Los sistemas de PNL a menudo tienen que lograr esto para el alemán sin ninguna de las claves contextuales o gramaticales circundantes previas a la “división” que se pueden encontrar en idiomas con puntajes TTR más bajos, como el inglés. Él proceso se llama división compuesta o descomposición.

El idioma alemán tiene algunas de las palabras individuales más largas del mundo, aunque en 2013 perdió el reconocimiento oficial de su antiguo récord de 65 caracteres, que es lo suficientemente largo como para requerir su propia línea en este artículo:

Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz

La palabra se refiere a una ley que delegaba el control de la etiqueta de la carne de vacuno, pero dejó de existir debido a un cambio en las normas europeas ese año, concediendo el lugar a otros incondicionales populares, como ‘viuda del capitán de una compañía de barcos de vapor del Danubio’ (49 caracteres):

Donaudampfschifffahrtsgesellschaftskapitaenswitwe

En general, la estructura sintáctica del alemán requiere una desviación de los supuestos del orden de las palabras que sustentan las prácticas de PNL en muchos idiomas occidentales, con el popular marco de PNL spaCY (basado en Berlín) que adopta su propio idioma nativo. en 2016.

Los mapeos proyectivos en una frase en inglés y alemán demuestran las complejas interrelaciones entre los elementos léxicos en el idioma alemán.  Fuente: https://explosion.ai/blog/german-model

Los mapeos proyectivos en una frase en inglés y alemán demuestran las complejas interrelaciones entre los elementos léxicos en el idioma alemán. Fuente: https://explosion.ai/blog/german-model

Datos y Pruebas

Para los datos de origen, los investigadores utilizaron el Multi30k conjunto de datos, que contiene 30.000 muestras en los idiomas francés, alemán e inglés.

El primero de los dos modelos utilizados por los investigadores fue Convolutional Sequence to Sequence 2017 de Facebook AI (ConvSeq), una red neuronal que contiene capas convolucionales pero que carece de unidades recurrentes y, en su lugar, utiliza filtros para derivar características del texto. Esto permite que todas las operaciones se lleven a cabo de manera paralela desde el punto de vista computacional.

El segundo enfoque utilizó el influyente Transformadores arquitectura, también de 2017. Transformers utiliza capas lineales, mecanismos de atención y rutinas de normalización. Es cierto que el modelo original lanzado ha llegado según la crítica para la ineficiencia de carbono, con reclamos de mejoras posteriores disputado.

Los experimentos se llevaron a cabo en Google Colab, uniformemente en un tesla k80 GPU. Los idiomas se compararon utilizando un AZUL (Suplente de evaluación bilingüe) métrica de puntuación, y la CódigoCarbono Emisiones de aprendizaje automático Calculadora. Los datos fueron entrenados en 10 épocas.

Recomendaciones

Los investigadores descubrieron que fue la duración prolongada de la capacitación para los pares de idiomas relacionados con el alemán lo que inclinó la balanza hacia un mayor consumo de carbono. Aunque algunos otros pares de idiomas, como inglés>francés y francés>inglés, tenían un consumo de carbono aún mayor, se entrenaron más rápido y resolvieron más fácilmente, con estos brotes de consumo caracterizados por los investigadores como “relativamente insignificantes” en relación con el consumo de combinaciones de idiomas que incluyen alemán.

Análisis de los pares de idiomas ser codificador/decodificador de emisiones de carbono.

Análisis de los pares de idiomas ser codificador/decodificador de emisiones de carbono.

Los investigadores concluyen:

“Nuestros hallazgos brindan una indicación clara de que algunos pares de idiomas son más intensos en carbono para entrenar que otros, una tendencia que también se transmite a diferentes arquitecturas”.

Ellos continuaron:

‘Sin embargo, quedan preguntas sin respuesta sobre por qué existen diferencias tan marcadas en los modelos de entrenamiento para un par de idiomas en particular sobre otro, y si las diferentes arquitecturas podrían ser más adecuadas para estos pares de idiomas con gran cantidad de carbono, y por qué este sería el caso si fuera cierto. .’

El documento enfatiza que las razones de la disparidad del consumo de carbono entre los modelos de capacitación no están del todo claras. Anticipan desarrollar esta línea de estudio con idiomas no basados ​​en el latín.

13:20 GMT+2 – Error de texto corregido.

Deja un comentario