Facebook crea un modelo de traducción automática que puede traducir directamente entre 100 idiomas diferentes

Facebook ha desarrollado recientemente un nuevo modelo de traducción automática que puede traducir texto entre cualquier par de idiomas de un conjunto de 100 idiomas. Si bien existen otros sistemas de traducción automática, la mayoría de los otros sistemas de traducción de IA funcionan traduciendo primero el texto al inglés y luego convirtiendo el texto desde allí. Como informó Engadgetel traductor de inteligencia artificial de Facebook funciona sin usar el idioma inglés como intermediario y, según se informa, puede lograr aproximadamente un 90 % de precisión.

Los datos de entrenamiento de Facebook para el modelo de IA estaban compuestos por alrededor de 7500 millones de pares de oraciones, distribuidas en 100 idiomas diferentes. Los datos se recopilaron de la web utilizando una serie de rastreadores web y los idiomas presentes en los datos recopilados se identificaron mediante un modelo de lenguaje llamado FastText. Una vez recopilados los datos, se ejecutó a través de una herramienta llamada LASER 2.0 para extraer el significado de las diferentes muestras de oraciones y unir oraciones en diferentes idiomas en función de su significado. LASER 2.0 fue desarrollado por Facebook y emplea algoritmos de aprendizaje no supervisados ​​para crear incrustaciones. Las incrustaciones de oraciones contienen información sobre las relaciones entre diferentes oraciones en función de características como la frecuencia de uso y qué tan cerca aparecen las oraciones entre sí. LASER 2.0 puede entonces crear varias oraciones que tienen significados muy similares.

Los datos de entrenamiento no se emparejaron solo en función del significado de las oraciones. Los propios idiomas se agruparon. El objetivo era diseñar un sistema que no requiriera que el inglés se usara como medio entre dos idiomas, con Angela Fan de Facebook, quien dirigió el proyecto, y señaló que muchas regiones del mundo hablan dos idiomas que no son el inglés. Los ingenieros de Facebook llevaron a cabo la capacitación centrándose en emparejar idiomas que comúnmente se traducen entre sí. Se crearon catorce grupos de idiomas diferentes, en función de variables como la cultura, las similitudes lingüísticas y la geografía. Como ejemplo, uno de los grupos lingüísticos creados por los investigadores contenía los idiomas más comunes en toda la India, que incluyen los idiomas urdu, tamil, hindi y bengalí. Esto se hizo para que los idiomas comúnmente emparejados recibieran traducciones de alta calidad.

El método de formación centrado en el grupo lingüístico condujo a algunos resultados interesantes. Se encontró que el modelo de traducción resultante tenía mayor precisión que los modelos existentes actualmente para ciertas combinaciones de idiomas. Al traducir entre inglés y bielorruso, por ejemplo, la IA pudo aplicar ciertos patrones que había aprendido al traducir al ruso porque el bielorruso tiene similitudes lingüísticas con el ruso. De manera similar, los esfuerzos de traducción entre español y portugués mejoraron ya que el español es el segundo idioma más hablado y hubo un volumen sustancial de datos de capacitación para la tarea.

Hay aproximadamente sesenta idiomas que el sistema de traducción aún no cubre, y la precisión del modelo en idiomas sin una gran cantidad de datos de capacitación debe mejorarse antes de que esté listo para su uso. Muchos idiomas en el sudeste asiático y África carecen del volumen de datos necesario para entrenar un modelo confiable. El equipo de investigación deberá determinar alguna forma de compensar esta falta de datos. El equipo de investigación también debe determinar cómo controlar cualquier patrón racista, sexista o profano que el modelo pueda haber aprendido. Si bien el equipo de investigación ha utilizado un filtro de blasfemias, el filtro funciona principalmente en los datos en inglés.

El sistema de traducción automática aún no se ha empleado en la plataforma de redes sociales de Facebook. El modelo actual es solo para fines de investigación. Sin embargo, Facebook se está preparando para diseñar modelos similares y hacer que manejen las aproximadamente 20 mil millones de solicitudes de traducción que recibe el sitio todos los días.

Deja un comentario