
Muchos idiomas que se hablan en todo el mundo incluyen múltiples variedades regionales (a veces llamadas dialectos), como el portugués brasileño y europeo o el chino mandarín continental y taiwanés. Aunque tales variedades a menudo son mutuamente inteligibles para sus hablantes, existen diferencias importantes. Un ejemplo es la palabra “autobús” en portugués brasileño autobús:mientras que la palabra portuguesa europea es autocar. Sin embargo, los sistemas de traducción automática (TA) actuales normalmente no permiten a los usuarios especificar a qué variedad de idioma traducir. Esto puede generar confusión si el sistema libera la variedad “equivocada” o mezcla variedades de una manera no natural. Además, los sistemas de traducción automática conscientes de la región tienden a favorecer el tipo que tiene más datos en línea, lo que afecta de manera desproporcionada a los hablantes de variedades lingüísticas con escasos recursos.
“FRMT. A Benchmark for Few-Shot Region-Aware Machine Translation”, aceptado para su publicación Transacciones de la Asociación de Lingüística Computacional, presentamos un conjunto de datos de evaluación utilizado para medir la capacidad de los sistemas de traducción automática para admitir variedades regionales a través de los estudios de caso de portugués brasileño frente a europeo y chino mandarín continental frente a taiwanés. Al publicar los datos FRMT y el código de evaluación que lo acompaña, esperamos inspirar y permitir que la comunidad de investigadores explore nuevas formas de construir sistemas de traducción automática aplicables a la gran cantidad de idiomas regionales que se hablan en todo el mundo.
Desafío. Generalización de pocos planos
La mayoría de los sistemas de TA modernos están entrenados en traducciones de millones o miles de millones de ejemplos, como una oración de entrada en inglés y su correspondiente traducción al portugués. Sin embargo, la gran mayoría de los datos de capacitación disponibles no especifican en qué variedad regional se encuentra la traducción. A la luz de esta escasez de datos, establecemos FRMT como punto de referencia. unos tiros traducción, que mide la capacidad del modelo MT para traducir variedades regionales cuando no se proporcionan más de 100 instancias etiquetadas de cada variedad de idioma. Los modelos de MT deben usar los patrones lingüísticos exhibidos en una pequeña cantidad de ejemplos etiquetados (llamados “ejemplos”) para descubrir patrones similares en sus ejemplos de entrenamiento no etiquetados. De esta manera los modelos pueden generalizarproducir traducciones correctas de fenómenos no identificados en los ejemplos.
![]() |
Algunas tomas de una ilustración del sistema MT que traduce la oración en inglés “El autobús ha llegado” a dos variedades regionales de portugués. brasileño (🇧🇷; izquierda) y europea (🇵🇹; correcto). |
Varios enfoques de traducción automática son atractivos porque hacen que sea mucho más fácil agregar soporte para variedades regionales adicionales a un sistema existente. Aunque nuestro trabajo es específico para las variedades regionales de los dos idiomas, esperamos que los métodos de buen desempeño sean fácilmente aplicables a otros idiomas y variedades regionales. En principio, estos métodos también deberían funcionar para otras diferencias lingüísticas, como la formalidad y el estilo.
Recopilación de datos
La base de datos FRMT consta de artículos parciales de Wikipedia en inglés que se originan en la base de datos Wiki40b, traducidos por traductores profesionales pagados a varias variedades regionales de portugués y mandarín. Para resaltar los principales desafíos de la traducción consciente de la región, diseñamos la base de datos utilizando tres cubos de contenido: (1) Léxico, (2) Esencia y (3) Aleatorio.
- El cubo léxico se centra en las diferencias regionales en la elección de palabras, como “autobús:“contra”.autocar“variación” al traducir la oración con “palabra”.autobúsPortugués brasileño vs. europeo, respectivamente. Seleccionamos cuidadosamente 20-30 términos que tienen traducciones regionales distintivas según blogs y sitios web educativos, y filtramos y verificamos las traducciones con comentarios de hablantes nativos voluntarios de cada región. Dada una lista de términos en inglés, extrajimos hasta 100 textos de oraciones relacionados con artículos de Wikipedia en inglés (por ejemplo, autobús). El mismo proceso se llevó a cabo de forma independiente para el mandarín.
- El cubo Entidad se rellena de la misma manera y se refiere a personas, lugares u otras entidades que están fuertemente asociadas con una de las dos regiones en cuestión para un idioma determinado. Considere una oración figurativa como “En Lisboa, a menudo tomaba el autobús”. Para traducir esto correctamente al portugués de Brasil, el modelo debe superar dos obstáculos potenciales.
- La fuerte conexión geográfica entre Lisboa y Portugal puede influir en el modelo, que creará un europeo traducción al portugués en su lugar, por ejemplo, seleccionando “autocar“y no eso”autobús:“.
- Por reemplazo “Lisboa“atrás”Brasil“Una forma ingenua de que un modelo localice su salida al portugués brasileño sería semánticamente inexacta incluso en una traducción fluida.
- El cubo aleatorio se usa para probar si el modelo explica correctamente varios otros fenómenos y consta de texto de 100 artículos seleccionados al azar de las colecciones “especiales” y “buenas” de Wikipedia.
Metodología de evaluación
Para verificar que las traducciones recopiladas para la base de datos FRMT capturan fenómenos específicos de la región, realizamos una evaluación humana de su calidad. Anotadores expertos de cada región utilizaron medidas de calidad multidimensional (MQM) para detectar y clasificar los errores de traducción. El marco incluye un esquema de ponderación de categorías para convertir los errores detectados en una puntuación única que representa aproximadamente la cantidad de errores importantes por oración; por lo que un número más bajo indica una mejor traducción. Para cada región, les pedimos a los calificadores de MQM que calificaran tanto las traducciones de su región como las traducciones de la otra región de su idioma. Por ejemplo, los calificadores del portugués brasileño evaluaron las traducciones al portugués brasileño y europeo. La diferencia entre estas dos puntuaciones indica la prevalencia de fenómenos lingüísticos que son aceptables en una variedad y no en otra. Encontramos que tanto en portugués como en chino, los evaluadores detectaron, en promedio, más errores por oración en traducciones inconsistentes que en traducciones consistentes. Esto muestra que nuestra base de datos captura fenómenos específicos de la región.
Aunque la evaluación humana es la mejor manera de estar seguro de la calidad de un modelo, a menudo es lenta y costosa. Por lo tanto, queríamos encontrar una métrica automática existente que los investigadores puedan usar para evaluar sus modelos en comparación con nuestro punto de referencia y considerar chrF, BLEU y BLEURT. Usando traducciones de varios modelos base también evaluados por nuestros evaluadores MQM, encontramos que BLEURT tiene la mejor correlación con el juicio humano y que la fuerza de esta correlación (coeficiente de correlación de Pearson de 0,65, R:) comparable a la consistencia entre evaluadores (correlación intraclase de 0,70).
Métrico | R de Pearson | ||
chrF: | 0.48 | ||
AZUL: | 0.58 | ||
BLEURT | 0,65 |
Correlación entre diferentes medidas automatizadas y juicios humanos sobre la calidad de la traducción en un subconjunto del FRMT. Los valores están entre -1 y 1; más alto es mejor. |
Rendimiento de sistema
Nuestra evaluación incluyó varios modelos recientes que pueden manejar múltiples disparos. Según la evaluación humana realizada por MQM, todos los métodos de referencia mostraron cierta capacidad para localizar su salida para el portugués, pero para el mandarín fueron en gran medida incapaces de utilizar el conocimiento de la región de destino para producir traducciones superiores al continente o al taiwanés.
El último modelo de lenguaje de Google, PaLM, obtuvo la mejor clasificación general entre los puntos de referencia que evaluamos. Para generar traducciones específicas de la región con PaLM, proporcionamos un tutorial para el modelo, luego generamos texto a partir de él para completar el espacio en blanco (vea el ejemplo a continuación).
Translate the following texts from English to European Portuguese. English: [English example 1]. European Portuguese: [correct translation 1]. ... English: [input]. European Portuguese: _____"
PaLM obtuvo buenos resultados usando un ejemplar y tuvo ganancias marginales en calidad portuguesa cuando alcanzó diez ejemplares. Este desempeño es impresionante considerando que PaLM fue entrenado sin supervisión. Nuestros resultados también sugieren que los modelos de lenguaje como PaLM pueden ser particularmente hábiles para memorizar las opciones de palabras específicas de la región requeridas para una traducción fluida. Sin embargo, todavía existe una brecha de rendimiento significativa entre PaLM y el rendimiento humano. Vea nuestro boletín para más detalles.
![]() |
![]() |
Rendimiento de MQM en conjuntos de datos mediante traducciones humanas y PaLM. Las líneas continuas representan el caso específico de la región, donde los evaluadores de cada región evalúan sus propias traducciones específicas de la región. Las barras finas insertadas representan el caso de desajuste de la región, donde los estimadores de cada región evalúan las traducciones a la otra región. Las traducciones humanas en todos los casos exhiben fenómenos regionales. Las traducciones de PaLM solo hacen esto para todos los baldes portugueses y el vocabulario del mandarín. |
Conclusión
En un futuro próximo, esperamos ver un mundo en el que los sistemas de generación de idiomas, especialmente la traducción automática, puedan ser compatibles con todas las comunidades de hablantes. Queremos encontrarnos con los usuarios donde se encuentren mediante la creación de un idioma que sea fluido y relevante para su localidad o región. Con este fin, hemos lanzado la base de datos FRMT y el punto de referencia, lo que permite a los investigadores comparar fácilmente el rendimiento de los modelos MT con reconocimiento de región. Validado por nuestros exhaustivos estudios de evaluación en humanos, las variedades lingüísticas de FRMT tienen diferencias significativas que deberían reflejar los resultados de los modelos de traducción automática conscientes de la región. Estamos emocionados de ver cómo los investigadores utilizan este punto de referencia para desarrollar nuevos modelos de traducción automática que respalden mejor las variedades de idiomas subrepresentadas y todas las comunidades de hablantes, lo que lleva a tecnologías de lenguaje natural mejoradas.
Gratitud
Agradecemos a los coautores de nuestro artículo por sus contribuciones a este proyecto: Timothy Dozat, Xavier Garcia, Dan Garrett, Jason Rieza, Orhan Firat y Noah Constant. Agradecemos a Jacob Eisenstein, Noah Fidell, McDuff Hughes y Mingfei Lau por sus útiles debates y comentarios sobre el documento. Agradecemos a Andre Araujo, Chung-Ching Chang, Andrea Cunha, Filipe Gonçalves, Nuno Guerreiro, Mandy Gu, Luis Miranda, Vitor Rodríguez y Linting Xue por sus valiosos comentarios sobre las diferencias lingüísticas regionales. Agradecemos al equipo de Google Translate por el apoyo logístico en la recopilación de traducciones y calificaciones humanas. Agradecemos a los traductores profesionales y asesores de MQM por su papel en la creación de la base de datos. También agradecemos a Tom Small por proporcionar la animación en esta publicación.