Inyección de pseudotexto y filtrado anticipado de corpus de bajos recursos para la traducción automática neural
Autores: Michael, Adjeisah; Guohua, Liu; Douglas Omwenga, Nyabuga; Richard Nuetey, Nortey; Jinling, Song
Idioma: Inglés
Editor: Hindawi
Año: 2021
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 15
Citaciones: Sin citaciones
La ampliación del procesamiento del lenguaje natural (PLN) a las lenguas de bajos recursos para mejorar el rendimiento de la traducción automática (TA) sigue siendo enigmática. Esta investigación contribuye a este campo con una traducción inglés-twi de bajos recursos basada en corpus sintéticos paralelos filtrados. A menudo resulta desconcertante aprender y comprender cómo es un corpus de buena calidad en condiciones de bajos recursos, principalmente cuando el corpus de destino es el único texto de muestra de la lengua paralela. Para mejorar el rendimiento de la MT en estos pares de idiomas con pocos recursos, proponemos ampliar los datos de entrenamiento inyectando un corpus sintético-paralelo obtenido mediante la traducción de un corpus monolingüe de la lengua de destino basado en bootstrapping con diferentes ajustes de parámetros. Además, realizamos mediciones no supervisadas en cada par de oraciones utilizando las distancias de Mahalanobis al cuadrado, una técnica de filtrado que predice el paralelismo de las oraciones. Además, utilizamos ampliamente tres métricas de similitud a nivel de frase tras la traducción de ida y vuelta. Los resultados experimentales sobre una cantidad diversa de corpus paralelos disponibles demuestran que la inyección de corpus pseudoparalelos y el filtrado extensivo con métricas de similitud a nivel de frase mejoran significativamente los sistemas de MT originales para pares de lenguas de bajo recurso. En comparación con las mejoras existentes en el mismo marco original bajo la misma estructura, nuestro enfoque muestra enormes avances en las puntuaciones BLEU y TER.
Descripción
La ampliación del procesamiento del lenguaje natural (PLN) a las lenguas de bajos recursos para mejorar el rendimiento de la traducción automática (TA) sigue siendo enigmática. Esta investigación contribuye a este campo con una traducción inglés-twi de bajos recursos basada en corpus sintéticos paralelos filtrados. A menudo resulta desconcertante aprender y comprender cómo es un corpus de buena calidad en condiciones de bajos recursos, principalmente cuando el corpus de destino es el único texto de muestra de la lengua paralela. Para mejorar el rendimiento de la MT en estos pares de idiomas con pocos recursos, proponemos ampliar los datos de entrenamiento inyectando un corpus sintético-paralelo obtenido mediante la traducción de un corpus monolingüe de la lengua de destino basado en bootstrapping con diferentes ajustes de parámetros. Además, realizamos mediciones no supervisadas en cada par de oraciones utilizando las distancias de Mahalanobis al cuadrado, una técnica de filtrado que predice el paralelismo de las oraciones. Además, utilizamos ampliamente tres métricas de similitud a nivel de frase tras la traducción de ida y vuelta. Los resultados experimentales sobre una cantidad diversa de corpus paralelos disponibles demuestran que la inyección de corpus pseudoparalelos y el filtrado extensivo con métricas de similitud a nivel de frase mejoran significativamente los sistemas de MT originales para pares de lenguas de bajo recurso. En comparación con las mejoras existentes en el mismo marco original bajo la misma estructura, nuestro enfoque muestra enormes avances en las puntuaciones BLEU y TER.