logo móvil

Inyección de pseudotexto y filtrado anticipado de corpus de bajos recursos para la traducción automática neural

Autores: Michael, Adjeisah; Guohua, Liu; Douglas Omwenga, Nyabuga; Richard Nuetey, Nortey; Jinling, Song

Idioma: Inglés

Editor: Hindawi

Año: 2021

Ver Artículo científico

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 15

Citaciones: Sin citaciones


Descripción
La ampliación del procesamiento del lenguaje natural (PLN) a las lenguas de bajos recursos para mejorar el rendimiento de la traducción automática (TA) sigue siendo enigmática. Esta investigación contribuye a este campo con una traducción inglés-twi de bajos recursos basada en corpus sintéticos paralelos filtrados. A menudo resulta desconcertante aprender y comprender cómo es un corpus de buena calidad en condiciones de bajos recursos, principalmente cuando el corpus de destino es el único texto de muestra de la lengua paralela. Para mejorar el rendimiento de la MT en estos pares de idiomas con pocos recursos, proponemos ampliar los datos de entrenamiento inyectando un corpus sintético-paralelo obtenido mediante la traducción de un corpus monolingüe de la lengua de destino basado en bootstrapping con diferentes ajustes de parámetros. Además, realizamos mediciones no supervisadas en cada par de oraciones utilizando las distancias de Mahalanobis al cuadrado, una técnica de filtrado que predice el paralelismo de las oraciones. Además, utilizamos ampliamente tres métricas de similitud a nivel de frase tras la traducción de ida y vuelta. Los resultados experimentales sobre una cantidad diversa de corpus paralelos disponibles demuestran que la inyección de corpus pseudoparalelos y el filtrado extensivo con métricas de similitud a nivel de frase mejoran significativamente los sistemas de MT originales para pares de lenguas de bajo recurso. En comparación con las mejoras existentes en el mismo marco original bajo la misma estructura, nuestro enfoque muestra enormes avances en las puntuaciones BLEU y TER.

Documentos Relacionados

Temas Virtualpro