sobre el uso de etiquetas de descripción morfosintáctica en la traducción automática neuronal con corpus de entrenamiento pequeños y grandes
Autores: Donaj, Gregor; Sepesy Mauec, Mirjam
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Arquitecturas neuronales
Traducción automática
Información morfológica
Sistema de traducción automática neuronal
Etiquetas MSD
Puntos BLEU
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Con la transición a arquitecturas neuronales, la traducción automática logra una calidad muy buena para varios idiomas ricos en recursos. Sin embargo, los resultados siguen siendo mucho peores para idiomas con morfología compleja, especialmente si son idiomas con pocos recursos. Este documento informa sobre los resultados de un análisis sistemático de la adición de información morfológica en el entrenamiento de sistemas de traducción automática neuronal. Los sistemas de traducción presentados y comparados en esta investigación explotan información morfológica de corpus en diferentes formatos. Algunos formatos unen información semántica y gramatical y otros separan estos dos tipos de información. La información semántica se modela utilizando lemas y la información gramatical utilizando etiquetas de Descripción Morfo-Sintáctica (MSD). Se realizaron experimentos en corpus de diferentes tamaños para el par de idiomas inglés-esloveno. Se sacaron conclusiones para un sistema de traducción específico de dominio y para un sistema de traducción para el dominio general. Con las etiquetas MSD, mejoramos el rendimiento hasta 1,40 y 1,68 puntos BLEU en las dos direcciones de traducción. Encontramos que los sistemas con corpus de entrenamiento en diferentes formatos mejoran el rendimiento de manera diferente dependiendo de la dirección de traducción y el tamaño de los corpus.
Descripción
Con la transición a arquitecturas neuronales, la traducción automática logra una calidad muy buena para varios idiomas ricos en recursos. Sin embargo, los resultados siguen siendo mucho peores para idiomas con morfología compleja, especialmente si son idiomas con pocos recursos. Este documento informa sobre los resultados de un análisis sistemático de la adición de información morfológica en el entrenamiento de sistemas de traducción automática neuronal. Los sistemas de traducción presentados y comparados en esta investigación explotan información morfológica de corpus en diferentes formatos. Algunos formatos unen información semántica y gramatical y otros separan estos dos tipos de información. La información semántica se modela utilizando lemas y la información gramatical utilizando etiquetas de Descripción Morfo-Sintáctica (MSD). Se realizaron experimentos en corpus de diferentes tamaños para el par de idiomas inglés-esloveno. Se sacaron conclusiones para un sistema de traducción específico de dominio y para un sistema de traducción para el dominio general. Con las etiquetas MSD, mejoramos el rendimiento hasta 1,40 y 1,68 puntos BLEU en las dos direcciones de traducción. Encontramos que los sistemas con corpus de entrenamiento en diferentes formatos mejoran el rendimiento de manera diferente dependiendo de la dirección de traducción y el tamaño de los corpus.