SynoExtractor: Un nuevo sistema para la extracción de sinónimos en árabe utilizando incrustaciones de palabras Word2Vec.
Autores: Al-Matham, Rawan N.; Al-Khalifa, Hend S.
Idioma: Inglés
Editor: Hindawi
Año: 2021
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
La extracción automática de sinónimos juega un papel importante en muchos sistemas de procesamiento del lenguaje natural, como aquellos que involucran la recuperación de información y la respuesta a preguntas. Recientemente, la investigación se ha centrado en extraer relaciones semánticas de embeddings de palabras ya que capturan la relación y similitud entre palabras. Sin embargo, el uso exclusivo de embeddings de palabras plantea problemas para la extracción de sinónimos porque no puede determinar si la relación entre las palabras es de sinonimia u otra relación semántica. En este artículo, presentamos una solución novedosa para este problema al proponer el pipeline SynoExtractor, que puede ser utilizado para filtrar embeddings de palabras similares y retener sinónimos basados en reglas lingüísticas especificadas. Nuestros experimentos se realizaron utilizando embeddings de KSUCCA y Gigaword y fueron entrenados con los modelos CBOW y SG. Evaluamos los sinónimos extraídos automáticamente comparándolos con el tesauro de sinónimos en árabe de Almaany. También organizamos una evaluación manual realizada por dos lingüistas árab
Descripción
La extracción automática de sinónimos juega un papel importante en muchos sistemas de procesamiento del lenguaje natural, como aquellos que involucran la recuperación de información y la respuesta a preguntas. Recientemente, la investigación se ha centrado en extraer relaciones semánticas de embeddings de palabras ya que capturan la relación y similitud entre palabras. Sin embargo, el uso exclusivo de embeddings de palabras plantea problemas para la extracción de sinónimos porque no puede determinar si la relación entre las palabras es de sinonimia u otra relación semántica. En este artículo, presentamos una solución novedosa para este problema al proponer el pipeline SynoExtractor, que puede ser utilizado para filtrar embeddings de palabras similares y retener sinónimos basados en reglas lingüísticas especificadas. Nuestros experimentos se realizaron utilizando embeddings de KSUCCA y Gigaword y fueron entrenados con los modelos CBOW y SG. Evaluamos los sinónimos extraídos automáticamente comparándolos con el tesauro de sinónimos en árabe de Almaany. También organizamos una evaluación manual realizada por dos lingüistas árab