Cookies y Privacidad
Usamos cookies propias y de terceros para mejorar la experiencia de nuestros usuarios, analizar el tráfico del sitio y personalizar contenido. Si continúas navegando, asumimos que aceptas su uso. Para más información, consulta nuestra Política de Cookies
Adaptación, comparación y mejora de algoritmos metaheurísticos al problema de etiquetado de partes del discurso
La identificación de partes del discurso (Part-of-Speech Tagging, POST) es una tarea compleja en las aplicaciones de procesamiento de lenguaje natural. Ha sido abordada desde enfoques basados en información estadística y reglas, haciendo uso de distintos métodos y, últimamente, se destacan los algoritmos metaheurísticos obteniendo buenos resultados. Por ello, se involucran en esta investigación para asignar la mejor secuencia de etiquetas (roles) para las palabras de una oración, basándose en información estadística. Este proceso se desarrolló en 2 ciclos, donde cada ciclo tuvo 4 fases para la adaptación al problema de etiquetado en los algoritmos metaheurísticos Particle Swarm Optimization, Jaya, Random-Restart Hill Climbing, y un algoritmo memético basado en Global-Best Harmony Search como optimizador global, y en Hill Climbing como optimizador local. Se realizaron experimentos preliminares (utilizando validación cruzada), para ajustar los parámetros de cada algoritmo y luego ejecutarlos sobre los datasets completos de los corpus etiquetados IULA (castellano), Brown (inglés) y Nasa Yuwe (Nasa). Los resultados obtenidos por los etiquetadores propuestos se compararon mediante las pruebas estadísticas no paramétricas de Friedman y Wilcoxon, ratificando que el memético propuesto, GBHS Tagger, obtiene mejores resultados de precisión. Los etiquetadores propuestos se convierten en un aporte muy importante para el POST, tanto para lenguas tradicionales (Inglés y Castellano), no tradicionales (Nasa Yuwe), y sus áreas de aplicación.
I. INTRODUCCIÓN
Los algoritmos metaheurísticos se aplican cada día en diversas áreas del conocimiento. No es extraño, por tanto, utilizarlos en el problema del Etiquetado de la Parte del Habla (POST) o de la Identificación. Se trata de una tarea compleja y de gran importancia en el Lenguaje Natural, dados los retos a los que se enfrenta, como son: la ambigüedad de las palabras, el tamaño del conjunto de etiquetas y el etiquetado de palabras desconocidas [1, 2].
Se han utilizado algoritmos metaheurísticos en el problema de etiquetado (POST) para asignar la mejor secuencia de etiquetas (roles) para las palabras de una oración, basados tanto en información estadística como en reglas de transformación para resolver este problema, obteniendo resultados sobresalientes en contraste con los enfoques tradicionales. Entre los trabajos relacionados se encuentran: 1) Alhasan y Al-taani [3], quienes representaron el problema de etiquetado como un grafo, los nodos son las posibles etiquetas de una oración y utilizan el algoritmo de optimización por Colonia de Abejas (BCO), que encuentra el mejor camino de solución.
Autores: Solano-Jiménez, Miguel-Alexis; Tobar-Cifuentes, José-Julio; Sierra-Martínez, Luz-Marina; Cobos-Lozada, Carlos-Alberto
Idioma: Inglés
Editor: Universidad Pedagógica y Tecnológica de Colombia - UPTC
Año: 2020
Disponible con Suscripción Virtualpro
Categoría
Licencia
Consultas: 10
Citaciones: Revista facultad de Ingeniería Vol. 29 No. 54
Este documento es un artículo elaborado por Miguel-Alexis Solano-Jiménez, José-Julio Tobar-Cifuentes, Luz-Marina Sierra-Martínez y Carlos-Alberto Cobos-Lozada (Universidad del Cauca. Popayán, Cauca, Colombia) para la Revista Facultad de Ingeniería Vol 29, Núm 54. Publicación de la Universidad Pedagógica y Tecnológica de Colombia - UPTC. Colombia. Contacto: revista.ingenieria@uptc.edu.co
La identificación de partes del discurso (Part-of-Speech Tagging, POST) es una tarea compleja en las aplicaciones de procesamiento de lenguaje natural. Ha sido abordada desde enfoques basados en información estadística y reglas, haciendo uso de distintos métodos y, últimamente, se destacan los algoritmos metaheurísticos obteniendo buenos resultados. Por ello, se involucran en esta investigación para asignar la mejor secuencia de etiquetas (roles) para las palabras de una oración, basándose en información estadística. Este proceso se desarrolló en 2 ciclos, donde cada ciclo tuvo 4 fases para la adaptación al problema de etiquetado en los algoritmos metaheurísticos Particle Swarm Optimization, Jaya, Random-Restart Hill Climbing, y un algoritmo memético basado en Global-Best Harmony Search como optimizador global, y en Hill Climbing como optimizador local. Se realizaron experimentos preliminares (utilizando validación cruzada), para ajustar los parámetros de cada algoritmo y luego ejecutarlos sobre los datasets completos de los corpus etiquetados IULA (castellano), Brown (inglés) y Nasa Yuwe (Nasa). Los resultados obtenidos por los etiquetadores propuestos se compararon mediante las pruebas estadísticas no paramétricas de Friedman y Wilcoxon, ratificando que el memético propuesto, GBHS Tagger, obtiene mejores resultados de precisión. Los etiquetadores propuestos se convierten en un aporte muy importante para el POST, tanto para lenguas tradicionales (Inglés y Castellano), no tradicionales (Nasa Yuwe), y sus áreas de aplicación.
I. INTRODUCCIÓN
Los algoritmos metaheurísticos se aplican cada día en diversas áreas del conocimiento. No es extraño, por tanto, utilizarlos en el problema del Etiquetado de la Parte del Habla (POST) o de la Identificación. Se trata de una tarea compleja y de gran importancia en el Lenguaje Natural, dados los retos a los que se enfrenta, como son: la ambigüedad de las palabras, el tamaño del conjunto de etiquetas y el etiquetado de palabras desconocidas [1, 2].
Se han utilizado algoritmos metaheurísticos en el problema de etiquetado (POST) para asignar la mejor secuencia de etiquetas (roles) para las palabras de una oración, basados tanto en información estadística como en reglas de transformación para resolver este problema, obteniendo resultados sobresalientes en contraste con los enfoques tradicionales. Entre los trabajos relacionados se encuentran: 1) Alhasan y Al-taani [3], quienes representaron el problema de etiquetado como un grafo, los nodos son las posibles etiquetas de una oración y utilizan el algoritmo de optimización por Colonia de Abejas (BCO), que encuentra el mejor camino de solución.
La identificación de partes del discurso (Part-of-Speech Tagging, POST) es una tarea compleja en las aplicaciones de procesamiento de lenguaje natural. Ha sido abordada desde enfoques basados en información estadística y reglas, haciendo uso de distintos métodos y, últimamente, se destacan los algoritmos metaheurísticos obteniendo buenos resultados. Por ello, se involucran en esta investigación para asignar la mejor secuencia de etiquetas (roles) para las palabras de una oración, basándose en información estadística. Este proceso se desarrolló en 2 ciclos, donde cada ciclo tuvo 4 fases para la adaptación al problema de etiquetado en los algoritmos metaheurísticos Particle Swarm Optimization, Jaya, Random-Restart Hill Climbing, y un algoritmo memético basado en Global-Best Harmony Search como optimizador global, y en Hill Climbing como optimizador local. Se realizaron experimentos preliminares (utilizando validación cruzada), para ajustar los parámetros de cada algoritmo y luego ejecutarlos sobre los datasets completos de los corpus etiquetados IULA (castellano), Brown (inglés) y Nasa Yuwe (Nasa). Los resultados obtenidos por los etiquetadores propuestos se compararon mediante las pruebas estadísticas no paramétricas de Friedman y Wilcoxon, ratificando que el memético propuesto, GBHS Tagger, obtiene mejores resultados de precisión. Los etiquetadores propuestos se convierten en un aporte muy importante para el POST, tanto para lenguas tradicionales (Inglés y Castellano), no tradicionales (Nasa Yuwe), y sus áreas de aplicación.
I. INTRODUCCIÓN
Los algoritmos metaheurísticos se aplican cada día en diversas áreas del conocimiento. No es extraño, por tanto, utilizarlos en el problema del Etiquetado de la Parte del Habla (POST) o de la Identificación. Se trata de una tarea compleja y de gran importancia en el Lenguaje Natural, dados los retos a los que se enfrenta, como son: la ambigüedad de las palabras, el tamaño del conjunto de etiquetas y el etiquetado de palabras desconocidas [1, 2].
Se han utilizado algoritmos metaheurísticos en el problema de etiquetado (POST) para asignar la mejor secuencia de etiquetas (roles) para las palabras de una oración, basados tanto en información estadística como en reglas de transformación para resolver este problema, obteniendo resultados sobresalientes en contraste con los enfoques tradicionales. Entre los trabajos relacionados se encuentran: 1) Alhasan y Al-taani [3], quienes representaron el problema de etiquetado como un grafo, los nodos son las posibles etiquetas de una oración y utilizan el algoritmo de optimización por Colonia de Abejas (BCO), que encuentra el mejor camino de solución.