Evaluación de la aplicación de embeddings para el agrupamiento automático de textos en español

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluación de la aplicación de embeddings para el agrupamiento automático de textos en español

Autores: Cachay Guivin, Anthony Wainer

Idioma: Español

Editor: Universidad de Tarapacá

Año: 2024

Ver Artículo científico

Acceso abierto

Artículo científico

2024

Evaluación de la aplicación de embeddings para el agrupamiento automático de textos en español

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Análisis de modelos

Inteligencia artificial

Datasets

Licencia

CC BY – Atribución

Consultas: 30

Citaciones: Ingeniare. Revista Chilena de Ingeniería Vol. 32 Núm. 1

La gran cantidad de información en Internet, compuesta principalmente por textos, hace que agrupar información confiable sea una tarea complicada. Esta investigación tiene como objetivo mejorar el agrupamiento automático de textos en español mediante la aplicación de embeddings y algoritmos de aprendizaje no supervisado. Se utilizaron cinco conjuntos de datos y se aplicaron técnicas de generación de embeddings como Word2Vec, FastText, Glove, BERT y GPT-2. Para el agrupamiento, se emplearon modelos de K-means, HDBSCAN y AutoEncoder combinado con K-means. Los resultados mostraron que el modelo de AutoEncoder combinado con K-means utilizando embeddings de Glove obtuvo un rendimiento superior con una precisión de 0,92, NMI de 0,79 y ARI de 0,81 en el conjunto de datos de BBC News. En otros conjuntos de datos, los resultados variaron, pero el modelo de AutoEncoder con K-means consistentemente superó a los otros métodos. Concluimos que los modelos de redes neuronales con AutoEncoder y capa de K-means son altamente efectivos para el agrupamiento automático de textos en español, especialmente cuando se utilizan embeddings de alta calidad como Glove.

INTRODUCCIÓN

Hoy en día, un avance significativo de diversas técnicas de agrupamiento de textos [1], incluyendo su validación y aplicación, hace que nuestros enfoques sean cada vez más diversos. Contar con un modelo que solo resuelve una tarea específica en un lenguaje de texto particular puede convertirse en un desafío para su procesamiento. Las técnicas más recientes y exitosas utilizan aprendizaje por transferencia a través de incrustaciones preentrenadas, mientras que los métodos tradicionales se basan en representaciones vectoriales [2].

Uno de los modelos más avanzados contemporáneos es word2vec [3]. Los algoritmos basados en esta técnica están en constante evolución, como FastText [4] o BERT [5]. Los modelos de agrupamiento de textos más comunes son K-means [6], Agglomerative Hierarchical Clustering [7] y DBScan [8]. Los resultados de rendimiento dependen de las distancias elegidas y su método de normalización para los datos de entrada.

El agrupamiento de textos se está convirtiendo en una tarea complicada debido a la falta de conocimiento sobre nuestra información, especialmente cuando se aplica al idioma español. El enfoque de esta investigación es estudiar algunos algoritmos y conjuntos de datos etiquetados para validar y obtener resultados.

Los experimentos realizados en esta investigación analizan y evalúan las incrustaciones extraídas de conjuntos de datos en español para comparar cuál ofrece los mejores resultados cuando se aplica a modelos de agrupamiento de textos. Se utilizaron cinco conjuntos de datos; tres fueron descargados de una web pública y los otros fueron creados utilizando técnicas de web scraping.

Descripción

INTRODUCCIÓN

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro