Evaluación de la aplicación de embeddings para el agrupamiento automático de textos en español
Autores: Cachay Guivin, Anthony Wainer
Idioma: Español
Editor: Universidad de Tarapacá
Año: 2024
Acceso abierto
Categoría
Subcategoría
Palabras clave
Licencia
Consultas: 30
Citaciones: Ingeniare. Revista Chilena de Ingeniería Vol. 32 Núm. 1
La gran cantidad de información en Internet, compuesta principalmente por textos, hace que agrupar información confiable sea una tarea complicada. Esta investigación tiene como objetivo mejorar el agrupamiento automático de textos en español mediante la aplicación de embeddings y algoritmos de aprendizaje no supervisado. Se utilizaron cinco conjuntos de datos y se aplicaron técnicas de generación de embeddings como Word2Vec, FastText, Glove, BERT y GPT-2. Para el agrupamiento, se emplearon modelos de K-means, HDBSCAN y AutoEncoder combinado con K-means. Los resultados mostraron que el modelo de AutoEncoder combinado con K-means utilizando embeddings de Glove obtuvo un rendimiento superior con una precisión de 0,92, NMI de 0,79 y ARI de 0,81 en el conjunto de datos de BBC News. En otros conjuntos de datos, los resultados variaron, pero el modelo de AutoEncoder con K-means consistentemente superó a los otros métodos. Concluimos que los modelos de redes neuronales con AutoEncoder y capa de K-means son altamente efectivos para el agrupamiento automático de textos en español, especialmente cuando se utilizan embeddings de alta calidad como Glove.
INTRODUCCIÓN
Hoy en día, un avance significativo de diversas técnicas de agrupamiento de textos [1], incluyendo su validación y aplicación, hace que nuestros enfoques sean cada vez más diversos. Contar con un modelo que solo resuelve una tarea específica en un lenguaje de texto particular puede convertirse en un desafío para su procesamiento. Las técnicas más recientes y exitosas utilizan aprendizaje por transferencia a través de incrustaciones preentrenadas, mientras que los métodos tradicionales se basan en representaciones vectoriales [2].
Uno de los modelos más avanzados contemporáneos es word2vec [3]. Los algoritmos basados en esta técnica están en constante evolución, como FastText [4] o BERT [5]. Los modelos de agrupamiento de textos más comunes son K-means [6], Agglomerative Hierarchical Clustering [7] y DBScan [8]. Los resultados de rendimiento dependen de las distancias elegidas y su método de normalización para los datos de entrada.
El agrupamiento de textos se está convirtiendo en una tarea complicada debido a la falta de conocimiento sobre nuestra información, especialmente cuando se aplica al idioma español. El enfoque de esta investigación es estudiar algunos algoritmos y conjuntos de datos etiquetados para validar y obtener resultados.
Los experimentos realizados en esta investigación analizan y evalúan las incrustaciones extraídas de conjuntos de datos en español para comparar cuál ofrece los mejores resultados cuando se aplica a modelos de agrupamiento de textos. Se utilizaron cinco conjuntos de datos; tres fueron descargados de una web pública y los otros fueron creados utilizando técnicas de web scraping.
La gran cantidad de información en Internet, compuesta principalmente por textos, hace que agrupar información confiable sea una tarea complicada. Esta investigación tiene como objetivo mejorar el agrupamiento automático de textos en español mediante la aplicación de embeddings y algoritmos de aprendizaje no supervisado. Se utilizaron cinco conjuntos de datos y se aplicaron técnicas de generación de embeddings como Word2Vec, FastText, Glove, BERT y GPT-2. Para el agrupamiento, se emplearon modelos de K-means, HDBSCAN y AutoEncoder combinado con K-means. Los resultados mostraron que el modelo de AutoEncoder combinado con K-means utilizando embeddings de Glove obtuvo un rendimiento superior con una precisión de 0,92, NMI de 0,79 y ARI de 0,81 en el conjunto de datos de BBC News. En otros conjuntos de datos, los resultados variaron, pero el modelo de AutoEncoder con K-means consistentemente superó a los otros métodos. Concluimos que los modelos de redes neuronales con AutoEncoder y capa de K-means son altamente efectivos para el agrupamiento automático de textos en español, especialmente cuando se utilizan embeddings de alta calidad como Glove.
INTRODUCCIÓN
Hoy en día, un avance significativo de diversas técnicas de agrupamiento de textos [1], incluyendo su validación y aplicación, hace que nuestros enfoques sean cada vez más diversos. Contar con un modelo que solo resuelve una tarea específica en un lenguaje de texto particular puede convertirse en un desafío para su procesamiento. Las técnicas más recientes y exitosas utilizan aprendizaje por transferencia a través de incrustaciones preentrenadas, mientras que los métodos tradicionales se basan en representaciones vectoriales [2].
Uno de los modelos más avanzados contemporáneos es word2vec [3]. Los algoritmos basados en esta técnica están en constante evolución, como FastText [4] o BERT [5]. Los modelos de agrupamiento de textos más comunes son K-means [6], Agglomerative Hierarchical Clustering [7] y DBScan [8]. Los resultados de rendimiento dependen de las distancias elegidas y su método de normalización para los datos de entrada.
El agrupamiento de textos se está convirtiendo en una tarea complicada debido a la falta de conocimiento sobre nuestra información, especialmente cuando se aplica al idioma español. El enfoque de esta investigación es estudiar algunos algoritmos y conjuntos de datos etiquetados para validar y obtener resultados.
Los experimentos realizados en esta investigación analizan y evalúan las incrustaciones extraídas de conjuntos de datos en español para comparar cuál ofrece los mejores resultados cuando se aplica a modelos de agrupamiento de textos. Se utilizaron cinco conjuntos de datos; tres fueron descargados de una web pública y los otros fueron creados utilizando técnicas de web scraping.