Clasificación de textos mediante un nuevo esquema de ponderación de términos basado en TF-IDF mejorado para los informes de los medios de comunicación en Internet
Autores: Jiang, Zhiying; Gao, Bo; He, Yanlin; Han, Yongming; Doyle, Paul; Zhu, Qunxiong
Idioma: Inglés
Editor: Hindawi
Año: 2021
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
rápido desarrollo
tecnología de internet
clasificación de textos
ponderación de términos
informes de los medios de comunicación en internet
varianza de la frecuencia de los documentos.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Con el rápido desarrollo de la tecnología de Internet, se puede obtener una gran cantidad de datos de texto de Internet. La tecnología de clasificación de textos (TC) desempeña un papel muy importante en el procesamiento de datos de texto masivos, pero la precisión de la clasificación se ve directamente afectada por el rendimiento de la ponderación de términos en TC. Debido al diseño original de la recuperación de información (RI), la frecuencia de términos-frecuencia inversa de documentos (TF-IDF) no es lo suficientemente eficaz para la CT, especialmente para procesar datos de texto con distribuciones desequilibradas en informes de medios de Internet. Por lo tanto, se propone la varianza entre el valor DF de un término concreto y la media de todos los DF, es decir, la varianza de frecuencia de documento (ADF), para mejorar la capacidad de procesar datos de texto con una distribución desequilibrada. A continuación, el TF-IDF normal se modifica mediante la ADF propuesta para procesar colecciones de texto desequilibradas de cuatro formas diferentes, a saber, TF-IADF, TF-IADF y TF-IADF. Como resultado, se puede establecer un modelo eficaz para la tarea de CT de los informes de los medios de comunicación en Internet. Se han realizado una serie de simulaciones para evaluar el rendimiento de los métodos propuestos. Los resultados de las simulaciones confirman la eficacia y viabilidad de los métodos propuestos en comparación con TF-IDF en algoritmos de clasificación de última generación.
Descripción
Con el rápido desarrollo de la tecnología de Internet, se puede obtener una gran cantidad de datos de texto de Internet. La tecnología de clasificación de textos (TC) desempeña un papel muy importante en el procesamiento de datos de texto masivos, pero la precisión de la clasificación se ve directamente afectada por el rendimiento de la ponderación de términos en TC. Debido al diseño original de la recuperación de información (RI), la frecuencia de términos-frecuencia inversa de documentos (TF-IDF) no es lo suficientemente eficaz para la CT, especialmente para procesar datos de texto con distribuciones desequilibradas en informes de medios de Internet. Por lo tanto, se propone la varianza entre el valor DF de un término concreto y la media de todos los DF, es decir, la varianza de frecuencia de documento (ADF), para mejorar la capacidad de procesar datos de texto con una distribución desequilibrada. A continuación, el TF-IDF normal se modifica mediante la ADF propuesta para procesar colecciones de texto desequilibradas de cuatro formas diferentes, a saber, TF-IADF, TF-IADF y TF-IADF. Como resultado, se puede establecer un modelo eficaz para la tarea de CT de los informes de los medios de comunicación en Internet. Se han realizado una serie de simulaciones para evaluar el rendimiento de los métodos propuestos. Los resultados de las simulaciones confirman la eficacia y viabilidad de los métodos propuestos en comparación con TF-IDF en algoritmos de clasificación de última generación.