Conteo de términos agrupados: una alternativa a la frecuencia de términos para la categorización de texto
Autores: Shehzad, Farhan; Rehman, Abdur; Javed, Kashif; Alnowibet, Khalid A.; Babri, Haroon A.; Rauf, Hafiz Tayyab
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Longitud del documento
Frecuencia del término
Frecuencia inversa del documento
Esquema de ponderación de términos
Recuento de términos en bin
Normalización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
En la categorización de textos, un problema conocido relacionado con la longitud de los documentos es que un mayor recuento de términos en documentos más largos hace que los algoritmos de clasificación se vuelvan sesgados. El efecto de la longitud del documento se puede eliminar normalizando los recuentos de términos, reduciendo así el sesgo hacia los documentos más largos. Esto nos da la frecuencia de término (TF), que en conjunto con la frecuencia inversa de documento (IDF) se convirtió en el esquema de ponderación de términos más comúnmente utilizado para capturar la importancia de un término en un documento y corpus. Sin embargo, la normalización puede hacer que la frecuencia de un término en un documento relacionado sea igual o menor que su frecuencia de término en un documento no relacionado, perturbando así la fuerza de un término de su verdadero valor. En este documento, resolvemos este problema introduciendo un mapeo no lineal de la frecuencia de término. Esta alternativa a TF se llama recuento de términos agrupados (BTC). El factor de frecuencia de término recién propuesto recorta recuentos de términos grandes antes de la normalización, moderando así el efecto de normalización en documentos grandes. Para investigar la efectividad de BTC, lo comparamos con el TF original y su alternativa más reciente llamada frecuencia de término modificada (MTF). En nuestros experimentos, cada uno de estos factores de frecuencia de término (BTC, TF y MTF) se combina con cuatro factores de frecuencia de colección bien conocidos (IDF, RF, IGM y MONO) y se evalúa el rendimiento de cada uno de los esquemas de ponderación de términos resultantes en tres conjuntos de datos estándar (Reuters (R8-21578), 20-Newsgroups y WebKB) utilizando máquinas de vectores de soporte y clasificadores de vecinos más cercanos. Para determinar si BTC es estadísticamente mejor que TF y MTF, hemos aplicado la prueba de dos lados emparejada en los resultados macro. En general, se encontró que BTC es un 52% más significativo estadísticamente que TF y MTF. Además, el valor macro más alto en los tres conjuntos de datos se logró con los esquemas de ponderación de términos basados en BTC.
Descripción
En la categorización de textos, un problema conocido relacionado con la longitud de los documentos es que un mayor recuento de términos en documentos más largos hace que los algoritmos de clasificación se vuelvan sesgados. El efecto de la longitud del documento se puede eliminar normalizando los recuentos de términos, reduciendo así el sesgo hacia los documentos más largos. Esto nos da la frecuencia de término (TF), que en conjunto con la frecuencia inversa de documento (IDF) se convirtió en el esquema de ponderación de términos más comúnmente utilizado para capturar la importancia de un término en un documento y corpus. Sin embargo, la normalización puede hacer que la frecuencia de un término en un documento relacionado sea igual o menor que su frecuencia de término en un documento no relacionado, perturbando así la fuerza de un término de su verdadero valor. En este documento, resolvemos este problema introduciendo un mapeo no lineal de la frecuencia de término. Esta alternativa a TF se llama recuento de términos agrupados (BTC). El factor de frecuencia de término recién propuesto recorta recuentos de términos grandes antes de la normalización, moderando así el efecto de normalización en documentos grandes. Para investigar la efectividad de BTC, lo comparamos con el TF original y su alternativa más reciente llamada frecuencia de término modificada (MTF). En nuestros experimentos, cada uno de estos factores de frecuencia de término (BTC, TF y MTF) se combina con cuatro factores de frecuencia de colección bien conocidos (IDF, RF, IGM y MONO) y se evalúa el rendimiento de cada uno de los esquemas de ponderación de términos resultantes en tres conjuntos de datos estándar (Reuters (R8-21578), 20-Newsgroups y WebKB) utilizando máquinas de vectores de soporte y clasificadores de vecinos más cercanos. Para determinar si BTC es estadísticamente mejor que TF y MTF, hemos aplicado la prueba de dos lados emparejada en los resultados macro. En general, se encontró que BTC es un 52% más significativo estadísticamente que TF y MTF. Además, el valor macro más alto en los tres conjuntos de datos se logró con los esquemas de ponderación de términos basados en BTC.