logo móvil
Contáctanos

Conteo de términos agrupados: una alternativa a la frecuencia de términos para la categorización de texto

Autores: Shehzad, Farhan; Rehman, Abdur; Javed, Kashif; Alnowibet, Khalid A.; Babri, Haroon A.; Rauf, Hafiz Tayyab

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Longitud del documento
Frecuencia del término
Frecuencia inversa del documento
Esquema de ponderación de términos
Recuento de términos en bin
Normalización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones


Descripción
En la categorización de textos, un problema conocido relacionado con la longitud de los documentos es que un mayor recuento de términos en documentos más largos hace que los algoritmos de clasificación se vuelvan sesgados. El efecto de la longitud del documento se puede eliminar normalizando los recuentos de términos, reduciendo así el sesgo hacia los documentos más largos. Esto nos da la frecuencia de término (TF), que en conjunto con la frecuencia inversa de documento (IDF) se convirtió en el esquema de ponderación de términos más comúnmente utilizado para capturar la importancia de un término en un documento y corpus. Sin embargo, la normalización puede hacer que la frecuencia de un término en un documento relacionado sea igual o menor que su frecuencia de término en un documento no relacionado, perturbando así la fuerza de un término de su verdadero valor. En este documento, resolvemos este problema introduciendo un mapeo no lineal de la frecuencia de término. Esta alternativa a TF se llama recuento de términos agrupados (BTC). El factor de frecuencia de término recién propuesto recorta recuentos de términos grandes antes de la normalización, moderando así el efecto de normalización en documentos grandes. Para investigar la efectividad de BTC, lo comparamos con el TF original y su alternativa más reciente llamada frecuencia de término modificada (MTF). En nuestros experimentos, cada uno de estos factores de frecuencia de término (BTC, TF y MTF) se combina con cuatro factores de frecuencia de colección bien conocidos (IDF, RF, IGM y MONO) y se evalúa el rendimiento de cada uno de los esquemas de ponderación de términos resultantes en tres conjuntos de datos estándar (Reuters (R8-21578), 20-Newsgroups y WebKB) utilizando máquinas de vectores de soporte y clasificadores de vecinos más cercanos. Para determinar si BTC es estadísticamente mejor que TF y MTF, hemos aplicado la prueba de dos lados emparejada en los resultados macro. En general, se encontró que BTC es un 52% más significativo estadísticamente que TF y MTF. Además, el valor macro más alto en los tres conjuntos de datos se logró con los esquemas de ponderación de términos basados en BTC.

Documentos Relacionados

Temas Virtualpro