Conteo de términos agrupados: una alternativa a la frecuencia de términos para la categorización de texto

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Conteo de términos agrupados: una alternativa a la frecuencia de términos para la categorización de texto

Autores: Shehzad, Farhan; Rehman, Abdur; Javed, Kashif; Alnowibet, Khalid A.; Babri, Haroon A.; Rauf, Hafiz Tayyab

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Conteo de términos agrupados: una alternativa a la frecuencia de términos para la categorización de texto

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Longitud del documento

Frecuencia del término

Frecuencia inversa del documento

Esquema de ponderación de términos

Recuento de términos en bin

Normalización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

En la categorización de textos, un problema conocido relacionado con la longitud de los documentos es que un mayor recuento de términos en documentos más largos hace que los algoritmos de clasificación se vuelvan sesgados. El efecto de la longitud del documento se puede eliminar normalizando los recuentos de términos, reduciendo así el sesgo hacia los documentos más largos. Esto nos da la frecuencia de término (TF), que en conjunto con la frecuencia inversa de documento (IDF) se convirtió en el esquema de ponderación de términos más comúnmente utilizado para capturar la importancia de un término en un documento y corpus. Sin embargo, la normalización puede hacer que la frecuencia de un término en un documento relacionado sea igual o menor que su frecuencia de término en un documento no relacionado, perturbando así la fuerza de un término de su verdadero valor. En este documento, resolvemos este problema introduciendo un mapeo no lineal de la frecuencia de término. Esta alternativa a TF se llama recuento de términos agrupados (BTC). El factor de frecuencia de término recién propuesto recorta recuentos de términos grandes antes de la normalización, moderando así el efecto de normalización en documentos grandes. Para investigar la efectividad de BTC, lo comparamos con el TF original y su alternativa más reciente llamada frecuencia de término modificada (MTF). En nuestros experimentos, cada uno de estos factores de frecuencia de término (BTC, TF y MTF) se combina con cuatro factores de frecuencia de colección bien conocidos (IDF, RF, IGM y MONO) y se evalúa el rendimiento de cada uno de los esquemas de ponderación de términos resultantes en tres conjuntos de datos estándar (Reuters (R8-21578), 20-Newsgroups y WebKB) utilizando máquinas de vectores de soporte y clasificadores de vecinos más cercanos. Para determinar si BTC es estadísticamente mejor que TF y MTF, hemos aplicado la prueba de dos lados emparejada en los resultados macro. En general, se encontró que BTC es un 52% más significativo estadísticamente que TF y MTF. Además, el valor macro más alto en los tres conjuntos de datos se logró con los esquemas de ponderación de términos basados en BTC.

Descripción

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro