La clasificación de textos tiene muchas aplicaciones en el procesamiento de textos y la recuperación de información. El aprendizaje basado en instancias (IBL) es uno de los métodos de clasificación de textos más eficaces. Sin embargo, su eficacia depende de la función de distancia que utilice para determinar la similitud de los documentos. En este estudio, evaluamos el rendimiento de algunas medidas de distancia populares y proponemos otras nuevas que explotan las frecuencias de las palabras y la relación ordinal entre ellas. En particular, proponemos nuevas medidas de distancia que se basan en la métrica de distancia de valor (VDM) y la medida de distancia de clase específica invertida (ISCDM). Las medidas propuestas son adecuadas para documentos representados como vectores de frecuencias de palabras. Comparamos el rendimiento de estas medidas con sus homólogas originales y con potentes algoritmos de clasificación de textos basados en Naïve Bayesian. Evaluamos las medidas de distancia propuestas utilizando el algoritmo kNN en 18 conjuntos de datos de clasificación de textos de referencia. Nuestros resultados empíricos revelan que las métricas de distancia para valores nominales ofrecen mejores resultados de clasificación de textos que la medida de distancia euclidiana para valores numéricos. Además, nuestros resultados indican que ISCDM supera sustancialmente a VDM, pero también es más susceptible de aprovechar la naturaleza ordinal de las frecuencias de los términos que VDM. Así, pudimos proponer más medidas de distancia basadas en ISCDM para la clasificación de textos que en VDM. También comparamos las medidas de distancia propuestas con la clasificación de textos basada en Naïve Bayes, es decir, Naïve Bayes multinomial (MNB), Naïve Bayes complementario (CNB) y el modelo uno contra uno (OVA). Resulta que cuando kNN utiliza algunas de las medidas propuestas, supera a los clasificadores de texto basados en NB en la mayoría de los conjuntos de datos.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Estudio de microespectroscopía FTIR de sincrotrón del cuerpo estriado en un modelo de rata con 6-hidroxidopamina de la enfermedad de Parkinson
Artículo:
Análisis de correlación entre las características de la resistencia a Helicobacter pylori y la densidad de uso de antibióticos en un hospital de 2012 a 2018
Artículo:
Resonancias de guía de ondas plasmónicas con figura de mérito mejorada y su potencial para la biosensibilidad anisotrópica en la región del infrarrojo cercano
Artículo:
Análisis de la tecnología de descripción inteligente de vídeos de voleibol basada en la red de memoria informática y el mecanismo de atención
Artículo:
Cómo promover la salud en el trabajo para trabajar hasta una edad avanzada: experiencias de empleados en un entorno industrial
Informe, reporte:
Diagnóstico sobre la logística del comercio internacional y su incidencia en la competitividad de las exportaciones de los países miembros
Artículo:
Nuevas necesidades cosméticas : tendencias y productos específicos
Manual:
Química de los taninos
Artículo:
Influencia del COVID-19 en las dinámicas de exportación, producción y consumo de carne vacuna en Colombia y el mundo: Una revisión monográfica.