Ficha técnica

172 | 0

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Artículo

Improved Distance Functions for Instance-Based Text ClassificationFunciones de distancia mejoradas para la clasificación de textos basada en instancias

Resumen

La clasificación de textos tiene muchas aplicaciones en el procesamiento de textos y la recuperación de información. El aprendizaje basado en instancias (IBL) es uno de los métodos de clasificación de textos más eficaces. Sin embargo, su eficacia depende de la función de distancia que utilice para determinar la similitud de los documentos. En este estudio, evaluamos el rendimiento de algunas medidas de distancia populares y proponemos otras nuevas que explotan las frecuencias de las palabras y la relación ordinal entre ellas. En particular, proponemos nuevas medidas de distancia que se basan en la métrica de distancia de valor (VDM) y la medida de distancia de clase específica invertida (ISCDM). Las medidas propuestas son adecuadas para documentos representados como vectores de frecuencias de palabras. Comparamos el rendimiento de estas medidas con sus homólogas originales y con potentes algoritmos de clasificación de textos basados en Naïve Bayesian. Evaluamos las medidas de distancia propuestas utilizando el algoritmo kNN en 18 conjuntos de datos de clasificación de textos de referencia. Nuestros resultados empíricos revelan que las métricas de distancia para valores nominales ofrecen mejores resultados de clasificación de textos que la medida de distancia euclidiana para valores numéricos. Además, nuestros resultados indican que ISCDM supera sustancialmente a VDM, pero también es más susceptible de aprovechar la naturaleza ordinal de las frecuencias de los términos que VDM. Así, pudimos proponer más medidas de distancia basadas en ISCDM para la clasificación de textos que en VDM. También comparamos las medidas de distancia propuestas con la clasificación de textos basada en Naïve Bayes, es decir, Naïve Bayes multinomial (MNB), Naïve Bayes complementario (CNB) y el modelo uno contra uno (OVA). Resulta que cuando kNN utiliza algunas de las medidas propuestas, supera a los clasificadores de texto basados en NB en la mayoría de los conjuntos de datos.

Materias:Minería de datos Algoritmos genéticos Cerebro - fisiopatología Neurociencia Cognitiva Neurofisiología
Subjects:Data mining Genetic algorithms Brain - pathophysiology Cognitive Neuroscience Neurophysiology
Palabras claves:medidas de distancia propuestas, clasificación de textos basada, medidas propuestas, vdm, frecuencia de palabras, bayesiano ingenuo potente, mejores resultados de clasificación, bayes ingenuo multinomial, naturaleza de los términos, medidas de distancia de clase
Keywords:proposed distance measures, based text classification, proposed measures, vdm, word frequency, powerful naïve bayesian, better classification results, multinomial naïve bayes, nature of terms, class distance measures

Autor:Khalil, El Hindi; Bayan, Abu Shawar; Reem, Aljulaidan; Hussien, Alsalamn.
Categoría:Ciencias aplicadas e interdisciplinarias
Subcategoría:Bioingeniería, biotecnología, nanotecnología y afines
Año de publicación:2020.
Editor:Hindawi

Tipo de documento:
Formato:pdf
Idioma:Inglés
Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

DC.Title.spa

Improved Distance Functions for Instance-Based Text Classification

DC.Title.eng

Funciones de distancia mejoradas para la clasificación de textos basada en instancias

DC.Creator

Khalil, El Hindi; Bayan, Abu Shawar; Reem, Aljulaidan; Hussien, Alsalamn

DC.Subject.snpi.spa

Minería de datos Algoritmos genéticos Cerebro - fisiopatología Neurociencia Cognitiva Neurofisiología

DC.Subject.snpi.eng

Data mining Genetic algorithms Brain - pathophysiology Cognitive Neuroscience Neurophysiology

DC.Subject.spa

medidas de distancia propuestas, clasificación de textos basada, medidas propuestas, vdm, frecuencia de palabras, bayesiano ingenuo potente, mejores resultados de clasificación, bayes ingenuo multinomial, naturaleza de los términos, medidas de distancia de clase

DC.Subject.eng

proposed distance measures, based text classification, proposed measures, vdm, word frequency, powerful naïve bayesian, better classification results, multinomial naïve bayes, nature of terms, class distance measures

DC.Description.spa

DC.Source

https://www.hindawi.com/journals/cin/2020/4717984

DC.Identifier.virtualpro

http://www.revistavirtualpro.com/biblioteca/funciones-de-distancia-mejoradas-para-la-clasificacion-de-textos-basada-en-instancias

DC.Identifier.issn-isbn

ISSN:1687-5265

DC.Identifier.citacion

Revista Virtual Pro, ,

DC.Language

Inglés

DC.Relation

DC.Publisher

Hindawi

DC.Contributor

DC.Rights

Derechos de autor:6

DC.Date

2020

DC.Type

Artículo

DC.Format

pdf

DC.Identifier.file

https://downloads.hindawi.com/journals/cin/2020/4717984.pdf

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Biblioteca93.141 documentos en línea

Ficha técnica

Improved Distance Functions for Instance-Based Text ClassificationFunciones de distancia mejoradas para la clasificación de textos basada en instancias

Resumen

Cómo citar el documento

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

Información del documento

Cómo citar el documento

Documentos relacionados

Recursos

Infografías

Generalidades de Condensadores - Intro

Centrifugación

La historia del chocolate

Obtención de la carne

IA Aplicaciones industriales

Construye una fracción

Parejas de fracciones

Videos

Seminario web: Impulsar la creación de empleo rural y el crecimiento económico

Parques de ecoinnovación: eficiencia en el uso de recursos, simbiosis industrial y ecoinnovación

La innovación de los procesos de negocio para conseguir la transformación digital de su organización

Ejemplos del método directo de elementos de frontera. Lección 6

Aditec - Webinar PTAR: Degradación de Contaminantes Orgánicos

Valorización energética de residuos en fábricas de cemento

Introducción de la investigación en nanotecnología y electrospinning de nanofibras compuestas de polímero a estudiantes de secundaria

Documentos más descargados

2022-11-04
Conservación de alimentos por medio de alta presión

Virtual Pro

Virtual Plant

Actualidad

Investigación

Suscripción

Publicidad

Virtual Pro | Procesos Industriales

Biblioteca93.141 documentos en línea

Ficha técnica

Improved Distance Functions for Instance-Based Text ClassificationFunciones de distancia mejoradas para la clasificación de textos basada en instancias

Resumen

Cómo citar el documento

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

Información del documento

Cómo citar el documento

Documentos relacionados

Recursos

Infografías

Generalidades de Condensadores - Intro

Centrifugación

La historia del chocolate

Obtención de la carne

IA Aplicaciones industriales

Construye una fracción

Parejas de fracciones

Videos

Seminario web: Impulsar la creación de empleo rural y el crecimiento económico

Parques de ecoinnovación: eficiencia en el uso de recursos, simbiosis industrial y ecoinnovación

La innovación de los procesos de negocio para conseguir la transformación digital de su organización

Ejemplos del método directo de elementos de frontera. Lección 6

Aditec - Webinar PTAR: Degradación de Contaminantes Orgánicos

Valorización energética de residuos en fábricas de cemento

Introducción de la investigación en nanotecnología y electrospinning de nanofibras compuestas de polímero a estudiantes de secundaria

Documentos más descargados

2022-11-04Conservación de alimentos por medio de alta presión

Virtual Pro

Virtual Plant

Actualidad

Investigación

Suscripción

Publicidad

Virtual Pro | Procesos Industriales

2022-11-04
Conservación de alimentos por medio de alta presión