Clasificación de datos categóricos basada en la disimilitud de Chi-Cuadrado y t-SNE

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Clasificación de datos categóricos basada en la disimilitud de Chi-Cuadrado y t-SNE

Autores: Cardona, Luis Ariosto Serna; Vargas-Cardona, Hernán Darío; Navarro González, Piedad; Cardenas Peña, David Augusto; Orozco Gutiérrez, Álvaro Ángel

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Clasificación de datos categóricos basada en la disimilitud de Chi-Cuadrado y t-SNE

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Bases de datos

Variables categóricas

Clasificación

Núcleos

Técnicas de mapeo

Tiempos de computación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

El uso recurrente de bases de datos con variables categóricas en diferentes aplicaciones demanda nuevas alternativas para identificar patrones relevantes. La clasificación es un enfoque interesante para el reconocimiento de este tipo de datos. Sin embargo, hay una cantidad limitada de métodos para este propósito en la literatura. Además, esas técnicas están específicamente centradas solo en los kernels, lo que genera problemas de precisión y alto costo computacional. Por esta razón, proponemos un enfoque de identificación para variables categóricas utilizando clasificadores convencionales (LDC-QDC-KNN-SVM) y diferentes técnicas de mapeo para aumentar la separabilidad de las clases. Específicamente, mapeamos las características iniciales (atributos categóricos) a otro espacio, utilizando el Chi-cuadrado (C-S) como medida de disimilitud. Luego, empleamos el (t-SNE) para reducir la dimensionalidad de los datos a dos o tres características, permitiendo una reducción significativa de los tiempos computacionales en los métodos de aprendizaje. Evaluamos el rendimiento del enfoque propuesto en términos de precisión para varias configuraciones experimentales y conjuntos de datos categóricos públicos descargados del repositorio UCI, y lo comparamos con métodos relevantes del estado del arte. Los resultados muestran que el mapeo C-S y t-SNE disminuyen considerablemente los tiempos computacionales en tareas de reconocimiento, mientras se mantiene la precisión. Además, cuando aplicamos solo el mapeo C-S a los conjuntos de datos, la separabilidad de las clases se mejora, por lo tanto, el rendimiento de los algoritmos de aprendizaje se incrementa claramente.

Descripción

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro