logo móvil
Contáctanos

Clasificación de datos categóricos basada en la disimilitud de Chi-Cuadrado y t-SNE

Autores: Cardona, Luis Ariosto Serna; Vargas-Cardona, Hernán Darío; Navarro González, Piedad; Cardenas Peña, David Augusto; Orozco Gutiérrez, Álvaro Ángel

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Bases de datos
Variables categóricas
Clasificación
Núcleos
Técnicas de mapeo
Tiempos de computación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
El uso recurrente de bases de datos con variables categóricas en diferentes aplicaciones demanda nuevas alternativas para identificar patrones relevantes. La clasificación es un enfoque interesante para el reconocimiento de este tipo de datos. Sin embargo, hay una cantidad limitada de métodos para este propósito en la literatura. Además, esas técnicas están específicamente centradas solo en los kernels, lo que genera problemas de precisión y alto costo computacional. Por esta razón, proponemos un enfoque de identificación para variables categóricas utilizando clasificadores convencionales (LDC-QDC-KNN-SVM) y diferentes técnicas de mapeo para aumentar la separabilidad de las clases. Específicamente, mapeamos las características iniciales (atributos categóricos) a otro espacio, utilizando el Chi-cuadrado (C-S) como medida de disimilitud. Luego, empleamos el (t-SNE) para reducir la dimensionalidad de los datos a dos o tres características, permitiendo una reducción significativa de los tiempos computacionales en los métodos de aprendizaje. Evaluamos el rendimiento del enfoque propuesto en términos de precisión para varias configuraciones experimentales y conjuntos de datos categóricos públicos descargados del repositorio UCI, y lo comparamos con métodos relevantes del estado del arte. Los resultados muestran que el mapeo C-S y t-SNE disminuyen considerablemente los tiempos computacionales en tareas de reconocimiento, mientras se mantiene la precisión. Además, cuando aplicamos solo el mapeo C-S a los conjuntos de datos, la separabilidad de las clases se mejora, por lo tanto, el rendimiento de los algoritmos de aprendizaje se incrementa claramente.

Documentos Relacionados

Temas Virtualpro