Clasificación de datos categóricos basada en la disimilitud de Chi-Cuadrado y t-SNE
Autores: Cardona, Luis Ariosto Serna; Vargas-Cardona, Hernán Darío; Navarro González, Piedad; Cardenas Peña, David Augusto; Orozco Gutiérrez, Álvaro Ángel
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Bases de datos
Variables categóricas
Clasificación
Núcleos
Técnicas de mapeo
Tiempos de computación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
El uso recurrente de bases de datos con variables categóricas en diferentes aplicaciones demanda nuevas alternativas para identificar patrones relevantes. La clasificación es un enfoque interesante para el reconocimiento de este tipo de datos. Sin embargo, hay una cantidad limitada de métodos para este propósito en la literatura. Además, esas técnicas están específicamente centradas solo en los kernels, lo que genera problemas de precisión y alto costo computacional. Por esta razón, proponemos un enfoque de identificación para variables categóricas utilizando clasificadores convencionales (LDC-QDC-KNN-SVM) y diferentes técnicas de mapeo para aumentar la separabilidad de las clases. Específicamente, mapeamos las características iniciales (atributos categóricos) a otro espacio, utilizando el Chi-cuadrado (C-S) como medida de disimilitud. Luego, empleamos el (t-SNE) para reducir la dimensionalidad de los datos a dos o tres características, permitiendo una reducción significativa de los tiempos computacionales en los métodos de aprendizaje. Evaluamos el rendimiento del enfoque propuesto en términos de precisión para varias configuraciones experimentales y conjuntos de datos categóricos públicos descargados del repositorio UCI, y lo comparamos con métodos relevantes del estado del arte. Los resultados muestran que el mapeo C-S y t-SNE disminuyen considerablemente los tiempos computacionales en tareas de reconocimiento, mientras se mantiene la precisión. Además, cuando aplicamos solo el mapeo C-S a los conjuntos de datos, la separabilidad de las clases se mejora, por lo tanto, el rendimiento de los algoritmos de aprendizaje se incrementa claramente.
Descripción
El uso recurrente de bases de datos con variables categóricas en diferentes aplicaciones demanda nuevas alternativas para identificar patrones relevantes. La clasificación es un enfoque interesante para el reconocimiento de este tipo de datos. Sin embargo, hay una cantidad limitada de métodos para este propósito en la literatura. Además, esas técnicas están específicamente centradas solo en los kernels, lo que genera problemas de precisión y alto costo computacional. Por esta razón, proponemos un enfoque de identificación para variables categóricas utilizando clasificadores convencionales (LDC-QDC-KNN-SVM) y diferentes técnicas de mapeo para aumentar la separabilidad de las clases. Específicamente, mapeamos las características iniciales (atributos categóricos) a otro espacio, utilizando el Chi-cuadrado (C-S) como medida de disimilitud. Luego, empleamos el (t-SNE) para reducir la dimensionalidad de los datos a dos o tres características, permitiendo una reducción significativa de los tiempos computacionales en los métodos de aprendizaje. Evaluamos el rendimiento del enfoque propuesto en términos de precisión para varias configuraciones experimentales y conjuntos de datos categóricos públicos descargados del repositorio UCI, y lo comparamos con métodos relevantes del estado del arte. Los resultados muestran que el mapeo C-S y t-SNE disminuyen considerablemente los tiempos computacionales en tareas de reconocimiento, mientras se mantiene la precisión. Además, cuando aplicamos solo el mapeo C-S a los conjuntos de datos, la separabilidad de las clases se mejora, por lo tanto, el rendimiento de los algoritmos de aprendizaje se incrementa claramente.