Un procedimiento de reducción de dimensionalidad híbrido que integra agrupamiento con selección de características basada en KNN para datos no supervisados
Autores: Gutman, David; Perel, Nir; Brbulescu, Oana; Koren, Oded
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 15
Citaciones: Sin citaciones
Este artículo propone un enfoque híbrido novedoso que combina la extracción de características no supervisada a través del agrupamiento y la selección de características no supervisada para la reducción de datos, específicamente dirigido a datos de alta dimensionalidad. El método propuesto emplea el agrupamiento K-means para la extracción de características, donde la membresía del clúster sirve como una nueva representación de características, capturando las características inherentes de los datos. Posteriormente, se utilizan los algoritmos de Vecinos más Cercanos (KNN) y Bosque Aleatorio para la selección de características supervisada, identificando la característica más relevante para mejorar el rendimiento del modelo. Este enfoque híbrido aprovecha las fortalezas de las técnicas de aprendizaje no supervisado y supervisado. El nuevo algoritmo se aplicó a 13 conjuntos de datos tabulares diferentes, con 9 conjuntos de datos mostrando mejoras significativas en diversas métricas de rendimiento (precisión, precisión, recordatorio y puntuación F1) en los modelos tanto de KNN como de Bosque Aleatorio, a pesar de una reducción sustancial de características. En los cuatro conjuntos de datos restantes, logramos una reducción sustancial de dimensionalidad con solo disminuciones de rendimiento insignificantes. Esta mejora en el rendimiento al reducir la dimensionalidad resalta el potencial del método propuesto dentro del procedimiento, donde los conjuntos de datos se tratan sin conocimientos previos o suposiciones. El método propuesto ofrece una solución prometedora para manejar datos de alta dimensionalidad, mejorando el rendimiento del modelo mientras mantiene la interpretabilidad y la facilidad de integración dentro de los marcos propuestos, con la capacidad de ser independiente de los conjuntos de datos designados supervisados o no supervisados al reducir la dependencia de características objetivo o etiqueta.
Descripción
Este artículo propone un enfoque híbrido novedoso que combina la extracción de características no supervisada a través del agrupamiento y la selección de características no supervisada para la reducción de datos, específicamente dirigido a datos de alta dimensionalidad. El método propuesto emplea el agrupamiento K-means para la extracción de características, donde la membresía del clúster sirve como una nueva representación de características, capturando las características inherentes de los datos. Posteriormente, se utilizan los algoritmos de Vecinos más Cercanos (KNN) y Bosque Aleatorio para la selección de características supervisada, identificando la característica más relevante para mejorar el rendimiento del modelo. Este enfoque híbrido aprovecha las fortalezas de las técnicas de aprendizaje no supervisado y supervisado. El nuevo algoritmo se aplicó a 13 conjuntos de datos tabulares diferentes, con 9 conjuntos de datos mostrando mejoras significativas en diversas métricas de rendimiento (precisión, precisión, recordatorio y puntuación F1) en los modelos tanto de KNN como de Bosque Aleatorio, a pesar de una reducción sustancial de características. En los cuatro conjuntos de datos restantes, logramos una reducción sustancial de dimensionalidad con solo disminuciones de rendimiento insignificantes. Esta mejora en el rendimiento al reducir la dimensionalidad resalta el potencial del método propuesto dentro del procedimiento, donde los conjuntos de datos se tratan sin conocimientos previos o suposiciones. El método propuesto ofrece una solución prometedora para manejar datos de alta dimensionalidad, mejorando el rendimiento del modelo mientras mantiene la interpretabilidad y la facilidad de integración dentro de los marcos propuestos, con la capacidad de ser independiente de los conjuntos de datos designados supervisados o no supervisados al reducir la dependencia de características objetivo o etiqueta.