logo móvil

Un procedimiento de reducción de dimensionalidad híbrido que integra agrupamiento con selección de características basada en KNN para datos no supervisados

Autores: Gutman, David; Perel, Nir; Brbulescu, Oana; Koren, Oded

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 15

Citaciones: Sin citaciones


Descripción
Este artículo propone un enfoque híbrido novedoso que combina la extracción de características no supervisada a través del agrupamiento y la selección de características no supervisada para la reducción de datos, específicamente dirigido a datos de alta dimensionalidad. El método propuesto emplea el agrupamiento K-means para la extracción de características, donde la membresía del clúster sirve como una nueva representación de características, capturando las características inherentes de los datos. Posteriormente, se utilizan los algoritmos de Vecinos más Cercanos (KNN) y Bosque Aleatorio para la selección de características supervisada, identificando la característica más relevante para mejorar el rendimiento del modelo. Este enfoque híbrido aprovecha las fortalezas de las técnicas de aprendizaje no supervisado y supervisado. El nuevo algoritmo se aplicó a 13 conjuntos de datos tabulares diferentes, con 9 conjuntos de datos mostrando mejoras significativas en diversas métricas de rendimiento (precisión, precisión, recordatorio y puntuación F1) en los modelos tanto de KNN como de Bosque Aleatorio, a pesar de una reducción sustancial de características. En los cuatro conjuntos de datos restantes, logramos una reducción sustancial de dimensionalidad con solo disminuciones de rendimiento insignificantes. Esta mejora en el rendimiento al reducir la dimensionalidad resalta el potencial del método propuesto dentro del procedimiento, donde los conjuntos de datos se tratan sin conocimientos previos o suposiciones. El método propuesto ofrece una solución prometedora para manejar datos de alta dimensionalidad, mejorando el rendimiento del modelo mientras mantiene la interpretabilidad y la facilidad de integración dentro de los marcos propuestos, con la capacidad de ser independiente de los conjuntos de datos designados supervisados o no supervisados al reducir la dependencia de características objetivo o etiqueta.

Documentos Relacionados

Temas Virtualpro