Regularized discrete optimal transport para clasificaciones desequilibradas de clases
Autores: Chen, Jiqiang; Wan, Jie; Ma, Litao
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
Categoría
Matemáticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
Los datos de clases desequilibradas son comúnmente observados en análisis de patrones, aprendizaje automático y diversas aplicaciones del mundo real. Los enfoques convencionales a menudo recurren a técnicas de remuestreo para abordar el desequilibrio, lo que inevitablemente altera la distribución original de los datos. Este documento propone un método de clasificación novedoso que aprovecha el transporte óptimo para manejar datos desequilibrados. Específicamente, establecemos un plan de transporte entre los datos de entrenamiento y prueba sin modificar la distribución original de los datos, basándonos en los principios de la teoría del transporte óptimo. Además, introducimos un término de regularización interclase no convexo para establecer conexiones entre las muestras de prueba y las muestras de entrenamiento con las mismas etiquetas de clase. Este término de regularización forma la base de un modelo de transporte óptimo discreto regularizado, que se emplea para abordar escenarios de clasificación desequilibrada. Posteriormente, en línea con el concepto de minimización máxima, se introduce un algoritmo de minimización máxima para el transporte óptimo discreto regularizado. Experimentos posteriores en 17 conjuntos de datos de Keel con diferentes niveles de desequilibrio demuestran el rendimiento superior del enfoque propuesto en comparación con otras 11 técnicas ampliamente utilizadas para la clasificación desequilibrada de clases. Además, la aplicación del enfoque propuesto a la evaluación de la calidad del agua confirma su efectividad.
Descripción
Los datos de clases desequilibradas son comúnmente observados en análisis de patrones, aprendizaje automático y diversas aplicaciones del mundo real. Los enfoques convencionales a menudo recurren a técnicas de remuestreo para abordar el desequilibrio, lo que inevitablemente altera la distribución original de los datos. Este documento propone un método de clasificación novedoso que aprovecha el transporte óptimo para manejar datos desequilibrados. Específicamente, establecemos un plan de transporte entre los datos de entrenamiento y prueba sin modificar la distribución original de los datos, basándonos en los principios de la teoría del transporte óptimo. Además, introducimos un término de regularización interclase no convexo para establecer conexiones entre las muestras de prueba y las muestras de entrenamiento con las mismas etiquetas de clase. Este término de regularización forma la base de un modelo de transporte óptimo discreto regularizado, que se emplea para abordar escenarios de clasificación desequilibrada. Posteriormente, en línea con el concepto de minimización máxima, se introduce un algoritmo de minimización máxima para el transporte óptimo discreto regularizado. Experimentos posteriores en 17 conjuntos de datos de Keel con diferentes niveles de desequilibrio demuestran el rendimiento superior del enfoque propuesto en comparación con otras 11 técnicas ampliamente utilizadas para la clasificación desequilibrada de clases. Además, la aplicación del enfoque propuesto a la evaluación de la calidad del agua confirma su efectividad.