Estudio de técnicas de remuestreo sobre el problema de desequilibrio de clases en la predicción de riesgos crediticios
Autores: Zhao, Zixue; Cui, Tianxiang; Ding, Shusheng; Li, Jiawei; Bellotti, Anthony Graham
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Predicción de riesgo crediticio
Datos históricos
Usuarios que incumplen
Problema de desequilibrio de clases
Técnicas de remuestreo
Conjuntos de datos extremadamente desequilibrados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La predicción del riesgo crediticio depende en gran medida de los datos históricos proporcionados por las instituciones financieras. El objetivo es identificar similitudes entre los usuarios que incurren en incumplimiento basándose en la información existente. Sin embargo, los datos sobre los morosos suelen ser limitados, lo que conduce a una concentración de datos crediticios donde las muestras positivas (incumplimientos) son significativamente menos que las muestras negativas (no incumplimientos). Esto plantea un desafío serio conocido como el problema del desequilibrio de clases, que puede afectar sustancialmente la calidad de los datos y la efectividad del modelo predictivo. Para abordar el problema, se han propuesto y estudiado ampliamente diversas técnicas de remuestreo. Sin embargo, a pesar de la investigación en curso, no hay consenso sobre la técnica más efectiva. La elección de la técnica de remuestreo está estrechamente relacionada con el tamaño del conjunto de datos y la proporción de desequilibrio, y su efectividad varía en diferentes clasificadores. Además, hay una notable brecha en la investigación sobre técnicas adecuadas para conjuntos de datos extremadamente desequilibrados. Por lo tanto, este estudio tiene como objetivo comparar técnicas de remuestreo populares en diferentes conjuntos de datos y clasificadores, y también proponer un nuevo método de muestreo híbrido diseñado para conjuntos de datos extremadamente desequilibrados. Nuestros resultados experimentales demuestran que esta nueva técnica mejora significativamente el rendimiento predictivo del clasificador, arrojando luz sobre estrategias efectivas para gestionar el problema del desequilibrio de clases en la predicción del riesgo crediticio.
Descripción
La predicción del riesgo crediticio depende en gran medida de los datos históricos proporcionados por las instituciones financieras. El objetivo es identificar similitudes entre los usuarios que incurren en incumplimiento basándose en la información existente. Sin embargo, los datos sobre los morosos suelen ser limitados, lo que conduce a una concentración de datos crediticios donde las muestras positivas (incumplimientos) son significativamente menos que las muestras negativas (no incumplimientos). Esto plantea un desafío serio conocido como el problema del desequilibrio de clases, que puede afectar sustancialmente la calidad de los datos y la efectividad del modelo predictivo. Para abordar el problema, se han propuesto y estudiado ampliamente diversas técnicas de remuestreo. Sin embargo, a pesar de la investigación en curso, no hay consenso sobre la técnica más efectiva. La elección de la técnica de remuestreo está estrechamente relacionada con el tamaño del conjunto de datos y la proporción de desequilibrio, y su efectividad varía en diferentes clasificadores. Además, hay una notable brecha en la investigación sobre técnicas adecuadas para conjuntos de datos extremadamente desequilibrados. Por lo tanto, este estudio tiene como objetivo comparar técnicas de remuestreo populares en diferentes conjuntos de datos y clasificadores, y también proponer un nuevo método de muestreo híbrido diseñado para conjuntos de datos extremadamente desequilibrados. Nuestros resultados experimentales demuestran que esta nueva técnica mejora significativamente el rendimiento predictivo del clasificador, arrojando luz sobre estrategias efectivas para gestionar el problema del desequilibrio de clases en la predicción del riesgo crediticio.