Impacto de la estratificación de la variable dependiente en el desplazamiento de datos causado por la validación cruzada
Autores: Sáez, José A.; Romero-Béjar, José L.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos
Modelado
Predicho
Validación cruzada k-fold
Cambio de conjunto de datos
Regresión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 15
Citaciones: Sin citaciones
Los datos que no han sido modelados no pueden predecirse correctamente. Bajo esta premisa, esta investigación estudia cómo la validación cruzada k-fold puede introducir un cambio en el conjunto de datos en problemas de regresión. Este hecho implica que las distribuciones de datos en los conjuntos de entrenamiento y prueba sean diferentes y, por lo tanto, una deterioración en la estimación del rendimiento del modelo. Aunque la estratificación de la variable de salida se utiliza ampliamente en el campo de la clasificación para reducir los impactos del cambio en el conjunto de datos inducido por la validación cruzada, su uso en la regresión no es común en la literatura. Este documento analiza las consecuencias del cambio en el conjunto de datos al incluir diferentes esquemas de estratificación de la variable a predecir en la validación cruzada con datos de regresión. Los resultados obtenidos muestran que esto permite crear conjuntos de entrenamiento y prueba más similares, reduciendo la presencia de cambio en el conjunto de datos relacionado con la validación cruzada. El sesgo y la desviación de los resultados de estimación del rendimiento obtenidos por algoritmos de regresión mejoran utilizando la mayor cantidad de estratos, al igual que el número de repeticiones de validación cruzada necesarias para obtener estos mejores resultados.
Descripción
Los datos que no han sido modelados no pueden predecirse correctamente. Bajo esta premisa, esta investigación estudia cómo la validación cruzada k-fold puede introducir un cambio en el conjunto de datos en problemas de regresión. Este hecho implica que las distribuciones de datos en los conjuntos de entrenamiento y prueba sean diferentes y, por lo tanto, una deterioración en la estimación del rendimiento del modelo. Aunque la estratificación de la variable de salida se utiliza ampliamente en el campo de la clasificación para reducir los impactos del cambio en el conjunto de datos inducido por la validación cruzada, su uso en la regresión no es común en la literatura. Este documento analiza las consecuencias del cambio en el conjunto de datos al incluir diferentes esquemas de estratificación de la variable a predecir en la validación cruzada con datos de regresión. Los resultados obtenidos muestran que esto permite crear conjuntos de entrenamiento y prueba más similares, reduciendo la presencia de cambio en el conjunto de datos relacionado con la validación cruzada. El sesgo y la desviación de los resultados de estimación del rendimiento obtenidos por algoritmos de regresión mejoran utilizando la mayor cantidad de estratos, al igual que el número de repeticiones de validación cruzada necesarias para obtener estos mejores resultados.