logo móvil
Contáctanos

Impacto de la estratificación de la variable dependiente en el desplazamiento de datos causado por la validación cruzada

Autores: Sáez, José A.; Romero-Béjar, José L.

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos
Modelado
Predicho
Validación cruzada k-fold
Cambio de conjunto de datos
Regresión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 15

Citaciones: Sin citaciones


Descripción
Los datos que no han sido modelados no pueden predecirse correctamente. Bajo esta premisa, esta investigación estudia cómo la validación cruzada k-fold puede introducir un cambio en el conjunto de datos en problemas de regresión. Este hecho implica que las distribuciones de datos en los conjuntos de entrenamiento y prueba sean diferentes y, por lo tanto, una deterioración en la estimación del rendimiento del modelo. Aunque la estratificación de la variable de salida se utiliza ampliamente en el campo de la clasificación para reducir los impactos del cambio en el conjunto de datos inducido por la validación cruzada, su uso en la regresión no es común en la literatura. Este documento analiza las consecuencias del cambio en el conjunto de datos al incluir diferentes esquemas de estratificación de la variable a predecir en la validación cruzada con datos de regresión. Los resultados obtenidos muestran que esto permite crear conjuntos de entrenamiento y prueba más similares, reduciendo la presencia de cambio en el conjunto de datos relacionado con la validación cruzada. El sesgo y la desviación de los resultados de estimación del rendimiento obtenidos por algoritmos de regresión mejoran utilizando la mayor cantidad de estratos, al igual que el número de repeticiones de validación cruzada necesarias para obtener estos mejores resultados.

Documentos Relacionados

Temas Virtualpro