sobre la idoneidad de conjuntos basados en bagging con ruido de etiqueta límite
Autores: Sáez, José A.; Romero-Béjar, José L.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Clasificación
Ruido
Conjuntos
Ensacado
Límites
Precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Los datos de clasificación del mundo real suelen contener ruido, lo que puede afectar la precisión de los modelos y su complejidad. En este contexto, un enfoque interesante para reducir los efectos del ruido es la construcción de conjuntos de clasificadores, que tradicionalmente se han atribuido la capacidad de abordar problemas difíciles. Entre las alternativas para construir conjuntos con datos ruidosos, el bagging ha mostrado cierto potencial en la literatura especializada. Sin embargo, los trabajos existentes en este campo son limitados y se centran únicamente en el estudio del ruido basado en un etiquetado aleatorio, lo cual es poco probable que ocurra en aplicaciones del mundo real. Investigaciones recientes muestran que otros tipos de ruido, como el que ocurre en los límites de clase, son más comunes y desafiantes para los algoritmos de clasificación. Este documento profundiza en el análisis del uso de técnicas de bagging en estos problemas complejos, donde el ruido afecta las fronteras de decisión entre clases. Con el fin de investigar si el bagging es capaz de reducir el impacto del ruido fronterizo, se lleva a cabo un estudio experimental considerando un gran número de conjuntos de datos con diferentes niveles de ruido, y varios modelos de ruido y algoritmos de clasificación. Los resultados obtenidos reflejan que el bagging logra una mejor precisión y robustez que los modelos individuales con este tipo de ruido complejo. Las mayores mejoras en precisión promedio son alrededor del 2-4% y generalmente se encuentran en niveles de ruido medio-alto (a partir del 15-20%). La consideración parcial de muestras ruidosas al crear los subconjuntos del conjunto de entrenamiento original en el bagging puede hacer que solo algunas partes de las fronteras de decisión entre clases se vean afectadas al construir cada modelo, reduciendo el impacto del ruido en el sistema global.
Descripción
Los datos de clasificación del mundo real suelen contener ruido, lo que puede afectar la precisión de los modelos y su complejidad. En este contexto, un enfoque interesante para reducir los efectos del ruido es la construcción de conjuntos de clasificadores, que tradicionalmente se han atribuido la capacidad de abordar problemas difíciles. Entre las alternativas para construir conjuntos con datos ruidosos, el bagging ha mostrado cierto potencial en la literatura especializada. Sin embargo, los trabajos existentes en este campo son limitados y se centran únicamente en el estudio del ruido basado en un etiquetado aleatorio, lo cual es poco probable que ocurra en aplicaciones del mundo real. Investigaciones recientes muestran que otros tipos de ruido, como el que ocurre en los límites de clase, son más comunes y desafiantes para los algoritmos de clasificación. Este documento profundiza en el análisis del uso de técnicas de bagging en estos problemas complejos, donde el ruido afecta las fronteras de decisión entre clases. Con el fin de investigar si el bagging es capaz de reducir el impacto del ruido fronterizo, se lleva a cabo un estudio experimental considerando un gran número de conjuntos de datos con diferentes niveles de ruido, y varios modelos de ruido y algoritmos de clasificación. Los resultados obtenidos reflejan que el bagging logra una mejor precisión y robustez que los modelos individuales con este tipo de ruido complejo. Las mayores mejoras en precisión promedio son alrededor del 2-4% y generalmente se encuentran en niveles de ruido medio-alto (a partir del 15-20%). La consideración parcial de muestras ruidosas al crear los subconjuntos del conjunto de entrenamiento original en el bagging puede hacer que solo algunas partes de las fronteras de decisión entre clases se vean afectadas al construir cada modelo, reduciendo el impacto del ruido en el sistema global.