Un Modelo de Conjunto para la Predicción de la Concentración de PM2.5 Basado en Selección de Características y un Algoritmo de Agrupamiento de Dos Capas
Autores: Wu, Xiaoxuan; Wen, Qiang; Zhu, Jun
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Astronomía
Palabras clave
Concentraciones de contaminación por pm2.5
Patrones dinámicos
Modelo integrado
Selección de características
Algoritmo de agrupamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 8
Citaciones: Sin citaciones
Determinar concentraciones precisas de contaminación por PM2.5 y comprender sus patrones dinámicos son cruciales para estrategias de control de la contaminación del aire basadas en información científica. La dependencia tradicional de coeficientes de correlación lineales para determinar factores relacionados con PM2.5 solo revela relaciones superficiales. Además, la invariabilidad de los modelos de predicción convencionales limita su precisión. Para mejorar la precisión de la predicción de la concentración de PM2.5, este estudio introduce un nuevo modelo integrado que aprovecha la selección de características y un algoritmo de agrupamiento. Compuesto por tres componentes: selección de características, agrupamiento y predicción integrada, el modelo primero emplea el algoritmo genético de clasificación no dominada (NSGA-III) para identificar las características más impactantes que afectan la concentración de PM2.5 dentro de los contaminantes del aire y factores meteorológicos. Este paso ofrece datos de características más valiosos para los módulos posteriores. Luego, el modelo adopta un método de agrupamiento de dos capas (SOM+K-means) para analizar la irregularidad multifacética dentro del conjunto de datos. Finalmente, el modelo establece el aprendiz débil de Máquina de Aprendizaje Extremo (ELM) para cada clasificación, integrando múltiples aprendices débiles utilizando el algoritmo AdaBoost para obtener un modelo de predicción integral. A través de la mejora de la correlación de características, la exploración de irregularidades en los datos y la mejora de la adaptabilidad del modelo, el modelo propuesto mejora significativamente el rendimiento general de la predicción. Se utilizaron datos de 12 sitios de monitoreo en Beijing en 2016 para un estudio empírico, y los resultados del modelo se compararon con cinco otros modelos predictivos. Los resultados demuestran que el modelo propuesto aumenta significativamente la precisión de la predicción, ofreciendo información útil y potencial para una aplicación ampliada a metodologías de predicción de concentración de correlación multifactorial para otros contaminantes.
Descripción
Determinar concentraciones precisas de contaminación por PM2.5 y comprender sus patrones dinámicos son cruciales para estrategias de control de la contaminación del aire basadas en información científica. La dependencia tradicional de coeficientes de correlación lineales para determinar factores relacionados con PM2.5 solo revela relaciones superficiales. Además, la invariabilidad de los modelos de predicción convencionales limita su precisión. Para mejorar la precisión de la predicción de la concentración de PM2.5, este estudio introduce un nuevo modelo integrado que aprovecha la selección de características y un algoritmo de agrupamiento. Compuesto por tres componentes: selección de características, agrupamiento y predicción integrada, el modelo primero emplea el algoritmo genético de clasificación no dominada (NSGA-III) para identificar las características más impactantes que afectan la concentración de PM2.5 dentro de los contaminantes del aire y factores meteorológicos. Este paso ofrece datos de características más valiosos para los módulos posteriores. Luego, el modelo adopta un método de agrupamiento de dos capas (SOM+K-means) para analizar la irregularidad multifacética dentro del conjunto de datos. Finalmente, el modelo establece el aprendiz débil de Máquina de Aprendizaje Extremo (ELM) para cada clasificación, integrando múltiples aprendices débiles utilizando el algoritmo AdaBoost para obtener un modelo de predicción integral. A través de la mejora de la correlación de características, la exploración de irregularidades en los datos y la mejora de la adaptabilidad del modelo, el modelo propuesto mejora significativamente el rendimiento general de la predicción. Se utilizaron datos de 12 sitios de monitoreo en Beijing en 2016 para un estudio empírico, y los resultados del modelo se compararon con cinco otros modelos predictivos. Los resultados demuestran que el modelo propuesto aumenta significativamente la precisión de la predicción, ofreciendo información útil y potencial para una aplicación ampliada a metodologías de predicción de concentración de correlación multifactorial para otros contaminantes.