ConvTransNet-S: Un modelo híbrido de reconocimiento de enfermedades basado en CNN-Transformer para entornos de campo complejos
Autores: Jia, Shangyun; Wang, Guanping; Li, Hongling; Liu, Yan; Shi, Linrong; Yang, Sen
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Botánica
Palabras clave
Modelo híbrido propuesto
ConvTransNet-S
CNNs
Transformadores
Tareas de identificación de enfermedades
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 7
Citaciones: Sin citaciones
Para abordar los desafíos de baja precisión en el reconocimiento y la complejidad sustancial del modelo en los modelos de identificación de enfermedades de cultivos que operan en entornos de campo complejos, este estudio propuso un nuevo modelo híbrido llamado ConvTransNet-S, que integra Redes Neuronales Convolucionales (CNN) y transformadores para tareas de identificación de enfermedades de cultivos. A diferencia de los enfoques híbridos existentes, ConvTransNet-S introduce de manera única tres innovaciones clave: Primero, se introdujeron un Módulo de Percepción Local (LPU) y módulos de Atención Multi-Cabeza Ligera (LMHSA) para mejorar sinérgicamente la extracción de detalles finos de enfermedades de plantas y modelar las relaciones de dependencia global, respectivamente. En segundo lugar, se empleó una Red de Propagación de Características Residuales Invertidas (IRFFN) para optimizar la ruta de propagación de características, mejorando así la robustez del modelo contra interferencias como variaciones de iluminación y oclusiones de hojas. Esta combinación novedosa de un LPU, LMHSA y un IRFFN logra un equilibrio dinámico entre la percepción de textura local y el modelado de contexto global, resolviendo efectivamente los compromisos inherentes en CNN o transformadores independientes. Finalmente, a través de un diseño de arquitectura por fases, se logra una fusión eficiente de características de enfermedades a múltiples escalas, lo que mejora la discriminabilidad de características mientras se reduce la complejidad del modelo. Los resultados experimentales indicaron que ConvTransNet-S logró una precisión de reconocimiento del 98.85% en el conjunto de datos público de PlantVillage. Este modelo opera con solo 25.14 millones de parámetros, una carga computacional de 3.762 GFLOPs y un tiempo de inferencia de 7.56 ms. Las pruebas en un conjunto de datos de escenas complejas en campo, compuesto por 10,441 imágenes, revelaron que ConvTransNet-S logró una precisión del 88.53%, lo que representa mejoras del 14.22%, 2.75% y 0.34% sobre EfficientNetV2, Vision Transformer y Swin Transformer, respectivamente. Además, el modelo ConvTransNet-S logró hasta un 14.22% más de precisión en el reconocimiento de enfermedades en condiciones de fondo complejas, mientras que redujo el conteo de parámetros en un 46.8%. Esto confirma que su único mecanismo de características a múltiples escalas puede distinguir efectivamente las enfermedades de las características de fondo, proporcionando un nuevo enfoque técnico para el diagnóstico de enfermedades en escenarios agrícolas complejos y demostrando un valor significativo de aplicación para la gestión agrícola inteligente.
Descripción
Para abordar los desafíos de baja precisión en el reconocimiento y la complejidad sustancial del modelo en los modelos de identificación de enfermedades de cultivos que operan en entornos de campo complejos, este estudio propuso un nuevo modelo híbrido llamado ConvTransNet-S, que integra Redes Neuronales Convolucionales (CNN) y transformadores para tareas de identificación de enfermedades de cultivos. A diferencia de los enfoques híbridos existentes, ConvTransNet-S introduce de manera única tres innovaciones clave: Primero, se introdujeron un Módulo de Percepción Local (LPU) y módulos de Atención Multi-Cabeza Ligera (LMHSA) para mejorar sinérgicamente la extracción de detalles finos de enfermedades de plantas y modelar las relaciones de dependencia global, respectivamente. En segundo lugar, se empleó una Red de Propagación de Características Residuales Invertidas (IRFFN) para optimizar la ruta de propagación de características, mejorando así la robustez del modelo contra interferencias como variaciones de iluminación y oclusiones de hojas. Esta combinación novedosa de un LPU, LMHSA y un IRFFN logra un equilibrio dinámico entre la percepción de textura local y el modelado de contexto global, resolviendo efectivamente los compromisos inherentes en CNN o transformadores independientes. Finalmente, a través de un diseño de arquitectura por fases, se logra una fusión eficiente de características de enfermedades a múltiples escalas, lo que mejora la discriminabilidad de características mientras se reduce la complejidad del modelo. Los resultados experimentales indicaron que ConvTransNet-S logró una precisión de reconocimiento del 98.85% en el conjunto de datos público de PlantVillage. Este modelo opera con solo 25.14 millones de parámetros, una carga computacional de 3.762 GFLOPs y un tiempo de inferencia de 7.56 ms. Las pruebas en un conjunto de datos de escenas complejas en campo, compuesto por 10,441 imágenes, revelaron que ConvTransNet-S logró una precisión del 88.53%, lo que representa mejoras del 14.22%, 2.75% y 0.34% sobre EfficientNetV2, Vision Transformer y Swin Transformer, respectivamente. Además, el modelo ConvTransNet-S logró hasta un 14.22% más de precisión en el reconocimiento de enfermedades en condiciones de fondo complejas, mientras que redujo el conteo de parámetros en un 46.8%. Esto confirma que su único mecanismo de características a múltiples escalas puede distinguir efectivamente las enfermedades de las características de fondo, proporcionando un nuevo enfoque técnico para el diagnóstico de enfermedades en escenarios agrícolas complejos y demostrando un valor significativo de aplicación para la gestión agrícola inteligente.