Equilibrando la Precisión y la Eficiencia Computacional: Un R-CNN Más Rápido con un Mecanismo de Atención Espacial Basado en Segmentación de Primer Plano y Fondo para el Reconocimiento de Plantas Silvestres
Autores: Cui, Zexuan; Chen, Zhibo; Cui, Xiaohui
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Botánica
Palabras clave
Visión por computadora
Tecnología de reconocimiento
Faster R-CNN ligero
Complejidad del modelo
Precisión del reconocimiento
Procesamiento de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 6
Citaciones: Sin citaciones
La tecnología de reconocimiento de visión por computadora, debido a su naturaleza no invasiva y conveniente, puede evitar eficazmente daños a las frágiles plantas silvestres durante el reconocimiento. Sin embargo, equilibrar la complejidad del modelo, la precisión del reconocimiento y la dificultad de procesamiento de datos en hardware con recursos limitados es un problema crítico que necesita ser abordado. Para enfrentar estos desafíos, proponemos una arquitectura mejorada y ligera de Faster R-CNN llamada ULS-FRCN. Esta arquitectura incluye tres mejoras clave: un módulo Light Bottleneck basado en convolución separable por profundidad para reducir la complejidad del modelo; un mecanismo de atención espacial ligero Split SAM para mejorar la precisión del reconocimiento sin aumentar la complejidad del modelo; y un preprocesamiento de enmascaramiento no nítido para mejorar el rendimiento del modelo mientras se reduce la dificultad de procesamiento de datos y los costos de entrenamiento. Validamos la efectividad de ULS-FRCN utilizando cinco plantas silvestres representativas del conjunto de datos PlantCLEF 2015. Los experimentos de ablación y las pruebas de generalización en múltiples conjuntos de datos muestran que ULS-FRCN supera significativamente al modelo base en términos de mAP, puntuación media F1 y recuperación media, con mejoras del 12.77%, 0.01 y 9.07%, respectivamente. En comparación con el Faster R-CNN original, nuestro diseño ligero y mecanismo de atención reducen los parámetros de entrenamiento, mejoran la velocidad de inferencia y aumentan la eficiencia computacional. Este enfoque es adecuado para su implementación en dispositivos forestales con recursos limitados, permitiendo una identificación y gestión eficiente de plantas sin necesidad de servidores de alto rendimiento.
Descripción
La tecnología de reconocimiento de visión por computadora, debido a su naturaleza no invasiva y conveniente, puede evitar eficazmente daños a las frágiles plantas silvestres durante el reconocimiento. Sin embargo, equilibrar la complejidad del modelo, la precisión del reconocimiento y la dificultad de procesamiento de datos en hardware con recursos limitados es un problema crítico que necesita ser abordado. Para enfrentar estos desafíos, proponemos una arquitectura mejorada y ligera de Faster R-CNN llamada ULS-FRCN. Esta arquitectura incluye tres mejoras clave: un módulo Light Bottleneck basado en convolución separable por profundidad para reducir la complejidad del modelo; un mecanismo de atención espacial ligero Split SAM para mejorar la precisión del reconocimiento sin aumentar la complejidad del modelo; y un preprocesamiento de enmascaramiento no nítido para mejorar el rendimiento del modelo mientras se reduce la dificultad de procesamiento de datos y los costos de entrenamiento. Validamos la efectividad de ULS-FRCN utilizando cinco plantas silvestres representativas del conjunto de datos PlantCLEF 2015. Los experimentos de ablación y las pruebas de generalización en múltiples conjuntos de datos muestran que ULS-FRCN supera significativamente al modelo base en términos de mAP, puntuación media F1 y recuperación media, con mejoras del 12.77%, 0.01 y 9.07%, respectivamente. En comparación con el Faster R-CNN original, nuestro diseño ligero y mecanismo de atención reducen los parámetros de entrenamiento, mejoran la velocidad de inferencia y aumentan la eficiencia computacional. Este enfoque es adecuado para su implementación en dispositivos forestales con recursos limitados, permitiendo una identificación y gestión eficiente de plantas sin necesidad de servidores de alto rendimiento.