Detección de maduración de tomate en entornos complejos basada en la fusión mejorada de BiAttFPN y el modelado YOLOv11-SLBA
Autores: Hao, Yan; Rao, Lei; Fu, Xueliang; Zhou, Hao; Li, Honghui
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
Categoría
Ciencias Agrícolas y Biológicas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 14
Citaciones: Sin citaciones
Varias cuestiones apremiantes han sido reveladas por la tecnología de detección de madurez de tomates basada en aprendizaje profundo en aplicaciones ambientales intrincadas: la distinción de la etapa de transición de maduración no es lo suficientemente precisa, la detección de tomates pequeños es probable que se pierda, y la tecnología de detección es más susceptible a variaciones en la luz. Basado en el modelo YOLOv11, se presentó en este estudio un modelo de detección de madurez de tomate YOLOv11-SLBA. Primero, SPPF-LSKA se utiliza en lugar de SPPF en la sección de la columna vertebral, mejorando en gran medida el rendimiento de discriminación de características del modelo en escenarios desafiantes que incluyen oclusión densa e iluminación desigual. En segundo lugar, se agrega una nueva fusión progresiva jerárquica BiAttFPN en el área del cuello para aumentar la retención de características de objetivos pequeños durante la oclusión. Por último, la separabilidad de características de categorías comparables se mejora significativamente con la adición de la cabeza de detección auxiliar DetectAux. En este estudio, se realizan experimentos comparativos para confirmar el rendimiento del modelo. Bajo configuraciones idénticas, el modelo YOLOv11-SLBA se compara con otras redes de detección de objetivos, incluidas Faster R-CNN, SSD, RT-DETR, YOLOv7, YOLOv8 y YOLOv11. Con 2.7 millones de parámetros y 10.9 MB de memoria del modelo, el modelo YOLOv11-SLBA logra un 92% de P, un 83.5% de R, un 91.3% de mAP50, un 64.6% de mAP50-95 y un 87.5% de puntuación F1. Esto supone una mejora del 3.4% en precisión, una mejora del 1.5% en precisión promedio y una mejora del 1.6% en la puntuación F1 en comparación con el modelo de referencia YOLOv11. Superó a los otros modelos de comparación en todas las indicaciones y vio una mejora del 1.6% en la puntuación. Además, el conjunto de datos público de madurez de tomate1 fue utilizado para probar el modelo YOLOv11-SLBA, obteniendo valores del modelo del 78.6%, valores de R del 91.5%, valores de mAP50 del 93.7% y puntuaciones F1 del 84.6%. Esto demuestra que el modelo puede funcionar bien en una variedad de conjuntos de datos, mejora en gran medida la capacidad de generalización de detección en entornos intrincados y sirve como guía para el diseño de algoritmos del sistema de visión de robots recolectores.
Descripción
Varias cuestiones apremiantes han sido reveladas por la tecnología de detección de madurez de tomates basada en aprendizaje profundo en aplicaciones ambientales intrincadas: la distinción de la etapa de transición de maduración no es lo suficientemente precisa, la detección de tomates pequeños es probable que se pierda, y la tecnología de detección es más susceptible a variaciones en la luz. Basado en el modelo YOLOv11, se presentó en este estudio un modelo de detección de madurez de tomate YOLOv11-SLBA. Primero, SPPF-LSKA se utiliza en lugar de SPPF en la sección de la columna vertebral, mejorando en gran medida el rendimiento de discriminación de características del modelo en escenarios desafiantes que incluyen oclusión densa e iluminación desigual. En segundo lugar, se agrega una nueva fusión progresiva jerárquica BiAttFPN en el área del cuello para aumentar la retención de características de objetivos pequeños durante la oclusión. Por último, la separabilidad de características de categorías comparables se mejora significativamente con la adición de la cabeza de detección auxiliar DetectAux. En este estudio, se realizan experimentos comparativos para confirmar el rendimiento del modelo. Bajo configuraciones idénticas, el modelo YOLOv11-SLBA se compara con otras redes de detección de objetivos, incluidas Faster R-CNN, SSD, RT-DETR, YOLOv7, YOLOv8 y YOLOv11. Con 2.7 millones de parámetros y 10.9 MB de memoria del modelo, el modelo YOLOv11-SLBA logra un 92% de P, un 83.5% de R, un 91.3% de mAP50, un 64.6% de mAP50-95 y un 87.5% de puntuación F1. Esto supone una mejora del 3.4% en precisión, una mejora del 1.5% en precisión promedio y una mejora del 1.6% en la puntuación F1 en comparación con el modelo de referencia YOLOv11. Superó a los otros modelos de comparación en todas las indicaciones y vio una mejora del 1.6% en la puntuación. Además, el conjunto de datos público de madurez de tomate1 fue utilizado para probar el modelo YOLOv11-SLBA, obteniendo valores del modelo del 78.6%, valores de R del 91.5%, valores de mAP50 del 93.7% y puntuaciones F1 del 84.6%. Esto demuestra que el modelo puede funcionar bien en una variedad de conjuntos de datos, mejora en gran medida la capacidad de generalización de detección en entornos intrincados y sirve como guía para el diseño de algoritmos del sistema de visión de robots recolectores.