Detección de objetos ocluidos en escenas complejas con fusión de atención de canal local mixta y optimización libre de anclaje en capa de multi-detección
Autores: Su, Qinghua; Mu, Jianhong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
Categoría
Procesos industriales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 14
Citaciones: Sin citaciones
El campo de la detección de objetos tiene una amplia aplicabilidad en muchas áreas. A pesar de la multitud de métodos de detección de objetos que ya están establecidos, las escenas complejas con oclusiones siguen siendo un desafío debido a la pérdida de información y los cambios dinámicos que reducen las características distinguibles entre el objetivo y su fondo, lo que resulta en una menor precisión de detección. Para abordar las deficiencias en la detección de objetos ocultos en escenas complejas con modelos existentes, se ha propuesto un enfoque novedoso en la arquitectura YOLOv8n. Primero, la mejora comienza con la adición de una pequeña cabeza de detección de objetos en la parte superior de la arquitectura YOLOv8n para detectar y localizar con precisión objetos pequeños. Luego, se integra un mecanismo de atención de canal local mixto dentro de YOLOv8n, que aprovecha las características del segmento visible del objetivo para refinar la extracción de características obstaculizada por los impactos de oclusión. Posteriormente, se introduce Soft-NMS para optimizar las cajas delimitadoras candidatas, resolviendo el problema de detección fallida bajo objetivos similares superpuestos. Por último, utilizando métricas de evaluación de detección de objetos universales, se llevaron a cabo una serie de experimentos de ablación en conjuntos de datos públicos (CityPersons) junto con ensayos de comparación con otros modelos, seguidos de pruebas en varios conjuntos de datos. Los resultados mostraron una precisión promedio ([email protected]) alcanzando 0.676, marcando una mejora del 6.7% sobre el YOLOv8 oficial en condiciones experimentales idénticas, un aumento del 7.9% en comparación con Gold-YOLO, y un aumento del 7.1% sobre RTDETR, demostrando también un rendimiento encomiable en otros conjuntos de datos. Aunque la carga computacional aumentó con la adición de capas de detección, los fotogramas por segundo (FPS) aún alcanzaron 192, lo que cumple con los requisitos en tiempo real para la gran mayoría de los escenarios. Tales hallazgos indican que el método refinado no solo mejora significativamente el rendimiento en conjuntos de datos ocluidos, sino que también puede ser transferido a otros modelos para aumentar sus capacidades de rendimiento.
Descripción
El campo de la detección de objetos tiene una amplia aplicabilidad en muchas áreas. A pesar de la multitud de métodos de detección de objetos que ya están establecidos, las escenas complejas con oclusiones siguen siendo un desafío debido a la pérdida de información y los cambios dinámicos que reducen las características distinguibles entre el objetivo y su fondo, lo que resulta en una menor precisión de detección. Para abordar las deficiencias en la detección de objetos ocultos en escenas complejas con modelos existentes, se ha propuesto un enfoque novedoso en la arquitectura YOLOv8n. Primero, la mejora comienza con la adición de una pequeña cabeza de detección de objetos en la parte superior de la arquitectura YOLOv8n para detectar y localizar con precisión objetos pequeños. Luego, se integra un mecanismo de atención de canal local mixto dentro de YOLOv8n, que aprovecha las características del segmento visible del objetivo para refinar la extracción de características obstaculizada por los impactos de oclusión. Posteriormente, se introduce Soft-NMS para optimizar las cajas delimitadoras candidatas, resolviendo el problema de detección fallida bajo objetivos similares superpuestos. Por último, utilizando métricas de evaluación de detección de objetos universales, se llevaron a cabo una serie de experimentos de ablación en conjuntos de datos públicos (CityPersons) junto con ensayos de comparación con otros modelos, seguidos de pruebas en varios conjuntos de datos. Los resultados mostraron una precisión promedio ([email protected]) alcanzando 0.676, marcando una mejora del 6.7% sobre el YOLOv8 oficial en condiciones experimentales idénticas, un aumento del 7.9% en comparación con Gold-YOLO, y un aumento del 7.1% sobre RTDETR, demostrando también un rendimiento encomiable en otros conjuntos de datos. Aunque la carga computacional aumentó con la adición de capas de detección, los fotogramas por segundo (FPS) aún alcanzaron 192, lo que cumple con los requisitos en tiempo real para la gran mayoría de los escenarios. Tales hallazgos indican que el método refinado no solo mejora significativamente el rendimiento en conjuntos de datos ocluidos, sino que también puede ser transferido a otros modelos para aumentar sus capacidades de rendimiento.