Estimación de poses de ganado en tiempo real basada en RTMPose mejorado
Autores: Li, Xiaowu; Sun, Kun; Fan, Hongbo; He, Zihan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Ciencias Agrícolas y Biológicas Generales
Palabras clave
Preciso
Ganado
Estimación de postura
Tecnología
Bloque FasterNest
Bloque de Profundidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La estimación precisa de la postura del ganado es esencial para la Agricultura de Precisión en Ganadería (PLF). La tecnología de estimación de postura del ganado basada en visión por computadora y sin contacto se puede aplicar para el reconocimiento de comportamientos y la detección de cojeras. Los métodos existentes todavía enfrentan desafíos para lograr una estimación rápida de la postura del ganado en escenarios complejos. En este trabajo, presentamos el Bloque FasterNest y el Bloque de Profundidad para mejorar el rendimiento de la estimación de postura del ganado basado en el modelo RTMPose. Primero, la precisión de la estimación de postura del ganado depende de la captura de características de imagen de alto nivel. El Bloque FasterNest, con su estructura de tres ramas, utiliza de manera efectiva la información del mapa de características de alto nivel, mejorando significativamente la precisión sin una disminución significativa en la velocidad de inferencia. En segundo lugar, las convoluciones de núcleo grande pueden aumentar el costo computacional del modelo. Por lo tanto, el Bloque de Profundidad adopta un método basado en convoluciones separables en profundidad para reemplazar las convoluciones de núcleo grande. Esto aborda la insensibilidad a la información semántica al tiempo que reduce los parámetros del modelo. Además, el módulo SimAM mejora las capacidades de aprendizaje espacial del modelo sin introducir parámetros adicionales. Realizamos pruebas en varios conjuntos de datos, incluido nuestro conjunto de datos de escenas complejas recopilado (conjunto de datos de ganado) y el conjunto de datos público AP-10K. Los resultados demuestran que nuestro modelo logra la mejor precisión promedio con los parámetros de modelo más bajos y los requisitos computacionales, alcanzando 82.9% en el conjunto de pruebas de ganado y 72.0% en el conjunto de pruebas AP-10K. Además, en conjunto con el modelo de detección de objetos RTMDet-m, nuestro modelo alcanza una velocidad de inferencia notable de 39FPS en una GPU NVIDIA GTX 2080Ti utilizando el marco PyTorch, siendo el más rápido entre todos los modelos. Este trabajo proporciona un soporte técnico adecuado para la estimación rápida y precisa de la postura del ganado en entornos agrícolas complejos.
Descripción
La estimación precisa de la postura del ganado es esencial para la Agricultura de Precisión en Ganadería (PLF). La tecnología de estimación de postura del ganado basada en visión por computadora y sin contacto se puede aplicar para el reconocimiento de comportamientos y la detección de cojeras. Los métodos existentes todavía enfrentan desafíos para lograr una estimación rápida de la postura del ganado en escenarios complejos. En este trabajo, presentamos el Bloque FasterNest y el Bloque de Profundidad para mejorar el rendimiento de la estimación de postura del ganado basado en el modelo RTMPose. Primero, la precisión de la estimación de postura del ganado depende de la captura de características de imagen de alto nivel. El Bloque FasterNest, con su estructura de tres ramas, utiliza de manera efectiva la información del mapa de características de alto nivel, mejorando significativamente la precisión sin una disminución significativa en la velocidad de inferencia. En segundo lugar, las convoluciones de núcleo grande pueden aumentar el costo computacional del modelo. Por lo tanto, el Bloque de Profundidad adopta un método basado en convoluciones separables en profundidad para reemplazar las convoluciones de núcleo grande. Esto aborda la insensibilidad a la información semántica al tiempo que reduce los parámetros del modelo. Además, el módulo SimAM mejora las capacidades de aprendizaje espacial del modelo sin introducir parámetros adicionales. Realizamos pruebas en varios conjuntos de datos, incluido nuestro conjunto de datos de escenas complejas recopilado (conjunto de datos de ganado) y el conjunto de datos público AP-10K. Los resultados demuestran que nuestro modelo logra la mejor precisión promedio con los parámetros de modelo más bajos y los requisitos computacionales, alcanzando 82.9% en el conjunto de pruebas de ganado y 72.0% en el conjunto de pruebas AP-10K. Además, en conjunto con el modelo de detección de objetos RTMDet-m, nuestro modelo alcanza una velocidad de inferencia notable de 39FPS en una GPU NVIDIA GTX 2080Ti utilizando el marco PyTorch, siendo el más rápido entre todos los modelos. Este trabajo proporciona un soporte técnico adecuado para la estimación rápida y precisa de la postura del ganado en entornos agrícolas complejos.