Modelo de refinamiento de características basado en la aproximación de Taylor de orden par y agregación dinámica para la detección de objetos en video
Autores: Chen, Liule; Li, Jianqiang; Li, Yunyu; Zhao, Qing
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
La detección de objetos en video (VOD) es una tarea visual sofisticada. Es un consenso que se utiliza para encontrar información de apoyo efectiva de los fotogramas de correlación para mejorar el rendimiento del modelo en tareas de VOD. En este documento, no solo mejoramos el método para encontrar información de apoyo de los fotogramas de correlación, sino que también fortalecemos la calidad de las características extraídas de los fotogramas de correlación para fortalecer aún más la fusión de los fotogramas de correlación para que el modelo pueda lograr un mejor rendimiento. El módulo de refinamiento de características FRM en nuestro modelo refina las características a través del diccionario de codificación de clave-valor basado en la serie de Taylor de orden par, y las características refinadas se utilizan para guiar la fusión de características en diferentes etapas. En la etapa de fusión de fotogramas de correlación, se aplica MLP generativo en el módulo de agregación de características DFAM para fusionar las características refinadas extraídas de los fotogramas de correlación. Los experimentos demuestran adecuadamente la efectividad de nuestro enfoque propuesto. Nuestro modelo basado en YOLOX puede lograr un 83.3% AP50 en el conjunto de datos ImageNet VID.
Descripción
La detección de objetos en video (VOD) es una tarea visual sofisticada. Es un consenso que se utiliza para encontrar información de apoyo efectiva de los fotogramas de correlación para mejorar el rendimiento del modelo en tareas de VOD. En este documento, no solo mejoramos el método para encontrar información de apoyo de los fotogramas de correlación, sino que también fortalecemos la calidad de las características extraídas de los fotogramas de correlación para fortalecer aún más la fusión de los fotogramas de correlación para que el modelo pueda lograr un mejor rendimiento. El módulo de refinamiento de características FRM en nuestro modelo refina las características a través del diccionario de codificación de clave-valor basado en la serie de Taylor de orden par, y las características refinadas se utilizan para guiar la fusión de características en diferentes etapas. En la etapa de fusión de fotogramas de correlación, se aplica MLP generativo en el módulo de agregación de características DFAM para fusionar las características refinadas extraídas de los fotogramas de correlación. Los experimentos demuestran adecuadamente la efectividad de nuestro enfoque propuesto. Nuestro modelo basado en YOLOX puede lograr un 83.3% AP50 en el conjunto de datos ImageNet VID.