logo móvil

Modelo de refinamiento de características basado en la aproximación de Taylor de orden par y agregación dinámica para la detección de objetos en video

Autores: Chen, Liule; Li, Jianqiang; Li, Yunyu; Zhao, Qing

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones


Descripción
La detección de objetos en video (VOD) es una tarea visual sofisticada. Es un consenso que se utiliza para encontrar información de apoyo efectiva de los fotogramas de correlación para mejorar el rendimiento del modelo en tareas de VOD. En este documento, no solo mejoramos el método para encontrar información de apoyo de los fotogramas de correlación, sino que también fortalecemos la calidad de las características extraídas de los fotogramas de correlación para fortalecer aún más la fusión de los fotogramas de correlación para que el modelo pueda lograr un mejor rendimiento. El módulo de refinamiento de características FRM en nuestro modelo refina las características a través del diccionario de codificación de clave-valor basado en la serie de Taylor de orden par, y las características refinadas se utilizan para guiar la fusión de características en diferentes etapas. En la etapa de fusión de fotogramas de correlación, se aplica MLP generativo en el módulo de agregación de características DFAM para fusionar las características refinadas extraídas de los fotogramas de correlación. Los experimentos demuestran adecuadamente la efectividad de nuestro enfoque propuesto. Nuestro modelo basado en YOLOX puede lograr un 83.3% AP50 en el conjunto de datos ImageNet VID.

Documentos Relacionados

Temas Virtualpro