Mla-net: red en pirámide de características con atención local multinivel para detección de objetos
Autores: Yang, Xiaobao; Wang, Wentao; Wu, Junsheng; Ding, Chen; Ma, Sugang; Hou, Zhiqiang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mla-net: red en pirámide de características con atención local multinivel para detección de objetosCategoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Redes de pirámide de características
Mecanismos de atención
Método de atención local multinivel
Detección de objetos
Conjunto de datos MS COCO
Conjunto de datos PASCAL VOC
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Las redes de pirámide de características y los mecanismos de atención son los métodos principales para mejorar el rendimiento de detección de muchos modelos actuales. Sin embargo, cuando se aprenden conjuntamente, hay una falta de asociación de información entre las características de múltiples niveles. Por lo tanto, este artículo propone una pirámide de características del método de atención local de múltiples niveles, denominado MLA-Net (Red de Pirámide de Características con Atención Local de Múltiples Niveles para la Detección de Objetos), que tiene como objetivo establecer un mecanismo de correlación para la información local de múltiples niveles. Primero, las características de múltiples niveles originales se deforman y corrigen utilizando el módulo de rectificación de píxeles local, y se logra una mejora semántica global a través del módulo de atención espacial de múltiples niveles. Después, las características originales se fusionan aún más a través de la conexión residual para lograr la fusión de características contextuales y mejorar la representación de características. Se realizaron experimentos de ablación extensivos en el conjunto de datos MS COCO (Objetos Comunes en Contexto de Microsoft), y los resultados demuestran la efectividad del método propuesto con una mejora del 0.5%. Se obtuvo una mejora del 1.2% en el conjunto de datos PASCAL VOC (Análisis de Patrones, Modelado Estadístico y Aprendizaje Computacional, Clases de Objetos Visuales), alcanzando el 81.8%, lo que indica que el método propuesto es robusto y puede competir con otros modelos avanzados de detección.
Descripción
Las redes de pirámide de características y los mecanismos de atención son los métodos principales para mejorar el rendimiento de detección de muchos modelos actuales. Sin embargo, cuando se aprenden conjuntamente, hay una falta de asociación de información entre las características de múltiples niveles. Por lo tanto, este artículo propone una pirámide de características del método de atención local de múltiples niveles, denominado MLA-Net (Red de Pirámide de Características con Atención Local de Múltiples Niveles para la Detección de Objetos), que tiene como objetivo establecer un mecanismo de correlación para la información local de múltiples niveles. Primero, las características de múltiples niveles originales se deforman y corrigen utilizando el módulo de rectificación de píxeles local, y se logra una mejora semántica global a través del módulo de atención espacial de múltiples niveles. Después, las características originales se fusionan aún más a través de la conexión residual para lograr la fusión de características contextuales y mejorar la representación de características. Se realizaron experimentos de ablación extensivos en el conjunto de datos MS COCO (Objetos Comunes en Contexto de Microsoft), y los resultados demuestran la efectividad del método propuesto con una mejora del 0.5%. Se obtuvo una mejora del 1.2% en el conjunto de datos PASCAL VOC (Análisis de Patrones, Modelado Estadístico y Aprendizaje Computacional, Clases de Objetos Visuales), alcanzando el 81.8%, lo que indica que el método propuesto es robusto y puede competir con otros modelos avanzados de detección.