logo móvil
Contáctanos

Red de alineación semántica multi-nivel entre modalidades cruzadas para la recuperación de video-texto

Autores: Nian, Fudong; Ding, Ling; Hu, Yuxia; Gu, Yanhong

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Mejorar
Recuperación de video-texto
Semántica multi-nivel
Niveles semánticos
Red de alineación semántica cruzada
Problema de distribución de atributos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
Este documento busca mejorar el rendimiento de la recuperación de video-texto. Hasta la fecha, se han propuesto muchos algoritmos para facilitar la medida de similitud de la recuperación de video-texto desde la semántica global única hasta la semántica multinivel. Sin embargo, estos métodos pueden sufrir las siguientes limitaciones: (1) ignoran en gran medida la relación semántica, lo que resulta en niveles semánticos insuficientes; (2) es incompleto restringir las características de valores reales de diferentes modalidades a estar en el mismo espacio solo a través de la medición de la distancia de características; (3) no logran manejar el problema de que las distribuciones de etiquetas de atributos en diferentes niveles semánticos están muy desequilibradas. Para superar las limitaciones anteriores, este documento propone una nueva red de alineación semántica cruzada multinivel (MCSAN) para la recuperación de video-texto al modelar conjuntamente la similitud de video-texto en los niveles semánticos global, de entidad, de acción y de relación en un modelo profundo unificado. Específicamente, tanto el video como el texto se descomponen primero en niveles semánticos global, de entidad, de acción y de relación mediante el diseño cuidadoso de estructuras de aprendizaje semántico espacio-temporales. Luego, utilizamos KLDivLoss y una capa de proyección de atributos de intercambio de parámetros entre modalidades como restricciones estadísticas para garantizar que las representaciones de diferentes modalidades en diferentes niveles semánticos se proyecten en un espacio semántico común. Además, se presenta una nueva función de pérdida de entropía cruzada binaria focal (FBCE), que es el primer esfuerzo para modelar el problema de distribución de atributos desequilibrados para la recuperación de video-texto. MCSAN es prácticamente efectivo para aprovechar la información complementaria entre los cuatro niveles semánticos. Experimentos extensos en dos desafiantes conjuntos de datos de recuperación de video-texto, a saber, MSR-VTT y VATEX, muestran la viabilidad de nuestro método.

Documentos Relacionados

Temas Virtualpro