Red de alineación semántica multi-nivel entre modalidades cruzadas para la recuperación de video-texto

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red de alineación semántica multi-nivel entre modalidades cruzadas para la recuperación de video-texto

Autores: Nian, Fudong; Ding, Ling; Hu, Yuxia; Gu, Yanhong

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Red de alineación semántica multi-nivel entre modalidades cruzadas para la recuperación de video-texto

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Mejorar

Recuperación de video-texto

Semántica multi-nivel

Niveles semánticos

Red de alineación semántica cruzada

Problema de distribución de atributos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones

Este documento busca mejorar el rendimiento de la recuperación de video-texto. Hasta la fecha, se han propuesto muchos algoritmos para facilitar la medida de similitud de la recuperación de video-texto desde la semántica global única hasta la semántica multinivel. Sin embargo, estos métodos pueden sufrir las siguientes limitaciones: (1) ignoran en gran medida la relación semántica, lo que resulta en niveles semánticos insuficientes; (2) es incompleto restringir las características de valores reales de diferentes modalidades a estar en el mismo espacio solo a través de la medición de la distancia de características; (3) no logran manejar el problema de que las distribuciones de etiquetas de atributos en diferentes niveles semánticos están muy desequilibradas. Para superar las limitaciones anteriores, este documento propone una nueva red de alineación semántica cruzada multinivel (MCSAN) para la recuperación de video-texto al modelar conjuntamente la similitud de video-texto en los niveles semánticos global, de entidad, de acción y de relación en un modelo profundo unificado. Específicamente, tanto el video como el texto se descomponen primero en niveles semánticos global, de entidad, de acción y de relación mediante el diseño cuidadoso de estructuras de aprendizaje semántico espacio-temporales. Luego, utilizamos KLDivLoss y una capa de proyección de atributos de intercambio de parámetros entre modalidades como restricciones estadísticas para garantizar que las representaciones de diferentes modalidades en diferentes niveles semánticos se proyecten en un espacio semántico común. Además, se presenta una nueva función de pérdida de entropía cruzada binaria focal (FBCE), que es el primer esfuerzo para modelar el problema de distribución de atributos desequilibrados para la recuperación de video-texto. MCSAN es prácticamente efectivo para aprovechar la información complementaria entre los cuatro niveles semánticos. Experimentos extensos en dos desafiantes conjuntos de datos de recuperación de video-texto, a saber, MSR-VTT y VATEX, muestran la viabilidad de nuestro método.

Descripción

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro