Red de alineación semántica multi-nivel entre modalidades cruzadas para la recuperación de video-texto
Autores: Nian, Fudong; Ding, Ling; Hu, Yuxia; Gu, Yanhong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Mejorar
Recuperación de video-texto
Semántica multi-nivel
Niveles semánticos
Red de alineación semántica cruzada
Problema de distribución de atributos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Este documento busca mejorar el rendimiento de la recuperación de video-texto. Hasta la fecha, se han propuesto muchos algoritmos para facilitar la medida de similitud de la recuperación de video-texto desde la semántica global única hasta la semántica multinivel. Sin embargo, estos métodos pueden sufrir las siguientes limitaciones: (1) ignoran en gran medida la relación semántica, lo que resulta en niveles semánticos insuficientes; (2) es incompleto restringir las características de valores reales de diferentes modalidades a estar en el mismo espacio solo a través de la medición de la distancia de características; (3) no logran manejar el problema de que las distribuciones de etiquetas de atributos en diferentes niveles semánticos están muy desequilibradas. Para superar las limitaciones anteriores, este documento propone una nueva red de alineación semántica cruzada multinivel (MCSAN) para la recuperación de video-texto al modelar conjuntamente la similitud de video-texto en los niveles semánticos global, de entidad, de acción y de relación en un modelo profundo unificado. Específicamente, tanto el video como el texto se descomponen primero en niveles semánticos global, de entidad, de acción y de relación mediante el diseño cuidadoso de estructuras de aprendizaje semántico espacio-temporales. Luego, utilizamos KLDivLoss y una capa de proyección de atributos de intercambio de parámetros entre modalidades como restricciones estadísticas para garantizar que las representaciones de diferentes modalidades en diferentes niveles semánticos se proyecten en un espacio semántico común. Además, se presenta una nueva función de pérdida de entropía cruzada binaria focal (FBCE), que es el primer esfuerzo para modelar el problema de distribución de atributos desequilibrados para la recuperación de video-texto. MCSAN es prácticamente efectivo para aprovechar la información complementaria entre los cuatro niveles semánticos. Experimentos extensos en dos desafiantes conjuntos de datos de recuperación de video-texto, a saber, MSR-VTT y VATEX, muestran la viabilidad de nuestro método.
Descripción
Este documento busca mejorar el rendimiento de la recuperación de video-texto. Hasta la fecha, se han propuesto muchos algoritmos para facilitar la medida de similitud de la recuperación de video-texto desde la semántica global única hasta la semántica multinivel. Sin embargo, estos métodos pueden sufrir las siguientes limitaciones: (1) ignoran en gran medida la relación semántica, lo que resulta en niveles semánticos insuficientes; (2) es incompleto restringir las características de valores reales de diferentes modalidades a estar en el mismo espacio solo a través de la medición de la distancia de características; (3) no logran manejar el problema de que las distribuciones de etiquetas de atributos en diferentes niveles semánticos están muy desequilibradas. Para superar las limitaciones anteriores, este documento propone una nueva red de alineación semántica cruzada multinivel (MCSAN) para la recuperación de video-texto al modelar conjuntamente la similitud de video-texto en los niveles semánticos global, de entidad, de acción y de relación en un modelo profundo unificado. Específicamente, tanto el video como el texto se descomponen primero en niveles semánticos global, de entidad, de acción y de relación mediante el diseño cuidadoso de estructuras de aprendizaje semántico espacio-temporales. Luego, utilizamos KLDivLoss y una capa de proyección de atributos de intercambio de parámetros entre modalidades como restricciones estadísticas para garantizar que las representaciones de diferentes modalidades en diferentes niveles semánticos se proyecten en un espacio semántico común. Además, se presenta una nueva función de pérdida de entropía cruzada binaria focal (FBCE), que es el primer esfuerzo para modelar el problema de distribución de atributos desequilibrados para la recuperación de video-texto. MCSAN es prácticamente efectivo para aprovechar la información complementaria entre los cuatro niveles semánticos. Experimentos extensos en dos desafiantes conjuntos de datos de recuperación de video-texto, a saber, MSR-VTT y VATEX, muestran la viabilidad de nuestro método.