SceneGATE: Redes de Co-Atención Basadas en Grafos de Escena para la Respuesta a Preguntas Visuales de Texto

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

SceneGATE: Redes de Co-Atención Basadas en Grafos de Escena para la Respuesta a Preguntas Visuales de Texto

Autores: Cao, Feiqi; Luo, Siwen; Nunez, Felipe; Wen, Zean; Poon, Josiah; Han, Soyeon Caren

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

SceneGATE: Redes de Co-Atención Basadas en Grafos de Escena para la Respuesta a Preguntas Visuales de Texto

Categoría

Ingeniería y Tecnología

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones

Los modelos de Respuesta a Preguntas Visuales (VQA) fallan catastróficamente en preguntas relacionadas con la lectura de imágenes que contienen texto. Sin embargo, TextVQA tiene como objetivo responder preguntas comprendiendo los textos de la escena en un contexto de imagen-pregunta, como el nombre de la marca de un producto o la hora en un reloj a partir de una imagen. La mayoría de los enfoques de TextVQA se centran en la detección de objetos y textos de escena, que luego se integran con las palabras de una pregunta mediante un simple codificador transformer. El enfoque de estos métodos es utilizar pesos compartidos durante el entrenamiento de un conjunto de datos multimodal, pero no logra capturar las relaciones semánticas entre una imagen y una pregunta. En este artículo, proponemos una Red de Co-Atención Basada en Grafos de Escena (SceneGATE) para TextVQA, que revela las relaciones semánticas entre los objetos, los tokens de Reconocimiento Óptico de Caracteres (OCR) y las palabras de la pregunta. Esto se logra mediante un grafo de escena basado en TextVQA que descubre la semántica subyacente de una imagen. Creamos un módulo de atención guiada para capturar la interacción intra-modal entre el lenguaje y la visión como una guía para las interacciones inter-modal. Para permitir la enseñanza explícita de las relaciones entre las dos modalidades, proponemos e integramos dos módulos de atención, a saber, una atención consciente de relaciones semánticas basada en grafos de escena y una atención consciente de relaciones posicionales. Realizamos experimentos extensivos en dos conjuntos de datos de referencia ampliamente utilizados, Text-VQA y ST-VQA. Se demuestra que nuestro método SceneGATE supera a los existentes debido al grafo de escena y sus módulos de atención.

Descripción

Categoría

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro