SceneGATE: Redes de Co-Atención Basadas en Grafos de Escena para la Respuesta a Preguntas Visuales de Texto
Autores: Cao, Feiqi; Luo, Siwen; Nunez, Felipe; Wen, Zean; Poon, Josiah; Han, Soyeon Caren
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 9
Citaciones: Sin citaciones
Los modelos de Respuesta a Preguntas Visuales (VQA) fallan catastróficamente en preguntas relacionadas con la lectura de imágenes que contienen texto. Sin embargo, TextVQA tiene como objetivo responder preguntas comprendiendo los textos de la escena en un contexto de imagen-pregunta, como el nombre de la marca de un producto o la hora en un reloj a partir de una imagen. La mayoría de los enfoques de TextVQA se centran en la detección de objetos y textos de escena, que luego se integran con las palabras de una pregunta mediante un simple codificador transformer. El enfoque de estos métodos es utilizar pesos compartidos durante el entrenamiento de un conjunto de datos multimodal, pero no logra capturar las relaciones semánticas entre una imagen y una pregunta. En este artículo, proponemos una Red de Co-Atención Basada en Grafos de Escena (SceneGATE) para TextVQA, que revela las relaciones semánticas entre los objetos, los tokens de Reconocimiento Óptico de Caracteres (OCR) y las palabras de la pregunta. Esto se logra mediante un grafo de escena basado en TextVQA que descubre la semántica subyacente de una imagen. Creamos un módulo de atención guiada para capturar la interacción intra-modal entre el lenguaje y la visión como una guía para las interacciones inter-modal. Para permitir la enseñanza explícita de las relaciones entre las dos modalidades, proponemos e integramos dos módulos de atención, a saber, una atención consciente de relaciones semánticas basada en grafos de escena y una atención consciente de relaciones posicionales. Realizamos experimentos extensivos en dos conjuntos de datos de referencia ampliamente utilizados, Text-VQA y ST-VQA. Se demuestra que nuestro método SceneGATE supera a los existentes debido al grafo de escena y sus módulos de atención.
Descripción
Los modelos de Respuesta a Preguntas Visuales (VQA) fallan catastróficamente en preguntas relacionadas con la lectura de imágenes que contienen texto. Sin embargo, TextVQA tiene como objetivo responder preguntas comprendiendo los textos de la escena en un contexto de imagen-pregunta, como el nombre de la marca de un producto o la hora en un reloj a partir de una imagen. La mayoría de los enfoques de TextVQA se centran en la detección de objetos y textos de escena, que luego se integran con las palabras de una pregunta mediante un simple codificador transformer. El enfoque de estos métodos es utilizar pesos compartidos durante el entrenamiento de un conjunto de datos multimodal, pero no logra capturar las relaciones semánticas entre una imagen y una pregunta. En este artículo, proponemos una Red de Co-Atención Basada en Grafos de Escena (SceneGATE) para TextVQA, que revela las relaciones semánticas entre los objetos, los tokens de Reconocimiento Óptico de Caracteres (OCR) y las palabras de la pregunta. Esto se logra mediante un grafo de escena basado en TextVQA que descubre la semántica subyacente de una imagen. Creamos un módulo de atención guiada para capturar la interacción intra-modal entre el lenguaje y la visión como una guía para las interacciones inter-modal. Para permitir la enseñanza explícita de las relaciones entre las dos modalidades, proponemos e integramos dos módulos de atención, a saber, una atención consciente de relaciones semánticas basada en grafos de escena y una atención consciente de relaciones posicionales. Realizamos experimentos extensivos en dos conjuntos de datos de referencia ampliamente utilizados, Text-VQA y ST-VQA. Se demuestra que nuestro método SceneGATE supera a los existentes debido al grafo de escena y sus módulos de atención.