Hacia el mapeo de imágenes a texto utilizando arquitecturas de aprendizaje profundo
Autores: Onita, Daniela; Birlutiu, Adriana; Dinu, Liviu P.
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Imágenes
Texto
Mapeo
Aprendizaje profundo
Red neuronal
ResNet50
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Las imágenes y el texto representan tipos de contenido que se utilizan juntos para transmitir un mensaje. El proceso de mapeo de imágenes a texto puede proporcionar información muy útil y puede incluirse en muchas aplicaciones del ámbito médico, aplicaciones para personas ciegas, redes sociales, etc. En este documento, investigamos un enfoque para mapear imágenes a texto utilizando un modelo de Regresión de Ridge de Kernel. Consideramos dos tipos de características: características simples de valor de píxeles RGB e características de imágenes extraídas con enfoques de aprendizaje profundo. Investigamos varias arquitecturas de redes neuronales para la extracción de características de imagen: VGG16, Inception V3, ResNet50, Xception. La evaluación experimental se realizó en tres conjuntos de datos de diferentes dominios. Los textos asociados con las imágenes representan descripciones objetivas para dos de los tres conjuntos de datos y descripciones subjetivas para el otro conjunto de datos. Los resultados experimentales muestran que los enfoques de aprendizaje profundo más complejos que se utilizaron para la extracción de características funcionan mejor que los enfoques simples de valor de píxeles RGB. Además, la arquitectura de red ResNet50 funciona mejor en comparación con las otras tres arquitecturas de redes profundas consideradas para la extracción de características de imagen. El error del modelo obtenido utilizando la red ResNet50 es menor en aproximadamente 0.30 que otras arquitecturas de redes neuronales. Extraímos descriptores de lenguaje natural de imágenes y realizamos una comparación entre palabras descriptivas originales y generadas. Además, investigamos si hay una diferencia en el rendimiento entre el tipo de texto asociado con las imágenes: subjetivo u objetivo. El modelo propuesto generó descripciones más similares a las originales para el conjunto de datos que contiene descripciones objetivas cuyo vocabulario es más simple, más grande y más claro.
Descripción
Las imágenes y el texto representan tipos de contenido que se utilizan juntos para transmitir un mensaje. El proceso de mapeo de imágenes a texto puede proporcionar información muy útil y puede incluirse en muchas aplicaciones del ámbito médico, aplicaciones para personas ciegas, redes sociales, etc. En este documento, investigamos un enfoque para mapear imágenes a texto utilizando un modelo de Regresión de Ridge de Kernel. Consideramos dos tipos de características: características simples de valor de píxeles RGB e características de imágenes extraídas con enfoques de aprendizaje profundo. Investigamos varias arquitecturas de redes neuronales para la extracción de características de imagen: VGG16, Inception V3, ResNet50, Xception. La evaluación experimental se realizó en tres conjuntos de datos de diferentes dominios. Los textos asociados con las imágenes representan descripciones objetivas para dos de los tres conjuntos de datos y descripciones subjetivas para el otro conjunto de datos. Los resultados experimentales muestran que los enfoques de aprendizaje profundo más complejos que se utilizaron para la extracción de características funcionan mejor que los enfoques simples de valor de píxeles RGB. Además, la arquitectura de red ResNet50 funciona mejor en comparación con las otras tres arquitecturas de redes profundas consideradas para la extracción de características de imagen. El error del modelo obtenido utilizando la red ResNet50 es menor en aproximadamente 0.30 que otras arquitecturas de redes neuronales. Extraímos descriptores de lenguaje natural de imágenes y realizamos una comparación entre palabras descriptivas originales y generadas. Además, investigamos si hay una diferencia en el rendimiento entre el tipo de texto asociado con las imágenes: subjetivo u objetivo. El modelo propuesto generó descripciones más similares a las originales para el conjunto de datos que contiene descripciones objetivas cuyo vocabulario es más simple, más grande y más claro.