logo móvil
Contáctanos

Hacia el mapeo de imágenes a texto utilizando arquitecturas de aprendizaje profundo

Autores: Onita, Daniela; Birlutiu, Adriana; Dinu, Liviu P.

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Imágenes
Texto
Mapeo
Aprendizaje profundo
Red neuronal
ResNet50

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
Las imágenes y el texto representan tipos de contenido que se utilizan juntos para transmitir un mensaje. El proceso de mapeo de imágenes a texto puede proporcionar información muy útil y puede incluirse en muchas aplicaciones del ámbito médico, aplicaciones para personas ciegas, redes sociales, etc. En este documento, investigamos un enfoque para mapear imágenes a texto utilizando un modelo de Regresión de Ridge de Kernel. Consideramos dos tipos de características: características simples de valor de píxeles RGB e características de imágenes extraídas con enfoques de aprendizaje profundo. Investigamos varias arquitecturas de redes neuronales para la extracción de características de imagen: VGG16, Inception V3, ResNet50, Xception. La evaluación experimental se realizó en tres conjuntos de datos de diferentes dominios. Los textos asociados con las imágenes representan descripciones objetivas para dos de los tres conjuntos de datos y descripciones subjetivas para el otro conjunto de datos. Los resultados experimentales muestran que los enfoques de aprendizaje profundo más complejos que se utilizaron para la extracción de características funcionan mejor que los enfoques simples de valor de píxeles RGB. Además, la arquitectura de red ResNet50 funciona mejor en comparación con las otras tres arquitecturas de redes profundas consideradas para la extracción de características de imagen. El error del modelo obtenido utilizando la red ResNet50 es menor en aproximadamente 0.30 que otras arquitecturas de redes neuronales. Extraímos descriptores de lenguaje natural de imágenes y realizamos una comparación entre palabras descriptivas originales y generadas. Además, investigamos si hay una diferencia en el rendimiento entre el tipo de texto asociado con las imágenes: subjetivo u objetivo. El modelo propuesto generó descripciones más similares a las originales para el conjunto de datos que contiene descripciones objetivas cuyo vocabulario es más simple, más grande y más claro.

Documentos Relacionados

Temas Virtualpro