Traducción no supervisada de imágenes utilizando GAN residual de múltiples escalas
Autores: Zhang, Yifei; Li, Weipeng; Wang, Daling; Feng, Shi
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Procesamiento de imágenes
Visión por computadora
Red generativa adversaria
Aprendizaje no supervisado
Traducción de imágenes
GAN de Wasserstein
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
La traducción de imágenes es un problema clásico en el procesamiento de imágenes y la visión por computadora para transformar una imagen de un dominio a otro mediante el aprendizaje del mapeo entre una imagen de entrada y una imagen de salida. En este artículo se propone una nueva Red Generativa Adversarial Residual Multi-escala (MRGAN) basada en el aprendizaje no supervisado para transformar imágenes entre diferentes dominios utilizando datos no emparejados. En el modelo, se utiliza una arquitectura de doble generador para eliminar la dependencia de las muestras de entrenamiento emparejadas e introducir una red residual en capas multi-escala en los generadores para reducir la pérdida semántica de las imágenes en el proceso de codificación. La arquitectura de Wasserstein GAN con penalización de gradiente (WGAN-GP) se emplea en el discriminador para optimizar el proceso de entrenamiento y acelerar la convergencia de la red. Experimentos comparativos en varias tareas de traducción de imágenes sobre transferencias de estilo y migraciones de objetos muestran que el MRGAN propuesto supera a modelos base sólidos por márgenes significativos.
Descripción
La traducción de imágenes es un problema clásico en el procesamiento de imágenes y la visión por computadora para transformar una imagen de un dominio a otro mediante el aprendizaje del mapeo entre una imagen de entrada y una imagen de salida. En este artículo se propone una nueva Red Generativa Adversarial Residual Multi-escala (MRGAN) basada en el aprendizaje no supervisado para transformar imágenes entre diferentes dominios utilizando datos no emparejados. En el modelo, se utiliza una arquitectura de doble generador para eliminar la dependencia de las muestras de entrenamiento emparejadas e introducir una red residual en capas multi-escala en los generadores para reducir la pérdida semántica de las imágenes en el proceso de codificación. La arquitectura de Wasserstein GAN con penalización de gradiente (WGAN-GP) se emplea en el discriminador para optimizar el proceso de entrenamiento y acelerar la convergencia de la red. Experimentos comparativos en varias tareas de traducción de imágenes sobre transferencias de estilo y migraciones de objetos muestran que el MRGAN propuesto supera a modelos base sólidos por márgenes significativos.