Aprendizaje Profundo para Imágenes de Rayos a Alta Velocidad-Una Comparación de Redes de Segmentación Semántica
Autores: Cross, Tyson; Smit, Jason R.; Schumann, Carina; Warner, Tom A.; Hunt, Hugh G. P.
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Astronomía
Palabras clave
Novela
Aprendizaje profundo
Relámpago
Redes de segmentación
Cámaras de alta velocidad
Procesamiento de imágenes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 6
Citaciones: Sin citaciones
Presentamos un enfoque novedoso de aprendizaje profundo para una aplicación única de procesamiento de imágenes: grabaciones de video a alta velocidad (>1000 fps) de relámpagos. Las cámaras de alta velocidad nos permiten observar relámpagos con resolución de microsegundos, caracterizando procesos clave que anteriormente se analizaban manualmente. Evaluamos diferentes redes de segmentación semántica (DeepLab3+, SegNet, FCN8s, U-Net y AlexNet) y proporcionamos una explicación detallada de los métodos de procesamiento de imágenes para esta imagen única. La arquitectura de nuestro sistema incluye una etapa de procesamiento de imágenes de entrada, una etapa de red de segmentación y una etapa de clasificación de secuencias. Los datos de referencia consisten en videos a alta velocidad de relámpagos filmados en Sudáfrica, totalizando 48,381 fotogramas etiquetados. DeepLab3+ tuvo el mejor rendimiento (93-95% de precisión), seguido por SegNet (92-95% de precisión) y FCN8s (89-90% de precisión). AlexNet y U-Net lograron menos del 80% de precisión. La clasificación de secuencias completas fue del 48.1% y la clasificación de golpes fue del 74.1%, debido a la dependencia lineal de la segmentación. Recomendamos utilizar metadatos de exposición para mejorar las malas clasificaciones de ruido y extender las CNN para usar puertas de acceso con memoria temporal. Este trabajo introduce una nueva aplicación de aprendizaje profundo para imágenes de relámpagos y es uno de los primeros estudios sobre grabaciones de video a alta velocidad utilizando aprendizaje profundo.
Descripción
Presentamos un enfoque novedoso de aprendizaje profundo para una aplicación única de procesamiento de imágenes: grabaciones de video a alta velocidad (>1000 fps) de relámpagos. Las cámaras de alta velocidad nos permiten observar relámpagos con resolución de microsegundos, caracterizando procesos clave que anteriormente se analizaban manualmente. Evaluamos diferentes redes de segmentación semántica (DeepLab3+, SegNet, FCN8s, U-Net y AlexNet) y proporcionamos una explicación detallada de los métodos de procesamiento de imágenes para esta imagen única. La arquitectura de nuestro sistema incluye una etapa de procesamiento de imágenes de entrada, una etapa de red de segmentación y una etapa de clasificación de secuencias. Los datos de referencia consisten en videos a alta velocidad de relámpagos filmados en Sudáfrica, totalizando 48,381 fotogramas etiquetados. DeepLab3+ tuvo el mejor rendimiento (93-95% de precisión), seguido por SegNet (92-95% de precisión) y FCN8s (89-90% de precisión). AlexNet y U-Net lograron menos del 80% de precisión. La clasificación de secuencias completas fue del 48.1% y la clasificación de golpes fue del 74.1%, debido a la dependencia lineal de la segmentación. Recomendamos utilizar metadatos de exposición para mejorar las malas clasificaciones de ruido y extender las CNN para usar puertas de acceso con memoria temporal. Este trabajo introduce una nueva aplicación de aprendizaje profundo para imágenes de relámpagos y es uno de los primeros estudios sobre grabaciones de video a alta velocidad utilizando aprendizaje profundo.