HadNet: un enfoque novedoso y ligero para la detección de sonidos anormales en autopistas basado en una red neuronal convolucional 1D y un mecanismo de autoatención de múltiples cabezas
Autores: Liang, Cong; Chen, Qian; Li, Qiran; Wang, Qingnan; Zhao, Kang; Tu, Jihui; Jafaripournimchahi, Ammar
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Vigilancia por video
Gestión del tráfico
Seguridad
Detección de sonidos anormales
CNN 1D
Mecanismo de Autoatención Multi-Cabeza
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La vigilancia por video es una herramienta efectiva para la gestión y seguridad del tráfico, pero puede enfrentar desafíos en condiciones climáticas extremas, baja visibilidad, áreas fuera del campo de visión del monitoreo o durante condiciones nocturnas. Por lo tanto, la detección de sonidos anormales se utiliza en la gestión y seguridad del tráfico como una herramienta auxiliar para complementar la vigilancia por video. En este documento, se propone un método novedoso y ligero para la detección de sonidos anormales basado en CNN 1D y el Mecanismo de Autoatención Multi-Head en el sistema integrado, que se llama HADNet. Primero, se emplea CNN 1D para la extracción de características locales, lo que minimiza la pérdida de información de la señal de audio durante la conversión tiempo-frecuencia y reduce la complejidad computacional. En segundo lugar, el bloque propuesto basado en el Mecanismo de Autoatención Multi-Head no solo mitiga efectivamente el problema de los gradientes desaparecidos, sino que también mejora la precisión de detección. Finalmente, se emplea la función de pérdida conjunta para detectar audio anormal. Esta elección ayuda a abordar problemas relacionados con datos de entrenamiento desequilibrados y superposición de clases, mejorando así el rendimiento del modelo en conjuntos de datos desequilibrados. El método propuesto HADNet fue evaluado en los conjuntos de datos MIVIA Road Events y UrbanSound8K. Los resultados demuestran que el método propuesto para la detección de audio anormal en sistemas integrados logra una alta precisión del 99.6% y un tiempo de detección eficiente de 0.06 s. Este enfoque demuestra ser robusto y adecuado para aplicaciones prácticas en la gestión y seguridad del tráfico. Al abordar los desafíos planteados por los métodos tradicionales de vigilancia por video, HADNet ofrece una solución valiosa y complementaria para mejorar las medidas de seguridad en diversas condiciones de tráfico.
Descripción
La vigilancia por video es una herramienta efectiva para la gestión y seguridad del tráfico, pero puede enfrentar desafíos en condiciones climáticas extremas, baja visibilidad, áreas fuera del campo de visión del monitoreo o durante condiciones nocturnas. Por lo tanto, la detección de sonidos anormales se utiliza en la gestión y seguridad del tráfico como una herramienta auxiliar para complementar la vigilancia por video. En este documento, se propone un método novedoso y ligero para la detección de sonidos anormales basado en CNN 1D y el Mecanismo de Autoatención Multi-Head en el sistema integrado, que se llama HADNet. Primero, se emplea CNN 1D para la extracción de características locales, lo que minimiza la pérdida de información de la señal de audio durante la conversión tiempo-frecuencia y reduce la complejidad computacional. En segundo lugar, el bloque propuesto basado en el Mecanismo de Autoatención Multi-Head no solo mitiga efectivamente el problema de los gradientes desaparecidos, sino que también mejora la precisión de detección. Finalmente, se emplea la función de pérdida conjunta para detectar audio anormal. Esta elección ayuda a abordar problemas relacionados con datos de entrenamiento desequilibrados y superposición de clases, mejorando así el rendimiento del modelo en conjuntos de datos desequilibrados. El método propuesto HADNet fue evaluado en los conjuntos de datos MIVIA Road Events y UrbanSound8K. Los resultados demuestran que el método propuesto para la detección de audio anormal en sistemas integrados logra una alta precisión del 99.6% y un tiempo de detección eficiente de 0.06 s. Este enfoque demuestra ser robusto y adecuado para aplicaciones prácticas en la gestión y seguridad del tráfico. Al abordar los desafíos planteados por los métodos tradicionales de vigilancia por video, HADNet ofrece una solución valiosa y complementaria para mejorar las medidas de seguridad en diversas condiciones de tráfico.