Autocodificadores basados en redes neuronales profundas para la detección de novedades acústicas
Autores: Erik, Marchi; Fabio, Vesperini; Stefano, Squartini; Björn, Schuller
Idioma: Inglés
Editor: Hindawi
Año: 2017
Acceso abierto
Artículo científico
2017
Autocodificadores basados en redes neuronales profundas para la detección de novedades acústicasCategoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
En el campo emergente de la detección de novedades acústicas, la mayor parte de los esfuerzos de investigación se dedican a enfoques probabilísticos como los modelos de mezcla o los modelos de espacio de estados. Sólo estudios recientes han introducido modelos (pseudo)generativos para la detección de novedades acústicas con redes neuronales recurrentes en forma de autoencoder. En estos enfoques, las características espectrales auditivas del siguiente fotograma a corto plazo se predicen a partir de los fotogramas anteriores mediante autocodificadores recurrentes de eliminación de ruido de memoria a largo plazo. El error de reconstrucción entre la entrada y la salida del autocodificador se utiliza como señal de activación para detectar nuevos eventos. No existen estudios centrados en la comparación de esfuerzos anteriores para reconocer automáticamente eventos novedosos a partir de señales de audio y que ofrezcan una evaluación amplia y en profundidad de los autocodificadores basados en redes neuronales recurrentes. La presente contribución tiene como objetivo evaluar de forma consistente nuestros recientes enfoques novedosos para llenar este punto blanco en la literatura y proporcionar una visión por medio de evaluaciones extensas llevadas a cabo en tres bases de datos: A3Novelty, PASCAL CHiME y PROMETHEUS. Además de ofrecer un amplio análisis de los métodos novedosos y de vanguardia, el artículo muestra cómo los autocodificadores basados en RNN superan a los enfoques estadísticos hasta una mejora absoluta del 16,4
de la medida F en las tres bases de datos.
Descripción
En el campo emergente de la detección de novedades acústicas, la mayor parte de los esfuerzos de investigación se dedican a enfoques probabilísticos como los modelos de mezcla o los modelos de espacio de estados. Sólo estudios recientes han introducido modelos (pseudo)generativos para la detección de novedades acústicas con redes neuronales recurrentes en forma de autoencoder. En estos enfoques, las características espectrales auditivas del siguiente fotograma a corto plazo se predicen a partir de los fotogramas anteriores mediante autocodificadores recurrentes de eliminación de ruido de memoria a largo plazo. El error de reconstrucción entre la entrada y la salida del autocodificador se utiliza como señal de activación para detectar nuevos eventos. No existen estudios centrados en la comparación de esfuerzos anteriores para reconocer automáticamente eventos novedosos a partir de señales de audio y que ofrezcan una evaluación amplia y en profundidad de los autocodificadores basados en redes neuronales recurrentes. La presente contribución tiene como objetivo evaluar de forma consistente nuestros recientes enfoques novedosos para llenar este punto blanco en la literatura y proporcionar una visión por medio de evaluaciones extensas llevadas a cabo en tres bases de datos: A3Novelty, PASCAL CHiME y PROMETHEUS. Además de ofrecer un amplio análisis de los métodos novedosos y de vanguardia, el artículo muestra cómo los autocodificadores basados en RNN superan a los enfoques estadísticos hasta una mejora absoluta del 16,4
de la medida F en las tres bases de datos.