Separación de voz utilizando una Red Neuronal Convolucional y un Mecanismo de Atención.
Autores: Yuan, Chun-Miao; Sun, Xue-Mei; Zhao, Hu
Idioma: Inglés
Editor: Hindawi
Año: 2020
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Discurso
Modelo de separación
Redes neuronales convolucionales
Mecanismo de atención
Señales de sonido mixtas
Alta dimensionalidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La información del habla es el medio de comunicación más importante entre los seres humanos, y es crucial separar la voz objetivo de las señales de sonido mixtas. Este documento propone un modelo de separación de habla basado en redes neuronales convolucionales y mecanismos de atención. El espectro de magnitud de las señales de habla mixtas, como entrada, tiene una alta dimensionalidad. Al analizar las características de la red neuronal convolucional y el mecanismo de atención, se puede observar que la red neuronal convolucional puede extraer eficazmente características de baja dimensionalidad y extraer información de estructura espacio-temporal en las señales de habla, y el mecanismo de atención puede reducir la pérdida de información secuencial. La precisión de la separación de habla puede mejorarse eficazmente al combinar estos dos mecanismos. En comparación con el modelo de separación de habla típico DRNN-2+discrim, este método logra una ganancia de 0.27dB en GNSDR y 0.51dB en GSIR, lo que demuestra
Descripción
La información del habla es el medio de comunicación más importante entre los seres humanos, y es crucial separar la voz objetivo de las señales de sonido mixtas. Este documento propone un modelo de separación de habla basado en redes neuronales convolucionales y mecanismos de atención. El espectro de magnitud de las señales de habla mixtas, como entrada, tiene una alta dimensionalidad. Al analizar las características de la red neuronal convolucional y el mecanismo de atención, se puede observar que la red neuronal convolucional puede extraer eficazmente características de baja dimensionalidad y extraer información de estructura espacio-temporal en las señales de habla, y el mecanismo de atención puede reducir la pérdida de información secuencial. La precisión de la separación de habla puede mejorarse eficazmente al combinar estos dos mecanismos. En comparación con el modelo de separación de habla típico DRNN-2+discrim, este método logra una ganancia de 0.27dB en GNSDR y 0.51dB en GSIR, lo que demuestra