logo móvil
Contáctanos

Separación de voz utilizando una Red Neuronal Convolucional y un Mecanismo de Atención.

Autores: Yuan, Chun-Miao; Sun, Xue-Mei; Zhao, Hu

Idioma: Inglés

Editor: Hindawi

Año: 2020

Ver Artículo científico

Acceso abierto

Artículo científico


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Discurso
Modelo de separación
Redes neuronales convolucionales
Mecanismo de atención
Señales de sonido mixtas
Alta dimensionalidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
La información del habla es el medio de comunicación más importante entre los seres humanos, y es crucial separar la voz objetivo de las señales de sonido mixtas. Este documento propone un modelo de separación de habla basado en redes neuronales convolucionales y mecanismos de atención. El espectro de magnitud de las señales de habla mixtas, como entrada, tiene una alta dimensionalidad. Al analizar las características de la red neuronal convolucional y el mecanismo de atención, se puede observar que la red neuronal convolucional puede extraer eficazmente características de baja dimensionalidad y extraer información de estructura espacio-temporal en las señales de habla, y el mecanismo de atención puede reducir la pérdida de información secuencial. La precisión de la separación de habla puede mejorarse eficazmente al combinar estos dos mecanismos. En comparación con el modelo de separación de habla típico DRNN-2+discrim, este método logra una ganancia de 0.27dB en GNSDR y 0.51dB en GSIR, lo que demuestra

Documentos Relacionados

Temas Virtualpro