Detección de Doble Habla Asistida por Supresión de Eco Residual a través de Enmascaramiento y Refinamiento de Espectrogramas
Autores: Shachar, Eran; Cohen, Israel; Berdugo, Baruch
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Artes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 9
Citaciones: Sin citaciones
El eco acústico en sistemas de telecomunicaciones de dúplex completo es un problema común que puede causar degradación de la calidad del habla deseada durante los períodos de doble conversación. Este problema es especialmente desafiante en escenarios de baja relación señal-eco (SER), como las conversaciones manos libres a través de teléfonos móviles cuando el volumen del altavoz es alto. Este artículo propone un enfoque de aprendizaje profundo en dos etapas para la supresión de eco residual centrado en el escenario de baja SER. La primera etapa consiste en un modelo de enmascaramiento de espectrograma de habla integrado con un detector de doble conversación (DTD). La segunda etapa consiste en un modelo de refinamiento de espectrograma optimizado para la calidad del habla mediante la minimización de una función de pérdida relacionada con la evaluación perceptual de la calidad del habla (PESQ). La integración propuesta de DTD con el modelo de enmascaramiento supera varias otras configuraciones basadas en estudios previos. Realizamos un estudio de ablación que muestra la contribución de cada parte del sistema propuesto. Evaluamos el sistema propuesto en varias SER y demostramos su eficiencia en el entorno desafiante de una SER muy baja. Finalmente, el enfoque propuesto supera a los métodos competidores en varias métricas de supresión de eco residual. Concluimos que el sistema propuesto es adecuado para la tarea de supresión de eco residual en baja SER.
Descripción
El eco acústico en sistemas de telecomunicaciones de dúplex completo es un problema común que puede causar degradación de la calidad del habla deseada durante los períodos de doble conversación. Este problema es especialmente desafiante en escenarios de baja relación señal-eco (SER), como las conversaciones manos libres a través de teléfonos móviles cuando el volumen del altavoz es alto. Este artículo propone un enfoque de aprendizaje profundo en dos etapas para la supresión de eco residual centrado en el escenario de baja SER. La primera etapa consiste en un modelo de enmascaramiento de espectrograma de habla integrado con un detector de doble conversación (DTD). La segunda etapa consiste en un modelo de refinamiento de espectrograma optimizado para la calidad del habla mediante la minimización de una función de pérdida relacionada con la evaluación perceptual de la calidad del habla (PESQ). La integración propuesta de DTD con el modelo de enmascaramiento supera varias otras configuraciones basadas en estudios previos. Realizamos un estudio de ablación que muestra la contribución de cada parte del sistema propuesto. Evaluamos el sistema propuesto en varias SER y demostramos su eficiencia en el entorno desafiante de una SER muy baja. Finalmente, el enfoque propuesto supera a los métodos competidores en varias métricas de supresión de eco residual. Concluimos que el sistema propuesto es adecuado para la tarea de supresión de eco residual en baja SER.