Biblioteca76.964 documentos en línea

Artículo

Utterance Clustering Using Stereo Audio ChannelsAgrupación de expresiones mediante canales de audio estéreo

Resumen

La agrupación de expresiones es uno de los temas más investigados en el procesamiento de señales de audio y el aprendizaje automático. El objetivo de este estudio es mejorar el rendimiento de la agrupación de expresiones mediante el procesamiento de señales de audio multicanal (estéreo). Las señales de audio procesadas se generaron combinando las señales de audio de los canales izquierdo y derecho de diferentes maneras y, a continuación, extrayendo las características incrustadas (también llamadas vectores d) de esas señales de audio procesadas. En este estudio se aplicó el modelo de mezcla gaussiana para la agrupación supervisada de los enunciados. En la fase de entrenamiento, se obtuvo un modelo de mezcla gaussiana con parámetros compartidos para entrenar el modelo de cada hablante. En la fase de prueba, se seleccionó el hablante con la máxima probabilidad como hablante detectado. Los resultados de los experimentos con grabaciones de audio reales de sesiones de debate entre varias personas mostraron que el método propuesto que utilizaba señales de audio multicanal lograba un rendimiento significativamente mejor que un método convencional con señales de audio mono en condiciones más complicadas.

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento