La agrupación de expresiones es uno de los temas más investigados en el procesamiento de señales de audio y el aprendizaje automático. El objetivo de este estudio es mejorar el rendimiento de la agrupación de expresiones mediante el procesamiento de señales de audio multicanal (estéreo). Las señales de audio procesadas se generaron combinando las señales de audio de los canales izquierdo y derecho de diferentes maneras y, a continuación, extrayendo las características incrustadas (también llamadas vectores d) de esas señales de audio procesadas. En este estudio se aplicó el modelo de mezcla gaussiana para la agrupación supervisada de los enunciados. En la fase de entrenamiento, se obtuvo un modelo de mezcla gaussiana con parámetros compartidos para entrenar el modelo de cada hablante. En la fase de prueba, se seleccionó el hablante con la máxima probabilidad como hablante detectado. Los resultados de los experimentos con grabaciones de audio reales de sesiones de debate entre varias personas mostraron que el método propuesto que utilizaba señales de audio multicanal lograba un rendimiento significativamente mejor que un método convencional con señales de audio mono en condiciones más complicadas.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Diseño estructural y análisis de las prestaciones de estanqueidad de un anillo de sellado biomimético
Artículo:
Estudio sobre la Intervención del Síndrome de la Enfermedad Hepática Grasa No Alcohólica desde la Perspectiva de la Deficiencia y el Exceso
Artículo:
Ensamblajes lineales de nanohojas de BN, fabricados en una película compuesta de polímero/nanohojas de BN
Artículo:
Caracterización de nanopolvos de LiCoO2 producidos por procesamiento Sol-Gel
Artículo:
Mecanismo de adhesión de gotas de agua sobre una superficie de pétalos de rosa superhidrofóbica jerárquicamente rugosa