logo móvil

Mejorando los Modelos de Reconocimiento de Habla con Estrategias de Optimización de Características Resilientes al Ruido

Autores: Chauhan, Neha; Isshiki, Tsuyoshi; Li, Dongju

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Artes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 8

Citaciones: Sin citaciones


Descripción
Este documento profundiza en una exploración exhaustiva de las metodologías de reconocimiento de hablantes, con un enfoque principal en tres enfoques fundamentales: fusión a nivel de características, reducción de dimensión utilizando análisis de componentes principales (PCA) y análisis de componentes independientes (ICA), y optimización de características a través de un algoritmo genético (GA) y el algoritmo de depredador marino (MPA). Este estudio realiza experimentos exhaustivos en diversos conjuntos de datos de voz caracterizados por diferentes niveles de ruido y cantidades de hablantes. Impresionantemente, la investigación produce resultados excepcionales en diferentes conjuntos de datos y clasificadores. Por ejemplo, en el conjunto de datos de ruido de charla TIMIT (120 hablantes), la fusión de características logra una notable precisión de identificación de hablantes del 92.7%, mientras que varias técnicas de optimización de características combinadas con clasificadores de vecinos más cercanos (KNN) y discriminante lineal (LD) resultan en una tasa de error igual (SV EER) de 0.7%. Notablemente, este estudio logra una precisión de identificación de hablantes del 93.5% y un SV EER de 0.13% en el conjunto de datos de ruido de charla TIMIT (630 hablantes) utilizando un clasificador KNN con optimización de características. En el conjunto de datos de ruido blanco TIMIT (120 y 630 hablantes), se alcanzaron precisiones de identificación de hablantes del 93.3% y 83.5%, junto con valores de SV EER de 0.58% y 0.13%, respectivamente, utilizando técnicas de reducción de dimensión PCA y optimización de características (PCA-MPA) con clasificadores KNN. Además, en el conjunto de datos voxceleb1, la optimización de características PCA-MPA con clasificadores KNN logra una precisión de identificación de hablantes del 95.2% y un SV EER de 1.8%. Estos hallazgos subrayan la mejora significativa en la velocidad computacional y el rendimiento del reconocimiento de hablantes facilitada por las estrategias de optimización de características.

Documentos Relacionados

Temas Virtualpro