Mejorando los Modelos de Reconocimiento de Habla con Estrategias de Optimización de Características Resilientes al Ruido
Autores: Chauhan, Neha; Isshiki, Tsuyoshi; Li, Dongju
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
Categoría
Artes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 8
Citaciones: Sin citaciones
Este documento profundiza en una exploración exhaustiva de las metodologías de reconocimiento de hablantes, con un enfoque principal en tres enfoques fundamentales: fusión a nivel de características, reducción de dimensión utilizando análisis de componentes principales (PCA) y análisis de componentes independientes (ICA), y optimización de características a través de un algoritmo genético (GA) y el algoritmo de depredador marino (MPA). Este estudio realiza experimentos exhaustivos en diversos conjuntos de datos de voz caracterizados por diferentes niveles de ruido y cantidades de hablantes. Impresionantemente, la investigación produce resultados excepcionales en diferentes conjuntos de datos y clasificadores. Por ejemplo, en el conjunto de datos de ruido de charla TIMIT (120 hablantes), la fusión de características logra una notable precisión de identificación de hablantes del 92.7%, mientras que varias técnicas de optimización de características combinadas con clasificadores de vecinos más cercanos (KNN) y discriminante lineal (LD) resultan en una tasa de error igual (SV EER) de 0.7%. Notablemente, este estudio logra una precisión de identificación de hablantes del 93.5% y un SV EER de 0.13% en el conjunto de datos de ruido de charla TIMIT (630 hablantes) utilizando un clasificador KNN con optimización de características. En el conjunto de datos de ruido blanco TIMIT (120 y 630 hablantes), se alcanzaron precisiones de identificación de hablantes del 93.3% y 83.5%, junto con valores de SV EER de 0.58% y 0.13%, respectivamente, utilizando técnicas de reducción de dimensión PCA y optimización de características (PCA-MPA) con clasificadores KNN. Además, en el conjunto de datos voxceleb1, la optimización de características PCA-MPA con clasificadores KNN logra una precisión de identificación de hablantes del 95.2% y un SV EER de 1.8%. Estos hallazgos subrayan la mejora significativa en la velocidad computacional y el rendimiento del reconocimiento de hablantes facilitada por las estrategias de optimización de características.
Descripción
Este documento profundiza en una exploración exhaustiva de las metodologías de reconocimiento de hablantes, con un enfoque principal en tres enfoques fundamentales: fusión a nivel de características, reducción de dimensión utilizando análisis de componentes principales (PCA) y análisis de componentes independientes (ICA), y optimización de características a través de un algoritmo genético (GA) y el algoritmo de depredador marino (MPA). Este estudio realiza experimentos exhaustivos en diversos conjuntos de datos de voz caracterizados por diferentes niveles de ruido y cantidades de hablantes. Impresionantemente, la investigación produce resultados excepcionales en diferentes conjuntos de datos y clasificadores. Por ejemplo, en el conjunto de datos de ruido de charla TIMIT (120 hablantes), la fusión de características logra una notable precisión de identificación de hablantes del 92.7%, mientras que varias técnicas de optimización de características combinadas con clasificadores de vecinos más cercanos (KNN) y discriminante lineal (LD) resultan en una tasa de error igual (SV EER) de 0.7%. Notablemente, este estudio logra una precisión de identificación de hablantes del 93.5% y un SV EER de 0.13% en el conjunto de datos de ruido de charla TIMIT (630 hablantes) utilizando un clasificador KNN con optimización de características. En el conjunto de datos de ruido blanco TIMIT (120 y 630 hablantes), se alcanzaron precisiones de identificación de hablantes del 93.3% y 83.5%, junto con valores de SV EER de 0.58% y 0.13%, respectivamente, utilizando técnicas de reducción de dimensión PCA y optimización de características (PCA-MPA) con clasificadores KNN. Además, en el conjunto de datos voxceleb1, la optimización de características PCA-MPA con clasificadores KNN logra una precisión de identificación de hablantes del 95.2% y un SV EER de 1.8%. Estos hallazgos subrayan la mejora significativa en la velocidad computacional y el rendimiento del reconocimiento de hablantes facilitada por las estrategias de optimización de características.