Mejorando los Modelos de Reconocimiento de Habla con Estrategias de Optimización de Características Resilientes al Ruido

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando los Modelos de Reconocimiento de Habla con Estrategias de Optimización de Características Resilientes al Ruido

Autores: Chauhan, Neha; Isshiki, Tsuyoshi; Li, Dongju

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Mejorando los Modelos de Reconocimiento de Habla con Estrategias de Optimización de Características Resilientes al Ruido

Categoría

Artes

Subcategoría

Música

Palabras clave

Metodologías de reconocimiento de hablantes

Fusión a nivel de características

Reducción de dimensiones

Análisis de componentes principales

Análisis de componentes independientes

Optimización de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones

Este documento profundiza en una exploración exhaustiva de las metodologías de reconocimiento de hablantes, con un enfoque principal en tres enfoques fundamentales: fusión a nivel de características, reducción de dimensión utilizando análisis de componentes principales (PCA) y análisis de componentes independientes (ICA), y optimización de características a través de un algoritmo genético (GA) y el algoritmo de depredador marino (MPA). Este estudio realiza experimentos exhaustivos en diversos conjuntos de datos de voz caracterizados por diferentes niveles de ruido y cantidades de hablantes. Impresionantemente, la investigación produce resultados excepcionales en diferentes conjuntos de datos y clasificadores. Por ejemplo, en el conjunto de datos de ruido de charla TIMIT (120 hablantes), la fusión de características logra una notable precisión de identificación de hablantes del 92.7%, mientras que varias técnicas de optimización de características combinadas con clasificadores de vecinos más cercanos (KNN) y discriminante lineal (LD) resultan en una tasa de error igual (SV EER) de 0.7%. Notablemente, este estudio logra una precisión de identificación de hablantes del 93.5% y un SV EER de 0.13% en el conjunto de datos de ruido de charla TIMIT (630 hablantes) utilizando un clasificador KNN con optimización de características. En el conjunto de datos de ruido blanco TIMIT (120 y 630 hablantes), se alcanzaron precisiones de identificación de hablantes del 93.3% y 83.5%, junto con valores de SV EER de 0.58% y 0.13%, respectivamente, utilizando técnicas de reducción de dimensión PCA y optimización de características (PCA-MPA) con clasificadores KNN. Además, en el conjunto de datos voxceleb1, la optimización de características PCA-MPA con clasificadores KNN logra una precisión de identificación de hablantes del 95.2% y un SV EER de 1.8%. Estos hallazgos subrayan la mejora significativa en la velocidad computacional y el rendimiento del reconocimiento de hablantes facilitada por las estrategias de optimización de características.

Descripción

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro