En 2022, la Universidad del Cauca desarrolló un innovador algoritmo de reconocimiento de voz para la lengua nasa yuwe, de gran riqueza fonética, utilizando redes neuronales convolucionales (CNN). Con 32 vocales y 34 consonantes, la lengua planteaba retos en la pronunciación y el reconocimiento de patrones de voz. El objetivo era implantar un sistema de reconocimiento del habla asistido por CNN que incluyera el preprocesamiento de la señal de audio, la extracción del escalograma del coeficiente de Mel y una arquitectura CNN para la clasificación. Los resultados demostraron márgenes de error bajos en la clasificación de palabras, estableciendo el primer sistema de reconocimiento de voz de su clase para Nasa Yuwe. A pesar de sus limitaciones, como la necesidad de más patrones de voz nativos y de herramientas tecnológicas adicionales, el sistema contribuye a la preservación y educación de la lengua.
1. INTRODUCCIÓN
Un Sistema de Reconocimiento de Voz (SRV) representa el conjunto de técnicas y algoritmos utilizados por una herramienta computacional para identificar y transformar un patrón de voz, de tal forma que permita la interacción hombre-máquina, con el fin de resolver una determinada necesidad [1]. Los SRV han cobrado especial relevancia, sobre todo por su versatilidad y funcionalidad en aplicaciones y usos diversos como la medicina, la robótica y las tecnologías domóticas, entre otros, haciendo que los dispositivos que manejan este tipo de interfaz sean cada vez más precisos y fáciles de manejar [2] [3] [4]. Los modelos VRS suelen tener las siguientes etapas: Adquisición de la señal de voz, preprocesamiento de la señal, reconocimiento y clasificación de los patrones de la señal de voz [5]. Para conseguir un SRV con márgenes de error fiables, es necesario utilizar técnicas de extracción de las características de los patrones de voz[6], entre las más utilizadas se encuentran: 1-) los escalogramas obtenidos a partir de los coeficientes Mel, los MFCC (Mel Frequency Cepstral Coefficients), que están asociados a la percepción neurológica del sonido, y en la mayoría de los casos se utilizan para identificar al locutor y no la palabra hablada[7]; 2-) las características proporcionadas por la aplicación de la transformada Wavelet, que permiten un amplio abanico de posibilidades dado el número de familias existentes, aunque las transformadas wavelet suelen ser sensibles a las variaciones de volumen en las muestras de audio [8]; 3-) la transformada de Fourier que proporciona información sobre los patrones del habla en el dominio de la frecuencia, pero no proporciona información sobre sus variaciones temporales [9]. Una ventaja de los SRV es que pueden trabajar con una gran cantidad de vocabulario sin dificultad, y el tiempo de pro-cesamiento es bajo, lo que permite al usuario evaluar satisfactoriamente el rendimiento del SRV [10].
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Estudio de técnicas automáticas de detección de vulnerabilidades del software, reparación de programas y predicción de defectos
Artículo:
Impacto de la Tecnología de Comunicación Usada en el Sistema de Navegación para Entornos Híbridos
Artículo:
Un Método de Índice Novel para Consultas de Objetos K Más Cercanos en Redes de Carreteras Dependientes del Tiempo
Artículo:
Aplicación de la teoría de catástrofes a la detección de anomalías de red en el tráfico de computación en nube
Artículo:
Clasificación de tareas basada en la consolidación consciente de la energía en la nube
Informe, reporte:
Diagnóstico sobre la logística del comercio internacional y su incidencia en la competitividad de las exportaciones de los países miembros
Infografía:
Sistemas de calidad. Six Sigma
Manual:
Química de los taninos
Artículo:
Influencia del COVID-19 en las dinámicas de exportación, producción y consumo de carne vacuna en Colombia y el mundo: Una revisión monográfica.