logo móvil

Reconocimiento de mandarín basado en mecanismo de autoatención con red neuronal convolucional profunda (DCNN) - Unidad recurrente con compuertas (GRU)

Autores: Chen, Xun; Wang, Chengqi; Hu, Chao; Wang, Qin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 14

Citaciones: Sin citaciones


Descripción
La tecnología de reconocimiento de voz es una rama importante en el campo de la inteligencia artificial, con el objetivo de transformar el habla humana en información de texto legible por computadora. Sin embargo, la tecnología de reconocimiento de voz todavía enfrenta muchos desafíos, como la interferencia de ruido y las diferencias de acento y velocidad del habla. Un objetivo de este documento es explorar un método de reconocimiento de voz basado en el aprendizaje profundo para mejorar la precisión y robustez del reconocimiento de voz. En primer lugar, este documento introduce los principios básicos del reconocimiento de voz y las tecnologías principales existentes, y luego se centra en el método de reconocimiento de voz basado en el aprendizaje profundo. A través de experimentos comparativos, se encontró que el mecanismo de autoatención tiene el mejor rendimiento en tareas de reconocimiento de voz. Con el fin de mejorar aún más el rendimiento del reconocimiento de voz, este documento propone un modelo de aprendizaje profundo basado en el mecanismo de autoatención con DCNN-GRU. El modelo realiza una atención dinámica a un habla de entrada mediante la introducción del mecanismo de autoatención en un modelo de red neuronal en lugar de una RNN y con una red neuronal convolucional profunda, lo que mejora la robustez y la precisión de reconocimiento de este modelo. Este experimento utiliza 170 h de datos en chino del conjunto de datos AISHELL-1. En comparación con la red neuronal convolucional profunda, el modelo de aprendizaje profundo basado en el mecanismo de autoatención con DCNN-GRU logra una reducción de al menos el 6% en el CER. En comparación con una red neuronal recurrente bidireccional, el modelo de aprendizaje profundo basado en el mecanismo de autoatención con DCNN-GRU logra una reducción del 0,7% en el CER. Y finalmente, este experimento se realiza en un conjunto de pruebas analizando los factores que afectan el CER. Los resultados experimentales muestran que este modelo exhibe un buen rendimiento en varios entornos de ruido y condiciones de acento.

Documentos Relacionados

Temas Virtualpro