logo móvil

Reconocimiento Visual del Habla para el Idioma Kannada Usando la Red Neuronal Convolucional VGG16

Autores: Rudregowda, Shashidhar; Patil Kulkarni, Sudarshan; H L, Gururaj; Ravi, Vinayakumar; Krichen, Moez

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Artes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 10

Citaciones: Sin citaciones


Descripción
El reconocimiento de habla visual (VSR) es un método para leer el habla al notar las acciones de los labios de los narradores. El habla visual depende significativamente de las características visuales derivadas de las secuencias de imágenes. El reconocimiento de habla visual es un proceso estimulante que plantea diversas tareas desafiantes a los procedimientos basados en máquinas. Los métodos de VSR aclaran las tareas utilizando aprendizaje automático. El habla visual ayuda a las personas con discapacidad auditiva, pacientes laríngeos y aquellos que se encuentran en un entorno ruidoso. En esta investigación, los autores desarrollaron nuestro conjunto de datos para el idioma kannada. El conjunto de datos contenía cinco palabras, que son Avanu, Bagge, Bari, Guruthu, Helida, y estas palabras fueron elegidas al azar. La duración promedio de cada video es de 1 s a 1.2 s. Se utiliza el método de aprendizaje automático para la extracción de características y clasificación. Aquí, los autores aplicaron la red neuronal convolucional VGG16 para nuestro conjunto de datos personalizado, y se utilizó la función de activación relu para obtener una precisión del 91.90% y el sistema recomendado confirma la efectividad del sistema. La salida propuesta se compara con HCNN, ResNet-LSTM, Bi-LSTM y GLCM-ANN, y evidencia la efectividad del sistema recomendado.

Documentos Relacionados

Temas Virtualpro