Reconocimiento Visual del Habla para el Idioma Kannada Usando la Red Neuronal Convolucional VGG16
Autores: Rudregowda, Shashidhar; Patil Kulkarni, Sudarshan; H L, Gururaj; Ravi, Vinayakumar; Krichen, Moez
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento Visual del Habla para el Idioma Kannada Usando la Red Neuronal Convolucional VGG16Categoría
Artes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 10
Citaciones: Sin citaciones
El reconocimiento de habla visual (VSR) es un método para leer el habla al notar las acciones de los labios de los narradores. El habla visual depende significativamente de las características visuales derivadas de las secuencias de imágenes. El reconocimiento de habla visual es un proceso estimulante que plantea diversas tareas desafiantes a los procedimientos basados en máquinas. Los métodos de VSR aclaran las tareas utilizando aprendizaje automático. El habla visual ayuda a las personas con discapacidad auditiva, pacientes laríngeos y aquellos que se encuentran en un entorno ruidoso. En esta investigación, los autores desarrollaron nuestro conjunto de datos para el idioma kannada. El conjunto de datos contenía cinco palabras, que son Avanu, Bagge, Bari, Guruthu, Helida, y estas palabras fueron elegidas al azar. La duración promedio de cada video es de 1 s a 1.2 s. Se utiliza el método de aprendizaje automático para la extracción de características y clasificación. Aquí, los autores aplicaron la red neuronal convolucional VGG16 para nuestro conjunto de datos personalizado, y se utilizó la función de activación relu para obtener una precisión del 91.90% y el sistema recomendado confirma la efectividad del sistema. La salida propuesta se compara con HCNN, ResNet-LSTM, Bi-LSTM y GLCM-ANN, y evidencia la efectividad del sistema recomendado.
Descripción
El reconocimiento de habla visual (VSR) es un método para leer el habla al notar las acciones de los labios de los narradores. El habla visual depende significativamente de las características visuales derivadas de las secuencias de imágenes. El reconocimiento de habla visual es un proceso estimulante que plantea diversas tareas desafiantes a los procedimientos basados en máquinas. Los métodos de VSR aclaran las tareas utilizando aprendizaje automático. El habla visual ayuda a las personas con discapacidad auditiva, pacientes laríngeos y aquellos que se encuentran en un entorno ruidoso. En esta investigación, los autores desarrollaron nuestro conjunto de datos para el idioma kannada. El conjunto de datos contenía cinco palabras, que son Avanu, Bagge, Bari, Guruthu, Helida, y estas palabras fueron elegidas al azar. La duración promedio de cada video es de 1 s a 1.2 s. Se utiliza el método de aprendizaje automático para la extracción de características y clasificación. Aquí, los autores aplicaron la red neuronal convolucional VGG16 para nuestro conjunto de datos personalizado, y se utilizó la función de activación relu para obtener una precisión del 91.90% y el sistema recomendado confirma la efectividad del sistema. La salida propuesta se compara con HCNN, ResNet-LSTM, Bi-LSTM y GLCM-ANN, y evidencia la efectividad del sistema recomendado.