Reconocimiento Visual del Habla para el Idioma Kannada Usando la Red Neuronal Convolucional VGG16

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento Visual del Habla para el Idioma Kannada Usando la Red Neuronal Convolucional VGG16

Autores: Rudregowda, Shashidhar; Patil Kulkarni, Sudarshan; H L, Gururaj; Ravi, Vinayakumar; Krichen, Moez

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Reconocimiento Visual del Habla para el Idioma Kannada Usando la Red Neuronal Convolucional VGG16

Categoría

Artes

Subcategoría

Música

Palabras clave

Reconocimiento visual del habla

Acciones de los labios

Características visuales

Aprendizaje automático

Personas con discapacidad auditiva

Conjunto de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

El reconocimiento de habla visual (VSR) es un método para leer el habla al notar las acciones de los labios de los narradores. El habla visual depende significativamente de las características visuales derivadas de las secuencias de imágenes. El reconocimiento de habla visual es un proceso estimulante que plantea diversas tareas desafiantes a los procedimientos basados en máquinas. Los métodos de VSR aclaran las tareas utilizando aprendizaje automático. El habla visual ayuda a las personas con discapacidad auditiva, pacientes laríngeos y aquellos que se encuentran en un entorno ruidoso. En esta investigación, los autores desarrollaron nuestro conjunto de datos para el idioma kannada. El conjunto de datos contenía cinco palabras, que son Avanu, Bagge, Bari, Guruthu, Helida, y estas palabras fueron elegidas al azar. La duración promedio de cada video es de 1 s a 1.2 s. Se utiliza el método de aprendizaje automático para la extracción de características y clasificación. Aquí, los autores aplicaron la red neuronal convolucional VGG16 para nuestro conjunto de datos personalizado, y se utilizó la función de activación relu para obtener una precisión del 91.90% y el sistema recomendado confirma la efectividad del sistema. La salida propuesta se compara con HCNN, ResNet-LSTM, Bi-LSTM y GLCM-ANN, y evidencia la efectividad del sistema recomendado.

Descripción

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro