logo móvil

Identificación del lenguaje hablado mediante el aprendizaje profundo

Autores: Gundeep, Singh; Sahil, Sharma; Vijay, Kumar; Manjit, Kaur; Mohammed, Baz; Mehedi, Masud

Idioma: Inglés

Editor: Hindawi

Año: 2021

Ver Artículo científico

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 14

Citaciones: Sin citaciones


Descripción
El proceso de detectar el idioma a partir de un clip de audio de un hablante desconocido, independientemente del sexo, la forma de hablar y la edad del hablante, se define como identificación del idioma hablado (SLID). La tarea considerable es reconocer las características que pueden distinguir entre los idiomas de forma clara y eficiente. El modelo utiliza archivos de audio y los convierte en imágenes de espectrograma. Aplica la red neuronal convolucional (CNN) para sacar a la luz los principales atributos o características para detectar la salida con facilidad. El objetivo principal es detectar idiomas de entre el inglés, el francés, el español y el alemán, el estonio, el tamil, el mandarín, el turco, el chino, el árabe, el hindi, el indonesio, el portugués, el japonés, el latín, el neerlandés, el portugués, el pastún, el rumano, el coreano, el ruso, el sueco, el tamil, el tailandés y el urdu. Se realizó un experimento con diferentes archivos de audio utilizando el conjunto de datos de Kaggle denominado identificación de lenguas habladas. Estos archivos de audio se componen de expresiones, cada una de las cuales tiene una duración fija de 10 segundos. El conjunto de datos se divide en conjuntos de entrenamiento y de prueba. Los resultados de la preparación arrojan una precisión global del 98%. Las pruebas exhaustivas y precisas muestran una precisión global del 88%.

Documentos Relacionados

Temas Virtualpro