Un sistema novedoso de texto a voz (TTS) en turco de extremo a extremo a través de aprendizaje profundo
Autores: Oyucu, Saadin
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Los sistemas de Texto a Voz (TTS) han avanzado, pero crear voces humanas con un sonido natural sigue siendo un desafío. Los métodos existentes se basan en modelos no exhaustivos con transformaciones no lineales de una sola capa, que son menos efectivos para procesar datos complejos como el habla, imágenes y video. Para superar esto, se han propuesto soluciones basadas en aprendizaje profundo (DL) para TTS, pero requieren una gran cantidad de datos de entrenamiento. Desafortunadamente, no existe un corpus disponible para TTS en turco, a diferencia del inglés, que cuenta con abundantes recursos. Para abordar esto, nuestro estudio se centró en desarrollar un sistema de síntesis de voz en turco utilizando un enfoque de DL. Obtuvimos un corpus extenso de un hablante masculino y propusimos una estructura Tacotron 2 + HiFi-GAN para el sistema TTS. Los usuarios reales calificaron la calidad del habla sintetizada con 4.49 utilizando la Puntuación Media de Opinión (MOS). Además, el MOS-Listening Quality Objective evaluó objetivamente la calidad del habla, obteniendo una puntuación de 4.32. El tiempo de inferencia de la forma de onda del habla se determinó por un factor en tiempo real, con 1 s de datos de habla sintetizados en 0.92 s. Hasta donde sabemos, estos hallazgos representan el primer sistema de TTS basado en aprendizaje profundo y HiFi-GAN documentado para TTS en turco.
Descripción
Los sistemas de Texto a Voz (TTS) han avanzado, pero crear voces humanas con un sonido natural sigue siendo un desafío. Los métodos existentes se basan en modelos no exhaustivos con transformaciones no lineales de una sola capa, que son menos efectivos para procesar datos complejos como el habla, imágenes y video. Para superar esto, se han propuesto soluciones basadas en aprendizaje profundo (DL) para TTS, pero requieren una gran cantidad de datos de entrenamiento. Desafortunadamente, no existe un corpus disponible para TTS en turco, a diferencia del inglés, que cuenta con abundantes recursos. Para abordar esto, nuestro estudio se centró en desarrollar un sistema de síntesis de voz en turco utilizando un enfoque de DL. Obtuvimos un corpus extenso de un hablante masculino y propusimos una estructura Tacotron 2 + HiFi-GAN para el sistema TTS. Los usuarios reales calificaron la calidad del habla sintetizada con 4.49 utilizando la Puntuación Media de Opinión (MOS). Además, el MOS-Listening Quality Objective evaluó objetivamente la calidad del habla, obteniendo una puntuación de 4.32. El tiempo de inferencia de la forma de onda del habla se determinó por un factor en tiempo real, con 1 s de datos de habla sintetizados en 0.92 s. Hasta donde sabemos, estos hallazgos representan el primer sistema de TTS basado en aprendizaje profundo y HiFi-GAN documentado para TTS en turco.