logo móvil

Un sistema novedoso de texto a voz (TTS) en turco de extremo a extremo a través de aprendizaje profundo

Autores: Oyucu, Saadin

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones


Descripción
Los sistemas de Texto a Voz (TTS) han avanzado, pero crear voces humanas con un sonido natural sigue siendo un desafío. Los métodos existentes se basan en modelos no exhaustivos con transformaciones no lineales de una sola capa, que son menos efectivos para procesar datos complejos como el habla, imágenes y video. Para superar esto, se han propuesto soluciones basadas en aprendizaje profundo (DL) para TTS, pero requieren una gran cantidad de datos de entrenamiento. Desafortunadamente, no existe un corpus disponible para TTS en turco, a diferencia del inglés, que cuenta con abundantes recursos. Para abordar esto, nuestro estudio se centró en desarrollar un sistema de síntesis de voz en turco utilizando un enfoque de DL. Obtuvimos un corpus extenso de un hablante masculino y propusimos una estructura Tacotron 2 + HiFi-GAN para el sistema TTS. Los usuarios reales calificaron la calidad del habla sintetizada con 4.49 utilizando la Puntuación Media de Opinión (MOS). Además, el MOS-Listening Quality Objective evaluó objetivamente la calidad del habla, obteniendo una puntuación de 4.32. El tiempo de inferencia de la forma de onda del habla se determinó por un factor en tiempo real, con 1 s de datos de habla sintetizados en 0.92 s. Hasta donde sabemos, estos hallazgos representan el primer sistema de TTS basado en aprendizaje profundo y HiFi-GAN documentado para TTS en turco.

Documentos Relacionados

Temas Virtualpro