Se presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocadoen el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientescepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizoseguimiento automático de características visuales de alto nivel a través de toda la secuencia. Para lainicialización automática del algoritmo se emplearon transformaciones de color y contornos activoscon información de flujo del vector gradiente (“GVF snakes”) sobre la región labial, mientras que parael seguimiento se usaron medidas de similitud entre vecindarios y restricciones morfológicas definidasen el estándar MPEG-4. Inicialmente, se presenta el diseño del sistema de reconocimiento automáticodel habla, empleando únicamente información de audio (ASR), mediante Modelos Ocultos de Markov(HMMs) y un enfoque de palabra aislada; posteriormente, se muestra el diseño de los sistemas empleandoúnicamente características de vídeo (VSR), y empleando características de audio y vídeo combinadas(AVSR). Al final se comparan los resultados de los tres sistemas para una base de datos propia en españoly francés, y se muestra la influencia del ruido acústico, mostrando que el sistema de AVSR es más robustoque ASR y VSR.
INTRODUCCIÓN
El problema de reconocimiento automático del habla en señales de audio se ha tratado regularmente a través del modelado de las señales, utilizando técnicas como Redes Neuronales [14] o modelos ocultos de Markov [19], las cuales reportan buenos resultados en la literatura. Sin embargo, cuando las condiciones acústicas son adversas, su desempeño se ve afectado. Recientemente, el reconocimiento audiovisual del habla se ha convertido en un campo activo de investigación gracias a los avances en áreas como el procesamiento digital de señales, la visión de máquina y el reconocimiento de patrones [16, 22]. Su objetivo final es permitir la comunicación hombre-máquina usando información audiovisual del habla para combatir las dificultades de un ambiente ruidoso o para tratar de reconocer las emociones exhibidas por el locutor.
Se sabe de los sistemas de comunicación que el análisis visual de la región de la boca del hablante suministra información importante. En particular, los humanos visualizamos el contorno de los labios para mejorar la comprensión del habla [7]. En los trabajos de Campbell [3] se muestra que cuando el oyente tiene información visual de la región de la boca del hablante, la relación señal a ruido (SNR) puede incrementarse hasta en 15 dB.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Programación de datos en tiempo real de trabajo flexible en taller de fabricación de papel basado en aprendizaje profundo y algoritmo difuso mejorado
Artículo:
Análisis de seguridad de arquitecturas SDN dinámicas basado en la teoría de juegos
Artículo:
Seguridad cibernética y problemas de gestión de claves para Internet de las cosas: técnicas, requisitos y desafíos
Artículo:
Regulaciones gubernamentales de bajas emisiones de carbono basadas en el comportamiento de los miembros de la cadena de suministro y la preferencia de canal de los consumidores en una cadena de suministro de doble canal.
Artículo:
Método de Clasificación y Determinación de Tipos de Áreas Montañosas a Escala de Municipio: Un Estudio de Caso de la Ciudad de Yuxi, Provincia de Yunnan
Informe, reporte:
Diagnóstico sobre la logística del comercio internacional y su incidencia en la competitividad de las exportaciones de los países miembros
Artículo:
Nuevas necesidades cosméticas : tendencias y productos específicos
Manual:
Química de los taninos
Artículo:
Influencia del COVID-19 en las dinámicas de exportación, producción y consumo de carne vacuna en Colombia y el mundo: Una revisión monográfica.