Aplicación de la tecnología de reconocimiento de voz basada en entrenamiento de confrontación de canales en el campo de la seguridad de la información
Autores: Gui, Suying; Zhou, Chuan; Wang, Hao; Gao, Tiegang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
Con el rápido desarrollo de big data, inteligencia artificial y tecnologías de Internet, el contacto humano-humano y la interacción humano-máquina han dado lugar a una explosión de datos de voz. Identificar rápidamente la identidad del hablante y recuperar y gestionar sus datos de voz entre la enorme cantidad de datos de voz se ha convertido en un gran desafío para las aplicaciones de voz inteligente en el campo de la seguridad de la información. Esta investigación propone una técnica de reconocimiento vocal basada en el entrenamiento adversarial de información para el reconocimiento de la identidad del hablante en datos masivos de audio y video, así como la identificación del hablante orientada al dominio de la seguridad de la información. Los resultados experimentales muestran que el método proyecta datos de diferentes canales de escena en el mismo espacio y genera de forma dinámica representaciones interactivas de hablantes. Resuelve el problema de incompatibilidad de canales y mejora efectivamente el reconocimiento de los patrones de voz del hablante en diferentes canales y escenas. Es capaz de separar voces superpuestas cuando varias personas hablan al mismo tiempo y reducir los errores de separación de hablantes. Realiza el reconocimiento de voz del hablante para el campo de la seguridad de la información y logra una tasa de recuperación del 89% en una gran base de datos, lo cual tiene un valor práctico para el campo de aplicación inteligente.
Descripción
Con el rápido desarrollo de big data, inteligencia artificial y tecnologías de Internet, el contacto humano-humano y la interacción humano-máquina han dado lugar a una explosión de datos de voz. Identificar rápidamente la identidad del hablante y recuperar y gestionar sus datos de voz entre la enorme cantidad de datos de voz se ha convertido en un gran desafío para las aplicaciones de voz inteligente en el campo de la seguridad de la información. Esta investigación propone una técnica de reconocimiento vocal basada en el entrenamiento adversarial de información para el reconocimiento de la identidad del hablante en datos masivos de audio y video, así como la identificación del hablante orientada al dominio de la seguridad de la información. Los resultados experimentales muestran que el método proyecta datos de diferentes canales de escena en el mismo espacio y genera de forma dinámica representaciones interactivas de hablantes. Resuelve el problema de incompatibilidad de canales y mejora efectivamente el reconocimiento de los patrones de voz del hablante en diferentes canales y escenas. Es capaz de separar voces superpuestas cuando varias personas hablan al mismo tiempo y reducir los errores de separación de hablantes. Realiza el reconocimiento de voz del hablante para el campo de la seguridad de la información y logra una tasa de recuperación del 89% en una gran base de datos, lo cual tiene un valor práctico para el campo de aplicación inteligente.