Modelo de incrustación de palabras doble que considera información sintáctica para la clasificación de sentimientos entre dominios
Autores: Lu, Zihao; Hu, Xiaohui; Xue, Yun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Clasificación de sentimiento entre dominios
CDSC
BERT
Word2vec
Información sintáctica
Incrustaciones de palabras duales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
El propósito de la clasificación de sentimientos entre dominios cruzados (CDSC) es aprovechar al máximo los ricos datos etiquetados en el dominio fuente para ayudar al dominio objetivo a realizar la clasificación de sentimientos incluso cuando los datos etiquetados son insuficientes. La mayoría de los métodos existentes se centran en obtener información semántica transferible entre dominios pero ignoran la información sintáctica. El rendimiento de BERT puede disminuir debido a la transferencia de dominio, y las incrustaciones tradicionales de palabras, como word2vec, no pueden obtener vectores de palabras contextualizados. Por lo tanto, lograr los mejores resultados en CDSC es difícil cuando solo se utiliza BERT o word2vec. En este artículo, proponemos un Modelo de Incrustación de Palabras Dual Considerando Información Sintáctica para la Clasificación de Sentimientos entre Dominios Cruzados. Específicamente, obtenemos incrustaciones de palabras duales utilizando BERT y word2vec. Después de realizar la incrustación de BERT, prestamos mayor atención a la información semántica, utilizando principalmente la autoatención y TextCNN. Después de obtener la incrustación de palabras de word2vec, se utiliza la red de atención gráfica para extraer la información sintáctica del documento, y se utiliza el mecanismo de atención para centrarse en los aspectos importantes. Experimentos en dos conjuntos de datos del mundo real muestran que nuestro modelo supera a otras líneas de base sólidas.
Descripción
El propósito de la clasificación de sentimientos entre dominios cruzados (CDSC) es aprovechar al máximo los ricos datos etiquetados en el dominio fuente para ayudar al dominio objetivo a realizar la clasificación de sentimientos incluso cuando los datos etiquetados son insuficientes. La mayoría de los métodos existentes se centran en obtener información semántica transferible entre dominios pero ignoran la información sintáctica. El rendimiento de BERT puede disminuir debido a la transferencia de dominio, y las incrustaciones tradicionales de palabras, como word2vec, no pueden obtener vectores de palabras contextualizados. Por lo tanto, lograr los mejores resultados en CDSC es difícil cuando solo se utiliza BERT o word2vec. En este artículo, proponemos un Modelo de Incrustación de Palabras Dual Considerando Información Sintáctica para la Clasificación de Sentimientos entre Dominios Cruzados. Específicamente, obtenemos incrustaciones de palabras duales utilizando BERT y word2vec. Después de realizar la incrustación de BERT, prestamos mayor atención a la información semántica, utilizando principalmente la autoatención y TextCNN. Después de obtener la incrustación de palabras de word2vec, se utiliza la red de atención gráfica para extraer la información sintáctica del documento, y se utiliza el mecanismo de atención para centrarse en los aspectos importantes. Experimentos en dos conjuntos de datos del mundo real muestran que nuestro modelo supera a otras líneas de base sólidas.