Autocodificador de denostación por instancias para datos de alta dimensión
Autores: Lin, Chen; Wan-Yu, Deng
Idioma: Inglés
Editor: Hindawi Publishing Corporation
Año: 2016
Acceso abierto
Artículo científico
Categoría
Matemáticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
El autoencoder de eliminación de ruido (DAE) es una de las modas más populares que ha tenido un éxito significativo en la investigación reciente sobre redes neuronales. En concreto, DAE corrompe aleatoriamente a cero algunas características de los datos para utilizar la información de coocurrencia y evitar el sobreajuste. Sin embargo, los enfoques DAE existentes no funcionan bien con datos dispersos y de alta dimensionalidad. En este artículo, presentamos un Autoencoder de Desenmascaramiento denominado Autoencoder de Desenmascaramiento por Instancia (IDA), diseñado para trabajar con datos dispersos y de alta dimensionalidad utilizando la relación de coocurrencia por instancia en lugar de la relación por característica. IDA funciona basándose en la siguiente regla de corrupción: si se selecciona un vector de instancia de característica distinta de cero, se fuerza a que se convierta en un vector cero. Para evitar graves pérdidas de información en caso de que se descarten demasiadas instancias, se considera un conjunto de múltiples autocodificadores independientes construidos sobre diferentes versiones corruptas de los datos. Los amplios resultados experimentales sobre datos de texto dispersos y de alta dimensionalidad muestran la superioridad de IDA en eficiencia y eficacia. También se experimenta con IDA en el entorno del aprendizaje por transferencia heterogéneo y la recuperación cross-modal para estudiar su generalidad en la representación heterogénea de características.
Descripción
El autoencoder de eliminación de ruido (DAE) es una de las modas más populares que ha tenido un éxito significativo en la investigación reciente sobre redes neuronales. En concreto, DAE corrompe aleatoriamente a cero algunas características de los datos para utilizar la información de coocurrencia y evitar el sobreajuste. Sin embargo, los enfoques DAE existentes no funcionan bien con datos dispersos y de alta dimensionalidad. En este artículo, presentamos un Autoencoder de Desenmascaramiento denominado Autoencoder de Desenmascaramiento por Instancia (IDA), diseñado para trabajar con datos dispersos y de alta dimensionalidad utilizando la relación de coocurrencia por instancia en lugar de la relación por característica. IDA funciona basándose en la siguiente regla de corrupción: si se selecciona un vector de instancia de característica distinta de cero, se fuerza a que se convierta en un vector cero. Para evitar graves pérdidas de información en caso de que se descarten demasiadas instancias, se considera un conjunto de múltiples autocodificadores independientes construidos sobre diferentes versiones corruptas de los datos. Los amplios resultados experimentales sobre datos de texto dispersos y de alta dimensionalidad muestran la superioridad de IDA en eficiencia y eficacia. También se experimenta con IDA en el entorno del aprendizaje por transferencia heterogéneo y la recuperación cross-modal para estudiar su generalidad en la representación heterogénea de características.