logo móvil

Un auto-codificador con algoritmo genético para datos de alta dimensionalidad: hacia una detección de valores atípicos precisa e interpretable

Autores: Li, Jiamu; Zhang, Ji; Bah, Mohamed Jaward; Wang, Jian; Zhu, Youwen; Yang, Gaoming; Li, Lingling; Zhang, Kexin

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 15

Citaciones: Sin citaciones


Descripción
Al tratar con datos de alta dimensionalidad, como en aplicaciones biométricas, de comercio electrónico o industriales, es extremadamente difícil capturar las anomalías en todo el espacio debido a la maldición de la dimensionalidad. Además, se está volviendo cada vez más complicado pero esencial proporcionar interpretaciones para los resultados de detección de valores atípicos en el espacio de alta dimensionalidad como consecuencia del gran número de características. Para aliviar estos problemas, proponemos un nuevo modelo basado en un AutoCodificador Variacional y Algoritmo Genético (VAEGA) para detectar valores atípicos en subespacios de datos de alta dimensionalidad. El modelo propuesto emplea una red neuronal para crear un auto-codificador variacional (VAE) de reducción de dimensionalidad probabilística que aplica su espacio oculto de baja dimensionalidad para caracterizar las entradas de alta dimensionalidad. Luego, el vector oculto se muestrea aleatoriamente del espacio oculto para reconstruir los datos de manera que coincida estrechamente con los datos de entrada. El error de reconstrucción se calcula luego para determinar un puntaje de valor atípico, y las muestras que exceden el umbral se identifican tentativamente como valores atípicos. En el segundo paso, se utiliza un algoritmo genético (GA) como base para examinar y analizar el subespacio anormal del conjunto de valores atípicos obtenido por la capa VAE. Después de codificar los subespacios del conjunto de valores atípicos, se calcula el grado de anomalía para los subespacios detectados utilizando la función de aptitud redefinida. Finalmente, se calcula el subespacio anormal para el punto detectado seleccionando el subespacio con el mayor grado de anomalía. El agrupamiento de subespacios anormales ayuda a filtrar valores atípicos que están mal etiquetados (falsos positivos), y la capa VAE ajusta los pesos de la red en función de los falsos positivos. En comparación con otros métodos que utilizan cinco conjuntos de datos públicos, los resultados del modelo de detección de valores atípicos VAEGA son altamente interpretables y superan o tienen un rendimiento competitivo en comparación con los métodos contemporáneos actuales.

Documentos Relacionados

Temas Virtualpro