Aplicación de procesamiento de lenguaje natural y aprendizaje automático potenciado con inteligencia de enjambre para filtrado de correos no deseados
Autores: Bacanin, Nebojsa; Zivkovic, Miodrag; Stoean, Catalin; Antonijevic, Milos; Janicijevic, Stefana; Sarac, Marko; Strumberger, Ivana
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Spam
Usuarios de correo electrónico
Enfoques de aprendizaje automático
Soluciones de detección
Método híbrido
Métricas de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
El spam representa una irritación genuina para los usuarios de correo electrónico, ya que a menudo los molesta durante su trabajo o tiempo libre. Los enfoques de aprendizaje automático se utilizan comúnmente como el motor de las soluciones de detección de spam, ya que son eficientes y suelen exhibir un alto grado de precisión de clasificación. Sin embargo, a veces sucede que los buenos mensajes son etiquetados como spam y, con más frecuencia, algunos correos no deseados entran en la bandeja de entrada como buenos. Este manuscrito propone un nuevo enfoque de detección de spam por correo electrónico al combinar modelos de aprendizaje automático con un algoritmo mejorado de inteligencia de enjambre seno-coseno para contrarrestar las deficiencias de las técnicas existentes. El novedoso seno-coseno introducido se adoptó para entrenar la regresión logística y ajustar los modelos XGBoost como parte del marco híbrido de aprendizaje automático-metaheurístico. El marco desarrollado se ha validado en dos conjuntos de datos de referencia de spam de alta dimensión públicos (CSDMC2010 y TurkishEmail), y los experimentos extensos realizados han demostrado que el modelo lidia con éxito con datos de alto grado. El análisis comparativo con otros modelos de detección de spam de vanguardia, también basados en metaheurísticas, ha demostrado que el método híbrido propuesto obtiene un rendimiento superior en términos de precisión, recuperación, puntuación f1 y otras métricas de clasificación relevantes. Además, la superioridad empíricamente establecida del método propuesto se valida mediante pruebas estadísticas rigurosas.
Descripción
El spam representa una irritación genuina para los usuarios de correo electrónico, ya que a menudo los molesta durante su trabajo o tiempo libre. Los enfoques de aprendizaje automático se utilizan comúnmente como el motor de las soluciones de detección de spam, ya que son eficientes y suelen exhibir un alto grado de precisión de clasificación. Sin embargo, a veces sucede que los buenos mensajes son etiquetados como spam y, con más frecuencia, algunos correos no deseados entran en la bandeja de entrada como buenos. Este manuscrito propone un nuevo enfoque de detección de spam por correo electrónico al combinar modelos de aprendizaje automático con un algoritmo mejorado de inteligencia de enjambre seno-coseno para contrarrestar las deficiencias de las técnicas existentes. El novedoso seno-coseno introducido se adoptó para entrenar la regresión logística y ajustar los modelos XGBoost como parte del marco híbrido de aprendizaje automático-metaheurístico. El marco desarrollado se ha validado en dos conjuntos de datos de referencia de spam de alta dimensión públicos (CSDMC2010 y TurkishEmail), y los experimentos extensos realizados han demostrado que el modelo lidia con éxito con datos de alto grado. El análisis comparativo con otros modelos de detección de spam de vanguardia, también basados en metaheurísticas, ha demostrado que el método híbrido propuesto obtiene un rendimiento superior en términos de precisión, recuperación, puntuación f1 y otras métricas de clasificación relevantes. Además, la superioridad empíricamente establecida del método propuesto se valida mediante pruebas estadísticas rigurosas.