Este artículo presenta una característica basada en estadísticas de palabras desconocidas (fuera del vocabulario) quecomplementa las fuentes de información usadas en la decisión por parte de los filtros anti-spam actuales. Los experimentosincluyeron filtros anti-spam disponibles libremente como referencia: SpamAssassin, Bogofilter, SpamBayes y SpamProbe,así como también un clasificador puramente bayesiano. Los resultados muestran que la decisión basada en la característicapropuesta mejora el rendimiento de todos los filtros anti-spam sujetos a estudio.
INTRODUCCIÓN
El correo electrónico comercial no solicitado, comúnmente conocido como spam, sigue siendo un problema importante para los usuarios de Internet. Los principales efectos molestos del spam son la disminución de la productividad de los empleados, el desperdicio de un valioso espacio de almacenamiento en los servidores de correo, el perjuicio para el tráfico de Internet y el aumento de la posible pérdida de información en función de las políticas de filtrado. Por ejemplo, los autores de este trabajo estuvieron a punto de perder un correo electrónico de aceptación de trabajos debido a los filtros de spam.
Según varias fuentes de información, como Softscan [1] o Marshal [2], más del 90% del tráfico de correo electrónico es spam, con un índice de volumen creciente durante los últimos años. Los mayores porcentajes proceden de Europa y Asia (65% según las estadísticas de Marshal), seguidos de Norteamérica (18%).
Los spammers utilizan la estrategia de enviar una gran cantidad de correos electrónicos prácticamente sin coste, con un alto beneficio probable. Si un spammer obtiene tan sólo 100 respuestas por cada 1.000.000 de mensajes de correo electrónico, puede obtener un atractivo beneficio. Para más detalles, puede leer "Inside the SPAM Cartel: Trade Secrets From the Dark Side" [3].
En la literatura encontramos dos tendencias principales sobre técnicas de filtrado de spam: enfoques basados en reglas y en el aprendizaje [4-10].
Los filtros de spam basados en reglas analizan tanto la cabecera como el cuerpo de los mensajes de correo electrónico en busca de contenido sospechoso. Cada regla activada suma una puntuación al correo electrónico. Si la puntuación alcanza un valor umbral, el correo electrónico se clasifica como spam.
Las reglas abarcan diferentes amenazas, como el formato sospechoso (las partes de HTML y de texto son diferentes o el cuerpo del mensaje tiene entre un 80 y un 90% de líneas en blanco), un origen débil propenso a enviar spam (el remitente es un relé abierto confirmado o el remitente es un proxy abierto), palabras comunes en el spam (contiene una versión enmascarada de cialis o viagra), codificaciones o caracteres ilegales (demasiados caracteres ilegales en bruto en el asunto), etc [11].
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Cifrado de clave pública con búsqueda de palabras clave a partir de retículos en entornos multiusuario
Artículo:
Modelización y fijación de precios de swaps de varianza y volatilidad para volatilidades locales de Semi-Markov en ingeniería financiera
Artículo:
Algoritmo de correspondencia estereoscópica basado en el espacio de color HSV y la transformada censal mejorada
Artículo:
Utilización del enfoque de la relación de preferencia lingüística difusa para evaluar la importancia de los factores de riesgo en un proyecto de desarrollo de software
Artículo:
Metodología de análisis de las características estocásticas del error volumétrico en máquinas herramienta CNC multieje
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Artículo:
Importancia, manejo y control de extraíbles e incrustaciones (pitch) en la fabricación de papel
Libro:
Tratamientos avanzados de aguas residuales industriales
Artículo:
Distintas formas de simular valores de variables aleatorias con distribución normal estándar