Interbel Software S)

4. Aprendizaje bayesiano.

A partir de las carpetas de Spam, el servidor de correo MDaemon calcula las probabilidades de las palabras consideradas como spam, aprendiendo de estos términos, y aplicando una nueva puntuación a la base de datos del servidor.

El sistema bayesiano consiste en que, a partir del mensaje a filtrar, se obtiene la probabilidad de que cada palabra aparezca en un spam, y también la probabilidad de que cada palabra aparezca en un mensaje normal. A partir de estas probabilidades, el sistema calcula la probabilidad de que el mensaje sea spam. Esta lista de palabras y probabilidades se suele construir a partir del propio coreo del usuario que quiere emplear el filtro: cuando llega un correo, el usuario lo aprueba o lo marca como spam.

Para cada palabra se cuenta el número de mensajes legítimos en que aparecía y el número de mensajes de spam en los que también está presente, de forma que diviendo por el total nos da las probabilidades de aparición.

La ventaja de este sistema es que, con él, los spamers no pueden aprender a saltarse los filtros: el filtro se adapta automáticamente al correo que recibe el usuario.

El aprendizaje se realiza todos los días a medianoche, de forma automática. Esto supone un periodo de aprendizaje a partir del cual el sistema va aprendiendo de su propia experiencia de modo que a medida que va pasando el tiempo el filtro bayesiano mejorando su eficacia.

Anterior Siguiente
Copyright © 2003 Interbel Software S) -C/ Marie Curie s/n Barcelona 08042 Tel. 93 291 76 76 . Aviso Legal.