4.
Aprendizaje bayesiano.
A partir de las carpetas de Spam, el servidor de correo
MDaemon calcula las probabilidades de las palabras consideradas
como spam, aprendiendo de estos términos, y aplicando
una nueva puntuación a la base de datos del servidor.
El sistema bayesiano consiste en que, a partir del
mensaje a filtrar, se obtiene la probabilidad de que
cada palabra aparezca en un spam, y también la
probabilidad de que cada palabra aparezca en un mensaje
normal. A partir de estas probabilidades, el sistema
calcula la probabilidad de que el mensaje sea spam.
Esta lista de palabras y probabilidades se suele construir
a partir del propio coreo del usuario que quiere emplear
el filtro: cuando llega un correo, el usuario lo aprueba
o lo marca como spam.
Para cada palabra se cuenta el número de mensajes
legítimos en que aparecía y el número
de mensajes de spam en los que también está
presente, de forma que diviendo por el total nos da
las probabilidades de aparición.
La ventaja de este sistema es que, con él, los
spamers no pueden aprender a saltarse los filtros: el
filtro se adapta automáticamente al correo que
recibe el usuario.
El aprendizaje se realiza todos los días a medianoche,
de forma automática. Esto supone un periodo de
aprendizaje a partir del cual el sistema va aprendiendo
de su propia experiencia de modo que a medida que va
pasando el tiempo el filtro bayesiano mejorando su eficacia.
|