Outils pour utilisateurs

Outils du site


util:bogofilter

Table des matières

Bogofilter

Présentation

Bogofilter est un programme de classification de courrier électronique respectivement en spam (courrier non-solicité) ou ham (courrier solicité) qui se base sur une analyse statistique de l'en-tête et du contenu du message. Le programme est capable d'apprendre à partir des classifications opérées par l'utilisateur. Il a été originellement écrit par Eric S. Raymond, et est actuellement maintenu par David Relson, Matthias Andree et Greg Louis.

La technique statistique utilisée est connue sous le nom de filtrage bayésien. Sa première utilisation en matière de Spam a été décrite dans l'article de Paul Graham A Plan For Spam. Gary Robinson, dans son weblog Rants, a proposé des améliorations pour rendre la discrimination entre Spam et ham plus pertinente. Le principal algorithme de Bogofilter se base sur le paramètre f(w) et la technique décrite par Fisher du Khi-2.

Bogofilter est appelé par un script du MDA afin de classer un message entrant en Spam ou ham (en se basant sur des dictionnaires stockés dans une base Berkeley DB, SQLite3 ou encore QDBM). Bogofilter est aussi à l'aise sur du texte brut que sur du HTML. Il supporte également les messages au format MIME. En revanche, il ignore les pièces jointes tel que les images.

Bogofilter est écrit en C, et peut tourner sous GNU-Linux, freebsd, netbsd, openbsd, Solaris, Mac OS X, HP-UX, AIX et d'autres systèmes.

Liens

util/bogofilter.txt · Dernière modification: 2014/05/09 18:58 (modification externe)