Étude des techniques de classification et de filtrage automatique de pourriels

24
1 Novembre 2009 Présenté par: Mr Oumsalem Hassane Étude des techniques de classification et de filtrage automatique de Pourriels Étude des techniques de classification et de filtrage automatique de Pourriels É É École Polytechnique de Montr cole Polytechnique de Montr cole Polytechnique de Montr cole Polytechnique de Montré é éal al al al

Upload: guest3a44d425

Post on 06-Nov-2014

1.710 views

Category:

Technology


0 download

DESCRIPTION

Étude des techniques de classification et de filtrage automatique de Pourriels.

TRANSCRIPT

Page 1: Étude des techniques de classification et de filtrage automatique de Pourriels

1

Novembre 2009

Présenté par: Mr Oumsalem Hassane

Étude des techniquesde classification et de filtrage automatique de Pourriels

Étude des techniquesde classification et de filtrage automatique de Pourriels

ÉÉÉÉcole Polytechnique de Montrcole Polytechnique de Montrcole Polytechnique de Montrcole Polytechnique de Montrééééalalalal

Page 2: Étude des techniques de classification et de filtrage automatique de Pourriels

2

PlanIntroduction

Quelques définitions

Structure d’un courriel

Courriels indésirables (objectifs & exemples)

Techniques de filtrage automatique de pourriels

Quelques solutions de filtrage existantes

Perspectives

Conclusion

O. Hassane, 2009

Page 3: Étude des techniques de classification et de filtrage automatique de Pourriels

3

Introduction

� 80% à 90% des messages échangés sur le Net sont des SPAM [1]

� Le coût engendré par les Spam est estimé à ≈ 200 milliards $/an

(perte de productivité, coût de connexion, logiciel de détection, … etc).

� Le Spam s’est diversifié, adapté, complexifié et devenu sophistiqué

� Plusieurs travaux de lute contre les Spam ont été réalisés.

O. Hassane, 2009

Page 4: Étude des techniques de classification et de filtrage automatique de Pourriels

4

Quelques définitions

� Pourriel (Spam): Courrier électronique commercial non sollicité par l'internaute qui le reçoit (courriels indésirables).

� Pourrielleur (Spammer): désigne celui qui se livre aux spams.

� Pollupostage (Spamming): pollution de boîtes aux lettres, pratiquée par les pourrielleurs.

O. Hassane 2009

Page 5: Étude des techniques de classification et de filtrage automatique de Pourriels

5

Objectifs

� comprendre ce que c’est qu’un pourriel ;

� objectifs des pourriels ;

� étudier quelques techniques de filtrage automatique de pourriels ;

� présenter quelques solutions existantes .

O. Hassane 2009

Page 6: Étude des techniques de classification et de filtrage automatique de Pourriels

6

Filtrage d’informations

O. Hassane 2009

« Le filtrage est un processus qui consiste à extrair e lesinformations pertinentes et de qualité à partir d’une imposante masse d’informations »

Page 7: Étude des techniques de classification et de filtrage automatique de Pourriels

7

Structure d’un courriel

� En-tête ( header fields ): comprend les champs: sujet, expéditeur,

destinataire, date d’envoi, serveur source, ... etc.

� Le corps du massage : c’est le message en tant que tel: texte,

image, code html, …etc.

O. Hassane 2009

Page 8: Étude des techniques de classification et de filtrage automatique de Pourriels

8

Objectifs du pourriel

O. Hassane

�Répartition des pourriels par contenu sur le 1er semestre 2008 [1]

Page 9: Étude des techniques de classification et de filtrage automatique de Pourriels

9

Exemple d’un pourriel

O. Hassane 2009

� Exemple de pourriel publicitaire:

[Fig 1 ]

� Exemple de pourriel de hameçonnage (phishing):

[Fig 2 ]

Page 10: Étude des techniques de classification et de filtrage automatique de Pourriels

10

Techniques de filtrage automatique

O. Hassane, 2009

a. Techniques préventives: marquent les courriels pour distinguer les

courriels indésirables des courriels légitimes.

b. Techniques curatives: elles bloquent et même parfois elles renvoient vers l'expéditeur les messages jugées indésirables.

� Les techniques curatives a beaucoup d’inconvénients(surcharge du réseau, …)

Page 11: Étude des techniques de classification et de filtrage automatique de Pourriels

11

Techniques de filtrage automatique

O. Hassane 2009

a. Filtrage par mots clés;

b. Filtrage par expressions relationnelles (régulières);

c. Authentification de l’émetteur ( test de Turing);

d. Filtrage par réseaux de neurones;

e. Filtrage Bayésien.

Page 12: Étude des techniques de classification et de filtrage automatique de Pourriels

12

Techniques de filtrage automatique

O. Hassane 2009

a. Filtrage par mots clés:� définit des mots(*) comme interdits (viagra, diploma, winner, …);

� Analyse le contenu (le message lui même), l’objet et l’adresse courriel de l’expéditeur.

� Si présence d’un mot faisant partie des mots interdits, alors le message est considéré comme indésirable.

Inconvénients :

• Elle est très limitée;• Elle engendre des probabilités d'erreur très élevées; • Résistance très faible aux mots maquillés (exp: vi@gr@).

(*): les mots qui reviennent souvent dans les pourriels.

Page 13: Étude des techniques de classification et de filtrage automatique de Pourriels

13

Techniques de filtrage automatique

O. Hassane 2009

b. Filtrage par expressions relationnelles ( régulières )

� Introduite pour pallier aux limites du filtrage par mots clés;

� Elle s’appuie sur les expressions relationnelles (régulières);

� Les expressions relationnelles permettent de trouver des variations de mots jugés « sensibles » tel que le mot « viagra » Vs « viiaaagraa »;

� L’expression relationnelle /^vi+a+gra+$/i permettra de retrouver le mot « viiaaagraa ».

Inconvénients :• Il est difficile de définir toutes les expressions relationnelles possibles; • Il faut recenser tous les mots clés utilisés dans les pourriels, ce qui

rend la tache un peu délicate.

Page 14: Étude des techniques de classification et de filtrage automatique de Pourriels

14

Techniques de filtrage automatique

O. Hassane 2009

d. Authentification de l’émetteur ( test de Turing ) [3]� basée sur l’authentification de l’émetteur, en lui posant une question à

laquelle seul un humain peut répondre;

� le système peut envoyer un captcha (1) et lui demander de répondre à la question (exp: recopier le texte écrit dans l’image).

� L’utilisateur doit mettre en place une liste blanche pour les organismes qui envoient des messages automatique (site administratifs, commerce en ligne, …).

� La solution est radicale et efficace, elle est facile à mettre en place, mais elle montre des limites dans certains cas.

Inconvénients :• Difficile à maintenir (listes blanches)• C’est laborieux et contraignant pour l’émetteur.

(1) Une image contenant des caractères suffisamment déformés et bruités pour compliquer sérieusement la tâche aux OCR.

Page 15: Étude des techniques de classification et de filtrage automatique de Pourriels

15

Techniques de filtrage automatique

O. Hassane 2009

e. Filtrage par réseaux de neurones [2]� Après apprentissage, ils permettent de produire une forme de

raisonnement humain.

� L’apprentissage se fait d’une collection de courriels préalablement triés par l’utilisateur;

� Une fois l’apprentissage effectué, le réseau de neurone fonctionne comme un système anti-spam classique très efficace selon les cas les cas de figure.

� Le risque de mauvaise classification est réel, mais peut être contrôlé en jouant sur le seuil de sensibilité du réseau de neurones [Fig 3 ]

Page 16: Étude des techniques de classification et de filtrage automatique de Pourriels

16

Techniques de filtrage automatique

O. Hassane 2009

e. Filtrage par réseaux de neurones [2] ( suite )

[Fig 3 ]: Réglage de seuil de sensibilité du réseau

de neurones

� Inconvénients : • nécessite un entraînement long;

• doit être régulièrement entraîné pour faire face aux nouvelles formes de spam.

Page 17: Étude des techniques de classification et de filtrage automatique de Pourriels

17

Techniques de filtrage automatique

O. Hassane 2009

f. Filtrage Bayésien

� utilise les réseaux bayesiens, elle s’appuie sur la classification naïve bayesienne.

� Associe des probabilités aux différents mots clés du message.

� Il faut un temps d’apprentissage pour calculer ces probabilités.� Combine les probabilités obtenues selon le théorème de bayes

pour déterminer si un message est un Spam.

Page 18: Étude des techniques de classification et de filtrage automatique de Pourriels

18

Techniques de filtrage automatique

O. Hassane 2009

f. Filtrage Bayésien (suite)

� Permet d’obtenir un excellent taux de détection (>99%) [4][5]

� Inconvénients:� Il est peu efficace lorsqu’il s’agit d’un nouveau mot clé Spam

� Il faut un temps d’apprentissage pour déterminer les probabilités

� Les polluposteurs utilisent des images pour déjouer ce filtre.

� Exemple: DSpam, SamAssasin, SpamBayes, Bogofilter

Page 19: Étude des techniques de classification et de filtrage automatique de Pourriels

19

Autres techniques

� Filtrage par Bases collaboratives de spams: alimentées par les utilisateurs desolutions antispam, ces bases de données contiennent des signatures de spams, de la même

manière que les bases de signatures de virus.

� Filtrage par liste blanche: base de données des sites sûrs et certifiés, tous les messages provenant de ces sites sont acceptés et considérés comme sûrs.

� Filtrage par liste noire: bases de données abritant les listes de serveurs qui produisent, aident, accueillent, ou retransmettent des spams.

� Filtrage d’images: Les images sont utilisées par les spammeurs pour dissimuler les messages et déjouer les filtres basés sur l’analyse contextuelle. Cette technique analyse:

- le nombre d'images dans le message;- la manières dont elles sont placées dans le message;

- générer une somme de contrôle sur l’image.

O. Hassane 2009

Page 20: Étude des techniques de classification et de filtrage automatique de Pourriels

20

Quelques solutions existantes

O. Hassane 2009

� Filtrage au niveau du PC : adopté par les clients e-mail (Thunderburd, Outlook 2003), repose essentiellement sur les filtre bayésiennes.

� exp: BogoFilter : licence GPL, gratuit, multi-plateforme, filtre bayesien.

� Filtrage au niveau du serveur de messagerie : utilise un seul logiciel contrairement à la solution du filtrage au niveau PC. La bande passante reste encombrée, car le logiciel est installé en interne.

� exp:SpamAssassin , SpamGuru

� Filtrage au niveau de la passerelle d’internent : l’analyse s’effectue en amont du serveur de messagerie , ce qui évite la surcharge du serveur de messagerie. La bande passante reste encombrée.

� Service de filtrage extérnalisé : filtrage au niveau du fournisseur d’accès Internet (ISP). Avantage majeur, sa facilité de mise en œuvre et de gestion

Page 21: Étude des techniques de classification et de filtrage automatique de Pourriels

21

Perspectives

O. Hassane 2009

� de nouvelles techniques prometteuses basées sur:

a. Les algorithmes génétiques ;

b. Algorithme de Data mining ;

c. Le domaine de text mining pourrait ouvrir une vois dans la grande famille des techniques de classification de courriels.

d. Hybridation de certaines techniques

Page 22: Étude des techniques de classification et de filtrage automatique de Pourriels

22

Conclusion

O. Hassane 2009

� c’est un domaine un peu complexe;

� Les techniques de pollupostage évoluent aussi vite que les solutions proposées;

� une avancée très remarquable dans le domaine de filtrage;

� beaucoup de travaux ont été réalisés, et de techniques ont été proposées;’

� Il n’est pas possible d’obtenir une classification automatique correcte à 100%;

� Il serait, éventuellement, intéressant de combiner certaines techniques pour former des méthodes hybrides plus puissantes.

Page 23: Étude des techniques de classification et de filtrage automatique de Pourriels

23

Références

O. Hassane 2009

[1]: « Le SPAM », Sophie GASTELLIER-PREVOST : Enseignant-chercheur àl'Institut Télécom, Télécom & Management SudParis.

[2] : Chris Miller. Neural network-based antispam heuristics. In Symantec, white paper,03

[3] : http://fr.wikipedia.org/wiki/Pourriel

[4]: P. Graham, A plan for spam, http://paulgraham.com/spam.html

[5]: P. Graham, Better Bayesian filtering, http://www.paulgraham.com/better.html

Page 24: Étude des techniques de classification et de filtrage automatique de Pourriels

24

Questions.

O. Hassane 2009