extrait recherche d information

13
Recherche d’information Applications, modèles et algorithmes Algorithmes Massih-Reza AMINI - Éric GAUSSIER Ouvrage coordonné par Patrick Siarry Préface de Stephen Robertson Fouille de données, décisionnel et big data

Upload: alamimoham

Post on 24-Dec-2015

14 views

Category:

Documents


0 download

DESCRIPTION

Recherche d Information livre

TRANSCRIPT

Page 1: Extrait Recherche d Information

Recherche d’information

Applications, modèles et algorithmes

Alg

orit

hmes

Massih-Reza AMINI - Éric GAUSSIEROuvrage coordonné par Patrick SiarryPréface de Stephen Robertson

Fouille de données, décisionnel et big data

Page 2: Extrait Recherche d Information

Massih-Reza Amini,professeur d'informatiqueà l'Université J. Fourier(Grenoble 1), est titulaired'une thèse sur l'étude denouveaux modèlesstatistiques pour laclassificationdocumentaire et lerésumé de textes. Il estco-auteur de dizainesd'articles scientifiquesparus parmi les revues lesplus prestigieuses desdomaines del'apprentissageautomatique et de larecherche d'information.

Éric Gaussier, professeurd'informatique àl'Université J. Fourier(Grenoble 1), dirigeactuellement l'équipeAMA dont les recherchesse situent en analyse dedonnées, modélisation etapprentissageautomatique. Il estdirecteur adjoint duLaboratoired'informatique deGrenoble, un des plusimportants laboratoiresd'informatique en France.

Le premier ouvrage francophone sur les algorithmes qui sous-ten-dent les technologies de big data et les moteurs de recherche !

Depuis quelques années, de nouveaux modèles et algorithmes sontmis au point pour traiter des données de plus en plus volumineuseset diverses. Cet ouvrage présente les fondements scientifiques destâches les plus répandues en recherche d'information (RI), tâcheségalement liées au data mining, au décisionnel et plus générale-ment à l'exploitation de big data.Il propose un exposé cohérent des algorithmes classiques dévelop-pés dans ce domaine, abordable à des lecteurs qui cherchent àconnaître le mécanisme des outils quotidiens d'Internet.Le lecteur approfondira les concepts d'indexation, de compression,de recherche sur le Web, de classification et de catégorisation, etpourra prolonger cette étude avec les exercices corrigés proposés enfin de chapitre.Ce livre s’adresse tant aux chercheurs et ingénieurs qui travaillentdans le domaine de l’accès à l’information et employés de PME quiutilisent en profondeur les outils du webmarketing, qu’aux étu-diants de Licence, Master, doctorants ou en écoles d’ingénieurs, quisouhaitent un ouvrage de référence sur la recherche d’information.

SommaireReprésentation, indexation et compression. Prétraitements linguistiques.Segmentation. Normalisation. Filtrage par un anti-dictionnaire. Deux lois en recherched’information : loi de Heaps et loi de Zipf. Représentation documentaire. Modèlevectoriel. Pondération des termes. Index inversé. Indexation dans des collectionsstatiques et dynamiques. Recherche d’information. Modèles de recherche :booléens, vectoriels, probabilistes. Approche axiomatique de la RI. Expansion derequêtes. Mesures d’évaluation avec des résultats ordonnés et non ordonnés.Recherche sur le Web. Architecture de la toile. Inventions à la base du Web.Langage HTML. Protocole de transfert hypertexte. Collecte et indexation des pages. Robotd’indexation. Index distribués. Nouvelles stratégies de recherche. PageRank.Catégorisation de documents. Formalisme. Sélection de variables. Modèlesgénératifs. Modèle multivarié de Bernouilli. Modèle multinomial. Modèles discriminants.Modèle logistique. Séparateurs à vaste marge. Mesures d’évaluation.Partitionnement de documents. Étapes. Principaux algorithmes (à plat,hiérarchique). Évaluation. Applications à l’accès à l’information. Recherche dethèmes latents. Analyse sémantique latente. Analyse sémantique latenteprobabiliste. Modèle LDA. Logiciels libres pour la RI et pour lacatégorisation. Terrier. Lucene. MG. Passage à l'échelle et Big Data

Recherched’information

Code

édite

ur :

G135

32

ISBN

: 978

-2-2

12-1

3532

-9

Page 3: Extrait Recherche d Information

Recherche d’information

Applications, modèles et algorithmes

AMINI sstitre 20/03/13 11:26 Page 1

Page 4: Extrait Recherche d Information

Dans la même collection

Chez le même éditeur

pII_Amini.indd 2 20/03/13 14:38

Page 5: Extrait Recherche d Information

Massih-Reza AMINI - Éric GAUSSIERPréface de Stephen Robertson

Avec la contribution de Grégoire Péan

Recherche d’information

Applications, modèles et algorithmes

AMINI sstitre 20/03/13 11:26 Page 2

Page 6: Extrait Recherche d Information

En application de la loi du 11 mars 1957, il est interdit de reproduire intégralement ou partiellement le présent ouvrage, sur quelque support que ce soit, sans l’autorisation de l’Éditeur ou du Centre Français d’exploitation du droit de copie, 20, rue des Grands Augustins, 75006 Paris.© Groupe Eyrolles, 2013, ISBN : 978-2-212-13532-9

ÉDITIONS EYROLLES61, bd Saint-Germain75240 Paris Cedex 05

www.editions-eyrolles.com

Remerciements à Grégoire Péan et Éric Bernauer pour leurs précieuses relectures.

Copyright_Amini.indd 1 20/03/13 11:54

Page 7: Extrait Recherche d Information

ii

“main” — 2013/3/22 — 16:27 — page V — #5 ii

ii

ii

Préface

La recherche d’information, autrefois vue comme un domaine de spécialité à l’inter-section des techniques documentaires et de la science informatique, est devenue l’unedes technologies majeures du xxi

e siècle. Tout un chacun s’attend en effet aujour-d’hui à pouvoir trouver en quelques secondes des informations diverses sur tout typede sujet : horaires des transports en commun, principes de la production d’électri-cité, nature des maladies infectieuses, pharmacie la plus proche fournissant des antal-giques, films à l’affiche du cinéma voisin, analyse critique des œuvres d’Erik Satie,fondements de l’existentialisme de Jean-Paul Sartre ou tout détail trivial de la viecourante. Chacun considère cela comme allant de soi, et cet « allant de soi » est nédu développement des moteurs de recherche sur le Web.

Les fondements technologiques des moteurs de recherche peuvent être décrits trèssimplement, même si de nombreuses connaissances, combinaisons de développe-ments théoriques et de savoirs-faire expérimentaux, ont été accumulées dans cedomaine. Créer un moteur de recherche médiocre est facile ; en créer un qui soit à lafois pertinent et rapide est une tout autre histoire, et cela quelle que soit la taille de lacollection considérée (collection personnelle de courriers électroniques ou intégralitédu corpus de la Bibliothèque nationale). De façon étonnante, ce sont les moteursde recherche sur Internet qui ont tenu le haut du pavé ces quelque vingt dernièresannées. Pour toutes sortes de raisons, ils ont atteint un niveau de maturité qui semblebien en avance de ce qui se pratique à des échelles plus réduites.

Cet ouvrage est une introduction fondamentale à la technologie de la recherche d’in-formation et ses applications, pour la plupart liées au Web. Il combine traitementautomatique des langues et modèles théoriques, et couvre, outre l’ordonnancementde documents en réponse à une requête, la classification supervisée (en catégories pré-définies) et non supervisée (clustering). L’importance des concepts statistiques dansce domaine est centrale, depuis les caractéristiques statistiques des langues (loi deZipf ) jusqu’aux modèles probabilistes de recherche d’information et aux modèles àthèmes latents.

Cet ouvrage était nécessaire pour mettre à la portée d’un plus large public les fonda-mentaux de cette technologie moderne incontournable qu’est la recherched’information.

Stephen Robertsonseptembre 2012

Page 8: Extrait Recherche d Information

ii

“main” — 2013/3/22 — 16:27 — page VI — #6 ii

ii

ii

Page 9: Extrait Recherche d Information

ii

“main” — 2013/3/22 — 16:27 — page VII — #7 ii

ii

ii

Table des matières

Préface V

Liste des algorithmes XI

Notations XIII

Liste des tableaux XV

Liste des figures XVII

1 Introduction 11.1 Concepts étudiés dans ce livre . . . . . . . . . . . . . . . . . . . . 31.2 Organisation du livre . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Représentation et indexation 92.1 Prétraitements linguistiques . . . . . . . . . . . . . . . . . . . . . 10

2.1.1 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . 112.1.2 Normalisation . . . . . . . . . . . . . . . . . . . . . . . . 132.1.3 Filtrage par un antidictionnaire . . . . . . . . . . . . . . . 16

2.2 Les deux lois de base en recherche d’information . . . . . . . . . . . 182.2.1 Loi de Heaps . . . . . . . . . . . . . . . . . . . . . . . . 192.2.2 Loi de Zipf . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3 Représentation documentaire . . . . . . . . . . . . . . . . . . . . 212.3.1 Modèle vectoriel . . . . . . . . . . . . . . . . . . . . . . . 21

Page 10: Extrait Recherche d Information

ii

“main” — 2013/3/22 — 16:27 — page VIII — #8 ii

ii

ii

VIII – RECHERCHE D’INFORMATION – APPLICATIONS, MODÈLES ET ALGORITHMES

2.3.2 Pondération des termes . . . . . . . . . . . . . . . . . . . 232.4 Index inversé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.4.1 Indexation dans des collections statiques . . . . . . . . . . 272.4.2 Indexation dans des collections dynamiques . . . . . . . . . 30

2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Recherche d’information 453.1 Modèles de recherche . . . . . . . . . . . . . . . . . . . . . . . . 46

3.1.1 Modèles booléens . . . . . . . . . . . . . . . . . . . . . . 473.1.2 Modèles vectoriels . . . . . . . . . . . . . . . . . . . . . . 493.1.3 Modèles probabilistes . . . . . . . . . . . . . . . . . . . . 533.1.4 Une approche axiomatique de la RI . . . . . . . . . . . . . 66

3.2 Expansion de requêtes . . . . . . . . . . . . . . . . . . . . . . . . 683.2.1 La méthode « boucle de rétropertinence » . . . . . . . . . . 693.2.2 La méthode « boucle de rétropertinence en aveugle » . . . . 71

3.3 Mesures d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . 713.3.1 Évaluation de résultats non ordonnés . . . . . . . . . . . . 723.3.2 Évaluation de résultats ordonnés . . . . . . . . . . . . . . . 74

3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4 Recherche sur le Web 994.1 Architecture de la Toile . . . . . . . . . . . . . . . . . . . . . . . 1004.2 Trois inventions à la base du Web . . . . . . . . . . . . . . . . . . 100

4.2.1 Langage HTML . . . . . . . . . . . . . . . . . . . . . . . 1014.2.2 Protocole de transfert hypertexte et adresses Web . . . . . . 103

4.3 Collecte et indexation des pages sur la Toile . . . . . . . . . . . . . 1044.3.1 Robot d’indexation . . . . . . . . . . . . . . . . . . . . . 1044.3.2 Index distribués . . . . . . . . . . . . . . . . . . . . . . . 108

4.4 Nouvelles stratégies de recherche . . . . . . . . . . . . . . . . . . . 1094.4.1 Modèle d’apprentissage automatique pour la RI . . . . . . . 1104.4.2 PageRank . . . . . . . . . . . . . . . . . . . . . . . . . . 113

4.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5 Catégorisation de documents 1215.1 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1225.2 Sélection de variables . . . . . . . . . . . . . . . . . . . . . . . . . 124

Page 11: Extrait Recherche d Information

ii

“main” — 2013/3/22 — 16:27 — page IX — #9 ii

ii

ii

TABLE DES MATIÈRES – IX

5.2.1 Le seuillage sur la mesure Document Frequency (df) . . . . . 1255.2.2 L’information mutuelle ponctuelle (IMP) . . . . . . . . . . 1255.2.3 L’information mutuelle (IM) . . . . . . . . . . . . . . . . 1275.2.4 La mesure χ2 . . . . . . . . . . . . . . . . . . . . . . . . 128

5.3 Modèles génératifs . . . . . . . . . . . . . . . . . . . . . . . . . . 1305.3.1 Modèle multivarié de Bernoulli . . . . . . . . . . . . . . . 1315.3.2 Modèle multinomial . . . . . . . . . . . . . . . . . . . . . 134

5.4 Modèles discriminants . . . . . . . . . . . . . . . . . . . . . . . . 1375.4.1 Modèle logistique . . . . . . . . . . . . . . . . . . . . . . 1405.4.2 Séparateurs à vaste marge . . . . . . . . . . . . . . . . . . 142

5.5 Mesures d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . 1465.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

6 Partitionnement de documents 1636.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1646.2 Les étapes du partitionnement . . . . . . . . . . . . . . . . . . . . 1656.3 Principaux algorithmes de partitionnement . . . . . . . . . . . . . 170

6.3.1 Partitionnement à plat : méthodes de réallocation . . . . . . 1706.3.2 Partitionnement hiérarchique . . . . . . . . . . . . . . . . 178

6.4 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1886.5 Applications à l’accès à l’information . . . . . . . . . . . . . . . . . 1906.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

7 Recherche de thèmes latents 2017.1 Analyse sémantique latente . . . . . . . . . . . . . . . . . . . . . . 202

7.1.1 Décomposition en valeurs singulières . . . . . . . . . . . . 2037.1.2 L’analyse sémantique latente pour la RI . . . . . . . . . . . 2057.1.3 Limitations . . . . . . . . . . . . . . . . . . . . . . . . . 207

7.2 Analyse sémantique latente probabiliste . . . . . . . . . . . . . . . 2077.2.1 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . 210

7.3 Le modèle LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . 2117.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

8 Considérations pratiques 2198.1 Logiciels libres pour la recherche d’information . . . . . . . . . . . 220

8.1.1 dpSearch . . . . . . . . . . . . . . . . . . . . . . . . . . 221

Page 12: Extrait Recherche d Information

ii

“main” — 2013/3/22 — 16:27 — page X — #10 ii

ii

ii

X – RECHERCHE D’INFORMATION – APPLICATIONS, MODÈLES ET ALGORITHMES

8.1.2 Lucene/SolR . . . . . . . . . . . . . . . . . . . . . . . . . 2218.1.3 MG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2218.1.4 Terrier . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2218.1.5 Zettair . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

8.2 Logiciels libres pour la catégorisationet le partitionnement . . . . . . . . . . . . . . . . . . . . . . . . . 222

8.3 Le passage à l’échelle ou le Big Data . . . . . . . . . . . . . . . . . 2238.3.1 Traitement parallèle et distribué . . . . . . . . . . . . . . . 2238.3.2 Traitement de flux de données . . . . . . . . . . . . . . . . 224

Bibliographie 225

Page 13: Extrait Recherche d Information

ii

“main” — 2013/3/22 — 16:27 — page XI — #11 ii

ii

ii

Liste des algorithmes

1 Algorithme d’indexation par bloc à base de tri . . . . . . . . . . . . . . . . . . 29

2 Algorithme de fusion de deux listes inversées de termes avec l’opérateur ET . . . . 48

3 Modèle vectoriel de recherche - implémentation du score cosinus (équation 3.1) . 51

4 Modèle d’indépendance binaire . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5 Algorithme de descente du gradient pour l’ordonnancement . . . . . . . . . . . 112

6 Algorithme de PageRank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

7 Sélection de variables avec la mesure IM . . . . . . . . . . . . . . . . . . . . . 127

8 Modèle multivarié de Bernoulli, phase d’apprentissage . . . . . . . . . . . . . . 132

9 Modèle multivarié de Bernoulli, phase de test . . . . . . . . . . . . . . . . . . . 133

10 Modèle multinomial, phase d’apprentissage . . . . . . . . . . . . . . . . . . . . 135

11 Modèle multinomial, phase de test . . . . . . . . . . . . . . . . . . . . . . . . 136

12 Modèle logistique, phase d’apprentissage . . . . . . . . . . . . . . . . . . . . . 141

13 Algorithme de Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

14 Algorithme des k plus proches voisins pour la catégorisation . . . . . . . . . . . 154

15 Algorithme d’AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

16 Algorithme de la méthode à une passe . . . . . . . . . . . . . . . . . . . . . . . 171

17 Algorithme des k-moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

18 Algorithme de partitionnement hiérarchique agglomératif . . . . . . . . . . . . 185

19 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

20 Algorithme de partitionnement hiérarchique agglomératif pour le lien simple . . . 200

21 Modèle PLSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

22 Modèle LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212