extraction d'informations cours 5 méthodes statistiques et...

38
Extraction d'informations Cours 5 Méthodes statistiques et symboliques Master 2 e année Science et Ingénierie Informatiques, filière Logiciel Systèmes d'information et applications web Institut Gaspard-Monge 2013-2014 Éric Laporte Université Paris-Est Marne-la-Vallée

Upload: others

Post on 18-Mar-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Extraction d'informations Cours 5

Méthodes statistiques et symboliques

Master – 2e année Science et Ingénierie Informatiques, filière Logiciel

Systèmes d'information et applications web Institut Gaspard-Monge

2013-2014 Éric Laporte

Université Paris-Est Marne-la-Vallée

Page 2: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Plan

Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel

2

Page 3: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Apprentissage supervisé

3

corpus brut

corpus annoté

apprentissage supervisé

corpus d’apprentissage

modèle probabiliste

Inconvénients Annoter le corpus d’apprentissage (100 000 mots) De nouvelles entités nommées apparaissent souvent : annoter de nouveaux corpus Impossible de corriger une erreur

Page 4: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Apprentissage non supervisé

4

corpus brut

corpus annoté

annotateur symbolique

corpus brut

corpus annoté

apprentissage non supervisé

Nécessite des corpus plus gros (1 000 000 mots)

Inconvénients Ne marche que pour certaines tâches, par exemple le partitionnement Impossible de corriger une erreur

Alfonseca, E.; Manandhar, S. 2002. An Unsupervised Method for General Named Entity Recognition and Automated Concept Discovery. In Proc. International Conference on General WordNet

Page 5: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Apprentissage semi-supervisé

5

corpus brut

corpus annoté 1

apprentissage supervisé

corpus annoté 0

règles 1

règles-germes

corpus annoté 2

apprentissage supervisé

règles 2

Page 6: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Germes (seeds)

<entity type="newspaper" classwords="newspaper" estimatedpopulation="10E1">

<seed>New York Times</seed> <seed>Chicago Tribune</seed> <seed>Le Monde</seed> <seed>Washington Post</seed> <seed>The Globe and Mail</seed> <seed>Jerusalem Post</seed> <seed>China Daily</seed> <seed>The Nation</seed> <seed>National Post</seed> <seed>USA Today</seed> <seed>The Guardian</seed> <seed>The Boston Globe</seed> <seed>San Jose Mercury News</seed> <seed>International Herald

Tribune</seed> <seed>Philadelphia Inquirer</seed> </entity>

Nadeau, David. 2007. Semi-Supervised Named Entity Recognition: Learning to Recognize 100 Entity Types with Little Supervision. PhD dissertation

6

Page 7: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Germes

<entity type="weapon" classwords="weapon" estimatedpopulation="10E2"> <seed>knife</seed> <seed>bayonet</seed> <seed>handgun</seed> <seed>sniper rifle</seed> <seed>Shotgun</seed> <seed>Patriot missile</seed> <seed>44 Magnums</seed> <seed>spear</seed> <seed>cannon</seed> <seed>Maxim gun</seed> <seed>MP5K</seed> <seed>Colt .45 Automatic</seed> <seed>Thompson submachine gun</seed> <seed>Uzi</seed> <seed>Molotov cocktail</seed> </entity>

7

Page 8: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Germes

full-string=New-York → Location full-string=California → Location full-string=U.S. → Location contains(Mr.) → Person contains(Incorporated) → Organization full-string=Microsoft → Organization full-string=I.B.M. → Organization

Collins, M.; Singer, Y. 1999. Unsupervised Models for Named Entity Classification. In Proc. of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.

8

Page 9: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Amorçage (bootstrapping)

Initialisation du processus Un petit nombre de règles faciles à faire à la main (germes)

Continuation Généralisation automatique progressive

9

corpus brut

corpus annoté 1

apprentissage supervisé

corpus annoté 0

règles 1

règles-germes

corpus annoté 2

apprentissage supervisé

règles 2

Page 10: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Amorçage (bootstrapping)

Inconvénients Les expressions trouvées correspondent de moins en moins à ce

qu’on cherche Dérive sémantique Impossible de corriger une erreur

10

Page 11: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Dérive sémantique

CPL probability CBS score

Game 0.998047 Baseball 1782.201 Show 0.998047 Basketball 1630.333 Football 0.998047 Soccer 1223.195 Day 0.998047 Skiing 1162.535 Drama 0.996094 Tennis 1022.093 Music 0.996094 Hockey 1012.905 Basketball 0.996094 Sailing 984.733 chess 0.992188 Wrestling 802.307 Baseball 0.992188 Boxing 724.129 Golf 0.992188 Swimming 677.489

Verma, S.; Hruschka Jr., E.R. 2012. Coupled Bayesian Sets algorithm for semi-supervised learning and information extraction, Proceedings of the European conference on Machine Learning and Knowledge Discovery in Databases, II, 307-322, Springer-Verlag.

11

Page 12: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Couplage d’extracteurs

Extracteurs d’entités nommées utilisant des contextes différents Un extracteur sur des textes, un autre sur des tableaux HTML On ne conserve que les résultats communs

Contraintes logiques Un sportif est une personne Un sport n’est pas une personne On élimine les résultats qui violent des contraintes

Couplage entre entités nommées et prédicats sémantiques Extraction de prédicats sémantiques Wal-Mart, numéro 1 mondial de la grande distribution plus-grosse-entreprise-par-secteur(Wal-Mart, grande distribution) Wal-Mart est une entreprise La grande distribution est un secteur d’activité

Carlson, A.; Betteridge, J.; Wang, R.C.; Hruschka Jr., E.R.; Mitchell, T.M. 2010. Coupled semi-supervised learning for information extraction. In: Proc. of WSDM.

12

Page 13: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Ontologies

plus-grosse-entreprise-par-secteur( , )

13

personne

auteur

Amélie Nothomb entreprise

grande distribution Wal-Mart

secteur d'activité

genre

roman

roman policier

Page 14: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Méthodes hybrides

Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses - analyse d'exemples - description des langues (dictionnaires, grammaires)

Couplage d’extracteurs Contraintes logiques : à décrire manuellement (ontologies) Prédicats sémantiques : extraction par méthodes symboliques (dictionnaires,

grammaires)

Méthodes hybrides Combinaison d’apprentissage automatique et de méthodes symboliques

14

Page 15: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Méthodes symboliques

15

corpus brut

corpus annoté

annotateur symbolique

révision manuelle Entités nommées

On décrit directement - les entités nommées connues (dictionnaire) - les contextes caractéristiques des entités nommées (grammaire)

Avantage On peut corriger une erreur en révisant l'annotateur

Inconvénients La construction et la révision de l'annotateur demandent - du travail - des compétences en linguistique

Page 16: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Plan

Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel

16

Page 17: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Prédicats sémantiques

Prédicats et arguments Les arguments peuvent être des entités nommées

Prédicats unaires développement(cellule-pileuse) est-une-entreprise(Wal-Mart) est-un-secteur-d’activité(grande distribution)

Prédicats binaires auteur(Amélie Nothomb, Stupeur et Tremblements) adresse-mail(Éric Laporte, [email protected]) date(élections-municipales-France-2014, mars-2014) langue (telle-page-web, français)

Prédicats ternaires rang-entreprise-par-secteur(Carrefour, grande distribution, 2) député-parti-lieu(Henri Cuq, RPR, Yvelines)

17

Page 18: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Le format RDF

Resource description framework (modèle de description de ressources) Format pour les prédicats à deux arguments

Triplets RDF

adresse-mail(Eric Miller, [email protected])

<http://www.w3.org/People/EM/contact#me> <http://www.w3.org/2000/10/swap/pim/contact#mailbox> <mailto:[email protected]>

3 identifiants, dans l'ordre : - premier argument - prédicat - deuxième argument

18

Page 19: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Le format RDF

URI Universal resource identifier (identifiant uniforme de ressource) Le prédicat et les deux arguments peuvent être représentés par des URI

URI de prédicats http://purl.org/dc/terms/date date() http://purl.org/dc/terms/creator créateur() 70 prédicats définis sur http://dublincore.org/documents/dcmi-terms/ http://www.w3.org/2000/10/swap/pim/contact#mailbox adresse-mail()

URI d’arguments http://www.w3.org/People/EM/contact#me mailto:[email protected]

19

Page 20: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Le format RDF

Chaines littérales Le deuxième argument peut aussi être représenté par une chaine littérale: en

fr es...

Exemple

langue (telle-page-web, français)

<http://fr.wikipedia.org/wiki/Informatique> <http://purl.org/dc/terms/language> "fr"

20

Page 21: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Plan

Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel

21

Page 22: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Graphes de grammaires locales

22

Page 23: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Graphes de grammaires locales

Objectif Représenter manuellement des expressions Il faut connaitre la langue des textes Reconnaitre automatiquement les expressions dans des textes

Le système Unitex Logiciel libre Éditeur graphique pour les graphes Outil de reconnaissance

Évaluation On fait les graphes manuellement On les révise manuellement On utilise une évaluation de l'extraction

Gross, M. 1997. The Construction of Local Grammars. Finite State Language Processing, Cambridge, Mass., The MIT Press, p. 329-352.

23

Page 24: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Plan

Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel

24

Page 25: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Évaluation d'un extracteur : précision

Précision :

25

Points noirs : occurrences visées Ellipse : occurrences extraites En vert : succès En rouge : faux positifs Précision : 8/12 = 0,67

occurrences extraites

... visées vp (vrais positifs)

... non visées fp (faux positifs)

p=vp

vp+ fp

Page 26: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Évaluer la précision avec Unitex

26

Ouvrir un corpus Créer un répertoire Unitex personnel qui ne servira qu'à Unitex Ouvrir Unitex et spécifier le répertoire Unitex personnel Choisir la langue du corpus Copier le corpus dans le répertoire Corpus de cette langue

Répertoire Unitex personnel Répertoires des langues

Pour les corpus à traiter Pour les dictionnaires Pour les graphes

Page 27: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Évaluer la précision avec Unitex

27

Ouvrir un corpus Copier le corpus dans le répertoire Corpus de la langue Cliquer sur Text puis Open Ouvrir la liste de types de fichiers et choisir Raw Unicode Texts Choisir le corpus

Appliquer le graphe Copier le graphe dans le répertoire Graphs de la langue Cliquer sur Text puis Locate pattern Choisir le graphe Cliquer sur SEARCH Noter le nombre d'occurrences (vp+fp) Cliquer sur OK puis Build concordance

Compter les faux positifs dans la concordance

Page 28: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Concordance

28

Page 29: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Concordance

29

faux positif

Page 30: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Plan

Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel

30

Page 31: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Évaluation d'un extracteur : rappel (recall)

31

À gauche de la ligne oblique : toutes les occurrences visées

En vert : succès En rouge : faux négatifs Rappel : 8/20 = 0,4

Rappel :

objectifs initiaux

occurrences visées occurrences non

visées

résultats du système

occurences extraites

vp (vrais positifs) fp (faux positifs)

occurrences non extraites

fn (faux négatifs)

r=vp

vp+ fn

Page 32: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Évaluer le rappel avec Unitex

32

Trouver les faux négatifs Ils ne figurent pas dans la concordance du graphe Faire une autre extraction, plus large que celle à évaluer

Exemples

Requête à évaluer Requête plus large

député (<MAJ>) de député (<MAJ>) député (<MAJ>) de député ( député (<MAJ>) de <NB> h <NB> vers <NB> h <NB> <NB>-<NB>-<NB>

Page 33: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Évaluer le rappel avec Unitex

33

Faire l'extraction large Cliquer sur Text puis Locate pattern Choisir le graphe Choisir l'option Index all utterances in text Cliquer sur SEARCH puis OK

Faire l'extraction à évaluer Cliquer sur Text puis Locate pattern Choisir le graphe Cliquer sur SEARCH Noter le nombre d'occurrences (vp+fp)

Produire une concordance différentielle Cliquer sur Show differences with previous concordance

Compter les faux négatifs dans la concordance

Page 34: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Concordance différentielle

34

Extraction 1 sur fond grisé

Extraction 2 sur fond blanc

Extraction 1

Extraction 2 : rien

Page 35: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Concordance différentielle

35

Extraction 1

Extraction 2 : faux négatif

Page 36: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Retoucher un graphe

36

Ouvrir le graphe Cliquer sur FSGraph puis Open

Lire le graphe Sur fond grisé : invocation d'un sous-graphe (Alt-clic pour l'ouvrir) Sur fond rouge : invocation d'un sous-graphe inexistant Sens des transitions : indiqué par les flèches à droite des nœuds Nœud final

Sélectionner et désélectionner Cliquer sur un nœud pour le sélectionner Cliquer dans le vide pour désélectionner Cliquer et déplacer la souris pour dessiner un rectangle et sélectionner

les nœuds qui touchent le rectangle

Page 37: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Graphes de grammaires locales

37

Page 38: Extraction d'informations Cours 5 Méthodes statistiques et ...laporte/extr-info/extr-inf-5-2013...Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses

Retoucher un graphe

38

Créer un nœud Ctrl-clic, éditer le contenu, valider

Créer une transition de a vers b Cliquer sur a puis sur b

Supprimer une transition de a vers b Cliquer sur a puis sur b

Symboles <MOT> constitué de lettres seulement <MAJ> tout en majuscules <PRE> initiale majuscule . , ; - ' chaque symbole est un token député reconnait un mot littéralement (la minuscule reconnait la majuscule) <député> reconnait aussi le pluriel et le féminin