extraction d'informations cours 5 méthodes statistiques et...

Extraction d'informations Cours 5

Méthodes statistiques et symboliques

Master – 2e année Science et Ingénierie Informatiques, filière Logiciel

Systèmes d'information et applications web Institut Gaspard-Monge

2013-2014 Éric Laporte

Université Paris-Est Marne-la-Vallée

Plan

Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel

2

Apprentissage supervisé

3

corpus brut

corpus annoté

apprentissage supervisé

corpus d’apprentissage

modèle probabiliste

Inconvénients Annoter le corpus d’apprentissage (100 000 mots) De nouvelles entités nommées apparaissent souvent : annoter de nouveaux corpus Impossible de corriger une erreur

Apprentissage non supervisé

4

corpus brut

corpus annoté

annotateur symbolique

corpus brut

corpus annoté

apprentissage non supervisé

Nécessite des corpus plus gros (1 000 000 mots)

Inconvénients Ne marche que pour certaines tâches, par exemple le partitionnement Impossible de corriger une erreur

Alfonseca, E.; Manandhar, S. 2002. An Unsupervised Method for General Named Entity Recognition and Automated Concept Discovery. In Proc. International Conference on General WordNet

Apprentissage semi-supervisé

5

corpus brut

corpus annoté 1


corpus annoté 0

règles 1

règles-germes

corpus annoté 2


règles 2

Germes (seeds)

<entity type="newspaper" classwords="newspaper" estimatedpopulation="10E1">

<seed>New York Times</seed> <seed>Chicago Tribune</seed> <seed>Le Monde</seed> <seed>Washington Post</seed> <seed>The Globe and Mail</seed> <seed>Jerusalem Post</seed> <seed>China Daily</seed> <seed>The Nation</seed> <seed>National Post</seed> <seed>USA Today</seed> <seed>The Guardian</seed> <seed>The Boston Globe</seed> <seed>San Jose Mercury News</seed> <seed>International Herald

Tribune</seed> <seed>Philadelphia Inquirer</seed> </entity>

Nadeau, David. 2007. Semi-Supervised Named Entity Recognition: Learning to Recognize 100 Entity Types with Little Supervision. PhD dissertation

6

Germes

<entity type="weapon" classwords="weapon" estimatedpopulation="10E2"> <seed>knife</seed> <seed>bayonet</seed> <seed>handgun</seed> <seed>sniper rifle</seed> <seed>Shotgun</seed> <seed>Patriot missile</seed> <seed>44 Magnums</seed> <seed>spear</seed> <seed>cannon</seed> <seed>Maxim gun</seed> <seed>MP5K</seed> <seed>Colt .45 Automatic</seed> <seed>Thompson submachine gun</seed> <seed>Uzi</seed> <seed>Molotov cocktail</seed> </entity>

7

Germes

full-string=New-York → Location full-string=California → Location full-string=U.S. → Location contains(Mr.) → Person contains(Incorporated) → Organization full-string=Microsoft → Organization full-string=I.B.M. → Organization

Collins, M.; Singer, Y. 1999. Unsupervised Models for Named Entity Classification. In Proc. of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.

8

Amorçage (bootstrapping)

Initialisation du processus Un petit nombre de règles faciles à faire à la main (germes)

Continuation Généralisation automatique progressive

9

corpus brut

corpus annoté 1


corpus annoté 0

règles 1

règles-germes

corpus annoté 2


règles 2

Amorçage (bootstrapping)

Inconvénients Les expressions trouvées correspondent de moins en moins à ce

qu’on cherche Dérive sémantique Impossible de corriger une erreur

10

Dérive sémantique

CPL probability CBS score

Game 0.998047 Baseball 1782.201 Show 0.998047 Basketball 1630.333 Football 0.998047 Soccer 1223.195 Day 0.998047 Skiing 1162.535 Drama 0.996094 Tennis 1022.093 Music 0.996094 Hockey 1012.905 Basketball 0.996094 Sailing 984.733 chess 0.992188 Wrestling 802.307 Baseball 0.992188 Boxing 724.129 Golf 0.992188 Swimming 677.489

Verma, S.; Hruschka Jr., E.R. 2012. Coupled Bayesian Sets algorithm for semi-supervised learning and information extraction, Proceedings of the European conference on Machine Learning and Knowledge Discovery in Databases, II, 307-322, Springer-Verlag.

11

Couplage d’extracteurs

Extracteurs d’entités nommées utilisant des contextes différents Un extracteur sur des textes, un autre sur des tableaux HTML On ne conserve que les résultats communs

Contraintes logiques Un sportif est une personne Un sport n’est pas une personne On élimine les résultats qui violent des contraintes

Couplage entre entités nommées et prédicats sémantiques Extraction de prédicats sémantiques Wal-Mart, numéro 1 mondial de la grande distribution plus-grosse-entreprise-par-secteur(Wal-Mart, grande distribution) Wal-Mart est une entreprise La grande distribution est un secteur d’activité

Carlson, A.; Betteridge, J.; Wang, R.C.; Hruschka Jr., E.R.; Mitchell, T.M. 2010. Coupled semi-supervised learning for information extraction. In: Proc. of WSDM.

12

Ontologies

plus-grosse-entreprise-par-secteur( , )

13

personne

auteur

Amélie Nothomb entreprise

grande distribution Wal-Mart

secteur d'activité

genre

roman

roman policier

Méthodes hybrides

Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses - analyse d'exemples - description des langues (dictionnaires, grammaires)

Couplage d’extracteurs Contraintes logiques : à décrire manuellement (ontologies) Prédicats sémantiques : extraction par méthodes symboliques (dictionnaires,

grammaires)

Méthodes hybrides Combinaison d’apprentissage automatique et de méthodes symboliques

14

Méthodes symboliques

15

corpus brut

corpus annoté

annotateur symbolique

révision manuelle Entités nommées

On décrit directement - les entités nommées connues (dictionnaire) - les contextes caractéristiques des entités nommées (grammaire)

Avantage On peut corriger une erreur en révisant l'annotateur

Inconvénients La construction et la révision de l'annotateur demandent - du travail - des compétences en linguistique

Plan


16

Prédicats sémantiques

Prédicats et arguments Les arguments peuvent être des entités nommées

Prédicats unaires développement(cellule-pileuse) est-une-entreprise(Wal-Mart) est-un-secteur-d’activité(grande distribution)

Prédicats binaires auteur(Amélie Nothomb, Stupeur et Tremblements) adresse-mail(Éric Laporte, [email protected]) date(élections-municipales-France-2014, mars-2014) langue (telle-page-web, français)

Prédicats ternaires rang-entreprise-par-secteur(Carrefour, grande distribution, 2) député-parti-lieu(Henri Cuq, RPR, Yvelines)

17

mailto:[email protected]





Le format RDF

Resource description framework (modèle de description de ressources) Format pour les prédicats à deux arguments

Triplets RDF

adresse-mail(Eric Miller, [email protected])

<http://www.w3.org/People/EM/contact#me> <http://www.w3.org/2000/10/swap/pim/contact#mailbox> <mailto:[email protected]>

3 identifiants, dans l'ordre : - premier argument - prédicat - deuxième argument

18

Le format RDF

URI Universal resource identifier (identifiant uniforme de ressource) Le prédicat et les deux arguments peuvent être représentés par des URI

URI de prédicats http://purl.org/dc/terms/date date() http://purl.org/dc/terms/creator créateur() 70 prédicats définis sur http://dublincore.org/documents/dcmi-terms/ http://www.w3.org/2000/10/swap/pim/contact#mailbox adresse-mail()

URI d’arguments http://www.w3.org/People/EM/contact#me mailto:[email protected]

19

Le format RDF

Chaines littérales Le deuxième argument peut aussi être représenté par une chaine littérale: en

fr es...

Exemple

langue (telle-page-web, français)

<http://fr.wikipedia.org/wiki/Informatique> <http://purl.org/dc/terms/language> "fr"

20

Plan


21

Graphes de grammaires locales

22


Objectif Représenter manuellement des expressions Il faut connaitre la langue des textes Reconnaitre automatiquement les expressions dans des textes

Le système Unitex Logiciel libre Éditeur graphique pour les graphes Outil de reconnaissance

Évaluation On fait les graphes manuellement On les révise manuellement On utilise une évaluation de l'extraction

Gross, M. 1997. The Construction of Local Grammars. Finite State Language Processing, Cambridge, Mass., The MIT Press, p. 329-352.

23

Plan


24

Évaluation d'un extracteur : précision

Précision :

25

Points noirs : occurrences visées Ellipse : occurrences extraites En vert : succès En rouge : faux positifs Précision : 8/12 = 0,67

occurrences extraites

... visées vp (vrais positifs)

... non visées fp (faux positifs)

p=vp

vp+ fp

Évaluer la précision avec Unitex

26

Ouvrir un corpus Créer un répertoire Unitex personnel qui ne servira qu'à Unitex Ouvrir Unitex et spécifier le répertoire Unitex personnel Choisir la langue du corpus Copier le corpus dans le répertoire Corpus de cette langue

Répertoire Unitex personnel Répertoires des langues

Pour les corpus à traiter Pour les dictionnaires Pour les graphes

Évaluer la précision avec Unitex

27

Ouvrir un corpus Copier le corpus dans le répertoire Corpus de la langue Cliquer sur Text puis Open Ouvrir la liste de types de fichiers et choisir Raw Unicode Texts Choisir le corpus

Appliquer le graphe Copier le graphe dans le répertoire Graphs de la langue Cliquer sur Text puis Locate pattern Choisir le graphe Cliquer sur SEARCH Noter le nombre d'occurrences (vp+fp) Cliquer sur OK puis Build concordance

Compter les faux positifs dans la concordance

Concordance

28

Concordance

29

faux positif

Plan


30

Évaluation d'un extracteur : rappel (recall)

31

À gauche de la ligne oblique : toutes les occurrences visées

En vert : succès En rouge : faux négatifs Rappel : 8/20 = 0,4

Rappel :

objectifs initiaux

occurrences visées occurrences non

visées

résultats du système

occurences extraites

vp (vrais positifs) fp (faux positifs)

occurrences non extraites

fn (faux négatifs)

r=vp

vp+ fn

Évaluer le rappel avec Unitex

32

Trouver les faux négatifs Ils ne figurent pas dans la concordance du graphe Faire une autre extraction, plus large que celle à évaluer

Exemples

Requête à évaluer Requête plus large

député (<MAJ>) de député (<MAJ>) député (<MAJ>) de député ( député (<MAJ>) de <NB> h <NB> vers <NB> h <NB> <NB>-<NB>-<NB>

Évaluer le rappel avec Unitex

33

Faire l'extraction large Cliquer sur Text puis Locate pattern Choisir le graphe Choisir l'option Index all utterances in text Cliquer sur SEARCH puis OK

Faire l'extraction à évaluer Cliquer sur Text puis Locate pattern Choisir le graphe Cliquer sur SEARCH Noter le nombre d'occurrences (vp+fp)

Produire une concordance différentielle Cliquer sur Show differences with previous concordance

Compter les faux négatifs dans la concordance

Concordance différentielle

34

Extraction 1 sur fond grisé

Extraction 2 sur fond blanc

Extraction 1

Extraction 2 : rien

Concordance différentielle

35

Extraction 1

Extraction 2 : faux négatif

Retoucher un graphe

36

Ouvrir le graphe Cliquer sur FSGraph puis Open

Lire le graphe Sur fond grisé : invocation d'un sous-graphe (Alt-clic pour l'ouvrir) Sur fond rouge : invocation d'un sous-graphe inexistant Sens des transitions : indiqué par les flèches à droite des nœuds Nœud final

Sélectionner et désélectionner Cliquer sur un nœud pour le sélectionner Cliquer dans le vide pour désélectionner Cliquer et déplacer la souris pour dessiner un rectangle et sélectionner

les nœuds qui touchent le rectangle


37

Retoucher un graphe

38

Créer un nœud Ctrl-clic, éditer le contenu, valider

Créer une transition de a vers b Cliquer sur a puis sur b

Supprimer une transition de a vers b Cliquer sur a puis sur b

Symboles <MOT> constitué de lettres seulement <MAJ> tout en majuscules <PRE> initiale majuscule . , ; - ' chaque symbole est un token député reconnait un mot littéralement (la minuscule reconnait la majuscule) <député> reconnait aussi le pluriel et le féminin

extraction d'informations cours 5 méthodes statistiques et...

Documents