extraction d'informations cours 5 méthodes statistiques et...
TRANSCRIPT
Extraction d'informations Cours 5
Méthodes statistiques et symboliques
Master – 2e année Science et Ingénierie Informatiques, filière Logiciel
Systèmes d'information et applications web Institut Gaspard-Monge
2013-2014 Éric Laporte
Université Paris-Est Marne-la-Vallée
Plan
Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel
2
Apprentissage supervisé
3
corpus brut
corpus annoté
apprentissage supervisé
corpus d’apprentissage
modèle probabiliste
Inconvénients Annoter le corpus d’apprentissage (100 000 mots) De nouvelles entités nommées apparaissent souvent : annoter de nouveaux corpus Impossible de corriger une erreur
Apprentissage non supervisé
4
corpus brut
corpus annoté
annotateur symbolique
corpus brut
corpus annoté
apprentissage non supervisé
Nécessite des corpus plus gros (1 000 000 mots)
Inconvénients Ne marche que pour certaines tâches, par exemple le partitionnement Impossible de corriger une erreur
Alfonseca, E.; Manandhar, S. 2002. An Unsupervised Method for General Named Entity Recognition and Automated Concept Discovery. In Proc. International Conference on General WordNet
Apprentissage semi-supervisé
5
corpus brut
corpus annoté 1
apprentissage supervisé
corpus annoté 0
règles 1
règles-germes
corpus annoté 2
apprentissage supervisé
règles 2
Germes (seeds)
<entity type="newspaper" classwords="newspaper" estimatedpopulation="10E1">
<seed>New York Times</seed> <seed>Chicago Tribune</seed> <seed>Le Monde</seed> <seed>Washington Post</seed> <seed>The Globe and Mail</seed> <seed>Jerusalem Post</seed> <seed>China Daily</seed> <seed>The Nation</seed> <seed>National Post</seed> <seed>USA Today</seed> <seed>The Guardian</seed> <seed>The Boston Globe</seed> <seed>San Jose Mercury News</seed> <seed>International Herald
Tribune</seed> <seed>Philadelphia Inquirer</seed> </entity>
Nadeau, David. 2007. Semi-Supervised Named Entity Recognition: Learning to Recognize 100 Entity Types with Little Supervision. PhD dissertation
6
Germes
<entity type="weapon" classwords="weapon" estimatedpopulation="10E2"> <seed>knife</seed> <seed>bayonet</seed> <seed>handgun</seed> <seed>sniper rifle</seed> <seed>Shotgun</seed> <seed>Patriot missile</seed> <seed>44 Magnums</seed> <seed>spear</seed> <seed>cannon</seed> <seed>Maxim gun</seed> <seed>MP5K</seed> <seed>Colt .45 Automatic</seed> <seed>Thompson submachine gun</seed> <seed>Uzi</seed> <seed>Molotov cocktail</seed> </entity>
7
Germes
full-string=New-York → Location full-string=California → Location full-string=U.S. → Location contains(Mr.) → Person contains(Incorporated) → Organization full-string=Microsoft → Organization full-string=I.B.M. → Organization
Collins, M.; Singer, Y. 1999. Unsupervised Models for Named Entity Classification. In Proc. of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.
8
Amorçage (bootstrapping)
Initialisation du processus Un petit nombre de règles faciles à faire à la main (germes)
Continuation Généralisation automatique progressive
9
corpus brut
corpus annoté 1
apprentissage supervisé
corpus annoté 0
règles 1
règles-germes
corpus annoté 2
apprentissage supervisé
règles 2
Amorçage (bootstrapping)
Inconvénients Les expressions trouvées correspondent de moins en moins à ce
qu’on cherche Dérive sémantique Impossible de corriger une erreur
10
Dérive sémantique
CPL probability CBS score
Game 0.998047 Baseball 1782.201 Show 0.998047 Basketball 1630.333 Football 0.998047 Soccer 1223.195 Day 0.998047 Skiing 1162.535 Drama 0.996094 Tennis 1022.093 Music 0.996094 Hockey 1012.905 Basketball 0.996094 Sailing 984.733 chess 0.992188 Wrestling 802.307 Baseball 0.992188 Boxing 724.129 Golf 0.992188 Swimming 677.489
Verma, S.; Hruschka Jr., E.R. 2012. Coupled Bayesian Sets algorithm for semi-supervised learning and information extraction, Proceedings of the European conference on Machine Learning and Knowledge Discovery in Databases, II, 307-322, Springer-Verlag.
11
Couplage d’extracteurs
Extracteurs d’entités nommées utilisant des contextes différents Un extracteur sur des textes, un autre sur des tableaux HTML On ne conserve que les résultats communs
Contraintes logiques Un sportif est une personne Un sport n’est pas une personne On élimine les résultats qui violent des contraintes
Couplage entre entités nommées et prédicats sémantiques Extraction de prédicats sémantiques Wal-Mart, numéro 1 mondial de la grande distribution plus-grosse-entreprise-par-secteur(Wal-Mart, grande distribution) Wal-Mart est une entreprise La grande distribution est un secteur d’activité
Carlson, A.; Betteridge, J.; Wang, R.C.; Hruschka Jr., E.R.; Mitchell, T.M. 2010. Coupled semi-supervised learning for information extraction. In: Proc. of WSDM.
12
Ontologies
plus-grosse-entreprise-par-secteur( , )
13
personne
auteur
Amélie Nothomb entreprise
grande distribution Wal-Mart
secteur d'activité
genre
roman
roman policier
Méthodes hybrides
Apprentissage semi-supervisé Objectif : éliminer les opérations manuelles coûteuses - analyse d'exemples - description des langues (dictionnaires, grammaires)
Couplage d’extracteurs Contraintes logiques : à décrire manuellement (ontologies) Prédicats sémantiques : extraction par méthodes symboliques (dictionnaires,
grammaires)
Méthodes hybrides Combinaison d’apprentissage automatique et de méthodes symboliques
14
Méthodes symboliques
15
corpus brut
corpus annoté
annotateur symbolique
révision manuelle Entités nommées
On décrit directement - les entités nommées connues (dictionnaire) - les contextes caractéristiques des entités nommées (grammaire)
Avantage On peut corriger une erreur en révisant l'annotateur
Inconvénients La construction et la révision de l'annotateur demandent - du travail - des compétences en linguistique
Plan
Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel
16
Prédicats sémantiques
Prédicats et arguments Les arguments peuvent être des entités nommées
Prédicats unaires développement(cellule-pileuse) est-une-entreprise(Wal-Mart) est-un-secteur-d’activité(grande distribution)
Prédicats binaires auteur(Amélie Nothomb, Stupeur et Tremblements) adresse-mail(Éric Laporte, [email protected]) date(élections-municipales-France-2014, mars-2014) langue (telle-page-web, français)
Prédicats ternaires rang-entreprise-par-secteur(Carrefour, grande distribution, 2) député-parti-lieu(Henri Cuq, RPR, Yvelines)
17
Le format RDF
Resource description framework (modèle de description de ressources) Format pour les prédicats à deux arguments
Triplets RDF
adresse-mail(Eric Miller, [email protected])
<http://www.w3.org/People/EM/contact#me> <http://www.w3.org/2000/10/swap/pim/contact#mailbox> <mailto:[email protected]>
3 identifiants, dans l'ordre : - premier argument - prédicat - deuxième argument
18
Le format RDF
URI Universal resource identifier (identifiant uniforme de ressource) Le prédicat et les deux arguments peuvent être représentés par des URI
URI de prédicats http://purl.org/dc/terms/date date() http://purl.org/dc/terms/creator créateur() 70 prédicats définis sur http://dublincore.org/documents/dcmi-terms/ http://www.w3.org/2000/10/swap/pim/contact#mailbox adresse-mail()
URI d’arguments http://www.w3.org/People/EM/contact#me mailto:[email protected]
19
Le format RDF
Chaines littérales Le deuxième argument peut aussi être représenté par une chaine littérale: en
fr es...
Exemple
langue (telle-page-web, français)
<http://fr.wikipedia.org/wiki/Informatique> <http://purl.org/dc/terms/language> "fr"
20
Plan
Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel
21
Graphes de grammaires locales
22
Graphes de grammaires locales
Objectif Représenter manuellement des expressions Il faut connaitre la langue des textes Reconnaitre automatiquement les expressions dans des textes
Le système Unitex Logiciel libre Éditeur graphique pour les graphes Outil de reconnaissance
Évaluation On fait les graphes manuellement On les révise manuellement On utilise une évaluation de l'extraction
Gross, M. 1997. The Construction of Local Grammars. Finite State Language Processing, Cambridge, Mass., The MIT Press, p. 329-352.
23
Plan
Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel
24
Évaluation d'un extracteur : précision
Précision :
25
Points noirs : occurrences visées Ellipse : occurrences extraites En vert : succès En rouge : faux positifs Précision : 8/12 = 0,67
occurrences extraites
... visées vp (vrais positifs)
... non visées fp (faux positifs)
p=vp
vp+ fp
Évaluer la précision avec Unitex
26
Ouvrir un corpus Créer un répertoire Unitex personnel qui ne servira qu'à Unitex Ouvrir Unitex et spécifier le répertoire Unitex personnel Choisir la langue du corpus Copier le corpus dans le répertoire Corpus de cette langue
Répertoire Unitex personnel Répertoires des langues
Pour les corpus à traiter Pour les dictionnaires Pour les graphes
Évaluer la précision avec Unitex
27
Ouvrir un corpus Copier le corpus dans le répertoire Corpus de la langue Cliquer sur Text puis Open Ouvrir la liste de types de fichiers et choisir Raw Unicode Texts Choisir le corpus
Appliquer le graphe Copier le graphe dans le répertoire Graphs de la langue Cliquer sur Text puis Locate pattern Choisir le graphe Cliquer sur SEARCH Noter le nombre d'occurrences (vp+fp) Cliquer sur OK puis Build concordance
Compter les faux positifs dans la concordance
Concordance
28
Concordance
29
faux positif
Plan
Apprentissage semi-supervisé Prédicats sémantiques Graphes de grammaires locales Précision Rappel
30
Évaluation d'un extracteur : rappel (recall)
31
À gauche de la ligne oblique : toutes les occurrences visées
En vert : succès En rouge : faux négatifs Rappel : 8/20 = 0,4
Rappel :
objectifs initiaux
occurrences visées occurrences non
visées
résultats du système
occurences extraites
vp (vrais positifs) fp (faux positifs)
occurrences non extraites
fn (faux négatifs)
r=vp
vp+ fn
Évaluer le rappel avec Unitex
32
Trouver les faux négatifs Ils ne figurent pas dans la concordance du graphe Faire une autre extraction, plus large que celle à évaluer
Exemples
Requête à évaluer Requête plus large
député (<MAJ>) de député (<MAJ>) député (<MAJ>) de député ( député (<MAJ>) de <NB> h <NB> vers <NB> h <NB> <NB>-<NB>-<NB>
Évaluer le rappel avec Unitex
33
Faire l'extraction large Cliquer sur Text puis Locate pattern Choisir le graphe Choisir l'option Index all utterances in text Cliquer sur SEARCH puis OK
Faire l'extraction à évaluer Cliquer sur Text puis Locate pattern Choisir le graphe Cliquer sur SEARCH Noter le nombre d'occurrences (vp+fp)
Produire une concordance différentielle Cliquer sur Show differences with previous concordance
Compter les faux négatifs dans la concordance
Concordance différentielle
34
Extraction 1 sur fond grisé
Extraction 2 sur fond blanc
Extraction 1
Extraction 2 : rien
Concordance différentielle
35
Extraction 1
Extraction 2 : faux négatif
Retoucher un graphe
36
Ouvrir le graphe Cliquer sur FSGraph puis Open
Lire le graphe Sur fond grisé : invocation d'un sous-graphe (Alt-clic pour l'ouvrir) Sur fond rouge : invocation d'un sous-graphe inexistant Sens des transitions : indiqué par les flèches à droite des nœuds Nœud final
Sélectionner et désélectionner Cliquer sur un nœud pour le sélectionner Cliquer dans le vide pour désélectionner Cliquer et déplacer la souris pour dessiner un rectangle et sélectionner
les nœuds qui touchent le rectangle
Graphes de grammaires locales
37
Retoucher un graphe
38
Créer un nœud Ctrl-clic, éditer le contenu, valider
Créer une transition de a vers b Cliquer sur a puis sur b
Supprimer une transition de a vers b Cliquer sur a puis sur b
Symboles <MOT> constitué de lettres seulement <MAJ> tout en majuscules <PRE> initiale majuscule . , ; - ' chaque symbole est un token député reconnait un mot littéralement (la minuscule reconnait la majuscule) <député> reconnait aussi le pluriel et le féminin