reconnaissance des entit es s emantiques thierry hamon · (wikipedia fr) barack obama, barack...

77
Fouille de textes Reconnaissance des entit´ es s´ emantiques Thierry Hamon Bureau H202 - Institut Galil´ ee el. : 33 1.49.40.35.53 LIMSI-CNRS [email protected] https://perso.limsi.fr/hamon/Teaching/P13/FDT-2016-2017/ 1/30

Upload: others

Post on 24-Feb-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Fouille de textesReconnaissance des entites semantiques

Thierry Hamon

Bureau H202 - Institut GalileeTel. : 33 1.49.40.35.53

[email protected]

https://perso.limsi.fr/hamon/Teaching/P13/FDT-2016-2017/

1/30

Page 2: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

1 Introduction

2 Mots vides/mots outils

3 Entites nommeesReconnaissance d’entites nommeesMethodes de reconnaissance d’entites nommesProjection de dictionnaires et expressions regulieresSysteme a base de regles

Approche hors-contexteApproche contextuelle

Reconnaissances d’entites nommees par apprentissageOutils

1/30

Page 3: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Fouille de texteChaıne de traitements

Collectedes donnees

Nettoyage etPre-traitements

Annotationdes entites

semantiques

Regroupementdes entites

Selectiondes entites

Post-traitements

Documents (PDF, .doc, etc.)Pages web (HTML, XML, etc.), Mails, Forums, etc.

Nettoyage, Segmentation en mots et phrasesEtiquetage morpho-syntaxique, lemmatisation

Reconnaissance d’entites nommeesReconnaissance et extraction de termes

Acquisition de relations semantiquesClassification et categorisation semantique

Elimination des entites non pertinentesDesambiguısation semantiqueTraitements specifiques lies a la tache

2/30

Page 4: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Introduction

Introduction

La fouille de texte necessite d’identifier plusieurs types d’entitesauquelles est associee une semantique ou un role particulier :

Les mots outils ou vides

Les entites nommees

Les termes

L’utilite des entites depend de leur categorie semantique et de latache visee.Differentes methodes peuvent etre utilisees pour les identifierautomatiquement.

3/30

Page 5: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Introduction

Introduction

La fouille de texte necessite d’identifier plusieurs types d’entitesauquelles est associee une semantique ou un role particulier :

Les mots outils ou vides

Les entites nommees

Les termes

L’utilite des entites depend de leur categorie semantique et de latache visee.

Differentes methodes peuvent etre utilisees pour les identifierautomatiquement.

3/30

Page 6: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Introduction

Introduction

La fouille de texte necessite d’identifier plusieurs types d’entitesauquelles est associee une semantique ou un role particulier :

Les mots outils ou vides

Les entites nommees

Les termes

L’utilite des entites depend de leur categorie semantique et de latache visee.Differentes methodes peuvent etre utilisees pour les identifierautomatiquement.

3/30

Page 7: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Mots vides/mots outils

Mots vides/outils(Stopwords, stop list)

Mots vides/mots-outils

communs mais peu informatif et pas porteur de sens

au sens linguistique : articles, coordinations, pronoms

Exemples :

Anglais : a, an, and, are, as, at, be, but, by,

for, if, in, into, is, it, no, not, of, on

Francais : de, la, l’, le, a, les, et, des, d’, en,

un, du, une

Methode d’identification :

liste finie, de petite taille et connue, pas de variation

donc, identification dans le texte par comparaison de chaınesde caracteres

4/30

Page 8: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Mots vides/mots outils

Mots vides/outils(Stopwords, stop list)

Mots vides/mots-outils

communs mais peu informatif et pas porteur de sens

au sens linguistique : articles, coordinations, pronoms

Exemples :

Anglais : a, an, and, are, as, at, be, but, by,

for, if, in, into, is, it, no, not, of, on

Francais : de, la, l’, le, a, les, et, des, d’, en,

un, du, une

Methode d’identification :

liste finie, de petite taille et connue, pas de variation

donc, identification dans le texte par comparaison de chaınesde caracteres

4/30

Page 9: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Mots vides/mots outils

Mots vides/outilsRemarques

Ne pas confondre avec les mots les plus frequents

ils sont generalement peu informatif pour la fouille de textecertains mots les plus frequents peuvent etre des mots vides

Utilisation possible a differentes etapes de l’analyse desdonnees textuelles

Information utile pour l’extraction d’information (descriptiondes exemples, etc.)

5/30

Page 10: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Introduction

Entites nommees : unites textuelles particulieres

noms propres

references bibliographiques

mesures, dates, etc.

unites monetaires

Notion parfois floue, pouvant se confondre avec les termes danscertains contextes

6/30

Page 11: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Introduction

De maniere generale, il s’agit de noms propres pouvant etre classes

dans des categories predefinies

ENAMEX : organisation, lieu, personneTIMEX : dates, expressions temporellesNUMEX : valeurs monetaires, pourcentage, ...

dans des categories specifiques a un domaine

biologie : especes, proteines, genes, etc.medecine : medicaments, conditions medicales, etc.mais aussi noms de bateau, modeles d’avion, etc.

7/30

Page 12: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Exemple

Ne a Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectue sa these al’Universite de Strasbourg sous la direction de Jean-Marie Lehn. Apres unpost-doctorat a Oxford, il revient en France et effectue sa carriere auCNRS qu’il integre en 1971 et devient directeur de recherche au CNRS en1979. Jean-Pierre Sauvage travaille a l’Institut de science et d’ingenieriesupramoleculaire (CNRS/Universite de Strasbourg). Il a egalement recu lamedaille de bronze en 1978 et celle d’argent du CNRS en 1988.

On peut reconnaıtre

les entites nommees, imbriquees ou non

les types associes aux entites, parfois ambigues

8/30

Page 13: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Exemple

Ne a Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectue sa these al’Universite de Strasbourg sous la direction de Jean-Marie Lehn. Apresun post-doctorat a Oxford, il revient en France et effectue sa carriere auCNRS qu’il integre en 1971 et devient directeur de recherche au CNRS en1979. Jean-Pierre Sauvage travaille a l’Institut de science et d’ingenieriesupramoleculaire (CNRS/Universite de Strasbourg). Il a egalement recula medaille de bronze en 1978 et celle d’argent du CNRS en 1988.

On peut reconnaıtre

les entites nommees

, imbriquees ou non

les types associes aux entites, parfois ambigues

8/30

Page 14: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Exemple

Ne a Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectue sa these al’Universite de Strasbourg sous la direction de Jean-Marie Lehn. Apresun post-doctorat a Oxford, il revient en France et effectue sa carriere auCNRS qu’il integre en 1971 et devient directeur de recherche au CNRS en1979. Jean-Pierre Sauvage travaille a l’Institut de science et d’ingenieriesupramoleculaire (CNRS/Universite de Strasbourg). Il a egalement recula medaille de bronze en 1978 et celle d’argent du CNRS en 1988.

On peut reconnaıtre

les entites nommees, imbriquees ou non

les types associes aux entites, parfois ambigues

8/30

Page 15: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Exemple

Ne a Paris[lieu] le 21 octobre 1944[date], Jean-PierreSauvage[personne] a effectue sa these a l’Universite deStrasbourg[lieu][organisation,lieu] sous la direction de Jean-MarieLehn[personne]. Apres un post-doctorat a Oxford[organisation,lieu], ilrevient en France[lieu] et effectue sa carriere au CNRS[organisation] qu’ilintegre en 1971[date] et devient directeur de recherche auCNRS[organisation] en 1979[date]. Jean-Pierre Sauvage[personne]travaille a l’Institut de science et d’ingenieriesupramoleculaire[organisation] (CNRS[organisation]/Universite deStrasbourg[lieu][organisation,lieu]). Il a egalement recu la medaille debronze en 1978[date] et celle d’argent du CNRS[organisation] en1988[date].

On peut reconnaıtre

les entites nommees, imbriquees ou non

les types associes aux entites, parfois ambigues

8/30

Page 16: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Exemple

We have previously reported that YaaH and YrbA are spore proteins of B.subtilis that are required for spore resistance and/or germination and thatthey have a motif conserved among so-called cell wall binding proteins[Kodama et al. (1999) J. Bacteriol. 181, 4584-4591, Takamatsu et al.(1999) J. Bacteriol. 181, 4986-4994].

9/30

Page 17: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Exemple

We have previously reported that YaaH and YrbA are spore proteins of B.subtilis that are required for spore resistance and/or germination and thatthey have a motif conserved among so-called cell wall binding proteins[Kodama et al. (1999) J. Bacteriol. 181, 4584-4591, Takamatsu et al.(1999) J. Bacteriol. 181, 4986-4994].

9/30

Page 18: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Exemple

We have previously reported that YaaH[protein] and YrbA[protein] arespore proteins of B. subtilis[species] that are required for spore resistanceand/or germination and that they have a motif conserved among so-calledcell wall binding proteins [Kodama et al. (1999) J. Bacteriol. 181,4584-4591, Takamatsu et al. (1999) J. Bacteriol. 181,4986-4994][citation].

9/30

Page 19: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN

Reconnaissance d’entites nommees (1)

Obstacle important en TAL :

Majorite des mots inconnus d’un corpus

Porteurs d’informations importantes

Similaires aux groupes nominaux complexes avec beaucoup devariation

(Wikipedia EN) Carl XVI Gustaf of Sweden, Carl XVI Gustaf, CarlGustaf Folke Hubertus, King Carl Gustaf, His Majesty Carl XVIGustaf, King of Sweden, Carl Gustaf(Wikipedia FR) Barack Obama, Barack Hussein Obama II, BarackObama Jr., Obama, president Obama, president Barack Obama

Acronymes peuvent etre similaires aux mots : OTAN, Laser,Radar

Necessitent plusieurs analyses

10/30

Page 20: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN

Reconnaissance d’entites nommees (2)

Ensemble particulierement ouvert dans les textes scientifiqueset techniques

Certaines taches demandent de leur associer des categoriessemantiques (extraction d’information)

Plusieurs types d’analyse

Utilisation de dictionnaires ou de listes existantes

Definition d’automates

Analyse statistique ou reconnaissance par apprentissageautomatique

11/30

Page 21: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN

Problemes

La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute

La coordination : Barack et Michelle Obama, M. et MmeObama

L’imbrication : Universite de Strasbourg

Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama

Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN

La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)

12/30

Page 22: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN

Problemes

La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute

La coordination : Barack et Michelle Obama, M. et MmeObama

L’imbrication : Universite de Strasbourg

Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama

Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN

La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)

12/30

Page 23: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN

Problemes

La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute

La coordination : Barack et Michelle Obama, M. et MmeObama

L’imbrication : Universite de Strasbourg

Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama

Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN

La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)

12/30

Page 24: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN

Problemes

La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute

La coordination : Barack et Michelle Obama, M. et MmeObama

L’imbrication : Universite de Strasbourg

Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama

Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN

La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)

12/30

Page 25: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN

Problemes

La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute

La coordination : Barack et Michelle Obama, M. et MmeObama

L’imbrication : Universite de Strasbourg

Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama

Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN

La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)

12/30

Page 26: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN

Problemes

La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute

La coordination : Barack et Michelle Obama, M. et MmeObama

L’imbrication : Universite de Strasbourg

Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama

Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN

La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)

12/30

Page 27: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Methodes

Methodes de reconnaissanced’entites nommees (1)

Projection de dictionnaires

On retrouve les entites nommees connuesCategorisation des entites nommees

Utilisation des majusculesAlan Turing, Metro Goldwin Mayer, Nobody Can Beat theWiz

Indice insufisant : le premier mot des phrases est generalementen majuscule...Probleme de la limite a droiteInstitut national de recherche en informatique et

en automatique

Organisation des Nations Unies efficaceSolution : utilisation de grammaires des EN et du lexique

13/30

Page 28: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Methodes

Methodes de reconnaissanced’entites nommees (1)

Projection de dictionnaires

On retrouve les entites nommees connuesCategorisation des entites nommees

Utilisation des majusculesAlan Turing, Metro Goldwin Mayer, Nobody Can Beat theWiz

Indice insufisant : le premier mot des phrases est generalementen majuscule...Probleme de la limite a droiteInstitut national de recherche en informatique et

en automatique

Organisation des Nations Unies efficaceSolution : utilisation de grammaires des EN et du lexique

13/30

Page 29: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Methodes

Methodes de reconnaissanced’entites nommees (1)

Projection de dictionnaires

On retrouve les entites nommees connuesCategorisation des entites nommees

Utilisation des majusculesAlan Turing, Metro Goldwin Mayer, Nobody Can Beat theWiz

Indice insufisant : le premier mot des phrases est generalementen majuscule...Probleme de la limite a droiteInstitut national de recherche en informatique et

en automatique

Organisation des Nations Unies efficaceSolution : utilisation de grammaires des EN et du lexique

13/30

Page 30: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

dictionnaires et Regex

Projection de dictionnaires

Utile pour reconnaıtre des categories d’entites nommees precisesMais

inutiles si trop petits

sources d’ambiguıte si trop grands

et de toute facon, ils ne sont pas pas exhaustifs !

En general :

Utilisation de dictionnaires d’EN combines a des indicesexternes ou internes identifies manuellement ouautomatiquement

Pour les lieux : utilisation de dictionnaires

14/30

Page 31: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

dictionnaires et Regex

Projection de dictionnaires

Utile pour reconnaıtre des categories d’entites nommees precisesMais

inutiles si trop petits

sources d’ambiguıte si trop grands

et de toute facon, ils ne sont pas pas exhaustifs !En general :

Utilisation de dictionnaires d’EN combines a des indicesexternes ou internes identifies manuellement ouautomatiquement

Pour les lieux : utilisation de dictionnaires

14/30

Page 32: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

dictionnaires et Regex

Exemples

Expressions regulieres :Reconnaissances d’abreviation :([A-Z]\.|[A-Z]\.)+|[A-Z][:consonant:]+\.)

Analyse la variation dans les textes :

si une chaıne/un est seulement en lettres majuscule (OTAN)ou avec la premiere lettre en majuscule (Otan), elle/il peutetre consideree comme une abreviationsi une chaıne/un est est aussi en minuscule, elle/il ne peut etreconsideree comme une abreviation

Voir d’autres exemples dans le cadre du TP

15/30

Page 33: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

dictionnaires et Regex

Exemples

Expressions regulieres :Reconnaissances d’abreviation :([A-Z]\.|[A-Z]\.)+|[A-Z][:consonant:]+\.)

Analyse la variation dans les textes :

si une chaıne/un est seulement en lettres majuscule (OTAN)ou avec la premiere lettre en majuscule (Otan), elle/il peutetre consideree comme une abreviationsi une chaıne/un est est aussi en minuscule, elle/il ne peut etreconsideree comme une abreviation

Voir d’autres exemples dans le cadre du TP

15/30

Page 34: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

REN avec un systeme a base de regles

Deux types d’approche

hors-contexte : utilisation d’indices internes

contextuelle : utilisation d’indices externes

16/30

Page 35: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

Approche hors-contexte

Utilisation des caracteristiques de la sequenceLes entites ont une structure interne :

Luc Besson, F. Hollande, H. Clintondocteur Jean Dupond, maıtre Durant, president ObamaSherwood Forest, Hollywood Boulevard, Place de l’etoile,aeroport d’Orlygroupe Vivendi, societe General, Airbus group

Utilisation d’indices internes a l’entite

Majuscule, prenoms, abreviation de prenomsMots classifiant des metiers des lieux, des organisations...

17/30

Page 36: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

Approche hors-contexte

Utilisation des caracteristiques de la sequenceLes entites ont une structure interne :

Luc Besson, F. Hollande, H. Clintondocteur Jean Dupond, maıtre Durant, president ObamaSherwood Forest, Hollywood Boulevard, Place de l’etoile,aeroport d’Orlygroupe Vivendi, societe General, Airbus group

Utilisation d’indices internes a l’entite

Majuscule, prenoms, abreviation de prenoms

Mots classifiant des metiers des lieux, des organisations...

17/30

Page 37: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

Approche hors-contexte

Utilisation des caracteristiques de la sequenceLes entites ont une structure interne :

Luc Besson, F. Hollande, H. Clintondocteur Jean Dupond, maıtre Durant, president ObamaSherwood Forest, Hollywood Boulevard, Place de l’etoile,aeroport d’Orlygroupe Vivendi, societe General, Airbus group

Utilisation d’indices internes a l’entite

Majuscule, prenoms, abreviation de prenomsMots classifiant des metiers

des lieux, des organisations...

17/30

Page 38: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

Approche hors-contexte

Utilisation des caracteristiques de la sequenceLes entites ont une structure interne :

Luc Besson, F. Hollande, H. Clintondocteur Jean Dupond, maıtre Durant, president ObamaSherwood Forest, Hollywood Boulevard, Place de l’etoile,aeroport d’Orlygroupe Vivendi, societe General, Airbus group

Utilisation d’indices internes a l’entite

Majuscule, prenoms, abreviation de prenomsMots classifiant des metiers des lieux

, des organisations...

17/30

Page 39: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

Approche hors-contexte

Utilisation des caracteristiques de la sequenceLes entites ont une structure interne :

Luc Besson, F. Hollande, H. Clintondocteur Jean Dupond, maıtre Durant, president ObamaSherwood Forest, Hollywood Boulevard, Place de l’etoile,aeroport d’Orlygroupe Vivendi, societe General, Airbus group

Utilisation d’indices internes a l’entite

Majuscule, prenoms, abreviation de prenomsMots classifiant des metiers des lieux, des organisations...

17/30

Page 40: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

Approche contextuelle

Hypothese : existence d’un contexte facilitant l’identificationd’entites nommees et leur categorisation

Utilisation du contexte locaux des entites :

Personne : titre, metier, grade, ...juge van Ruymbeke, docteur Freud, monsieur Chirac,general De Gaulle

Organisation : statut, activite, ..la filiale de PSA, la compagnie Ryanair, le motoriste Safran,constructeur aeronautique AirbusLieux :la ville de Rennes, le fleuve amazone, la comete Tchouri, lesud de Paris, base a Lyon, lac BaıcalMais aussi contexte specifique :Transcription of the cotB, cotC, and cotX genesla sonde Rosetta, le robot Philae

18/30

Page 41: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

Approche contextuelle

Hypothese : existence d’un contexte facilitant l’identificationd’entites nommees et leur categorisation

Utilisation du contexte locaux des entites :

Personne : titre, metier, grade, ...juge van Ruymbeke, docteur Freud, monsieur Chirac,general De GaulleOrganisation : statut, activite, ..la filiale de PSA, la compagnie Ryanair, le motoriste Safran,constructeur aeronautique Airbus

Lieux :la ville de Rennes, le fleuve amazone, la comete Tchouri, lesud de Paris, base a Lyon, lac BaıcalMais aussi contexte specifique :Transcription of the cotB, cotC, and cotX genesla sonde Rosetta, le robot Philae

18/30

Page 42: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

Approche contextuelle

Hypothese : existence d’un contexte facilitant l’identificationd’entites nommees et leur categorisation

Utilisation du contexte locaux des entites :

Personne : titre, metier, grade, ...juge van Ruymbeke, docteur Freud, monsieur Chirac,general De GaulleOrganisation : statut, activite, ..la filiale de PSA, la compagnie Ryanair, le motoriste Safran,constructeur aeronautique AirbusLieux :la ville de Rennes, le fleuve amazone, la comete Tchouri, lesud de Paris, base a Lyon, lac Baıcal

Mais aussi contexte specifique :Transcription of the cotB, cotC, and cotX genesla sonde Rosetta, le robot Philae

18/30

Page 43: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

Approche contextuelle

Hypothese : existence d’un contexte facilitant l’identificationd’entites nommees et leur categorisation

Utilisation du contexte locaux des entites :

Personne : titre, metier, grade, ...juge van Ruymbeke, docteur Freud, monsieur Chirac,general De GaulleOrganisation : statut, activite, ..la filiale de PSA, la compagnie Ryanair, le motoriste Safran,constructeur aeronautique AirbusLieux :la ville de Rennes, le fleuve amazone, la comete Tchouri, lesud de Paris, base a Lyon, lac BaıcalMais aussi contexte specifique :Transcription of the cotB, cotC, and cotX genesla sonde Rosetta, le robot Philae

18/30

Page 44: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN a base de regles

Identification des entites nommees

Problemes :

conflit entre indices internes et externesLa societe Yves Saint-Laurent, le groupe Hugo Boss, lasociete Hughes Aircraft→ On privilegie l’indice externe

Ambiguıte du contexte :

All American Bank vs. All State PoliceJFK (mais aussi Charles De Gaulle)

→ Un contexte plus large doit etre utilise

Ambiguıte de la coordination

C&A, H&M, Pratt & Whitney vs. Apple et Samsung

19/30

Page 45: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Reconnaissances d’entites nommeespar apprentissage

Utilisation de methodes d’etiquetage sequentiel :

1 Donnees annotees selon le representation BIO(/IOB)

2 Apprentissage d’un modele (HMM, CRF, etc.) sur les donneesannotees

3 Utilisation du modele pour etiqueter les donnees selon larepresentation BIO

4 Post-traitement pour interpreter la representation BIO

20/30

Page 46: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Reconnaissances d’entites nommeespar apprentissage

Utilisation de methodes d’etiquetage sequentiel :

1 Donnees annotees selon le representation BIO(/IOB)2 Apprentissage d’un modele (HMM, CRF, etc.) sur les donnees

annotees

3 Utilisation du modele pour etiqueter les donnees selon larepresentation BIO

4 Post-traitement pour interpreter la representation BIO

20/30

Page 47: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Reconnaissances d’entites nommeespar apprentissage

Utilisation de methodes d’etiquetage sequentiel :

1 Donnees annotees selon le representation BIO(/IOB)2 Apprentissage d’un modele (HMM, CRF, etc.) sur les donnees

annotees3 Utilisation du modele pour etiqueter les donnees selon la

representation BIO

4 Post-traitement pour interpreter la representation BIO

20/30

Page 48: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Reconnaissances d’entites nommeespar apprentissage

Utilisation de methodes d’etiquetage sequentiel :

1 Donnees annotees selon le representation BIO(/IOB)2 Apprentissage d’un modele (HMM, CRF, etc.) sur les donnees

annotees3 Utilisation du modele pour etiqueter les donnees selon la

representation BIO4 Post-traitement pour interpreter la representation BIO

20/30

Page 49: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Representation BIO

Chaque mot est associe a une classe

B (Begin), I (Inside), O (Outside)ou en prenant en compte la categorie semantique :

Personne : B-PERS (Begin), I-PERS (Inside)Organisation : B-ORG (Begin), I-ORG (Inside)...O (Outside)

Autres representations : BIO2, BILOU

21/30

Page 50: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple

NeaParis LOCle21 DATEoctobre DATE1944 DATE,Jean-Pierre PERSSauvage PERSaeffectuesathese

22/30

Page 51: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple

Ne Oa OParis B-LOCle O21 B-DATEoctobre I-DATE1944 I-DATE, OJean-Pierre B-PERSSauvage I-PERSa Oeffectue Osa Othese O

22/30

Page 52: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Modele d’apprentissage avec des CRF

Definition d’un modele probabiliste decrivant descaracteristiques de surface specifiques aux entites nommeescomme les CRF

CRF - Conditional Random Field :

Objectif : maximiser p(t|w) sans calculer de modele p(w)permet l’utilisation d’un ensemble de features plus importantModele graphique (CRF lineaire)

p(t|w) =

∏Ni=2 exp(

∑k λk fk (ti−1, ti ,w , i))∑

t′ exp(∏N

i=2 exp(∑

k λk fk (t ′i−1, t′i ,w , i)))

Les features fk doivent etre definies par l’utilisateur

Les parametres du modele (λk ) sont estimes sur des donneesd’entraınement

23/30

Page 53: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Structure graphique d’un CRF

ti−2 ti−1 ti ti+1

wi−2 wi−1 wi wi+1

24/30

Page 54: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Definition des features

Prise en compte des observations (donnees annotes)

fk (ti−1, ti ,w , i) = 1 1 si {M,Mme,Melle} ∩ {wi−3, ...,wi−1} 6= ∅et ti = B-PERS

= 0 sinon

Exemple d’implementation : Wapiti (Lavergne, 2010)https://wapiti.limsi.fr/

Definition de patrons a trous pour generer les features

Une feature est generee par l’application d’un patron sur uneligne

L’apprentissage associe un poids λk a chaque feature fk (...)

On se limite a des sequences de deux etiquettes (par ex. yi etyi−1)

25/30

Page 55: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

26/30

Page 56: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patrons

Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant

Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

26/30

Page 57: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patrons

Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant

Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

26/30

Page 58: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patrons

Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant

Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

26/30

Page 59: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patrons

Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant

Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

26/30

Page 60: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patrons

Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant

Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

26/30

Page 61: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patrons

Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant

Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

26/30

Page 62: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patrons

Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant

Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

26/30

Page 63: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patrons

Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant

Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

26/30

Page 64: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patrons

Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant

Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

26/30

Page 65: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent

26/30

Page 66: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent

26/30

Page 67: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent

26/30

Page 68: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent

26/30

Page 69: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent

26/30

Page 70: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent

26/30

Page 71: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent

26/30

Page 72: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent

26/30

Page 73: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O

etc.

26/30

Page 74: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Processus

CRF lineaire :

Donnees annotees utilises comme exemple ((w , y))Definition des features ou des patrons de features (fk (...))Apprentissage des poids du CRF permettant d’obtenir unmodele (λk )Application du modele sur de nouvelles donnees en cherchantla sequence d’annotations y qui maximise p(t|w)

27/30

Page 75: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Bilan

CRF : meilleures resultats pour les taches correspondant a desannotations sur des sequences

Autres possibilites :sans etiquetage sequentiel : arbres de decision, SVM, etc.

28/30

Page 76: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

REN par apprentissage

Bilan et performance

Utilisation de regles

Regles lisibles, evolution des systemes par ajout de lexique,mais cout de la descriptionSurtout adaptes a la langue ecriteRappel & precision > 90%

Apprentissage de modeles

Modeles numerique, arbre de decision,... difficilementmodifiables, mais cout de la description faible (necessite uncorpus d’apprentissage)Surtout adaptes a la langue orale, mais aussi bonneperformances sur les textes de specialiteRappel entre 50 et 90%

Systemes mixtes : avantages et inconvenients des deux

Mais performances variables suivant les entites nommees et lenombre de categories

29/30

Page 77: Reconnaissance des entit es s emantiques Thierry Hamon · (Wikipedia FR) Barack Obama, Barack Hussein Obama II, Barack Obama Jr., Obama, pr esident Obama, pr esident Barack Obama

Entites nommees

Outils

Outils de reconnaissance d’entites nommees

HeidelTime (expressions temporelles)http://dbs.ifi.uni-heidelberg.de/index.php?id=129

GeniaTagger (entites nommees en genomiques)http://www.nactem.ac.uk/GENIA/tagger/

LIA NE (pour le francais)http://pageperso.lif.univ-mrs.fr/~frederic.bechet/download.html

Stanford NER (pour l’anglais, l’allemand, l’espagnol et lechinois) http://nlp.stanford.edu/ner/index.shtml

30/30