reconnaissance des entit es s emantiques thierry hamon (wikipedia fr) barack obama, barack hussein...

Download Reconnaissance des entit es s emantiques Thierry Hamon (Wikipedia FR) Barack Obama, Barack Hussein Obama

Post on 24-Feb-2020

1 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • Fouille de textes Reconnaissance des entités sémantiques

    Thierry Hamon

    Bureau H202 - Institut Galilée Tél. : 33 1.49.40.35.53

    LIMSI-CNRS hamon@limsi.fr

    https://perso.limsi.fr/hamon/Teaching/P13/FDT-2016-2017/

    1/30

    hamon@limsi.fr https://perso.limsi.fr/hamon/Teaching/P13/FDT-2016-2017/

  • 1 Introduction

    2 Mots vides/mots outils

    3 Entités nommées Reconnaissance d’entités nommées Méthodes de reconnaissance d’entités nommés Projection de dictionnaires et expressions régulières Système à base de règles

    Approche hors-contexte Approche contextuelle

    Reconnaissances d’entités nommées par apprentissage Outils

    1/30

  • Fouille de texte Châıne de traitements

    Collecte des données

    Nettoyage et Pré-traitements

    Annotation des entités

    sémantiques

    Regroupement des entités

    Sélection des entités

    Post-traitements

    Documents (PDF, .doc, etc.) Pages web (HTML, XML, etc.), Mails, Forums, etc.

    Nettoyage, Segmentation en mots et phrases Etiquetage morpho-syntaxique, lemmatisation

    Reconnaissance d’entités nommées Reconnaissance et extraction de termes

    Acquisition de relations sémantiques Classification et catégorisation sémantique

    Elimination des entités non pertinentes Désambigüısation sémantique Traitements spécifiques liés à la tâche

    2/30

  • Introduction

    Introduction

    La fouille de texte nécessite d’identifier plusieurs types d’entités auquelles est associée une sémantique ou un rôle particulier :

    Les mots outils ou vides

    Les entités nommées

    Les termes

    L’utilité des entités dépend de leur catégorie sémantique et de la tâche visée. Différentes méthodes peuvent être utilisées pour les identifier automatiquement.

    3/30

  • Introduction

    Introduction

    La fouille de texte nécessite d’identifier plusieurs types d’entités auquelles est associée une sémantique ou un rôle particulier :

    Les mots outils ou vides

    Les entités nommées

    Les termes

    L’utilité des entités dépend de leur catégorie sémantique et de la tâche visée.

    Différentes méthodes peuvent être utilisées pour les identifier automatiquement.

    3/30

  • Introduction

    Introduction

    La fouille de texte nécessite d’identifier plusieurs types d’entités auquelles est associée une sémantique ou un rôle particulier :

    Les mots outils ou vides

    Les entités nommées

    Les termes

    L’utilité des entités dépend de leur catégorie sémantique et de la tâche visée. Différentes méthodes peuvent être utilisées pour les identifier automatiquement.

    3/30

  • Mots vides/mots outils

    Mots vides/outils (Stopwords, stop list)

    Mots vides/mots-outils

    communs mais peu informatif et pas porteur de sens

    au sens linguistique : articles, coordinations, pronoms

    Exemples :

    Anglais : a, an, and, are, as, at, be, but, by, for, if, in, into, is, it, no, not, of, on

    Français : de, la, l’, le, à, les, et, des, d’, en, un, du, une

    Méthode d’identification :

    liste finie, de petite taille et connue, pas de variation

    donc, identification dans le texte par comparaison de châınes de caractères

    4/30

  • Mots vides/mots outils

    Mots vides/outils (Stopwords, stop list)

    Mots vides/mots-outils

    communs mais peu informatif et pas porteur de sens

    au sens linguistique : articles, coordinations, pronoms

    Exemples :

    Anglais : a, an, and, are, as, at, be, but, by, for, if, in, into, is, it, no, not, of, on

    Français : de, la, l’, le, à, les, et, des, d’, en, un, du, une

    Méthode d’identification :

    liste finie, de petite taille et connue, pas de variation

    donc, identification dans le texte par comparaison de châınes de caractères

    4/30

  • Mots vides/mots outils

    Mots vides/outils Remarques

    Ne pas confondre avec les mots les plus fréquents

    ils sont généralement peu informatif pour la fouille de texte certains mots les plus fréquents peuvent être des mots vides

    Utilisation possible à différentes étapes de l’analyse des données textuelles

    Information utile pour l’extraction d’information (description des exemples, etc.)

    5/30

  • Entités nommées

    Introduction

    Entités nommées : unités textuelles particulières

    noms propres

    références bibliographiques

    mesures, dates, etc.

    unités monétaires

    Notion parfois floue, pouvant se confondre avec les termes dans certains contextes

    6/30

  • Entités nommées

    Introduction

    De manière générale, il s’agit de noms propres pouvant être classés

    dans des catégories prédéfinies

    ENAMEX : organisation, lieu, personne TIMEX : dates, expressions temporelles NUMEX : valeurs monétaires, pourcentage, ...

    dans des catégories spécifiques à un domaine

    biologie : espèces, protéines, gènes, etc. médecine : médicaments, conditions médicales, etc. mais aussi noms de bateau, modèles d’avion, etc.

    7/30

  • Entités nommées

    Exemple

    Né à Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectué sa thèse à l’Université de Strasbourg sous la direction de Jean-Marie Lehn. Après un post-doctorat à Oxford, il revient en France et effectue sa carrière au CNRS qu’il intègre en 1971 et devient directeur de recherche au CNRS en 1979. Jean-Pierre Sauvage travaille à l’Institut de science et d’ingénierie supramoléculaire (CNRS/Université de Strasbourg). Il a également reçu la médaille de bronze en 1978 et celle d’argent du CNRS en 1988.

    On peut reconnâıtre

    les entités nommées, imbriquées ou non

    les types associés aux entités, parfois ambigues

    8/30

  • Entités nommées

    Exemple

    Né à Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectué sa thèse à l’Université de Strasbourg sous la direction de Jean-Marie Lehn. Après un post-doctorat à Oxford, il revient en France et effectue sa carrière au CNRS qu’il intègre en 1971 et devient directeur de recherche au CNRS en 1979. Jean-Pierre Sauvage travaille à l’Institut de science et d’ingénierie supramoléculaire (CNRS/Université de Strasbourg). Il a également reçu la médaille de bronze en 1978 et celle d’argent du CNRS en 1988.

    On peut reconnâıtre

    les entités nommées

    , imbriquées ou non

    les types associés aux entités, parfois ambigues

    8/30

  • Entités nommées

    Exemple

    Né à Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectué sa thèse à l’Université de Strasbourg sous la direction de Jean-Marie Lehn. Après un post-doctorat à Oxford, il revient en France et effectue sa carrière au CNRS qu’il intègre en 1971 et devient directeur de recherche au CNRS en 1979. Jean-Pierre Sauvage travaille à l’Institut de science et d’ingénierie supramoléculaire (CNRS/Université de Strasbourg). Il a également reçu la médaille de bronze en 1978 et celle d’argent du CNRS en 1988.

    On peut reconnâıtre

    les entités nommées, imbriquées ou non

    les types associés aux entités, parfois ambigues

    8/30

  • Entités nommées

    Exemple

    Né à Paris[lieu] le 21 octobre 1944[date], Jean-Pierre Sauvage[personne] a effectué sa thèse à l’Université de Strasbourg[lieu][organisation,lieu] sous la direction de Jean-Marie Lehn[personne]. Après un post-doctorat à Oxford[organisation,lieu], il revient en France[lieu] et effectue sa carrière au CNRS[organisation] qu’il intègre en 1971[date] et devient directeur de recherche au CNRS[organisation] en 1979[date]. Jean-Pierre Sauvage[personne] travaille à l’Institut de science et d’ingénierie supramoléculaire[organisation] (CNRS[organisation]/Université de Strasbourg[lieu][organisation,lieu]). Il a également reçu la médaille de bronze en 1978[date] et celle d’argent du CNRS[organisation] en 1988[date].

    On peut reconnâıtre

    les entités nommées, imbriquées ou non

    les types associés aux entités, parfois ambigues

    8/30

  • Entités nommées

    Exemple

    We have previously reported that YaaH and YrbA are spore proteins of B. subtilis that are required for spore resistance and/or germination and that they have a motif conserved among so-called cell wall binding proteins [Kodama et al. (1999) J. Bacteriol. 181, 4584-4591, Takamatsu et al. (1999) J. Bacteriol. 181, 4986-4994].

    9/30

  • Entités nommées

    Exemple

    We have previously reported that YaaH and YrbA are spore proteins of B. subtilis that are required for spore resistance and/or germination and that they have a motif conserved among so-called cell wall binding proteins [Kodama et al. (1999) J. Bacteriol. 181, 4584-4591, Takamatsu et al. (1999) J. Bacteriol. 181, 4986-4994].

    9/30

  • Entités nommées

View more