extraction de mots-cléfelipe/ift6010-hiver...textrank : bringing order into texts. [5] liu, li,...

Extraction de mots-cléPar Philippe Grand’Maison

Mots-clésKeyphrase Extraction

Automatic term recognition

Terminologie

Au menu1. Mots-clé?2. Structure commune3. Méthodes supervisées4. Méthodes non-supervisées

1. Quelques motsLa litérature générale sur l’extraction des mots-clés se concentre sur les articles scientifiques, parce qu’il est facile d’obtenir des ensembles d’entraînement : certaines publications imposent aux auteurs d’inscrire des mots-clés à l’en-tête.

Les articles vus ici sont plus complexes que ce qui est présenté, et mènent plusieurs expériences. L’emphase sera mise sur le squelette des algorithmes et non sur la discussion de leurs paramètres.

1. La tâcheEn anglais, on dira Keyphrase Extraction.Formes de résumés automatiques sans génération de texte.Par mots-clés, on inclut aussi les expressions multi-mots.Les mots-clés doivent être contenus dans le texte. Pas de paraphrase.La tâche est différente de la recherche d’expressions multi-mots : identifier les expressions multi-mots ne nous renseigne pas sur l’importance de l’expression dans le document.

The automatic selection of important and topical phrases from the body of a document Turney (2000)

http://www-labs.iro.umontreal.ca/~felipe/IFT6010-Hiver2016/Transp/mwe.pdf

1. MotivationAide à la recherche manuelle d’information;

Aide à la rédaction;

Aide à la classification;

Aide aux résumés;

Aide à l’indexation.

1. Exemple manuel : Cour suprême du Canada

Criminal law — Infanticide — Elements of offence — Accused found guilty of infanticide in relation to her deceased newborns — Offence provision providing that female person commits infanticide when by wilful act or omission she causes death of her newly‑born child, if at time of act or omission she is not fully recovered from effects of giving birth to child and by reason thereof or of effect of lactation consequent on birth of child her mind is then disturbed — Legal meaning of expression “her mind is then disturbed” — Whether trial judge failed to apply legal standard set out by statutory language and failed to appreciate evidence of accused’s mental state —

Articles couvertsUne revue de litérature du ACL :[1] Hasan, Ng, 2014. Automatic Keyphrase Extraction: A Survey of the State of the Art.

Les articles phares ou intéressants :[2] Turney, 1999. Learning Algorithms for Keyphrase Extraction.[3] Jiang et al., 2009. A ranking approach to keyphrase extraction.[4] Mihalcea, Tarau. 2004. TextRank : Bringing order into texts.[5] Liu, Li, Zheng, Sun. 2009. Clustering to find exemplar terms for keyphrase extraction.

2. Préselection

2. PréselectionLes algorithmes vus plus loin doivent limiter le nombre d’expressions candidates pour des raisons d’efficacité. Cet élagage se fait en fonction…

- De la présence du n-gramme dans un corpus externe- Prendre le radical (stemming)- Élimination des stop-words (KeyCluster)- Utilisation de patrons sur les parties du discours ou dépendances

syntaxiques

D’autres méthodes peuvent être utilisées. Notamment pour éviter les expressions qui sont des sous-chaînes d’une autre.

2. PréselectionPlusieurs méthodes vus au cours ont été appliquées pour identifier les phrases candidates : tf-idf, information mutuelle ponctuelle, etc.

http://www-labs.iro.umontreal.ca/~felipe/IFT6010-Hiver2016/Transp/mwe.pdf

3. Méthodes supervisées

3. Méthodes supervisées3.1 Traits [1]

3.2 KEA: Practical Automatic Keyphrase Extraction (Turney 1999) [2]

3.3 Ranking SVM (Jiang et al. 2006) [3]

3. Méthodes superviséesLes méthodes supervisées consistent à reformuler le problème d’extraction de mots-clés en un problème de TALN déjà étudié.

KEA reformule le problème comme un problème de classification des expressions candidates.

Ranking SVM reformule le problème comme une tâche d’ordonnancement (ranking), comme dans les tâches de recherche d’information.

3.1 Traits proposés - Internes- TF-IDF (KEA)- Distribution des mots. Offset normalisé par la longueur du document,

offset à partir de la fin et normalisé par la longueur du document, ou entropie.

- Score donné par un modèle de langue entraîné sur des mots-clé (KEA)- Avec pondération sur des segmentations- Part-of-speech

3.1 Traits proposés - Externes- On donnera un score en fonction de l’importance de la page Wikipédia

associé à l’expression candidate.- Les logs de requêtes des engins de recherche

3.2 KEA [2]Turney

- consacre l’expression Keyphrase Extraction Algorithm.- oppose cette tâche à l’extraction d’information, qu’il décrit comme étant

trop spécifique. (La situation a-t-elle changé?)- reformule le problème comme une classification des phrases

- construit un algorithme de classification avec des heuristiques, GenEx, parce que C4.5 (même avec bagging, une stratégie d’échantillonnage et d’interpolation de modèles) performait mal.

3.2 KEA [2]

Corpus de base : articles scientifiques avec des mots-clés.

1. Ménage (Éliminer les stopwords et les mots commençant avec des majuscules, stem (avec la

méthode de Lovins))2. Conserve les 1,2,3-grammes3. Features : tf-idf, offset du début du document4. Classifieur (C4.5 ou Genex) pour apprendre la fonction de score5. Fonction d’erreur : comparer le radical des mots-clés candidats et

entraînement

3.2 KEA - RésultatsC4.5 a une précision de 15%.

GenEx a une précision de 29%.

Le test est trop difficile : plusieurs mots-clés dans le même champ lexical pourraient être sélectionnés par un humain.

Turney fait évaluer le modèle par des humains : 80% sont acceptables, 60% sont bonnes.

Turney publie un an plus tard un article qui améliore les résultats avec un classifieur bayésien naïf. Aucune mesure de rappel n’est rapportée.

3.3 Ranking SVM (Jiang et al. 2009) [3] La technique utilisée est le Learning to Rank, une tâche

... consistant à apprendre une fonction d’ordre sur ceux-ci étant donné un nombre, parfois muni d’une distance entre les points.

… qui reçoit en entrée un ensemble d’entraînement avec des exemples d’ordre, ici en paires. L’entrée est donc : [requête, (plus grand, plus petit)].

… dont les fonctions d’erreurs sur les ordres sont issues des mesures d’évaluation de l’Information Retrieval.

3.3 Ranking SVM (Jiang et al. 2009)Ranking SVM en IR prend des requêtes en entrée. Ne s’applique pas ici.

Les auteurs utilisent plutôt des vecteurs de features, et des paires (mot-clé, pas-mot-clé). Puis ils mettent ça dans une variante de Ranking SVM.

Voici les résultats sur le corpus dont le taux de succès est le meilleur:

Kendall Tau MAP Precision@5

KEA 0.44 0.55 0.46

Ranking SVM 0.46 0.64 0.55

4. Méthodes non-supervisées

4. Méthodes non-supervisées4.1 TextRank [4]

4.2 KeyCluster [5]

4.1 TextRank [4]On extrait un score de similitude entre les expressions en minant des quantités de données. Cette similitude peut-être le résultat d’une distance dans un embedding, ou simplement l’information mutuelle. Ou toute autre mesure de similitude.

On induit un graphe pondéré sur les expressions candidates. L’algorithme TextRank s’inspire du PageRank de Google pour mesurer l’importance d’une expression dans un texte. Contrairement à PageRank, le graphe est symétrique et pondéré (par la similitude).

Dans le graphe ainsi obtenu, on fait voter les voisins (dans PageRank, les in-neighbours) pour calculer un score. Ce score est le PageRank pondéré.

Le score WS de TextRank est récursif : à chaque itération, on fait voter le score antérieur WS de chaque voisin, pondéré par un facteur qui dépend des poids sortants de ce voisin.

4.1 TextRank

4.1 TextRank - la formule d’itération

4.1 TextRankTiré de TextRank: Bringing Order into Texts :

1. Identify text units that best define the task at hand, and add them as vertices in the graph.

2. Identify relations that connect such text units, and use these relations to draw edges between vertices in the graph. Edges can be directed or undirected, weighted or unweighted.

3. Iterate the graph-based ranking algorithm until convergence.

4. Sort vertices based on their final score. Use the values attached to each vertex for ranking/selection decisions.

4.1 TextRankÉvaluer sur des abstracts pour se comparer au système de Hult [6] (KEA enrichi d’informations linguistiques), alors l’état de l’art. Le nom du corpus est INSPEC.

La meilleure configuration considérait les collocations de fenêtre 2 et atteignait :

F-mesure Recall Precision

0.36 0.43 0.31

4.2 KeyCluster [5]KeyCluster

... répond au problème des thèmes moins importants qui ne sont pas couverts par TextRank. TextRank choisit tout autour d’un seul sujet et sortira souvent des expressions voisines en oubliant des sujets moins importants.

... utilise des mots dits de sujets et créera des clusters de mots-clés autour de ces sujets.

… construit des clusters candidats, et trouvant un membre exemplaire de ce cluster.

4.2 KeyCluster1. KeyCluster regarde les tokens individuels pour sélectionner les sujets qui

agiront comme centroide pour les clusters. (KeyCluster ne suit pas le patron général d’utiliser les n-grammes pour générer les expressions candidates.)

2. On calcule la similitude entre les mots (co-occurence dans une fenêtre, ou encore d’autres mesures entraînées sur Wikipedia).

3. On applique un algorithme de cluster sur ces distances (clustering hiérarchique, spectral et par propagation d’affinité (Affinity Propagation)).

4. On fait le POS pour retrouver les expressions nominales contenant les mots extraits.

4.2 KeyClusterRésultats sont nettement meilleurs avec le clustering AP.

F-measure Recall Precision

0.457 0.66 0.35

ConclusionLes méthodes non-supervisées rattrappent les méthodes supervisées.

Il serait possible de ne conserver que les mots-clés dont est assez grand [le [différentiel de fréquence] [entre la langue générale et la langue technique]]. Ceux-là seraient les mots proprement techniques.

Bibliographie[1] Hasan, Kazi Saidul, and Vincent Ng. "Automatic Keyphrase Extraction: A Survey of the State of the Art." ACL (1). 2014.

[2] Peter Turney. 1999. Learning to extract keyphrases from text. National Research Council Canada, Institute for Information Technology, Technical Report ERB-1057.

[3] Xin Jiang, Yunhua Hu, and Hang Li. 2009. A ranking approach to keyphrase extraction. In Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 756–757.

[4] Rada Mihalcea and Paul Tarau. 2004. TextRank: Bringing order into texts. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pages 404–411.

[5] Zhiyuan Liu, Peng Li, Yabin Zheng, and Maosong Sun. 2009b. Clustering to find exemplar terms for keyphrase extraction. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pages 257–266

[6] A. Hulth. 2003. Improved automatic keyword extraction given more linguistic knowledge. In Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, Japan, August

extraction de mots-cléfelipe/ift6010-hiver...textrank : bringing order into texts. [5] liu, li,...

Documents