création de résumé automatique par guillaume blain ([email protected]) & marc-andré...

39
Création de résumé automatique Par Guillaume Blain ([email protected]) & Marc-André Morissette ([email protected]) IFT6255 – 8 avril 2003

Upload: gringolet-levy

Post on 04-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Création de résumé automatique

Par Guillaume Blain ([email protected])

&

Marc-André Morissette ([email protected])

IFT6255 – 8 avril 2003

Page 2: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Qu’est-ce qu’un résumé?

Une transformation réductrice d’un texte source vers un résumé par compression du contenu à l’aide d’une sélection et/ou généralisation de ce qui est important dans le texte source.

- Karen Sparck Jones

Page 3: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril
Page 4: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril
Page 5: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Fonction AutoSummarize de MS Office

Page 6: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Caractéristiques d’un résumé

Indicatif ou Informatif Indicatif: indique la nature du texte (teaser) Informatif: tente de se substituer au texte

Extrait ou abrégé Extrait: phrases ou passages tirés du texte Abrégé: reformule, compresse le texte

Court ou long Taux de compression = ||

||

Texte

Résumé

Page 7: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Mécanique de construction d’un résumé Document → Repr. interne du document Repr. interne du document → Repr.

interne du résumé Repr. interne du résumé → Texte du

résumé

Page 8: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Facteurs contextuels

Facteurs d’entrée Influence l’analyse

Facteurs d’intention Influence les transformations

Facteurs de sortie Influence la forme du résumé

Page 9: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Facteurs d’entrée - analyse (1)

Forme Structure Échelle Type de langue Genre littéraire

Today on MSN Latest war updates Iraqis swim Tigris to flee Saddam's notorious cousin may be dead Why isn't cash obsolete?

Your Week Online tax helper, $30 How to make DVD flicks 6 steps to sexier legs

Page 10: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Facteur d’entrée -analyse (2)

Type de sujetOrdinaire (connaisances générales)

Code de la route

Spécialisé (informatique, recherche d’information)

Précision/Rappel

Restreint (étudiant du cours ift6255) Date d’examen

Page 11: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Facteurs d’entrée - analyse (3)

MultiplicitéSimple

Article de journal, rapport de recherche

Multiple Journal au complet, tous les rapports d’un

laboratoire de recherche

Page 12: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Facteurs d’intention - transformation

SituationPrécis, flou; qui, pourquoi, comment

AudienceCiblée, non ciblée

UtilisationTâche: recherche, sommaire, mémoire, invite

Page 13: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Facteurs de sortie - construction

ContenuTous les sujets, le sujet central, information

partielle; couverture Format

Prose, informations tabulaires, phrases disparates

Style Indicatif, informatif, critique, recapitulatif

Page 14: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Approches étalon

Approche aléatoireOn sélectionne n phrases au hasard dans le

document Approche en-tête

On sélectionne les n premières phrases du document

Page 15: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Approche basée sur la RI

Luhn 1958 Extrait = phrases

significatives Une phrase

significative contient des mots significatifs (mots-clés)

Mots significatifs = entre A et B

Page 16: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Approches basée sur la structure du texte (1) Edmundson 69 Mots-repères (cues)

Mots-bonus: greatest, significant, …Mots-malus: hardly, impossible, …

Mots-titreMots-clés se trouvant dans le titre et les sous-

titres

Page 17: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Approches basée sur la structure du texte (2) Positionnement

Début du texteFin du textePremière phrase d’un paragrapheDernière phrase d’un paragraphe

Toutes les méthodes! 1Mots-repère + 2Mots-clés + 3Mots-titre +

4Positionnement

Page 18: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Évaluation (Edmundson)

Corpus d’entraînement avec des extraits sélectionnés manuellement (compression 25%)

Comparaison entre les résumés obtenus manuellement et automatiquement

Précision = ||

||

B

BA

Page 19: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Résultats (Edmundson)

Mots-clés diminuent efficacité

Page 20: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Extension probabiliste

Kupiec, Pederson, Chen 1995 Classification Bayesienne à partir de

caractéristiques du texte

En supposant les caractéristiques statistiquement indépendantes

),(

)()|,...,(),...,|(

,...21

2121

k

kk FFFP

SsPSsFFFPFFFSsP

k

j j

k

j j

kFP

SsPSsFPFFFSsP

1

121

)(

)()|(),...,|(

Page 21: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Extension probabiliste (2)

Résultats (compression 25%)Précision de 84%

Page 22: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Extraits phrase par phrase sont incohérents et difficiles à lire.

Solution: ajouter les phrases nécessaires pour produire un passage propre.

Balance: est-ce que des parties sont sur-représentées? Couverture: est-ce qu’on a oublié quelque chose?

Problèmes (Paice 1990)

Anaphore Connecteur rhétoriqueAnaphore (auteur)

J’aime les bananes.

Elles sont toutefois trop jaunes à mon goût.

Page 23: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Parsage rhétorique du discours (1)

Analyse en profondeur Basé sur les relations rhétorique entre les

passages. (Mann et Thompson 88)Objectif de l’auteur. Pourquoi ajouter cette

phrase?Noyau – Satellite

À l’origine du sens et de la cohérence d’un texte

Page 24: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Parsage rhétorique du discours (2)

Exemple d’une relation: pièce à conviction[Noyau: En réalité, la tentation de fumer au secondaire est plus grande

qu’à n’importe quel autre moment de la vie d’une personne :] [Satellite: On sait que plus de 300 adolescents commencent à fumer chaque jour.]

Effet de la relation: le satellite augmente la crédibilité du noyau aux yeux du lecteur

Page 25: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

2Elaboration

2Elaboration

8Example

2BackgroundJustification

3Elaboration

8Concession

10Antithesis

Mars experiences

frigid weather

conditions(2)

Surface temperatures typically average

about -60 degrees

Celsius (-76 degrees

Fahrenheit) at the

equator and can dip to -

123 degrees C near the

poles(3)

4 5Contrast

Although the atmosphere

holds a small

amount of water, and water-ice

clouds sometimes develop,

(7)

Most Martian weather involves

blowing dust and carbon monoxide.

(8)

Each winter, for example, a blizzard of

frozen carbon dioxide

rages over one pole, and a few meters of

this dry-ice snow

accumulate as

previously frozen carbon dioxide

evaporates from the opposite

polar cap.(9)

Yet even on the summer pole, where

the sun remains in the sky all day long,

temperatures never warm

enough to melt frozen

water.(10)

With its distant orbit (50 percent farther from the sun than Earth) and

slim atmospheric

blanket,(1)

Only the midday sun at tropical latitudes is

warm enough to

thaw ice on occasion,

(4)

5Evidence

Cause

but any liquid water formed in this way would

evaporate almost

instantly(5)

because of the low

atmospheric pressure

(6)

Page 26: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Parsage rhétorique du discours (4)

Intuition de Daniel Marcu: Résumé peut être produit à partir de l’arbre de parsage.Nœuds près de la racine correspondent aux

idées centrales du texte. Performance d’environ 65% avec des

textes courts. Question: est-ce que ça fonctionne avec

des textes plus longs?

Page 27: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Chaînes lexicales (1)

Établir des chaînes sur les mots qui ont un liens dans WordNet (Barzilay & Elhadad)

Les chatons sont très mignons. Ces petits animaux sont si adorables qu’on en déjeunerait. Les chats eux sont plus comme leur cousins les tigres: indépendants et chasseurs. Les félins on en général une bien mauvaise réputation.

Page 28: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Chaînes lexicales (2)

Les phrases importantes sont traversées par des chaînes fortes.

Désambiguification tardive Stratégie de sélection:

Première phrase avec un membre de la chaîne Première phrase avec un membre significatif de la chaîne Déterminer le segment avec la plus haute densité de termes.

Première phrase de ce segment.

Page 29: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Résumé multidocument – SUMMONS (1)

Gabarits MUC, organisés chronologiquement Opérateurs de combinaison

Changement de perspective Contradiction Ajout Clarification Similarité Concaténation, généralisation Absence Tendance

Favorise les combinaisons

Page 30: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Résumé multidocument – SUMMONS (2)

Page 31: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Cadre multilingue

Megumi Kameyama Extraction d’information dans les discours

Extraction à objectifs clos vers objectifs dynamiques

3 étapes Requête en langue usager Recherche/abstraction dans la langue du corpus Résumé en langue usager

Page 32: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Évaluation Mesure

Précision Rappel

Accord entre les juges humains Référentiel de base

Compression: C = (longueur Résumé) / (longueur Txt)

Rétention: R = (info dans Résumé) / (info dans Txt)

Page 33: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Conférences et évaluation (1)

SUMMAC (Programme TIPSTER)Ad hoc: pertinence selon une requêteCatégorisation: textes sources vs résuméQuestion/réponse: sans lecture, lecture du

résumé et lecture du texte

Page 34: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Conférences et évaluation (2)

MUC (Message Understanding Conference)Entités nomméesCoréférence des entités (anaphores) Instantiation de gabarits (templates) prédéfinis Instantiation de scénarios par gabarits

Page 35: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Conférences et évaluation (3)

DUC (Programme TIDES)Précision/RappelMéthode utilitaire (Radev et al.)Similarité de contenu

Page 36: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Discussion et analyse

Top-down De la structure vers le contenu

Bottom-up Du contenu (mots, phrases) vers la

compréhension

Hybride Dans les deux directions simultanément ou en

complément

Page 37: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Évaluation formelle

Toute les méthodes ne sont pas évaluées Évaluations varient Corpus de test différent

25% de taux de compression !2 pages incohérentes pour 8 pages

cohérentes (et encore)

Page 38: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Avenir

Abstraction Plus de rigueur Passer de l’expérimentation à l’application

Améliorer la lisibilitéAméliorer l’interaction avec l’usager

Page 39: Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril

Conclusion

Explosion du domaine Intégration des technologies connexes

Traitement en langue naturelleRecherche d’information

Avenir prometteur Encore beaucoup de travail