contribution à létude des messages électroniques francophones quelques résultats et leurs...

Contribution à l’étude des messages électroniques francophones

Quelques résultats et leurs conséquences pour le TAL

Journée d’étude ATALA du 5 juin 2004

Traitement automatique des nouvelles formes de communication écrite

Nicolas TORZEC

LERIA – Université d’[email protected]

Plan

Introduction

MéthodologieObjectifPrésentation du corpus étudiéDescription des études réalisées

Quelques résultats et leurs conséquences pour le TALÉtude de la structure des messagesÉtude des phrasesÉtude des formes

Conclusion et perspectives

Traitement automatique des NFCE

Introduction


IntroductionContexte et problématique

Les messages électroniques : un type particulier de texteTextes électroniques résultants de CMO asynchrone :

courriels, articles de forums de discussion…Communication Médiée par Ordinateur (CMO) : communication écrite

entre deux ou plusieurs personnes par le biais d’ordinateurs interconnectés

Spécificités linguistiques des messages électroniquesAbondance de formes extra-lexicales (?)Phrases agrammaticales (?)Style d’écriture dans lequel l’orthographe est intentionnellement détournée (?)

Conséquences pour le Traitement Automatique des Langues (TAL)Spécificité linguistique + absence de ressources et de traitements linguistiques adaptés Traitement automatique difficile au moyen d’un analyseur traditionnel Production d’analyses linguistiques erronées ou trop imprécises (quid des services?)


IntroductionNotre approche

Objectif final :Développement de ressources et de traitements linguistiques mieux adaptésà l’analyse automatique des messages électroniques francophones

Phase 1 : Construction d’un corpus de messages électroniques francophones Spécification et construction d’un corpus électronique annoté spécialisé permettant

- d’étudier les messages électroniques francophones- de développer des ressources et traitements linguistiques pour le TAL

Phase 2 : Étude du corpus Analyse des caractéristiques linguistiques des messages de notre corpus Analyse des problèmes rencontrés lors de leur traitement automatique Proposition de solutions permettant de remédier à ces problèmes

Phase 3 : Exploitation du corpus Développement de ressources et traitements linguistique adaptés à ce type de texte Validation/Évaluation de ressources et de traitements linguistiques


Méthodologie


MéthodologieObjet de nos études

Caractéristiques linguistiques des messages électroniques francophones ? Abondance de formes hors lexique pour lesquelles les analyseurs traditionnels ne

peuvent fournir d’information ? Phrases ne correspondant pas au français écrit standard modélisé dans les

grammaires habituellement utilisés dans les analyseurs traditionnels ? Style d’écriture spécifique dans lequel l’orthographe est malmené voire

intentionnellement détournée ?

Conséquences pour le traitement automatique des langues Quid de l’analyse structurelle ? Quid de la segmentation automatique en phrases et de l’analyse syntaxique ? Quid de l’analyse morpho-lexicale et morpho-syntaxique ?

Nécessité de traitements dédiés ?


MéthodologiePrésentation du corpus étudié 1/3

Objectifs du corpus Permettre l’étude linguistique des messages électroniques francophones Permettre le développement de ressources et traitements linguistiques pour le TAL Interrogations liées à la nature des messages et à la représentativité du corpus Interrogations liées à la quantité et à la diversité des messages nécessaires

Un corpus de messages électroniques francophones Choix de messages provenant de forums de discussion électroniques francophones

Diversité linguistique de ces messages : thèmes, auteurs, registres, styles… Collecte aisée d’une grande quantité & diversité de messages électroniques

925 000 messages électroniques francophones (145M de tokens, 199 forums)

Collecte et nettoyage automatique [détails] Cinq mois de collecte (1er et 3e trimestre 2002), outils ad hoc Pas d’échantillonnage (i.e. totalité des messages et forums disponibles)



Un corpus annoté Annotations structurelles [détails] Annotations morpho-lexicales [détails] Annotations morpho-syntaxiques [détails]

Annotation automatique de l’ensemble du corpus ( volume) [détails] Analyseur linguistique Tilt de France Telecom R&D :

- robuste, doté de ressources lexicales conséquentes et paramétrable

- intègre des prétraitements variés et des fonctions de correction automatique

Validation manuelle d’une partie du corpus ( validité et précision) [détails] Correction et enrichissement manuel des annotations par des linguistes Messages provenant de forums sélectionnés pour leurs caractéristiques

linguistiques 7 400 messages électroniques francophones (500 000 tokens, 6 forums)



Un corpus électronique réutilisablei.e. un corpus électronique documenté et normalisé

DocumentationDocuments décrivant les traitements appliqués aux messages collectésDocuments décrivant les jeux d’étiquettes et conventions d’annotation suivies

NormalisationConformité avec les recommandations et directives de la TEITEI : ensemble de normes visant à unifier le codage des documents électroniques

pour faciliter leur réutilisation et leur échange

EncodageEncodage en XML : -- Interprétable par un lecteur humain

-- Espéranto informatique (interopérabilité)


MéthodologieDescription des études réalisées

Études sur corpusExploitation de notre corpus et de ses annotations…Études qualitatives & quantitatives

Niveau 1 : Étude de la structure des messagesAnalyse qualitative et quantitative de la structure des messagesConséquences pour le TAL

Niveau 2 : Étude des phrasesRésultats relatifs à la ponctuation finale et conséquences pour le TALRésultats relatifs à la ponctuation interne et conséquences pour le TAL

Niveau 3 : Étude des formesTypologie des formes rencontrées dans les messages électroniques francophonesRésultats relatifs aux formes extra-lexicales et conséquences pour le TAL


Quelques résultatset leurs conséquences

pour le TAL


Étude de la structure des messages


Étude de la structure des messagesQuelques résultats …

Structure des messagesOrganisation en « blocs de texte » séparés par des lignes blanches

Typologie des « blocs de texte » rencontréesParagraphe (texte strictement parlant)Texte reporté, introduction de texte reportéSignature, bandeau publicitaire

Quelques chiffresLes messages comportent en moyenne 3 paragraphesLes paragraphes comportent en moyenne 2 phrases73% des messages comportent du texte reporté (grande variabilité)59% des messages comportent une introduction de texte reporté (grande variabilité)40% des messages comportent une signature finale (grande variabilité)20% des messages comportent un bandeau publicitaire final (grande variabilité)


Étude de la structure des messages… et leurs conséquences pour le TAL

L’organisation en « blocs de texte » (explicitement séparés) va faciliter :l’analyse structurellela segmentation automatique en phrases

Nécessité de traitements spécifiquesExistence de « blocs de texte » spécifiques, absents des textes conventionnelsNécessité de les détecter et de leur appliquer des traitements adaptés à leur nature


Type de bloc Détection Traitement

Texte reporté Marqueur spécifique en début de ligne Idem texte

Intro. de texte reporté

Champs spécifiques mais variabilité Spécifique (spécificité du contenu)

Signature Variabilité de forme et de contenu Spécifique (spécificité du contenu)

Bandeau publicitaire Variabilité de forme et de contenu Idem texte

Étude des phrases


Étude des phrasesGénéralités

Quelques chiffresLes messages comportent en moyenne 5 phrasesLes phrases comportent en moyenne 14 « mots »18% des messages n’ont pas de ponctuation standard du tout (grande variabilité)

Des phrases pas si courtes (pas si simples ?) et pas toujours ponctuées.

Conséquences pour le TALSegmentation automatique en phrases et analyse syntaxique difficile ? …


Étude des phrasesPonctuation finale et capitalisation initiale

Ponctuation finale46% des messages n’ont pas de ponctuation finale standard

Mais grande variabilité : 29% hors forums de petites-annonces36% des messages n’ont pas de ponctuation finale du tout

Mais grande variabilité : 18% hors forums de petites-annonces

Capitalisation initiale34% des phrases n’ont pas de majuscule initiale

Mais variabilité : 29% hors forums de petites-annonces

Conséquences pour le TALInadéquation des systèmes de segmentation automatique en phrase traditionnels :

i.e. heuristiques inadaptées (non respect des conventions habituelles)Nécessité de traitements spécifiques pour la segmentation automatique en phrases


Étude des phrasesPonctuation interne

Quelques chiffres53% des phrases comportent une ponctuation interne

Conséquences pour le TALPhrases explicitement structurées : analyse syntaxique facilitée (indices structurels)


Symbole de ponctuation Fréquence relative

Virgule 55%

Deux-point 13%

Parenthèses 11% et 7%

Guillemet 7%

Tiret 2%

Autres 12%

Répartition des symboles de ponctuation interne

Stabilité entre les forums

Grande variabilité

Étude des formes


Étude des formesTypologie des formes rencontrées

Type d’unité Catégorie Sous-catégorie

Unité lexicale Mot du lexique de référenceLocution du lexique de référence

Unité extra-lexicale Unité extra-lexicale alphabétique Abréviation, sigle, acronymeMot de la langue, absent du lexiqueMot étrangerMot incorrectement orthographiéSuite de mots agglutinés, mot éclaté

Unité extra-lexicale alphanumérique

Cardinal, ordinalPourcentage, unité mesure N° voie, code postal, numéro de téléphoneQuantième, millésime, date, heureGraphie ludique, smiley, adresse électroniqueIdentifiant, formule chimique, mixte

Symbole graphique

Symbole de ponctuationAutre symbole typographique

Résidu Forme à ignorer

Typologie des formes rencontrées dans les messages électroniques francophones


Étude des formesGénéralités

Quelques chiffres78 % des formes sont des mots ordinaires du lexique de référence13 % des formes sont des symboles de ponctuation i.e. 19% des formes sont des formes non standard !

Grande variabilité en fonction du type de forum traité

Ex. : 10% : fr.soc.religion, fr.rec.cuisine, fr.bio.général

19% : fr.rec.musique.hip-hop

38% : fr.petites-annonces.immobilier, fr.petites-annonces.informatique.matériel

Conséquences pour le TALAnalyse morpho-lexicale problématique (idem pour l’analyse morpho-syntaxique)Nécessité de ressources et de traitements linguistiques spécifiques

pour l’analyse des formes non standard


Étude des formesLes formes non standard 1/3

Formes non standard à base de chiffres arabes et romains3% des formes sont à base de chiffres arabes et romainsCorrespondent essentiellement à des cardinaux

Autres symboles typographiques1% des formes sont des symboles typographiques ne servant pas à la ponctuation

Conséquences pour le TALLa fréquence de ces formes ne porte pas vraiment à conséquence :

les analyseurs traditionnels savent déjà les traiter correctement !


Mots ordinaires inconnus ou étrangers2,8% des formes sont des mots de la langue absents du lexique de référence

Variabilité fonction du type de forum (ex. : 1,2% bio ; 3,6% hip-hop ; 3,9% info)0,7% des formes sont des mots étrangers absents du lexique de référence

Variabilité fonction du type de forum (ex. : 0,2% religion ; 0,8% info)

Abréviations, sigles et consorts3,3% des formes sont des abréviations (au sens général du terme)

Variabilité importante fonction du type de forum et de forme

Ex. : le cas des abréviations (au sens strict) : 0,2% religion ; 10% info

Conséquences pour le TALPas si fréquents que cela, mais pénalisant du point de vue du TAL et des servicesNécessité de ressources morphologiques et lexicales ad hoc



Fautes d’orthographes et consorts5% des formes sont (perçues comme) des mots incorrectement orthographiés

Principalement faute d’orthographe (3%) et agglutination (2%)

Variabilité f° du type de forum et de forme (ex. orth : 3,8% bio, 4,5% hip-hop, 2% autres)

Graphies ludiques0,8% des formes correspondent à (ou sont perçues comme) des graphies ludiques

Mais grande variabilité en fonction du forum (ex. : 2,84% hip-hop, 0,2% autres)0,3% des formes correspondent à (ou sont perçues comme) des émoticones

Mais grande variabilité en fonction du forum (ex. : 11% info, < 0,6% autres)

Conséquences pour le TALFautes d’orthographe fréquentes : nécessité de modules de correction orthographiqueGraphies ludiques pénalisantes : nécessité de traitements morphologiques dédiés



Conclusion


Conclusion et perspectives

ConclusionÉtude qualitative et quantitative des caractéristiques linguistiques

des messages électroniques francophones de notre corpusAnalyse des problèmes posés par leur analyse par un système de traitement

automatique des langues Proposition de stratégies de traitement automatique adaptées

PerspectivesDéveloppement de ressources et de traitements linguistiques mieux adaptés

au traitement automatique des messages électroniques francophones.

Exploitation des résultats des études réalisées

Exploitation du corpus par des techniques d’extraction lexicale et d’apprentissage automatique à partir de corpus


Merci…


Annexes


Annexe 1Collecte et nettoyage du corpus

Collecte du corpus brut Collecte automatique des messages dans les forums de discussion électroniques

-Problèmes liés à l’évolution constante des forums et de leur contenu

-Problèmes liés au téléchargement de gros volumes de données Outil de collecte spécifique permettant la création de corpus de suivi

-Paramétrable : possibilités de filtrage et de collecte incrémentale des messages

-Robuste : fonctionnalités de reprise sur erreur automatique et manuelle

Nettoyage du corpus brut Nettoyage automatique visant à faciliter les traitement automatiques ultérieurs

-Suppression des messages et des pièces jointes non textuels

-Homogénéisation des entêtes pour les rendre plus facilement exploitables Outils ad hoc (le nettoyage manuel semble inévitable !)

[ retour ]


Annexe 2Annotation automatique du corpus

Pré-traitement Filtrage automatique des messages pour ne garder que les portions à annoter

Annotation automatique Analyseur linguistique robuste et paramétrable : TILT (FT R&D DMI/GRI) Segmentation du texte en paragraphes, phrases et unités typées Analyse minimale

-Interprétation des segments non mots-Analyse lexicale et correction orthographique-Reconnaissance des locutions

Analyse syntaxique-Désambiguïsation morpho-syntaxique par analyse syntaxique partielle

Post-traitement Formatage des résultats pour les rendre plus facilement exploitables

[ retour ]


Annexe 3Validation manuelle du corpus

Préparation des messages à validerReformatage dans un format facilitant la validation et correction manuelle

Validation manuelleValidation et correction manuelle des annotations par des linguistes

-Validation des annotations structurelles, lexicales et morpho-syntaxiques

-Validation en contexte et en une seule passe

-Utilisation d’outils de bureautique standard, personnalisés par des macrosDifficultés

-Abondance de formes extra-lexicales souvent spécialisées et ambiguës

-Importance des guides d’annotation détaillées pour la qualité de la validation

-Vitesse d’annotation variable (en moyenne : 250 formes validées par heure)

Travail de 12 hommes /mois

[ retour ]


Annexe 4Annotations structurelles

Niveau 1 Niveau 2 Niveau 3 Niveau 4 Niveau 5

Message

Entête Champ d’entête

Corps

Texte Paragraphe Phrase

Référence de citation

Citation

Signature

Bandeau publicitaire

Annotations structurelles : différents niveaux de balisage

[ retour ]


Annexe 5Annotations morpho-lexicales

Type d’unité Catégorie Sous-catégorie

Unité lexicale Mot du lexique de référenceLocution du lexique de référence

Unité extra-lexicale Unité extra-lexicale alphabétique Abréviation, sigle, acronymeMot (locution) de la langue, absent du lexiqueMot (locution) étrangerMot incorrectement orthographiéSuite de mots agglutinés, mot éclaté

Unité extra-lexicale alphanumérique

Cardinal, ordinalPourcentage, unité mesure N° voie, code postal, numéro de téléphoneQuantième, millésime, date, heureGraphie ludique, smiley, adresse électroniqueIdentifiant, formule chimique, mixte

Symbole graphique

Symbole de ponctuationAutre symbole typographique

Résidu Forme à ignorer

Annotations morpho-lexicales : une catégorisation fine des formes extra-lexicales

[ retour ]


Annexe 6Annotations morpho-syntaxiques

Catégorie Nom Verbe Adjectif Pronom Déterminant

Adverbe Préposition Conjonction

Sous-catégorie

Commun

PropreCardinal

Principal

Auxiliaire

QualificatifOrdinalCardinalIndéfiniPossessif

PersonnelDémonstratifIndéfiniPossessifInterrogatifRelatifRéflexifCardinal

ArticleDémonstratifPossessifIndéfiniInterro-exclRelatifCardinal

GénéralParticuleInterro-excl

PrépositionDéictique

CoordinationSubordination

CasNatureDegréGenreNombreModeTempsPersonnePossesseur

m-fs-p

m-fs-p

i-s-m-c-n-pp-i-f-s1-2-3

p-cm-fs-p

n-a-d-o

m-fs-p

1-2-3s-p

d-i

m-fs-p

1-2-3s-p

p-c-n

p-d c-s

Annotations morpho-syntaxiques : réutilisation du jeu d’étiquettes du projet GRACE

[ retour ]


Fin…