contribution à létude des messages électroniques francophones quelques résultats et leurs...
TRANSCRIPT
Contribution à l’étude des messages électroniques francophones
Quelques résultats et leurs conséquences pour le TAL
Journée d’étude ATALA du 5 juin 2004
Traitement automatique des nouvelles formes de communication écrite
Nicolas TORZEC
LERIA – Université d’[email protected]
Plan
Introduction
MéthodologieObjectifPrésentation du corpus étudiéDescription des études réalisées
Quelques résultats et leurs conséquences pour le TALÉtude de la structure des messagesÉtude des phrasesÉtude des formes
Conclusion et perspectives
Traitement automatique des NFCE
Introduction
Traitement automatique des NFCE
IntroductionContexte et problématique
Les messages électroniques : un type particulier de texteTextes électroniques résultants de CMO asynchrone :
courriels, articles de forums de discussion…Communication Médiée par Ordinateur (CMO) : communication écrite
entre deux ou plusieurs personnes par le biais d’ordinateurs interconnectés
Spécificités linguistiques des messages électroniquesAbondance de formes extra-lexicales (?)Phrases agrammaticales (?)Style d’écriture dans lequel l’orthographe est intentionnellement détournée (?)
Conséquences pour le Traitement Automatique des Langues (TAL)Spécificité linguistique + absence de ressources et de traitements linguistiques adaptés Traitement automatique difficile au moyen d’un analyseur traditionnel Production d’analyses linguistiques erronées ou trop imprécises (quid des services?)
Traitement automatique des NFCE
IntroductionNotre approche
Objectif final :Développement de ressources et de traitements linguistiques mieux adaptésà l’analyse automatique des messages électroniques francophones
Phase 1 : Construction d’un corpus de messages électroniques francophones Spécification et construction d’un corpus électronique annoté spécialisé permettant
- d’étudier les messages électroniques francophones- de développer des ressources et traitements linguistiques pour le TAL
Phase 2 : Étude du corpus Analyse des caractéristiques linguistiques des messages de notre corpus Analyse des problèmes rencontrés lors de leur traitement automatique Proposition de solutions permettant de remédier à ces problèmes
Phase 3 : Exploitation du corpus Développement de ressources et traitements linguistique adaptés à ce type de texte Validation/Évaluation de ressources et de traitements linguistiques
Traitement automatique des NFCE
Méthodologie
Traitement automatique des NFCE
MéthodologieObjet de nos études
Caractéristiques linguistiques des messages électroniques francophones ? Abondance de formes hors lexique pour lesquelles les analyseurs traditionnels ne
peuvent fournir d’information ? Phrases ne correspondant pas au français écrit standard modélisé dans les
grammaires habituellement utilisés dans les analyseurs traditionnels ? Style d’écriture spécifique dans lequel l’orthographe est malmené voire
intentionnellement détournée ?
Conséquences pour le traitement automatique des langues Quid de l’analyse structurelle ? Quid de la segmentation automatique en phrases et de l’analyse syntaxique ? Quid de l’analyse morpho-lexicale et morpho-syntaxique ?
Nécessité de traitements dédiés ?
Traitement automatique des NFCE
MéthodologiePrésentation du corpus étudié 1/3
Objectifs du corpus Permettre l’étude linguistique des messages électroniques francophones Permettre le développement de ressources et traitements linguistiques pour le TAL Interrogations liées à la nature des messages et à la représentativité du corpus Interrogations liées à la quantité et à la diversité des messages nécessaires
Un corpus de messages électroniques francophones Choix de messages provenant de forums de discussion électroniques francophones
Diversité linguistique de ces messages : thèmes, auteurs, registres, styles… Collecte aisée d’une grande quantité & diversité de messages électroniques
925 000 messages électroniques francophones (145M de tokens, 199 forums)
Collecte et nettoyage automatique [détails] Cinq mois de collecte (1er et 3e trimestre 2002), outils ad hoc Pas d’échantillonnage (i.e. totalité des messages et forums disponibles)
Traitement automatique des NFCE
MéthodologiePrésentation du corpus étudié 2/3
Un corpus annoté Annotations structurelles [détails] Annotations morpho-lexicales [détails] Annotations morpho-syntaxiques [détails]
Annotation automatique de l’ensemble du corpus ( volume) [détails] Analyseur linguistique Tilt de France Telecom R&D :
- robuste, doté de ressources lexicales conséquentes et paramétrable
- intègre des prétraitements variés et des fonctions de correction automatique
Validation manuelle d’une partie du corpus ( validité et précision) [détails] Correction et enrichissement manuel des annotations par des linguistes Messages provenant de forums sélectionnés pour leurs caractéristiques
linguistiques 7 400 messages électroniques francophones (500 000 tokens, 6 forums)
Traitement automatique des NFCE
MéthodologiePrésentation du corpus étudié 3/3
Un corpus électronique réutilisablei.e. un corpus électronique documenté et normalisé
DocumentationDocuments décrivant les traitements appliqués aux messages collectésDocuments décrivant les jeux d’étiquettes et conventions d’annotation suivies
NormalisationConformité avec les recommandations et directives de la TEITEI : ensemble de normes visant à unifier le codage des documents électroniques
pour faciliter leur réutilisation et leur échange
EncodageEncodage en XML : -- Interprétable par un lecteur humain
-- Espéranto informatique (interopérabilité)
Traitement automatique des NFCE
MéthodologieDescription des études réalisées
Études sur corpusExploitation de notre corpus et de ses annotations…Études qualitatives & quantitatives
Niveau 1 : Étude de la structure des messagesAnalyse qualitative et quantitative de la structure des messagesConséquences pour le TAL
Niveau 2 : Étude des phrasesRésultats relatifs à la ponctuation finale et conséquences pour le TALRésultats relatifs à la ponctuation interne et conséquences pour le TAL
Niveau 3 : Étude des formesTypologie des formes rencontrées dans les messages électroniques francophonesRésultats relatifs aux formes extra-lexicales et conséquences pour le TAL
Traitement automatique des NFCE
Quelques résultatset leurs conséquences
pour le TAL
Traitement automatique des NFCE
Étude de la structure des messages
Traitement automatique des NFCE
Étude de la structure des messagesQuelques résultats …
Structure des messagesOrganisation en « blocs de texte » séparés par des lignes blanches
Typologie des « blocs de texte » rencontréesParagraphe (texte strictement parlant)Texte reporté, introduction de texte reportéSignature, bandeau publicitaire
Quelques chiffresLes messages comportent en moyenne 3 paragraphesLes paragraphes comportent en moyenne 2 phrases73% des messages comportent du texte reporté (grande variabilité)59% des messages comportent une introduction de texte reporté (grande variabilité)40% des messages comportent une signature finale (grande variabilité)20% des messages comportent un bandeau publicitaire final (grande variabilité)
Traitement automatique des NFCE
Étude de la structure des messages… et leurs conséquences pour le TAL
L’organisation en « blocs de texte » (explicitement séparés) va faciliter :l’analyse structurellela segmentation automatique en phrases
Nécessité de traitements spécifiquesExistence de « blocs de texte » spécifiques, absents des textes conventionnelsNécessité de les détecter et de leur appliquer des traitements adaptés à leur nature
Traitement automatique des NFCE
Type de bloc Détection Traitement
Texte reporté Marqueur spécifique en début de ligne Idem texte
Intro. de texte reporté
Champs spécifiques mais variabilité Spécifique (spécificité du contenu)
Signature Variabilité de forme et de contenu Spécifique (spécificité du contenu)
Bandeau publicitaire Variabilité de forme et de contenu Idem texte
Étude des phrases
Traitement automatique des NFCE
Étude des phrasesGénéralités
Quelques chiffresLes messages comportent en moyenne 5 phrasesLes phrases comportent en moyenne 14 « mots »18% des messages n’ont pas de ponctuation standard du tout (grande variabilité)
Des phrases pas si courtes (pas si simples ?) et pas toujours ponctuées.
Conséquences pour le TALSegmentation automatique en phrases et analyse syntaxique difficile ? …
Traitement automatique des NFCE
Étude des phrasesPonctuation finale et capitalisation initiale
Ponctuation finale46% des messages n’ont pas de ponctuation finale standard
Mais grande variabilité : 29% hors forums de petites-annonces36% des messages n’ont pas de ponctuation finale du tout
Mais grande variabilité : 18% hors forums de petites-annonces
Capitalisation initiale34% des phrases n’ont pas de majuscule initiale
Mais variabilité : 29% hors forums de petites-annonces
Conséquences pour le TALInadéquation des systèmes de segmentation automatique en phrase traditionnels :
i.e. heuristiques inadaptées (non respect des conventions habituelles)Nécessité de traitements spécifiques pour la segmentation automatique en phrases
Traitement automatique des NFCE
Étude des phrasesPonctuation interne
Quelques chiffres53% des phrases comportent une ponctuation interne
Conséquences pour le TALPhrases explicitement structurées : analyse syntaxique facilitée (indices structurels)
Traitement automatique des NFCE
Symbole de ponctuation Fréquence relative
Virgule 55%
Deux-point 13%
Parenthèses 11% et 7%
Guillemet 7%
Tiret 2%
Autres 12%
Répartition des symboles de ponctuation interne
Stabilité entre les forums
Grande variabilité
Étude des formes
Traitement automatique des NFCE
Étude des formesTypologie des formes rencontrées
Type d’unité Catégorie Sous-catégorie
Unité lexicale Mot du lexique de référenceLocution du lexique de référence
Unité extra-lexicale Unité extra-lexicale alphabétique Abréviation, sigle, acronymeMot de la langue, absent du lexiqueMot étrangerMot incorrectement orthographiéSuite de mots agglutinés, mot éclaté
Unité extra-lexicale alphanumérique
Cardinal, ordinalPourcentage, unité mesure N° voie, code postal, numéro de téléphoneQuantième, millésime, date, heureGraphie ludique, smiley, adresse électroniqueIdentifiant, formule chimique, mixte
Symbole graphique
Symbole de ponctuationAutre symbole typographique
Résidu Forme à ignorer
Typologie des formes rencontrées dans les messages électroniques francophones
Traitement automatique des NFCE
Étude des formesGénéralités
Quelques chiffres78 % des formes sont des mots ordinaires du lexique de référence13 % des formes sont des symboles de ponctuation i.e. 19% des formes sont des formes non standard !
Grande variabilité en fonction du type de forum traité
Ex. : 10% : fr.soc.religion, fr.rec.cuisine, fr.bio.général
19% : fr.rec.musique.hip-hop
38% : fr.petites-annonces.immobilier, fr.petites-annonces.informatique.matériel
Conséquences pour le TALAnalyse morpho-lexicale problématique (idem pour l’analyse morpho-syntaxique)Nécessité de ressources et de traitements linguistiques spécifiques
pour l’analyse des formes non standard
Traitement automatique des NFCE
Étude des formesLes formes non standard 1/3
Formes non standard à base de chiffres arabes et romains3% des formes sont à base de chiffres arabes et romainsCorrespondent essentiellement à des cardinaux
Autres symboles typographiques1% des formes sont des symboles typographiques ne servant pas à la ponctuation
Conséquences pour le TALLa fréquence de ces formes ne porte pas vraiment à conséquence :
les analyseurs traditionnels savent déjà les traiter correctement !
Traitement automatique des NFCE
Mots ordinaires inconnus ou étrangers2,8% des formes sont des mots de la langue absents du lexique de référence
Variabilité fonction du type de forum (ex. : 1,2% bio ; 3,6% hip-hop ; 3,9% info)0,7% des formes sont des mots étrangers absents du lexique de référence
Variabilité fonction du type de forum (ex. : 0,2% religion ; 0,8% info)
Abréviations, sigles et consorts3,3% des formes sont des abréviations (au sens général du terme)
Variabilité importante fonction du type de forum et de forme
Ex. : le cas des abréviations (au sens strict) : 0,2% religion ; 10% info
Conséquences pour le TALPas si fréquents que cela, mais pénalisant du point de vue du TAL et des servicesNécessité de ressources morphologiques et lexicales ad hoc
Traitement automatique des NFCE
Étude des formesLes formes non standard 2/3
Fautes d’orthographes et consorts5% des formes sont (perçues comme) des mots incorrectement orthographiés
Principalement faute d’orthographe (3%) et agglutination (2%)
Variabilité f° du type de forum et de forme (ex. orth : 3,8% bio, 4,5% hip-hop, 2% autres)
Graphies ludiques0,8% des formes correspondent à (ou sont perçues comme) des graphies ludiques
Mais grande variabilité en fonction du forum (ex. : 2,84% hip-hop, 0,2% autres)0,3% des formes correspondent à (ou sont perçues comme) des émoticones
Mais grande variabilité en fonction du forum (ex. : 11% info, < 0,6% autres)
Conséquences pour le TALFautes d’orthographe fréquentes : nécessité de modules de correction orthographiqueGraphies ludiques pénalisantes : nécessité de traitements morphologiques dédiés
Traitement automatique des NFCE
Étude des formesLes formes non standard 3/3
Conclusion
Traitement automatique des NFCE
Conclusion et perspectives
ConclusionÉtude qualitative et quantitative des caractéristiques linguistiques
des messages électroniques francophones de notre corpusAnalyse des problèmes posés par leur analyse par un système de traitement
automatique des langues Proposition de stratégies de traitement automatique adaptées
PerspectivesDéveloppement de ressources et de traitements linguistiques mieux adaptés
au traitement automatique des messages électroniques francophones.
Exploitation des résultats des études réalisées
Exploitation du corpus par des techniques d’extraction lexicale et d’apprentissage automatique à partir de corpus
Traitement automatique des NFCE
Merci…
Traitement automatique des NFCE
Annexes
Traitement automatique des NFCE
Annexe 1Collecte et nettoyage du corpus
Collecte du corpus brut Collecte automatique des messages dans les forums de discussion électroniques
-Problèmes liés à l’évolution constante des forums et de leur contenu
-Problèmes liés au téléchargement de gros volumes de données Outil de collecte spécifique permettant la création de corpus de suivi
-Paramétrable : possibilités de filtrage et de collecte incrémentale des messages
-Robuste : fonctionnalités de reprise sur erreur automatique et manuelle
Nettoyage du corpus brut Nettoyage automatique visant à faciliter les traitement automatiques ultérieurs
-Suppression des messages et des pièces jointes non textuels
-Homogénéisation des entêtes pour les rendre plus facilement exploitables Outils ad hoc (le nettoyage manuel semble inévitable !)
[ retour ]
Traitement automatique des NFCE
Annexe 2Annotation automatique du corpus
Pré-traitement Filtrage automatique des messages pour ne garder que les portions à annoter
Annotation automatique Analyseur linguistique robuste et paramétrable : TILT (FT R&D DMI/GRI) Segmentation du texte en paragraphes, phrases et unités typées Analyse minimale
-Interprétation des segments non mots-Analyse lexicale et correction orthographique-Reconnaissance des locutions
Analyse syntaxique-Désambiguïsation morpho-syntaxique par analyse syntaxique partielle
Post-traitement Formatage des résultats pour les rendre plus facilement exploitables
[ retour ]
Traitement automatique des NFCE
Annexe 3Validation manuelle du corpus
Préparation des messages à validerReformatage dans un format facilitant la validation et correction manuelle
Validation manuelleValidation et correction manuelle des annotations par des linguistes
-Validation des annotations structurelles, lexicales et morpho-syntaxiques
-Validation en contexte et en une seule passe
-Utilisation d’outils de bureautique standard, personnalisés par des macrosDifficultés
-Abondance de formes extra-lexicales souvent spécialisées et ambiguës
-Importance des guides d’annotation détaillées pour la qualité de la validation
-Vitesse d’annotation variable (en moyenne : 250 formes validées par heure)
Travail de 12 hommes /mois
[ retour ]
Traitement automatique des NFCE
Annexe 4Annotations structurelles
Niveau 1 Niveau 2 Niveau 3 Niveau 4 Niveau 5
Message
Entête Champ d’entête
Corps
Texte Paragraphe Phrase
Référence de citation
Citation
Signature
Bandeau publicitaire
Annotations structurelles : différents niveaux de balisage
[ retour ]
Traitement automatique des NFCE
Annexe 5Annotations morpho-lexicales
Type d’unité Catégorie Sous-catégorie
Unité lexicale Mot du lexique de référenceLocution du lexique de référence
Unité extra-lexicale Unité extra-lexicale alphabétique Abréviation, sigle, acronymeMot (locution) de la langue, absent du lexiqueMot (locution) étrangerMot incorrectement orthographiéSuite de mots agglutinés, mot éclaté
Unité extra-lexicale alphanumérique
Cardinal, ordinalPourcentage, unité mesure N° voie, code postal, numéro de téléphoneQuantième, millésime, date, heureGraphie ludique, smiley, adresse électroniqueIdentifiant, formule chimique, mixte
Symbole graphique
Symbole de ponctuationAutre symbole typographique
Résidu Forme à ignorer
Annotations morpho-lexicales : une catégorisation fine des formes extra-lexicales
[ retour ]
Traitement automatique des NFCE
Annexe 6Annotations morpho-syntaxiques
Catégorie Nom Verbe Adjectif Pronom Déterminant
Adverbe Préposition Conjonction
Sous-catégorie
Commun
PropreCardinal
Principal
Auxiliaire
QualificatifOrdinalCardinalIndéfiniPossessif
PersonnelDémonstratifIndéfiniPossessifInterrogatifRelatifRéflexifCardinal
ArticleDémonstratifPossessifIndéfiniInterro-exclRelatifCardinal
GénéralParticuleInterro-excl
PrépositionDéictique
CoordinationSubordination
CasNatureDegréGenreNombreModeTempsPersonnePossesseur
m-fs-p
m-fs-p
i-s-m-c-n-pp-i-f-s1-2-3
p-cm-fs-p
n-a-d-o
m-fs-p
1-2-3s-p
d-i
m-fs-p
1-2-3s-p
p-c-n
p-d c-s
Annotations morpho-syntaxiques : réutilisation du jeu d’étiquettes du projet GRACE
[ retour ]
Traitement automatique des NFCE
Fin…
Traitement automatique des NFCE