explorations textométriques. volume 3

96
SYLED - CLA2T Université de la Sorbonne Nouvelle - Paris 3 Explorations textométriques Volume 3 : corpus multilingues Sous la direction de André Salem et Serge Fleury S. Fleury, M. Zimina, J. Miao, A. Salem, J-H. Cho, Christian Jean 2009

Upload: serge-fleury

Post on 09-Mar-2016

231 views

Category:

Documents


2 download

DESCRIPTION

Nous avons rassemblé plusieurs compte-rendus d'expériences réalisées avec les logiciels de la famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses. Les navigations rassemblées ici ont été choisies pour mettre en évidence la très vaste gamme des domaines d'application des méthodes textométriques.

TRANSCRIPT

  • SYLED - CLA2T Universit de la Sorbonne Nouvelle - Paris 3

    Explorations textomtriques

    Volume 3 : corpus multilingues

    Sous la direction de Andr Salem et Serge Fleury

    S. Fleury, M. Zimina, J. Miao,

    A. Salem, J-H. Cho, Christian Jean

    2009

  • Nous avons rassembl plusieurs compte-rendus d'expriences ralises avec les logiciels de la famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses. Les navigations rassembles ici ont t choisies pour mettre en vidence la trs vaste gamme des domaines d'application des mthodes textomtriques ainsi que les fonctionnalits des logiciels Lexico3 et mkAlign. Elles sont publies sous la forme de trois volumes (volume 1 : corpus et problmes, volume 2 : sries textuelles chronologiques, volume 3 : corpus multilingues). Lexico3 http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/ mkAlign http://tal.univ-paris3.fr/mkAlign/

    Lexicometrica http://www.cavi.univ-paris3.fr/lexicometrica/

  • Fonctionnalits de Lexico3

    Tableau des fonctionnalits Pour prsenter les fonctionnalits mises en uvre dans les sections suivantes, nous avons runis ci-dessous les diffrentes icnes associes aux fonctionnalits vises dans leur contexte dutilisation :

    Fentre/barre principale

    Fentre carte des sections Fentre PCLC

    Fentre groupe de formes

    Le tableau ci-contre rassemble, nomme et prsente brivement lensemble des fonctionnalits du logiciel Lexico3 utilises pour mener bien l'exploration textomtrique propose dans les sections suivantes. On pourra aussi se reporter aux diffrents manuels du logiciel disponibles en ligne.

  • N Nom Paramtres Localisation icne

    1

    SEGMENTATION

    Liste de dlimiteurs Par dfaut : .,:;!?/_-\"'()[]{}$

    Barre principale

    3 CONCORDANCE Forme (ou Type Gnralis) Barre principale

    4 SEGMENTS REPETES

    Barre principale

    5

    PCLC

    Une fois la partition construite, on peut accder au tableau prsentant les Principales Caractristiques lexicomtriques de la partition.

    Barre principale

    6

    PARTITION

    Une cl dfinissant une partition dans le corpus original est du type : Cest le nom de la cl qui est donn ici pour construire la partition vise

    Barre principale

    6 VENTILATION Forme ou groupe de formes 7 CARTE DES

    SECTIONS dlimiteur de section Barre principale

    8

    GROUPE DE FORMES

    Cette fonctionnalit produit des listes de formes quil est possible de mmoriser, dexporter ou de projeter sur les graphiques construits par Lexico3. Elle permet surtout de faire des recherches de formes ou de groupes de formes en utilisant la notion dexpression rgulire.

    Barre principale

    5.3 AFC Fentre des PCLC

    5.1, 7.2

    SPECIFICITES (POSITIVES NEGATIVES)

    Partie ou section du corpus

    Fentre des PCLC

    Carte des sections

    Lexico3, Tableau des Fonctionnalits

  • Glossaire segmentation - opration qui consiste dlimiter des units minimales dans un texte. Les units minimales (pour un type de segmentation) - units que lon ne dcompose pas en units plus petites pouvant entrer dans leur composition (ex : dans la segmentation en formes graphiques les formes ne sont pas dcomposes en fonction des caractres qui les composent) caractres dlimiteurs / non-dlimiteurs : distinction opre sur l'ensemble des caractres qui entrent dans la composition du texte, permettant aux procdures informatises de segmenter le texte en occurrences (suite de caractres non-dlimiteurs borne ses extrmits par des caractres dlimiteurs). On distingue parmi les caractres dlimiteurs: - les caractres dlimiteurs d'occurrence (encore appels "dlimiteurs de forme") qui sont en gnral : le blanc, les signes de ponctuation usuels, les signes de pranalyse ventuellement contenus dans le texte. - les caractres dlimiteurs de squences : sous-ensemble des dlimiteurs d'occurrence correspondant, en gnral, aux ponctuations faibles et fortes contenues dans la police des caractres.

    - les caractres sparateurs de phrase : (sous-ensemble des dlimiteurs de squence) qui correspondent, en gnral, aux seules ponctuations fortes.

    forme ou "forme graphique" : archtype correspondant aux occurrences identiques dans un corpus de textes, c'est--dire aux occurrences composes strictement des mmes caractres non-dlimiteurs d'occurrence

    partition (d'un corpus de textes) : division d'un corpus en parties constitues par des fragments de texte conscutifs, n'ayant pas d'intersection commune et dont la runion est gale au corpus.

    ventilation (des occurrences d'une unit dans les parties du corpus) : La suite des n nombres (n = nombre de parties du corpus) constitue par la succession des sous-frquences de cette unit dans chacune des parties, prises dans l'ordre des parties

    motif : un ensemble d'objets possdant une proprit reconnaissable.

    analyse factorielle : famille de mthodes statistiques d'analyse multidimensionnelle, s'appliquant des tableaux de nombres, qui visent extraire des "facteurs" rsumant approximativement par quelques sries de nombres l'ensemble des informations contenues dans le tableau de dpart.

    spcificit positive : pour un seuil de spcificit fix, une forme i et une partie j donnes, la forme i est dite spcifique positive de la partie j (ou forme caractristique* de cette partie) si sa sous-frquence est "anormalement leve" dans cette partie. De faon plus prcise, si la somme des probabilits calcules partir du modle hypergomtrique pour les valeurs gales ou suprieures la sous-frquence constate est infrieure au seuil fix au dpart

    spcificit ngative : pour un seuil de spcificit fix, une forme i et une partie j donnes, la forme i est dite spcifique ngative de la partie j si sa sous-frquence est anormalement faible dans cette partie. De faon plus prcise, si la somme des probabilits calcules partir du modle hypergomtrique pour les valeurs gales ou infrieures la sous-frquence constate est infrieure au seuil fix au dpart

    partie (d'un corpus de textes) : fragment de texte correspondant aux divisions naturelles de ce corpus ou un regroupement de ces dernires.

    section : portion de texte comprise entre deux dlimiteurs de section (exemple : le paragraphe, etc.).

    segment rpt (ou polyforme rpte) : suite de forme dont la frquence est suprieure ou gale 2 dans le corpus.

  • Les expressions rgulires avec Lexico3 Dans les sections qui suivent on utilisera plusieurs reprises la notion dexpression

    rgulire en particulier travers la fonction GROUPE DE FORMES . Nous rappelons ci-dessous brivement cette notion et les diffrents oprateurs disponibles avec Lexico3 pour crire de telles expressions. Les expressions rgulires permettent de reprsenter de manire gnrique des motifs textuels : un motif est un ensemble d'objets possdant une proprit reconnaissable, par exemple tous les mots termins par le suffixe able ou commenant par le prfixe pr . Les expressions rgulires permettent ainsi de dcrire des portions de texte laide doprateurs particuliers. Le tableau suivant rassemble lensemble des oprateurs disponibles avec Lexico3 pour crire des motifs sous la forme dexpression rgulire :

    Oprateur Fonction Application

    . (le point) Reprsente n'importe quel caractre L'expression "m.l" reprsente des squences comme : mal, mol

    * 0 ou n occurrences du caractre qui prcde L'expression "com*e" reprsente des squences comme : coe, come, comme, commme

    + 1 ou n occurrences du caractre qui prcde L'expression "com+e" reprsente des squences comme : comme, commme,

    \b Reprsente un dbut de mot L'expression "\bcapital" reprsente des squences comme : capital, capitale, capitalisme

    \b Reprsente une fin de mot L'expression ".*isme\b" reprsente des squences comme : syndicalisme, capitalisme

    [ ] Reprsente un ensemble de caractres

    L'expression "[aeiou]" reprsente des squences comme : un des caractres de l'ensemble des voyelles minuscules. L'expression "[a-z]" reprsente un des caractres minuscules compris entre a et z.

    [^ ] Reprsente la ngation du contenu de l'ensemble

    de caractres

    L'expression "[^aeiou]" reprsente un des caractres parmi ceux qui ne sont pas ceux de l'ensemble des voyelles minuscules

  • Sommaire Tutoriel n3 : Exploration du corpus Traductions alignes du discours dinvestiture de B. Obama ..................................................................................................................................................... 8

    1. Le corpus Traductions alignes du discours dinvestiture de B.Obama (Investiture Obama) .................. 8 2. Construction du corpus align ........................................................................................................................ 9 3. Etude la distribution dun type ..................................................................................................................... 19 4. Mthodes textomtriques .............................................................................................................................. 21 5 Bibliographie ................................................................................................................................................. 25

    Equivalences traductionnelles ............................................................................................................. 26 1 Contexte de la recherche ............................................................................................................................... 26 2 Asymtries distributionnelles des Types bilingues apparis .......................................................................... 27 Rappel sur les fonctionnalits de la carte des sections bi-textuelle .................................................................. 31 3 Rsolution du problme ................................................................................................................................. 31 4 Une mthode de synchronisation de lalignement ......................................................................................... 34 5 Une mthode de reprage de passages originaux dans la traduction ............................................................. 34 6 Conclusion ..................................................................................................................................................... 35 7 Rfrences ..................................................................................................................................................... 35 8 Fonctionnalits Lexico3 utilises dans cette navigation ................................................................................ 35

    Comparaisons textomtriques de traductions franco-chinoises ....................................................... 36 1 Contexte de la recherche ............................................................................................................................... 36 2 Le systme dcriture chinois ........................................................................................................................ 37 3 Le codage informatique des caractres chinois ............................................................................................. 39 4 Un corpus dapplication ................................................................................................................................ 41 5 Comparaisons quantitatives partir des mots ................................................................................................ 45 6 Un exemple dtude parallle ........................................................................................................................ 49 7 Conclusion ..................................................................................................................................................... 54 8 Rfrences ..................................................................................................................................................... 54 9 Fonctionnalits Lexico3 utilises dans cette exploration ............................................................................... 55

    Traductions franco-corennes ............................................................................................................. 56 1 Contexte de la recherche ............................................................................................................................... 56 2 Le coren et son systme d'criture ............................................................................................................... 57 3 Le corpus ....................................................................................................................................................... 58 4 Analyse des quivalences traductionnelles franais/coren .......................................................................... 62 5. Conclusion .................................................................................................................................................... 71 6 Rfrences ..................................................................................................................................................... 71 7 Fonctionnalits Lexico3 utilises dans cette exploration ............................................................................... 72

    Le tha. De la segmentation aux maux ................................................................................................ 74 1 Prsentation du tha ....................................................................................................................................... 75 2 Le corpus ....................................................................................................................................................... 76 3 Navigation dans les segmentations du tha .................................................................................................... 79 4 Les maux de l'unit lexicale .......................................................................................................................... 88 5 Conclusion ..................................................................................................................................................... 95 6 Rfrences ..................................................................................................................................................... 95

  • Tutoriel n3 : Exploration du corpus Traductions alignes du discours dinvestiture de B. Obama

    Corpus aligns, mthodes textomtriques pour lalignement [Obama1]

    Serge Fleury Apprendre :

    Construire une ressource textomtrique aligne Utiliser les outils textomtriques de base sur un alignement de textes Conduire une exploration textomtrique sur un corpus align

    1. Le corpus Traductions alignes du discours dinvestiture de B.Obama (Investiture Obama) Le corpus Investiture Obama est constitu de 5 volets : le discours original en anglais prononc par B. Obama le 20 janvier 2009 Washington et 4 traductions en franais de ce discours.

    Ces diffrents volets ont t rcuprs sur diffrents site web :

    Volet EN : le discours en anglais disponible sur le site du New York Times. Cette page nest plus accessible ce jour. On peut accder une version de cette page sauvegarde pour cette tude cette adresse :

    http://tal.univ-paris3.fr/mkAlign/corpus/obama-tmx-v5/PDF/nyt.pdf

    Volet FR-1 : traduction en franais fournie par les services de la Maison Blanche. On peut accder une version de cette page sauvegarde pour cette tude cette adresse :

    http://tal.univ-paris3.fr/mkAlign/corpus/obama-tmx-v5/PDF/traduction-maison-blanche.pdf

    Volet FR-2 : traduction fournie sur le site du Monde. Cette page nest plus accessible ce jour. On peut accder une version de cette page sauvegarde pour cette tude cette adresse :

    http://tal.univ-paris3.fr/mkAlign/corpus/obama-tmx-v5/PDF/LeMonde.pdf

    Volet FR-3 : traduction fournie sur le site de Libration (via lAFP). Cette page nest plus accessible ce jour. On peut accder une version de cette page sauvegarde pour cette tude cette adresse :

    http://tal.univ-paris3.fr/mkAlign/corpus/obama-tmx-v5/PDF/libe.pdf

    Volet FR-4 : traduction fournie sur le site de RFI. Cette page nest plus accessible ce jour. On peut accder une version de cette page sauvegarde pour cette tude cette adresse :

    http://tal.univ-paris3.fr/mkAlign/corpus/obama-tmx-v5/PDF/RFI.pdf

  • 2. Construction du corpus align Les contenus textuels des diffrentes pages web contenant le discours ou sa traduction ont t sauvegards dans 5 fichiers diffrents au format texte brut : en.txt (volet EN), fr-0.txt (volet FR-1), fr-1.txt (volet FR-2), fr-2.txt (volet FR-3), fr-3.txt (volet FR-4). Les volets EN et FR-1 ont servi damorce pour construire lalignement global. Ces deux volets tant aligns, on a ensuite align FR-1 avec FR-2, FR-2 avec FR-3 et enfin FR-3 avec FR-4. Cet alignement a t construit avec mkAlign1 qui fournit des outils daide lalignement dans un diteur 2 volets ; il permet aussi de sauvegarder lalignement dans un format normalis (le format TMX2) permettant de stocker pour une ressource textuelle donne diffrents volets associs (comme ses diffrentes traductions par exemple).

    2.1 Etape n1 : alignement de 2 volets initiaux En entre : en.txt, fr-0.txt (les 2 volets initiaux) En sortie : en_mkAlign.txt, fr-0_mkAlign.txt, obama-alignement-

    en-fr1.tmx (les 2 fichiers sauvegards lissue de lalignement et la version TMX de lalignement)

    La figure suivante donne voir linterface de mkAlign permettant de construire un alignement.

    1 http://tal.univ-paris3.fr/mkAlign/ 2 http://en.wikipedia.org/wiki/Translation_Memory_eXchange

  • Figure 1 : Interface de l'alignement avec mkAlign

    Pour cette tude, nous avons choisi daligner au niveau de la phrase. mkAlign permet de slectionner un caractre (le segmenteur dalignement) permettant de dcouper les textes aligner pour ensuite charger les diffrentes sections rsultantes dans les zones ddition disponibles : chaque page contient 5 zones ddition alignes permettant de visualiser chaque couple de sections textuelles alignes. Notre objectif dalignement phrastique nous a conduit, pour amorcer grossirement les choses, charger les 2 volets initiaux en choisissant comme segmenteur dalignement le caractre retour la ligne.

  • Figure 2 : Chargement des fichiers aligner

    Les 2 volets tant chargs, on peut ensuite affiner lalignement en utilisant les outils idoines pour scinder certaines sections ou en fusionner dautres.

    Figure 3 : Les outils de l'alignement

  • Au final, on dispose dans lditeur de lalignement dun corpus align avec lequel on peut mener des explorations textomtriques (cf infra). On peut aussi sauvegarder chacun des volets ainsi remodels (dans 2 fichiers) ou exporter les 2 volets dans un fichier au format TMX, ce type de fichier permettant de stocker de manire squentielle les diffrentes sections alignes. La premire figure qui suit montre ltat de lalignement export au format TMX tel quil est affich dans un navigateur avec une feuille de styles fournie :

    Figure 4: Alignement au format TMX, affichage dans le navigateur

    La seconde montre un extrait du code source de ce fichier au format TMX :

    Figure 5: Code source du fichier d'alignement au format TMX

  • 2.2 Etape n2 : Gnralisation de lalignement Lopration dcrite dans ltape prcdente a t rpte sur les diffrents couples de textes disponibles. Les fichiers TMX construits chaque tape ont ensuite t fusionns pour fournir au final un fichier regroupant les diffrents volets aligns : lalignement construit ici est compos pour chaque section dalignement de 5 volets, le volet anglais et ses 4 traductions.

    Figure 6: Alignement du corpus Obama Investiture . Affichage dans un navigateur

    2.3 Etape n3 : Exploration textomtrique de lalignement mkAlign permet de mener des explorations textomtriques sur des couples de textes aligns. Dans notre cas, le fichier TMX tant compos de 5 volets, il est ncessaire de slectionner au pralable 2 volets avec de dmarrer cette exploration. Dans les exemples qui suivent nous travaillerons avec les 2 volets FR-1 et FR-2. La figure qui suit montre ltat de lalignement de ces 2 volets.

  • Figure 7: Alignement Volets FR-1 et FR-2

    2.3.1 Le dpouillement en formes graphiques Comme pour toute exploration textomtrique, la premire phase de lexploration textomtrique est constitue par la segmentation du corpus textuel en units qui serviront de base aux dcomptes ultrieurs les occurrences (en anglais tokens). Dans le cas de mkAlign, cette segmentation des 2 volets en units est ralise au chargement des fichiers. Le dpouillement des 2 volets en formes graphiques dlimites par les dlimiteurs proposs par dfaut conduit aux rsultats suivants (visibles dans longlet Rapport de mkAlign) :

    Figure 8: Paramtres lexicomtriques des deux volets aligns

    Cette segmentation conduit la gnration des 2 dictionnaires de formes, chacun tant associ un des volets du corpus align :

  • Figure 9: Les dictionnaires de formes issus de l'alignement

    Diffrents outils textomtriques que lon dcrira plus loin permettent dapprcier la frquence, la rpartition, la spatialisation des occurrences relevant de chacun des types constitus cette tape. Les rsultats fournis par ces outils ne sont pas indpendants des types dunits constitus, mais les mmes outils sappliquent tous les types constitus de la sorte. Dans la figure prcdente, certains de ces outils sont visibles dans la partie suprieure sous la forme dicne. Aprs avoir slectionn des items dans la liste, on active lopration vise pour ces items.

    2.3.2 Etude globale des types simples

    Figure 10 : Accroissement de vocabulaire sur les 2 volets de l'alignement

  • Le Diagramme daccroissement du vocabulaire permet dobserver lapparition de nouvelles formes au fur et mesure que lon avance dans le corpus. Comme cest toujours le cas pour les corpus textuels, la courbe connat une croissance rapide au dbut du corpus ; cette croissance ralentit mesure que lon avance dans le corpus. On remarque, par-del cette caractristique globale, des zones daccroissement plus fort ainsi que des paliers durant lesquels lapport de nouvelles formes est plus faible. Dans le cas de mkAlign, on peut observer cette ventilation sur les 2 volets chargs.

    ==== mkAlign ==== Accroissement du vocabulaire 9 Dans longlet Graphe, activez le bouton AC 9 Le diagramme apparat dans la zone ddition de longlet Graphe.

    2.3.3 Les types complexes Les segments rpts La fonctionnalit Segments rpts permet dtablir la liste de toutes les squences de formes rptes (pour les 2 volets aligns) sans changement diffrents endroits du corpus dont la frquence totale dpasse un seuil minimal F pralablement fix par lutilisateur. Les segments ainsi slectionns peuvent ensuite tre tris selon diffrents critres : longueur, frquence, etc.

    Figure 11: Liste des segments rpts sur les 2 volets du corpus

    ==== mkAlign ==== Segments rpts 9 Dans longlet Param, slectionner un seuil de frquence minimal pour les segments 9 Dans longlet Segments, activez le calcul 9 Les segments apparaissent dans la zone ddition de longlet Segments sous la forme de 2 listes. Ils

    peuvent tre tris selon diffrents critres (longueur, frquence, ordre lexicographique) en cliquant sur le bandeau situ au-dessus de la colonne correspondante.

    9 Chaque slection, simple ou multiple, ralise dans la fentre des segments peut ensuite tre analyse comme un tout laide des diffrents outils disponibles (concordance, histogramme, carte des sections, etc.) au dessus de chaque liste.

  • Cooccurrences et polycooccurrences pour un type donn Un alignement induit un dcoupage du corpus en sections (les diffrentes cellules alignes). Pour une forme-ple (nous prendrons comme ci-dessus lexemple de la forme : nation) il est possible de constituer la liste des formes qui trouvent, daprs un calcul statistique particulier3, un nombre lev doccurrence dans les mmes sections que la forme-ple sur chacun des volets.

    Figure 12 : Les cooccurrents de "nation"

    Nous trouvons ici pour la forme-ple sur le volet FR-1 : demeurons, de, envers, chaque, grandeur et pour cette mme forme-ple sur le volet FR-2 : envers, grandeur Le retour aux contextes confirmera que ces formes entrent avec le ple choisi dans des associations rcurrentes :

    Figure 13 : Retours aux contextes

    ==== mkAlign ==== Cooccurrences 9 Dans longlet Coocs, slectionner la forme ple (volet source et volet cible) 9 Charger ventuellement une liste de forme exclure du calcul (stop-liste) sur chacun des 2 volets 9 Choisir une frquence minimale et un seuil de probabilit pour les cooccurrents 9 Appuyer sur licne des cooccurrences,

    On verra infra quil est possible de dterminer cette liste de cooccurrents en utilisant dans mkAlign une autre mthode base sur la reprsentation graphique de lalignement. A partir de la liste de cooccurrents, on peut ensuite activer le calcul des polycooccurrents. Ce calcul reprend la dmarche mise en uvre dans le travail de William Martinez (2002, 2003, 2006).

    3 Un calcul hypergomtrique est utilis ici pour comparer le nombre des occurrences du candidat cooccurrent dans les sections ou est atteste la forme-ple avec sa frquence dans lensemble du corpus.

  • Une cooccurrence dsigne lapparition de deux mots en mme temps et dans le mme contexte.

    Le module de cooccurrences mis en uvre prend appui sur lalignement en cours, les contextes dans lesquels on examine la co-prsence sont donc ceux qui concident aux diffrentes cellules dans lditeur dalignement (ou aux sections dans la carte des sections)

    Le terme poly-cooccurrence dsigne les attractions lexicales au-del de la cooccurrence binaire.

    Le module de poly-cooccurrences intgr reprend lalgorithme dcrit dans [Martinez, 2006] : On calcule pour le ple A les cooccurrents spcifiques B, C et D Dans leurs contextes communs, on calcule pour les ples A+B les cooccurrents

    spcifiques E et F Les ples A+B+E ont pour cooccurrent spcifique H Les ples A+B+E+H n'ont pas de cooccurrent spcifique et l'exploration s'interrompt

    pour ce chemin Les ples A+B+F ont pour cooccurrents spcifiques I, etc. Durant lexploration, diffrents filtrages conditionnent l'puisement des explorations

    contextuelles et rduisent le bruit dans les rsultats pour privilgier linformation la plus spcifique : seuils maximaux de frquence et de spcificit du cooccurrent.

    Le calcul des cooccurrents tant termin, lactivation du module de polycooccurrence construit les chemins de polycooccurrence ; le graphique suivant construit par mkAlign synthtise lensemble de ces chemins que nous insrons4 plus bas :

    Figure 14 : Les polycooccurrents de la forme "nation"

    Dans ce graphique, les formes en jaune sont prsentes dans les 2 volets, les formes en rouge sont prsentes dans le volet source (FR-1) et les formes en bleu sont prsentes dans le volet cible (FR-2). Polycooccurrents : (FR-1) nation (co-freq : 2, seuil : 3) nation-2(3)->demeurons-2(3.1)->Nous-2(3.4)->il-2(3.1)->est nation-28(4.1)->de-2(3.1)->grandeur nation-28(4.1)->de-3(4.1)->envers nation-28(4.1)->de-3(3.1)->chaque Polycooccurrents : (FR-2) nation (co-freq : 2, seuil : 3) nation-3(4.1)->envers-2(3)->c nation-2(3.1)->grandeur 4 Les chemins de polycooccurrence sont accessibles aprs sauvegarde des rsultats du calcul dans le rapport dexploration (cf sauvegarder un rapport dans le manuel dutilisation).

  • Le graphique des chemins de polycooccurrences permet aussi de raliser des retours au contexte en slectionnant des nuds forme (Control-Clic sur un nud) que lon peut ensuite projeter sur la carte des sections de lalignement (icne carte des sections dans la partie haute de la zone ddition du graphe dans longlet Cooc). Cette projection permet de mettre au jour les sections contenant lensemble des formes slectionnes (Option Global coche) ou celles contenant au moins lune des dentre elles. On peut ainsi visualiser rapidement les sections contenant des chemins complets de polycooccurrences.

    ==== mkAlign ==== Polycooccurrences 9 Dans longlet Coocs, slectionner la forme ple (volet source et volet cible) 9 Charger ventuellement une liste de forme exclure du calcul (stop-liste) sur chacun des 2 volets 9 Choisir une frquence minimale et un seuil de probabilit pour les cooccurrents 9 Appuyer sur licne des cooccurrences 9 Appuyer sur licne des polycooccurrents 9 Le graphe des polycooccurrents apparat dans la zone suprieur de la zone ddition de longlet

    Coocs. Les chemins de cooccurrence seront accessibles dans le rapport si les rsultats produits y sont ajouts

    3. Etude la distribution dun type

    3.1 Les outils de base

    3.1.1 Loutil concordances Loutil concordances permet de rassembler toutes les occurrences relatives un type donn en les munissant dun petit fragment de contexte. En faisant varier la taille du contexte, lordre de prsentation (ici les contextes sont tris en fonction de la forme qui suit le ple slectionn). A laide de cet outil, le chercheur peut oprer des rapprochements quune lecture cursive du texte ne lui aurait sans doute pas permis de saisir. La concordance est ici disponible pour chacun des volets du corpus align.

    Figure 15 : Concordance de la forme nation sur les 2 volets du corpus

    ==== mkAlign ==== Concordances 9 Dans longlet Concordances 9 Entrer une forme dans la zone de saisie (ex : nation) 9 Choisir [ventuellement] un regroupement par parties (si une partition a t slectionne)

  • 3.1.2 Loutil ventilation par sections dalignement Cet outil permet de juger de la rpartition des occurrences relevant dun mme type dans les diffrentes sections de lalignement :

    Figure 16 : Ventilation de la forme nation sur les 2 volets de lalignement

    ==== mkAlign ==== Ventilation par section dalignement 9 Dans longlet Dic (et dans chaque onglet donnant voir des listes de formes) 9 Slectionner une (ou plusieurs) forme(s) 9 Activez le bouton Ventilation, la ventilation concernera lensemble des formes slectionnes dans le

    volet source et dans le volet cible

    3.1.3 Loutil carte des sections

    Figure 17 : Carte des sections ; projection de la forme "nation" sur le volet source Loutil carte des sections permet une visualisation globale de la rpartition des occurrences qui relvent dun type donn dans lensemble du corpus (constitu ici de 2 volets et donc de 2

  • cartes). Chacun des carrs reprsente un lment particulier du texte dcoup en sections : les sections correspondent ici aux sections de lalignement construit (les cellules alignes dans lditeur de lalignement). Chacun des carrs de la squence du haut reprsente une des sections du texte original (volet source gauche et volet cible droite). La forme nation a t projete sur la carte des sections partir du dictionnaire (source) provoquant ainsi le marquage par une croix et le coloriage du contour des sections ou elle est atteste. Le texte dune des sections slectionne par lutilisateur est affich en bas de la figure. Les occurrences de la forme slectionne y sont mises en vidence.

    ==== mkAlign ==== Carte des sections 9 Dans longlet Map 9 Activez la construction de la carte 9 Projet une forme sur la carte partir du dictionnaire par exemple (nation) 9 Choisir [ventuellement] un regroupement par parties, si une partition a t slectionne

    4. Mthodes textomtriques Plusieurs mthodes statistiques permettent dclairer la structure dun corpus textuel partir de comparaisons ralises entre les fragments du corpus. La partition du corpus constitue une tape trs importante dans lanalyse comparative des textes dans la mesure o les oppositions quil sera possible de mettre en vidence entre les parties soumises comparaison dpendent troitement du choix de la partition initiale.

    4.1 Analyse des spcificits du corpus Lanalyse des spcificits permet de porter un diagnostic exprim en probabilit sur leffectif de chacune des cases dun tableau lexical5 (on se reportera au Tutorial n1 pour des informations complmentaires sur la mthode des spcificits). Exemple n1 : Calcul des cooccurrents dune forme partir de la carte des sections de lalignement La carte des sections construit par dfinition un dcoupage du corpus en sections correspondant ltat de lalignement. Une forme-ple tant choisi (sur le volet source ou le volet cible), la projection de la forme sur la carte des sections donne voir la localisation de la forme dans la carte des sections. Nous reprenons ci-dessous lexemple de la forme : nation et la projection construite dans la figure prcdente. A partir de cette carte, il est possible de constituer la liste des formes et des segments rpts qui trouvent, daprs un calcul statistique particulier6, un nombre lev doccurrence dans les mmes sections que la forme-ple (les cooccurrents de cette forme).

    5 Lanalyse des spcificits repose sur lutilisation du modle hypergomtrique pour lanalyse des tableaux de nombres deux dimensions. Pour plus de dtails sur le modle des spcificits et ses applications ltude des corpus textuels, on consultera : [Lafon 1984] ou [Lebart et Salem 1994]. 6 Nous utilisons ici un simple calcul hypergomtrique pour comparer le nombre des occurrences du candidat cooccurrent dans les sections ou est atteste la forme-ple avec sa frquence dans lensemble du corpus.

  • Figure 18 : Calcul des cooccurrents d'une forme par la carte des sections

    Le rsultat est constitu par deux listes donnant voir dune part les mots spcifiques de la forme-ple (pour le volet source) et les mots spcifiques dans les sections associes du volet cible :

    Figure 19 : Liste des cooccurrents de la forme ple et liste des mots spcifiques de la zone miroir

    Nous retrouvons normalement ici les rsultats dj vus plus haut. Le corpus tant align, la forme en tte de liste est sans surprise la forme nation : les deux traductions convergent

  • sur cette forme localise dans les mmes sections dans les 2 volets, par contre les divergences entre les traductions se traduisent par des comportements lexicaux spcifiques propres chaque volet.

    4.2 Mise au jour de la variation entre les 2 volets du corpus align Dans lexemple trait dans ce tutorial, les volets franais sont issus par une drivation de traduction du mme texte original. Dans ce cas prcis, si on choisit 2 volets franais particuliers, ces deux textes sont thoriquement proches (mais diffrents : les traductions ntant pas compltement similaires 2 2). On peut donc vouloir essayer de mettre au jour les diffrences entre ces volets traduits du mme texte de dpart. Cette mise au jour de la variation est possible dans mkAlign : une fois les textes aligns, le module de variation donne voir globalement les diffrences entre les 2 volets chargs. Ce processus sappuie sur limplmentation de la commande diff7 dans la bibliothque Tk::DiffText8 (composite widget for colorized diffs)

    Figure 20 : paramtrage du calcul de la variation

    Aprs avoir choisi le grain de la variation (mot, ligne, caractre), on lance la visualisation de la variation en activant le bouton idoine :

    Figure 21 : Mise au jour de la variation (comparaison au niveau du mot)

    7 Compare deux fichiers et affiche les diffrences (cf http://fr.wikipedia.org/wiki/Diff) 8 http://search.cpan.org/~mjcarman/Tk-DiffText-0.17/lib/Tk/DiffText.pm

  • Figure 22 : Mise au jour de la variation (comparaison au niveau des lignes)

    Pour ce module le texte source ( gauche) est considr comme le texte de rfrence partir duquel on mesure les diffrences. La coloration permet de mettre au jour :

    - Les lments supprims dans le texte source (zones rouges dans le volet gauche) - Les lments ajouts dans le texte cible (zones vertes dans le volet droite) - Les lments modifis dans les 2 volets (zones bleues dans les 2 volets) - Les lments inchangs dun volet lautre restant non colors : dans la seconde

    comparaison, la seule ligne inchange dans la partie visible lcran est cercle de rouge.

    Ce rsultat est exportable au format HTML ; on trouve en ligne plusieurs illustrations de ces exports :

    Deux traductions du discours d'investiture de B. Obama : o export comparaison : http://tal.univ-paris3.fr/mkAlign/mkalign-variation/variation-obama-export.html o graphique de comptage de la variation http://tal.univ-paris3.fr/mkAlign/mkalign-variation/graph-variation-obama.jpg

    Deux discours de Sgolne Royal (campagne 2007) : o export comparaison (aprs alignement automatique) http://tal.univ-paris3.fr/mkAlign/mkalign-variation/variation-royal-export.html

    Deux discours de Nicolas Sarkozy (confrence de presse 2008) : o export comparaison (aprs alignement automatique) http://tal.univ-paris3.fr/mkAlign/mkalign-variation/variation-sarko-export.html

    On peut aussi calculer des indicateurs de la variation (fond commun, mots ajouts, supprims, modifis) : le graphique produit donne voir pour chaque section dalignement un dcompte des variations sur chaque section. On trouvera en ligne (supra) des exemples de telles sorties.

  • 5 Bibliographie Fleury Serge, Zimina Maria, "Exploring Translation Corpora with mkAlign", in Translation Journal, Volume 11, n1 January 2007. http://accurapid.com/journal/39mk.htm Fleury Serge, Zimina Maria, "Utilisations de mkAlign pour la traduction philologique" (PDF), in Actes JADT 2008, Journes Internationales d'Analyse Statistiques des Donnes Textuelles, Lyon, 2008. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2008/pdf/fleury-zimina.pdf http://tal.univ-paris3.fr/mkAlign/Slides%20-%20JADT2008/ http://tal.univ-paris3.fr/mkAlign/Demo_mkAlign%20-%20JADT2008/ Leblanc Jean-Marc, Martinez William, "L'analyse contrastive des rseaux de cooccurrence Le monde dans les discours des prsidents de la Cinquime Rpublique", in Actes JADT 2006, Journes Internationales d'Analyse Statistiques des Donnes Textuelles, Besanon, 2006. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2006/PDF/II-054.pdf Martinez William, Zimina Maria, "Utilisation de la mthode des cooccurrences pour l'alignement des mots de textes bilingues", in Actes JADT 2002, Journes Internationales d'Analyse Statistiques des Donnes Textuelles, St Malo, 2002. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2002/PDF-2002/martinez_zimina.pdf Vronis Jean, Alignement de corpus multilingues, in Pierrel, J.-M., diteur, Ingnierie des langues, Informatique et systmes dinformation, chapitre 6, pages 151172. Herms Sciences, 2000. http://www.up.univ-mrs.fr/~veronis/pdf/2000hermes6.pdf Zimina Maria, Approches quantitatives de l'extraction de ressources traductionnelles partir de corpus parallles. Prsentation la soutenance de thse, Universit de la Sorbonne nouvelle - Paris 3, le 26 novembre 2004. http://www.cavi.univ-paris3.fr/ilpga/ED/student/stmz/ED268-PagePersoMZ_fichiers/stmz/page6_fichiers/26novembre_MZ.zip Zimina Maria, Lalignement textomtrique des units lexicales correspondances multiples dans les corpus parallles. Confrence aux 7es Journes internationales d'Analyse statistique des Donnes Textuelles JADT'2004, Louvain-la-Neuve (Belgique), 2004. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2004/pdf/JADT_118.pdf Zimina Maria, Topographie bi-textuelle et approches quantitatives de lextraction de ressources traductionnelles partir de corpus parallles, in Actes des 7es Journes scientifiques du Rseau de chercheurs "Lexicologie, Terminologie, Traduction", Institut suprieur de traducteurs et interprtes (ISTI), Bruxelles, 8-10 septembre 2005. http://perso.univ-lyon2.fr/~thoiron/JS%20LTT%202005/pdf/Zimina.pdf Zimina Maria, Corpus multilingues : exploration textomtrique dans l'espace intertextuel, in Ballard M., Pineira-Tresmontant C. (d) Les corpus en linguistique et en traductologie" (p. 107-121), Artois Presses Universit, 2007.

  • Equivalences traductionnelles [Equivalences]

    Maria Zimina [email protected]

    Rsum : Les Types bilingues franais/anglais administr+/administ+ sont apparis en raison de leur parent smantique dans le corpus parallle. Dans le bi-texte dcoup en sections, leurs distributions respectives prsentent des divergences. Une suite doprations textomtriques permet de cerner les causes de ces discordances. On dcouvre deux phnomnes sensiblement diffrents : 1) Les asymtries sont dues au dcalage dans lalignement des sections ; 2) Il existe des contextes originaux o les mots franais commenant par la chane administr+ (administration, administrer etc.) ne sont pas traduits par des mots anglais commenant par la chane administ+ (administration, administering etc.) et rciproquement. On en dduit deux mthodes de travail sur corpus parallles : 1) Une mthode de synchronisation dalignement phrastique laide de la carte des sections bi-textuelle ; 2) Une mthode dexploration bi-textuelle permettant le reprage de passages originaux o sont attestes des quivalences lexicales peu communes.

    1 Contexte de la recherche Le corpus Convention est constitu de textes juridiques franais/anglais de la Convention de sauvegarde des Droits de lHomme et des Liberts fondamentales, de ses protocoles intgraux, et dune srie darrts rendus par la Cour europenne des Droits de lHomme de Strasbourg en 1995. Deux versions de chaque document existent paralllement ; il est difficile de distinguer une langue source et une langue cible. Ce corpus a t runi dans le cadre dune tude plus large qui avait pour objectif la construction dun lexique bilingue des droits de lhomme base de corpus parallles aligns au niveau de la phrase (Bourigault et al., 1999). Au cours du projet, le corpus Convention a t align semi automatiquement jusquau niveau du paragraphe. On estime le taux de prcision du dcoupage en phrases 90 % environ.

    Le corpus compte 12 913 formes pour 296 396 occurrences dans le volet franais et 9 530 formes pour 284 958 occurrences dans le volet anglais. La partition naturelle du corpus en 3 parties dont chacune correspond un ensemble de documents juridiques dun certain type amne les rsultats que lon peut voir au tableau 1.

    Tableau 1 Structure du corpus Convention

    Corpus Convention volet franais

    296 396 occ.

    volet anglais 284 958 occ.

    Convention europenne des Droits de lHomme

    5 953 occ.

    5 710 occ.

    Protocoles intgraux de la Convention 8 984 occ.

    8 773 occ.

    Arrts de la Cour Europenne des Droits de lHomme

    281 459 occ.

    274 475 occ.

  • Les arrts de la Cour europenne constituent la principale partie du corpus Convention. On trouve un extrait du texte des arrts en franais et en anglais au tableau 2 ci-dessous.

    Tableau 2 Convention : Arrts de la Cour europenne des Droits de lHomme (extraits)

    volet franais volet anglais du ct gibraltarien de la frontire, les fonctionnaires des douanes et de la police en service normal ne furent ni informs ni associs la surveillance, au motif que cela impliquerait que l'information soit communique un trop grand nombre de personnes.

    on the *gibraltar side of the border, the customs officers and police normally on duty were not informed or involved in the surveillance on the basis that this would involve information being provided to an excessive number of people.

    aucune mesure ne fut prise pour ralentir la file de voitures lors de leur entre, ou pour examiner tous les passeports, car on craignait que cela puisse alerter les suspects.

    no steps were taken to slow down the line of cars as they entered or to scrutinise all passports since it was felt that this might put the suspects on guard.

    une quipe de surveillance distincte se trouvait cependant la frontire et un groupe prpos l'arrestation tait post dans le secteur de l'aroport voisin.

    there was, however, a separate surveillance team at the border and, in the area of the airfield nearby, an arrest group.

    le tmoin *m, qui dirigeait une quipe de surveillance poste la frontire, exprima sa dception au vu du manque apparent de coopration entre les divers groupes impliqus *gibraltar, mais il comprit que les choses taient ainsi organises pour des questions de scurit.

    witness *m who led a surveillance team at the frontier expressed disappointment at the apparent lack of co-operation between the various groups involved in *gibraltar but he understood that matters were arranged that way as a matter of security.

    Guide de lecture du tableau 2 :

    Dans cet extrait du corpus parallle Convention, plusieurs types de codage sont mis en vidence : - la cl texte qui distingue deux langues (franais : "fr" , anglais : "en" ) ; - le caractre qui matrialise lalignement des phrases ; - le caractre * qui permet didentifier des lettres ( lorigine) en majuscules.

    2 Asymtries distributionnelles des Types bilingues apparis La confrontation des dictionnaires de formes graphiques constitus partir de chacun des volets du corpus nous amne nous interroger sur les particularits dun ensemble de

  • vocabulaire associ dans les deux langues la notion dadministration (en anglais : administration). Nous allons constituer un type particulier, que nous appellerons administr+ partir de toutes les formes graphiques commenant par cette chane de caractres dans le volet franais du corpus.9 Puis, de la mme faon, nous allons construire un deuxime type partir de toutes les formes graphiques commenant par la chane administ+ dans le volet anglais du corpus. A priori, on peut sattendre ce que ces entits soient lies sur le plan de la traduction.

    Tableau 3 Convention : transformation pour une exploration parallle sous Lexico3

    aucune mesure ne fut prise pour ralentir la file de voitures lors de leur entre, ou pour examiner tous les passeports, car on craignait que cela puisse alerter les suspects. _no _steps _were _taken _to _slow _down _the _line _of _cars _as _they _entered _or _to _scrutinise _all _passports _since _it _was _felt _that _this _might _put _the _suspects _on _guard.

    Sur la figure 4, chacun des types administr+ [478 occ.] et administ+ [482 occ.] (franais/anglais) est constitu par lensemble doccurrences des formes graphiques regroupes en raison de leur parent smantique dans le corpus transform pour une exploration parallle sous Lexico3 (voir lextrait prsent au tableau 3) : 10

    9 Sous Lexico3, le langage des expressions rgulires permet lutilisateur de constituer des groupes de mots correspondant au type de son choix et denregistrer la liste de ces units pour une exploration ultrieure. 10 Dans ltat actuel, les fonctionnalits de Lexico3 ne permettent pas encore de charger sparment les dictionnaires de formes correspondant chaque volet dun corpus bi-textuel. Pour contourner cette difficult, nous avons diffrenci les deux langues en introduisant le caractre _ (underscore) devant chaque forme graphique du volet anglais. Automatise par une opration Rechercher/Remplacer, linsertion de cette marque a permis dviter toute confusion entre les vocabulaires correspondant chaque volet du corpus.

  • Figure 4 Slection des Types bilingues pour une exploration parallle

    Afin de poursuivre notre exploration, nous allons crer une carte bi-textuelle en sappuyant sur lalignement des sections parallles.11

    11 La mise en correspondance des parties quivalentes du corpus parallle a t ralise laide du logiciel mkAlign qui permet de construire ou de corriger un alignement de deux textes. Loutil permet de visualiser lalignement en cours et de le modifier via un diteur double entre (dans notre exemple, le caractre sert de dlimiteur de sections apparies). mkAlign donne la possibilit dexporter lalignement au format Lexico3. Pour plus dinformations sur les fonctionnalits de cet outil, on consultera la documentation ladresse suivante : http://tal.univ-paris3.fr/mkAlign/mkAlignDOC/mkAlignDOC.htm

  • Figure 5

    Ventilations des Types franais/anglais administr+ / administ+ dans le corpus align au niveau de la phrase : recherche dasymtries distributionnelles

    Guide de lecture de la figure 5 :

    Lalignement des sections (phrases) du bi-texte est matrialis par des carrs. Le coloriage des carrs indique la prsence des types tudis dans les sections concernes :

    les carrs bicolores de la carte signalent les sections bi-textuelles o les mots franais commenant par la chane administr+ (administration, administrer etc.) sont traduits par des mots anglais commenant par la chane administ+ (administration, administering etc.).

    les carrs monochromes correspondent aux sections du bi-texte o le type franais administr+ et le type anglais administ+ ne se correspondent pas dans le corpus. En cliquant sur un carr monochrome (bleu ou rouge), il est possible de visualiser dans la fentre du bas le texte correspondant la section o les deux types ne sont pas lis. On peut ensuite tudier les particularits de ces contextes et trier entre les cas qui correspondent aux dcalages dans

    Type 1

    Type 2

  • lalignement des sections parallles du corpus (Type 1) et les autres (susceptibles de rvler des quivalences lexicales peu communes Type 2).

    Rappel sur les fonctionnalits de la carte des sections bi-textuelle

    Pour tudier la ventilation des types sur la carte des sections, on procde de la faon suivante :

    On slectionne le Tgen ( partir du dictionnaire, du Garde-mots, de la liste des segments rpts, etc.) et on le fait glisser sur la carte (bouton gauche maintenu enfonc).

    On slectionne la section visualiser dans la fentre du bas en cliquant sur le carr qui la reprsente dans la carte des sections.

    La case seuillage permet de rgler deux seuils en probabilits qui entraneront un coloriage (plus ou moins sombre) des sections.

    Pour une reprsentation simultane de deux Tgen(s), ce processus doit tre ritr (en prenant soin de changer la couleur dans la bote correspondante). Il faut maintenir la touche Control en position basse lors du second glisser/dposer.

    La figure 5 montre la ventilation des types administr+ / administ+ dans les sections apparies du corpus. Une conclusion simpose : dans le corpus Convention, mme si lon peut constater des similitudes importantes qui concernent des parties quivalentes, les distributions des ces types prsentent des divergences.

    Ce constat amne une question : Quelles sont les particularits des contextes o les mots franais commenant par la chane administr+ ne sont pas en correspondance avec des mots anglais commenant par la chane administ+ ?

    La rponse cette question peut tre recherche dans deux directions distinctes (sans que lon puisse exclure, a priori, que le phnomne soit d une combinaison de ces deux possibilits) :

    Type 1 : il existe des dcalages dans lalignement des sections parallles du corpus, ce qui expliquerait la prsence de sections bi-textuelles o les deux types ne sont pas en correspondance.

    Type 2 : le type administr+ nest pas toujours traduit par le type administ+ et il existe des contextes originaux, o sont attestes des quivalences lexicales peu communes, susceptibles dintresser le chercheur.

    La figure 5 permet de trier entre les cas qui correspondent la premire hypothse et les autres.

    3 Rsolution du problme Les fonctionnalits de la carte des sections rendent possible une visualisation simultane de la prsence/absence des types bilingues. Comme indiqu sur la figure 5, la couleur bleu est utilise pour matrialiser le type franais administr+ et le rouge pour le type anglais administ+. En cliquant sur un carr bicolore, il est possible de visualiser dans la fentre du bas le texte correspondant la section o les deux types sont lis. Lanalyse de ces sections signale lquivalence lexicale des types apparis :

    volet franais volet anglais

  • les extraits du dossier administratif que cite l'appelant l'appui de sa thse ne confortent toutefois pas cette affirmation.

    the passages from the administrative file which the appellant cites in evidence in this connection do not, however, support that assertion.

    La prsence de sections monochromes sur la carte montre quil existe des cas de non-correspondance entre les types. En cliquant sur un carr monochrome (bleu ou rouge), il est possible de visualiser dans la fentre du bas le texte correspondant la section o les deux types ne sont pas lis :

    volet franais volet anglais toute autre lecture non seulement pcherait par manque de cohrence, mais surtout trahirait l'intention des autorits, lesquelles entendaient soustraire l'emprise de la *convention tout le systme administratif, y compris les dispositions de fond et de procdure du droit administratif pnal.

    any other construction would not only lack coherence;

    Type 1 Lorsque deux sections monochromes colories en bleue et rouge se succdent sur la carte, on peut gnralement constater les dcalages dans lappariement des sections. Par exemple :

    volet franais volet anglais toute autre lecture non seulement pcherait par manque de cohrence, mais surtout trahirait l'intention des autorits, lesquelles entendaient soustraire l'emprise de la *convention tout le systme administratif, y compris les dispositions de fond et de procdure du droit administratif pnal.

    any other construction would not only lack coherence;

    cela vaudrait mme dans le cas o, comme en l'espce, l'accus ne se voit infliger qu'une amende, ds lors qu' dfaut de paiement une peine d'emprisonnement s'y substitue.

    it would also run counter to the authorities' intention, which had been to remove from the scope of the *convention the whole administrative system, including the substantive and procedural provisions of administrative criminal law. that would be so even in a case where, as in this instance, the accused was merely fined, in so far as default on payment of that fine would entail committal to prison.

  • Les erreurs de lalignement initial peuvent tre corriges si lon prend soin de sauvegarder les sections concernes dans un rapport. Pour ajouter une section au rapport, il suffit de cliquer sur licne Rapport situe en bas de la fentre de la carte des sections (cf. Figure 5).12 Type 2 La prsence isole de sections monochromes colories en bleu ou en rouge rvle des contextes originaux o les mots franais commenant par la chane administr+ (administration, administratif, etc.) ne sont pas traduits par des mots anglais commenant par la chane administ+ (administration, administrative, etc.) et rciproquement. La matrialisation de ces sections sur une carte reprsentant le corpus parallle permet de dresser une vritable topographie bi-textuelle. Il devient possible disoler des contextes singuliers o sont attestes des quivalences lexicales originales, susceptibles dintresser lexpert humain pour la construction de ressources textuelle (cf. Tableau 6) :

    le recours administratif ~ the non-contentious application ladministration des douanes ~ the customs bonne administration ~ good governance dpositions administratives ~ provisions ladministration du district ~ district authority l'administration des eaux ~ water-rights authority procdures antrieures ~ earlier administrative proceedings

    Tableau 6 Convention : Contextes originaux reprs laide de la topographie bi-textuelle

    volet franais volet anglais

    1. le recours administratif /.../

    1. the non-contentious application /.../

    il pronona la confiscation des marchandises saisies et infligea aux prvenus une amende, assortie de la contrainte par corps, payer l'administration des douanes, partie poursuivante jointe et qui s'tait constitue partie civile l'audience.

    the court also ordered confiscation of the goods seized and sentenced the defendants to pay a fine, with imprisonment in default, to the customs, which was a co-prosecutor and had also joined the proceedings as a civil party.

    en pareil cas, le tiers peut aussi chercher dmontrer que le directeur a agi en violation d'un principe gnral de bonne administration (algemeen beginsel van behoorlijk bestuur).

    in so doing, the third party may also base his claim of unlawfulness on the allegation that the *commissioner has acted in breach of a general principle of good governance (algemeen beginsel van behoorlijk bestuur).

    12 Les erreurs recenses dans lalignement des sections bi-textuelles peuvent tre corriges laide du programme mkAlign (Fleury, 2005).

  • Tableau 6 (suite) Convention : Contextes originaux reprs laide de la topographie bi-textuelle

    volet franais volet anglais

    en outre, la rserve n'entre en jeu que lorsqu'ont t appliques des dispositions administratives de fond et de procdure d'une ou plusieurs des quatre lois qu'elle spcifie.

    moreover, the reservation only comes into play where both substantive and procedural provisions of one or more of the four specific laws indicated in it have been applied.

    il ressort des mmoires soumis par les parties la procdure devant elle et des dossiers des procdures antrieures qu'une audience ne contribuera sans doute pas claircir l'affaire.

    it is apparent to the *court from the pleadings of the parties to the proceedings before it and from the files relating to the earlier administrative proceedings that an oral hearing is not likely to clarify the case further.

    4 Une mthode de synchronisation de lalignement On pose lquivalence de types bilingues issus de chaque volet du corpus parallle align au niveau du paragraphe ou de la phrase. Le rapprochement des types peut tre effectu en prenant en considration leur proximit smantique ou thmatique dans le corpus. On matrialise les distributions des types sur une carte des sections bi-textuelle. Si les distributions sont toujours parallles mais trs lgrement dcales dans certaines parties du corpus, les ruptures du paralllisme signalent le dcalage dans lalignement des sections. Les paires de sections monochromes voisines signalent gnralement les passages o il existe des erreurs. Voici un diagramme sommaire ralis partir dune telle ventilation :

    5 Une mthode de reprage de passages originaux dans la traduction On matrialise les distributions des types bilingues apparis sur une carte des sections bi-textuelle. Si les distributions se ressemblent, quelques asymtries prs, la prsence isole de sections monochromes montre le plus souvent des passages originaux dans la traduction o sont attestes des quivalences lexicales susceptibles dintresser le chercheur. Le diagramme dune telle ventilation se prsente de la faon suivante :

  • 6 Conclusion La dmarche propose permet de comprendre les raisons dasymtries dans les distributions parallles du vocabulaire bilingue correspondant aux Types apparis. La suite des oprations textomtriques convoques pour localiser les ruptures de paralllisme sur un diagramme reprsentant le bi-texte align constitue une mthode largement applicable dautres corpus pluritextuels. A la phase de reprage direct, appuye sur la topographie bi-textuelle, succde une phase de remise en contexte des particularits distributionnelles constates. Cette dernire phase dbouche sur une dition contraste des erreurs dalignement phrastique et de contextes originaux, o sont attestes des quivalences lexicales peu communes, difficiles postuler a priori.

    7 Rfrences Bourigault D., Chodkiewicz Ch., Humbley J. Construction dun lexique bilingue des droits

    de lhomme partir de lanalyse automatique dun corpus align. , in actes de la troisime confrence Terminologie et Intelligence Artificielle, Nantes, 1999.

    Fleury S. MKAlign , documentation. Paris : Universit de la Sorbonne nouvelle Paris 3, (Travaux du SYLED-CLA2T, 2005), http://tal.univ-paris3.fr/mkAlign/mkAlignDOC.htm

    Lamalle C., Salem A., Types gnraliss et topographie textuelle dans lanalyse quantitative des corpus textuels , in actes des 6emes journes danalyse statistique des donnes textuelles, Inria, St Malo, 2002.

    Zimina M. Alignement textomtrique des units lexicales correspondances multiples dans les corpus parallles. , in actes des 7emes journes danalyse statistique des donnes textuelles, Presses universitaires de Louvain, Louvain-la-neuve, 2004

    Zimina M. Approches quantitatives de lextraction de ressources traductionnelles partir de corpus parallles. Thse de Doctorat en Sciences du langage. Universit de la Sorbonne nouvelle Paris 3, 2004.

    Zimina M. Exploration textomtrique de corpus de traduction , in actes du colloque Pour une traductologie proactive META50, Presses de lUniversit de Montral, Montral, 2005 ( paratre).

    8 Fonctionnalits Lexico3 utilises dans cette navigation

    N Fonctionnalit Rsultat 8.2 Slection dun Type (occurrences de formes graphiques

    commenant par une chane de caractres dfinie) Figure 4

    7 Carte des sections (sections bi-textuelles, prsence/absence des Types bilingues franais/anglais administr+ / administ+)

    Figure 5

  • Comparaisons textomtriques de traductions franco-chinoises

    [Traductions franco-chinoises] Jun MIAO, Andr SALEM13

    [email protected], [email protected]

    Rsum : Aprs un bref rappel sur le systme dcriture chinoise et ses prises en charge par diffrents systmes de codage informatique (3), on compare les dpouillements textomtriques dun texte franais et dune de ses traductions chinoises. Aprs le dpouillement du texte chinois en caractres isols (4), on compare un dpouillement automatis en mots de ce mme texte avec le texte franais original (5). La dernire section est consacre ltude des perspectives ouvertes par la dmarche textomtrique pour lanalyse des diffrentes traductions chinoises utilises pour rendre un mme mot franais (6). Mots-cls : textomtrie; caractres chinois (hanzi); littrature; traductologie.

    Abstract : After a short recall of the Chinese writing system and on its various encoding systems (3), the

    authors apply textometric methods to compare a French text with its Chinese translation. After an examination of the Chinese text with isolated characters (4), the same text cut into words with a Chinese word separation program is compared with the French original (5). The last section aims at studying the perspectives of textometric approaches in the analysis of different Chinese translations of French words (6).

    Key-words: Textometry, Chinese characters (Hanzi), literature, translation studies. :(3) (4),(5)(6) ; ;

    1 Contexte de la recherche Parmi les nombreuses raisons qui peuvent expliquer le fait que les mthodes danalyse des textes sur ordinateur, de plus en plus largement rpandues dans le monde occidental, ne se sont dveloppes que plus tardivement dans la sphre culturelle chinoise, on doit considrer les facteurs lis lexistence dun systme dcriture trs ancien, dont certaines qualits sont indiscutables, mais dont linformatisation sest rvle beaucoup plus complexe que celle des systmes bass sur lutilisation dun alphabet rduit. Dans la priode rcente, paralllement aux efforts entrepris par les linguistes chinois pour simplifier la reprsentation des caractres hanzi, les problmes lis linformatisation des systmes dcritures complexes ont t dpasss par la mise en place de normes internationales (telle la norme Unicode) et de technologies permettant la saisie et laffichage

    13 Les auteurs remercient Kim Gerdes, Serge Fleury et Cdric Lamalle pour leur aide et leurs conseils prcieux dans la ralisation de ce travail.

  • de textes crits dans des langues jusqualors difficilement accessibles au traitement sur ordinateur. Ces avances technologiques ouvrent la voie un formidable dveloppement des tudes textuelles appliques des gisements textuels que les codages traditionnels taient incapables de prendre en charge. Au del de lexploration des corpus lectroniques des fins de recherches linguistiques ou sociolinguistiques, la fouille de donnes textuelles concerne dornavant un trs vaste ensemble de textes saisis dans le cadre dactivits entreprises dans tous les secteurs de la vie socio-conomique dun pays en plein dveloppement. Ltude de bitextes, dont lun des volets est constitu par la traduction de lautre, constitue une entre privilgie dans le domaine des tudes comparatives entre textes rdigs dans des langues diffrentes. Dans ce cas, en effet, les caractristiques quantitatives calcules partir de chacun des volets du corpus peuvent tre directement utilises pour cerner les diffrences entre les langues mises en prsence. Cest ce que nous allons tenter de faire dans ltude qui suit afin de poser les premiers jalons dtudes traductologiques que nous nous proposons dentreprendre par la suite.

    2 Le systme dcriture chinois Les critures chinoise, japonaise et corenne utilisent, toutes trois, les caractres Han,

    caractres dorigine chinoise dits (hanzi) en chinois, ainsi que des caractres nationaux propres chacune des langues14. Le chinois possde, pour sa part, un systme dcriture qui nest ni alphabtique, ni phontique. On peut dire que chaque caractre correspond plus ou moins un morphme et une syllabe de loral.

    Le nombre de hanzis diffrents utiliss par ces systmes dcriture se compte en milliers (parfois en dizaines de milliers) dpassant de trs loin le nombres des lettres qui permettent de transcrire les critures alphabtiques. On dit que pour lire un journal, un lecteur chinois doit pouvoir identifier sans mal 5 000 hanzis environ.

    2.1 Les caractres chinois Chaque caractre chinois est compos dun certain nombre de traits que lon peut retrouver dans une srie dautres caractres. Les caractres correspondent la fois un segment sonore, la syllabe, et une unit de sens15.

    - rn, homme; +) - d, grand; ( +) - tin, ciel.

    - m, bois; (+) - ln, fret; (+)- sng, grande fort. Chaque caractre vhicule une signification, mais ne constitue pas ncessairement lui seul

    un mot. Certains caractres changent de sens dans la combinaison avec d'autres. 14 Le Consortium Unicode et lISO considrent que les caractres chinois, corens et japonais sont les mmes, que seuls les glyphes diffrent. On peut rapprocher cette diffrence daspect des traditions diffrentes qui ont longtemps prvalu en allemand (police de caractres gothique), en franais (police srifs) et en anglais (police sans srifs). Les caractres sont cods de la mme faon. Chaque tradition utilise une police approprie pour afficher les caractres dans le style qui convient le mieux aux habitudes locales. Aprs l'tablissement de la Rpublique Populaire de Chine en 1949, les autorits ont entrepris des efforts pour simplifier les caractres chinois. En 1955, le Comit pour la Rforme de lcriture (Wenzi gaige wei yuanhui) a publi une proposition de caractres simplifis. En 1964, il a publi une deuxime liste de simplifications. Cette dernire liste rgle actuellement lemploi des caractres chinois. 15 Cf. , par exemple, [ALLETON 1997],. p.11-18.

  • - dng, Est, - x, Ouest; dngx, chose.

    2.2 Les mots chinois Cest la combinaison de deux caractres ou parfois de trois caractres qui constitue le mot.

    n, tu, toi ho, bon, bien nho! Bonjour! Comment a va?

    Dans la langue moderne, il existe beaucoup de mots bi-syllabiques, voire tri-syllabiques. Par suite de lvolution de la langue et de ladoption de mots emprunts dautres langues. Par exemple :

    (1) (2) (3) (4) shu shu j xi hu qio k l

    main portable rencontre par hasard chocolat

    Dans le premier exemple, le caractre (shu) signifie main, il constitue une syllabe et correspond en mme temps un sens indpendant. Dans ce cas, il peut tre considr comme un mot.

    Dans le deuxime exemple, , le mme caractre est associ au caractre (j, machine, appareil) Il garde dans ce cas le sens main, mais la combinaison des deux caractres prend un nouveau sens : tlphone mobile, portable.

    Dans le troisime exemple, la combinaison des deux caractres (xi hu) signifie se rencontrer par hasard, mais ces caractres perdent leur sens lorsquil sont isols.

    Dans le mot (anglais chocolate), chacun des caractres , , possde un sens propre sans rapport immdiat avec le mot (: adroite, habile; : convaincre; : force). Produit courant, (m l hu ch, le th au jasmin) est un mot, dont les composants identifiables sont difficiles segmenter. On peut considrer (m l, jasmin) comme un mot bi-syllabique compos de deux caractres dpourvus de sens propre. Mais en combinaison avec le caractre (hu, fleur), le mot qui dsigne toujours le jasmin, renvoie la fleur de larbuste. On peut considrer le caractre (ch, th) comme un mot monosyllabique. Mais prcd par le caractre (hu, fleur), on peut galement considrer que les caractres combins (hu ch, th aux fleurs) qui sont diffrents de (l ch, th vert) ou de (hng ch, th noir) forment un nouveau mot. 2.3 Les phrases et la ponctuation

    Comme dans le cas des mots, il est difficile de dfinir clairement les limites de la phrase chinoise. Les dfinitions et les classifications de la phrase que lon trouve dans les grammaires chinoises (phrases nonciatives, interrogatives, impratives, exclamatives, etc.) permettent difficilement de segmenter un texte en phrases de manire automatise.

    La ponctuation est dusage rcent en chinois. En 1919, on a commenc utiliser la ponctuation moderne en se rfrant au systme de ponctuation occidental. Le systme utilis

  • actuellement conserve la trace des rformes successives de l'criture chinoise. C'est pourquoi la ponctuation chinoise moderne, malgr ses similarits avec celle utilise en occident, reste distincte de cette dernire.

    Lutilit des repres lis la notation de la ponctuation chinoise est dautant plus importante que, comme on sen souvient, les mots (ou plutt les caractres) chinois sont crits lun aprs lautre sans tre spars par des espaces. 16

    3 Le codage informatique des caractres chinois En raison de leur nombre lev et contrairement ce qui se passe pour les systmes

    dcriture des langues qui utilisent un alphabet restreint, les caractres chinois ne peuvent tre reprsents laide dun codage sur un seul octet. La norme Unicode qui permet de reprsenter chaque caractre sur plusieurs octets fournit une bonne solution pour reprsenter les caractres chinois.17.

    3.1 Logiciels supportant le traitement de textes chinois. Dans leurs versions rcentes, les logiciels de traitement de textes permettent de manipuler, en plus des textes cods en unicode qui vont rapidement constituer la norme, des polices multioctets qui permettent dafficher correctement les textes chinois (entre autres critures non latines). Avec le logiciel Word18, par exemple, lorsquon tente denregistrer un texte chinois, avec loption texte seulement une boite de dialogue permet de slectionner le codage Chinois simplifi (GB2312) comme on peut le voir sur la figure 1. 3.2 Lexico3 et les textes chinois Dans ses versions actuelles (3.5.0.2), Lexico3 manipule des chanes de caractres cods sur un seul octet. Cette limite, qui est en voie dtre dpasse19, nentrane cependant pas limpossibilit de traiter des chanes de caractres codes sur plusieurs octets. Comme on comprend, en les comparant octet par octet, il est possible de conclure que deux chanes de caractres multioctets sont identiques ou quelles sont diffrentes. De plus, les systmes informatiques modernes permettent dafficher correctement certaines reprsentation multioctets qui ne sont pas des reprsentations unicode . Pour le prsent travail, nous avons utilis un codage Chinois simplifi . Mainland China propos par le logiciel Word. On prend en charge ce codage sous Lexico3 en activant larticle Chinois simplifi.Mainland China propos par le menu Options (couteau suisse) de Lexico3. Les composants utiliss dans Lexico3 (Edition du texte, Concordances, Carte des sections, etc.) affichent ce codage correctement lorsquon choisit de le visualiser avec le codage Chinois GB2313 des navigateurs : 16 A linstar de trs nombreux systmes dcriture parmi lesquels ceux de lantiquit (latin, grec, hbreu, sumrien, etc.). 17 Un grand nombre de systmes dcriture occidentaux, dont le systme du franais ont utilis jusqu' une date rcente le code ASCII (127 caractres), puis le code ASCII tendu (255 caractres) qui permettait de coder en outre les voyelles accentues du franais. 18 Nous avons utilis, pour cette tude, la version 2003 du logiciel Word distribu par Microsoft. 19 Plusieurs versions de la srie Lexico, en cours dachvement, permettent dj de traiter les chanes de caractres unicodes. Le logiciel MKAlign, dvelopp par S. Fleury dans lquipe Syled-Cla2t permet galement de traiter les textes encods sous ces formats.

  • Bouton droit -> Codage -> Plus ->. Chinois simplifi (GB2312)

    Figure 1 : Word 2003 : Paramtrage de lenregistrement du texte

  • Figure 2 : Lexico 3 : Affichage du texte avec le codage Chinois simplifi (GB2312)

    Figure 3 : Lexico 3 : Fentre de rglage du paramtre encodage des caractres

    4 Un corpus dapplication

    Pour illustrer ces possibilits, nous utiliserons un corpus bilingue dont le volet franais est constitu par le premier chapitre du roman Jean-Christophe publi en 1904 par Romain Rolland (1866-1944). On trouve, au tableau 1, ci-dessous un extrait du texte original de Romain Rolland. Le second volet du corpus est constitu par la traduction de ce texte en chinois par Fu Lei (1908-1966). Nous appellerons respectivement ces deux corpus JC1-Franais et JC1-Chinois.

    4.1 Segmentation du texte en caractres Comme on la vu plus haut, sans que cela constitue une gne pour le lecteur expriment, le

    systme dcriture chinois nutilise pas despace entre les units lexicales places cte cte. Cette circonstance constitue une difficult spcifique pour lexploitation textomtrique des textes chinois.

    Sur quels critres peut-on sappuyer pour dcouper des units statistiques au fil du texte afin de raliser des comparaisons entre textes ? Pour cette premire analyse, nous nous appuierons sur une segmentation automatique, relativement facile formaliser et mettre en uvre sur un ordinateur, qui isole chaque caractre hanzi.20

    20 Pour raliser cette segmentation en caractres, nous avons remplac, en utilisant pour cela une expression rgulire, chaque caractre du texte de dpart par ce mme caractre prcd dun espace (code ASCII 32). Le fichier ainsi modifi ralise lisolation de tous les caractres du corpus. Une procdure de ce type est disponible ladresse : http://www.cavi.univ-paris3.fr/

  • Tableau 1 Extrait des corpus JC1-Fr et JC1-Chin,

    Le grondement du fleuve monte derrire la maison. La pluie bat les carreaux depuis le commencement du jour. Une bue deau ruisselle sur la vitre au coin fl. Le jour jauntre steint. Il fait tide et fade dans la chambre. Le nouveau-n sagite dans son berceau. Bien que le vieux ait laiss, pour entrer, ses sabots la porte, son pas a fait craquer le plancher : lenfant commence geindre. La mre se penche hors de son lit, afin de le rassurer ; et le grand-pre allume la lampe en ttonnant, pour que le petit nait pas peur de la nuit. La flamme claire la figure rouge du vieux Jean-Michel, sa barbe blanche et rude, son air bourru et ses yeux vifs. Il vient prs du berceau. Son manteau sent le mouill ; il trane en marchant ses gros chaussons bleus. Louisa lui fait signe de ne pas sapprocher. Elle est dun blond presque blanc ; ses traits sont tirs ; sa douce figure mouton est marque de taches de rousseur ; elle a des lvres ples et grosses, qui ne parviennent pas se rejoindre et qui sourient avec timidit ; elle couve lenfant des yeux des yeux trs bleus, trs vagues, o la prunelle est un point tout petit, mais infiniment tendre. lenfant sveille et pleure. son regard trouble sagite. quelle pouvante ! les tnbres, lclat brutal de la lampe, les hallucinations dun cerveau peine dgag du chaos, la nuit touffante et grouillante qui lentoure, lombre sans fond do se dtachent, comme des jets aveuglants de lumire, des sensations aigus, des douleurs, des fantmes : ces figures normes qui se penchent sur lui, ces yeux qui le pntrent, qui senfoncent en lui, et quil ne comprend pas - il na pas la force de crier ; la terreur le cloue immobile, les yeux, la bouche ouverts, soufflant du fond de la gorge. sa grosse tte boursoufle se plisse de grimaces lamentables et grotesques ; la peau de sa figure et de ses mains est brune, violace, avec des taches jauntres.

    Romain Rolland, Jean-Christophe, 1904 ,..... .,:.;,.,,,.,,..;,;,;,,,;-. ,..!,,,*,,,,,,,...,,,,.,;,,.

    Traduction chinoise par Fu Lei, 195721 Le tableau 1 montre un extrait du texte original suivi de sa traduction chinoise.

    21 Nous avons utilis la version complte, runie en 1957 par les ditions Littraires Populaires (

    ), partir dune rvision par Fu Lei de la premire version de 1953.

  • La figure 4 montre, dans la fentre de droite, laffichage par Lexico 3 du texte chinois dans lequel les caractres ont t isols par insertion dun caractre espace entre chaque caractre. Dans la fentre de gauche on peut lire le rsultat du dpouillement statistique ralis sur la base du dcompte des caractres isols. Les caractres sont tris par ordre de frquence dcroissante dans le corpus analys.

    Figure 4

    Exploitation avec Lexico3 du texte chinois dcoup en caractres Le texte ainsi modifi va nous permettre dobtenir un premier dpouillement en caractres (hanzi) du volet chinois du corpus. On peut voir les principales caractristiques quantitatives de ce dpouillement au tableau 2.

    Tableau 2 Principales caractristiques quantitatives rsultant du dpouillement en

    caractres (hanzi) du volet chinois du corpus

    Partie NB de caract. Caract. diffrents hapax FMax

    Caractres 56 797 2 478 579 2 959 Le tableau 2 montre que les 56 797 caractres que compte le corpus JC1-Chin sont des occurrences de 2 478 hanzis diffrents. Un quart environ de ces caractres, soit 579, ne trouvent quune seule occurrence dans le corpus. Le caractre le plus frquent est le caractre (qui correspond plus ou moins la prposition de en franais).

  • La figure 5, qui rend compte de lapparition de nouveaux caractres au fur et mesure que lon parcourt le texte, permet de prciser ces observations. La courbe daccroissement ralise partir des caractres hanzis montre quon atteint, ds les 5 000 premiers caractres du texte le seuil de 1 000 caractres diffrents. Les 5 000 caractres suivants napportent que 500 nouveaux hanzis. Comme dans le cas des courbes daccroissement de vocabulaire constitues partir des mots, les tranches successives apportent de moins en moins dunits nouvelles. Dans le cas des hanzis cependant on peut remarquer que laccroissement initial est plus fort que dans le cas des courbe daccroissement ralises partir dunits lexicales ( cf. 5, infra).

    Figure 5 Apparition progressive des caractres dans le volet chinois.

    4.2 Segmentation automatique en mots

    Certains professionnels du Traitement Automatique des Langues proposent sur le web des procdures qui permettent de dcouper un texte chinois en mots . Dans cette section, nous utiliserons un dcoupage automatique en mots ralis par un logiciel de segmentation spcialement conu pour les textes chinois22. On peut voir au tableau 3 le rsultat de cette segmentation en mots ralise partir de lextrait de texte prsent au tableau 1.

    22 Pour cette premire tude, nous avons utilis le logiciel (Hailanda Segmentation

    intelligente - version d'essai) ralis par le Centre d'intelligence artificielle Hailanda, disponible ladresse suivante : http://www.mydown.com/code/234/234301.html . En plus de la segmentation, ce logiciel ralise une catgorisation des mots du texte oriente vers la recherche dinformation technico-commerciale. Nous navons pas utilis cette catgorisation pour notre tude. Il existe dautres logiciels de segmentation du chinois, que lon peut trouver sur lInternet : ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System), et

  • Tableau 3 Extrait du volet chinois JC1-Chin segment en mots

    (Chaque mot isol par le logiciel Hailanda est suivi dun blanc)

    , . . . . . . , : . ; , . , , , . , , . . ; , ; , ; , , , ; - . , . . ! , , , * , , , , , - , , . . . , , , , . , ; , ,

    5 Comparaisons quantitatives partir des mots Les comptages raliss partir des mots ainsi dcoups par lalgorithme de segmentation permettent de comparer les rsultats obtenus sur le texte chinois ceux que lon obtient de la mme manire sur la version franaise du texte.

    Tableau 4 Principales caractristiques quantitatives du dpouillement en mots

    ralis sur les volets franais JC1-Fr et chinois JC1-Chin du corpus.

    Partie Occurrences Formes Hapax F. Max

    JC1-Chin 34 743 7 196 3 781 2313 JC1-Fr 39 666 6 673 3 970 1578 de

    Comme on le voit au tableau 4, la traduction chinoise compte nettement moins de mots graphiques que le texte franais. On notera quelle compte cependant nettement plus de formes diffrentes. La proportion des formes qui napparaissent quune seule fois dans chacun

    Java Lucene segmentation du chinois, etc.. Signalons quen raison de labsence dun consensus sur la dfinition de ce quest un mot chinois, aucun logiciel ne peut prtendre fournir de rsultats parfaits.

  • des textes est moindre dans le texte chinois alors que la forme la plus frquente y trouve nettement plus doccurrences que dans le texte franais23. La comparaison entre le systme des mots chinois et celui des caractres chinois, pour lequel nous avons prsent plus haut des dcomptes comparables montre que les mots chinois sont composs en moyenne de 1,6 caractres et que le mot le plus frquent rassemble presque toutes les occurrences du caractre le plus frquent (dans les deux cas le caractre : , de).

    Tableau 5 Les formes les plus frquentes pour chacun des volets du corpus

    Franais Chinois

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    de 1 578

    il 1 044

    et 1 034

    le 908

    la 841

    les 575

    Il 515

    se 463

    lui 448

    des 447

    ne 439

    un 407

    en 399

    que 394

    pas 376

    qui 375

    son 362

    dans 329

    une 314

    2313 1581 638 373 368 276 275 274 235 208 204 184 158 156 147 143 142 139 139 136

    La comparaison entre les formes les plus frquentes dans chacun des volets du corpus montre que les frquences dcroissent plus rapidement dans le volet chinois. Ltude compare des

    23 Il nous a sembl intressant de publier ces premiers comptages sur la comparaison textomtrique entre textes chinois et textes franais. Cependant, ces rsultats prsents dans le but de fournir une comparaison sur deux systmes dcriture trs diffrents doivent tre pris avec de grandes prcautions. Nous tudierons par la suite linfluence que peut avoir la lemmatisation de chacune des listes de formes sur les rsultats produits de la sorte (ainsi par exemple, la frquence de la forme chinoise la plus frquente 2313 occ. renvoie la forme franaise de 1578 occ . mais aussi aux formes du 243 occ., des 447 occ., etc.).

  • courbes daccroissement du vocabulaire, figure 6, prcise les rsultats obtenus par la comparaison des principales caractristiques lexicomtriques des volets franais et chinois du corpus. La courbe situe dans le haut du graphique correspond lenrichissement du vocabulaire chinois au fil du texte. Le fait que ce texte comporte moins doccurrences est responsable de linterruption de la courbe correspondante (abscisse 34 743) avant la courbe qui correspond au texte franais (abscisse 39 666). La courbe correspondant lapparition de nouveaux mots chinois est situe, ds que lon atteint le premier tiers du corpus, largement au-dessus de celle qui correspond lapparition des mots franais, ce qui confirme lexistence dun plus grand nombre de formes en chinois. On peut remarquer que des paliers crs par le ralentissement de laccroissement du vocabulaire au cours du rcit peuvent tre mis en rapport dune courbe lautre. Au ralentissement qui survient sur la courbe correspondant au texte franais (abscisse 20 000) correspond un ralentissent dans la traduction chinoise (abscisse 17 000). A celui qui survient pour le texte franais (abscisse 32 500) correspond galement un ralentissent dans la traduction chinoise (abscisse 28 000).

    Figure 6

    Courbes daccroissement du vocabulaire ralise sur les volets franais JC1-Fr et chinois JC1-Chin du corpus.

  • Figure 7 : Diagramme de Pareto pour les deux volets du corpus

    ==== Guide de lecture pour la figure 7 ==== Pour un texte T dpouill en units statistiques appeles formes, le Diagramme de Pareto permet de visualiser la structure de la gamme des frquences. Laxe vertical permet de reprsenter la frquence F des formes du textes (laquelle varie de 1 Fmax, frquence maximale calcule pour le texte T). Sur laxe horizontal, on porte la quantit : nombre de formes du texte dont la frquence est suprieure F. Avant de tracer le Diagramme, on transforme chacune de ces quantits en son logarithme dcimal. Le Diagramme ainsi obtenu prend alors approximativement la forme droite que lon appelle Droite de Zipf en lhonneur de Georges Kingsley Zipf qui a montr que ce type de procdure ralise partir de larges catgories de textes permet de mettre en vidence une proprit statistique commune aux dpouillements en units lexicales. Cette proprit est parfois prsente sous la forme excessivement simplifie : Rang x Frquence = Constante Pour en savoir plus : Zipf, GK (1935), The Psychobiology of Language, an introduction to Dynamic Philology, Boston, Houghton-Mifflin. Lebart L., Salem A., Statistique textuelle, Paris, Dunod, 1994, tlchargeable sur le site : http://www.cavi.univ-paris3.fr/lexicometrica/livre/st94/st94-tdm.html

    La comparaison des deux courbes fait apparatre des diffrences assez nettes dans la structure des gammes de frquences des deux textes. Le texte franais possde nettement plus de

  • formes dans la zone de frquences qui stend de 50 occurrences 1000 occurrences environ. De son ct, le chinois cre plus de formes diffrentes dans la zone des trs basses frquences.

    6 Un exemple dtude parallle Aligner un bitexte, cest construire une reprsentation qui met en correspondance des units textuelles en rapport de traduction mutuelle. Le tableau 6 montre un alignement des deux volets du bitexte ralis partir du corpus JC1 au niveau du paragraphe24. A partir dun tel alignement on peut sintresser aux traductions de ce qui constitue une unit dans la langue source dans lautre volet du corpus. Cette comparaison peut tre mene simultanment du point de vue distributionnel , laide de loutil concordance (cf. tableau 7) et dun point de vue spatial (cf. figure 8).

    6.2 Le groupe vieux/vieillard et son correspondant (lao ren) A titre dexemple, nous examinerons les traductions chinoises dun ensemble de mots qui rendent en franais le concept de vieillesse : vieux, vieillard, etc.25 Pour cette famille de mot