règles pour la constitution d’un corpus d’écrits d’élèves

8
EA 7345 Clesthia Ecole, Mutations, Apprentissages EA 4507 EA 4671 Règles pour la constitution d’un corpus d’écrits d’élèves Pour chaque manuscrit, on fait 2 fichiers : - Un fichier qui est une « simple » transcription et qui est destiné à être lu par des utilisateurs de la plate-forme de textes. - Un fichier qui comporte les annotations et qui est sert de base à la création d’un autre fichier, de format différent, qui sera traité par un logiciel de textométrie. 1. PROCEDURE DE TRANSCRIPTION ET DE NORMALISATION DES COPIES D'ELEVES : 1. Recueil des données, des méta-données et des autorisations de diffusion. 2. Numérisation des données (+ anonymisation sur le scan mais garder la trace qu’il y a eu un masquage. Les infos pourront être reliées via les métadonnées) : V1 3. Informatisation des données primaires : transcription : V2 association/saisie des méta-données saisir via un éditeur de texte brut 1 une forme au plus près de la copie scannée élément nécessitant un codage particulier (cf. tableau : « éléments à transcrire ») vérification de la transcription (script de validation ?) Ces éléments de codage seront « traduits » en balises XML au moment du passage à la Version 3 4. Normalisation des données primaires données secondaires : V 3 transformer les données primaires au format texte brut vers un format XML (norme TEIP5) et/ou un autre format facilitant l'annotation (Glozz ?) annoter les éléments permettant de convertir les données primaires en données linguistiquement « normées » besoin d'un typologie présence d'une chaîne de caractère incorrecte : erreur d'orthographe lexicale, erreur d'orthographe grammaticale, erreur de segmentation, erreur typographique (majuscules), erreur de ponctuation (point en milieu de « phrase »), ... manque d'éléments lexical ou typographique autre ? générer plusieurs versions ergonomiques pour explorer/interroger les données primaires et secondaires 1 Par exemple https://notepad-plus-plus.org/fr/ pour Windows et http://www.barebones.com/products/textwrangler/ pour Mac

Upload: others

Post on 16-Jun-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Règles pour la constitution d’un corpus d’écrits d’élèves

EA 7345 Clesthia

Ecole, Mutations, Apprentissages EA 4507

EA 4671

Règles pour la constitution d’un corpus d’écrits d’élèves

Pour chaque manuscrit, on fait 2 fichiers :

- Un fichier qui est une « simple » transcription et qui est destiné à être lu par des utilisateurs de la plate-forme de textes.

- Un fichier qui comporte les annotations et qui est sert de base à la création d’un autre fichier, de format différent, qui sera traité par un logiciel de textométrie.

1. PROCEDURE DE TRANSCRIPTION ET DE NORMALISATION DES COPIES D'ELEVES :

1. Recueil des données, des méta-données et des autorisations de diffusion. 2. Numérisation des données (+ anonymisation sur le scan mais garder la trace qu’il y a

eu un masquage. Les infos pourront être reliées via les métadonnées) : V1

3. Informatisation des données primaires : transcription : V2 ◦ association/saisie des méta-données ◦ saisir via un éditeur de texte brut1 une forme au plus près de la copie scannée ◦ élément nécessitant un codage particulier (cf. tableau : « éléments à transcrire ») ◦ vérification de la transcription (script de validation ?)

Ces éléments de codage seront « traduits » en balises XML au moment du passage à la Version 3

4. Normalisation des données primaires → données secondaires : V 3 ◦ transformer les données primaires au format texte brut vers un format XML

(norme TEIP5) et/ou un autre format facilitant l'annotation (Glozz ?) ◦ annoter les éléments permettant de convertir les données primaires en données

linguistiquement « normées » → besoin d'un typologie ▪ présence d'une chaîne de caractère incorrecte : erreur d'orthographe lexicale,

erreur d'orthographe grammaticale, erreur de segmentation, erreur typographique (majuscules), erreur de ponctuation (point en milieu de « phrase »), ...

▪ manque d'éléments lexical ou typographique ▪ autre ?

◦ générer plusieurs versions ergonomiques pour explorer/interroger les données primaires et secondaires

1 Par exemple https://notepad-plus-plus.org/fr/ pour Windows et

http://www.barebones.com/products/textwrangler/ pour Mac

Page 2: Règles pour la constitution d’un corpus d’écrits d’élèves

EA 7345 Clesthia

Ecole, Mutations, Apprentissages EA 4507

EA 4671

2. TRANSCRIPTION Principe n°1 : s’inscrire dans la tradition de la philologie et de la génétique textuelle, en adoptant les mêmes codes pour les opérations de base : suppression / ajout - encadrement par des crochets pour les [élément supprimés] - encadrement par des chevrons pour les <éléments ajoutés> Principe n°2 : établir des transcriptions qui puissent être exploitées ensuite pour l’annotation des fichiers, en privilégiant la linéarisation du texte. Cela revient à indiquer des opérations avec des signaux spécifiques plutôt que placer les segments textuels exactement à la même place sur la transcription et sur le manuscrit. Par exemple, en cas d’ajout hors ligne sur le manuscrit, on rétablit la place que vient prendre l’élément ajouté dans le texte (dans la ligne) :

de bicyclette, puis, un bruit de chute. Je me levai pour regarder <derrière mes carreaux> dans la rue. Je ne vis que la silhouette d’un adulte. Segment illisible : #XXX# mot illisible [#XXX#] #X# partie de mot illisible (ex : fille#X#) Anonymisation : Dans le texte, on remplace les noms propres par des initiales. Toponyme / Homme / Femme Albert = A_h Lucie = L_f Paris = P_t Délimitation des lignes : Aller à la ligne à chaque fin de ligne du manuscrit et marquer la fin de ligne par /n Marquer les retours à la ligne volontaire sur le manuscrit par §, combiné au /n : §\n

On désigne « la mort de papa », on parle d’une réalité, /n d'un événement qui a eu lieu. §/n On montre « les dalles de la cour ». On parle de choses /n

Page 3: Règles pour la constitution d’un corpus d’écrits d’élèves

EA 7345 Clesthia

Ecole, Mutations, Apprentissages EA 4507

EA 4671

précises et non de choses indéfinies. §/n Tableau récapitulatif des règles de transcription : Élément à transcrire Proposition de codage Ajout <caractères ajoutés> Suppression [caractères supprimés] Déplacement de texte

- écrire le texte à l'endroit où il apparaît sur la copie et l'encadrer des marques de suppression [] - identifier le segment. Ex : @1 [texte source] - localiser la cible du déplacement en indiquant l'ajout <@1>

Segment illisible Segments illisibles séparés par des blancs Paragraphe illisible (1 élément par ligne) Caractère illisible dans un mot

#xxx# #xxx# #xxx# #xxx# #x# inséré entre les caractères lisibles - ex. : for#x#t

Retours à la ligne, alinéas Retour à la ligne imposé (espace de la feuille) retour à la ligne volontaire saut de ligne alinéa en début de paragraphe

\n retour à la ligne + § : \n§ ligne vide + § : \n§\n Tabulation : \t

Informations à modifier par le transcripteur (e.g. données privées, anonymisation) Noms propres modifiés : Noms de personne Toponymes

#code# où code est indiqué dans l'en-tête de la transcription. initiale du nom propre « _ » type de nom e.g. Madame A_n = Madame Albert, femme → Madame #A_f# (pour la mention de Madame Albert) e.g. S_n = Salem, homme → #S_h# (pour la mention de Salem) e.g. G_t = Garonne, toponyme → #G_t# (pour la mention de la Garonne)

Multi-écritures Plusieurs scripteurs : le professeur est identifié par P., les élèves différents sont identifiés par E (E1, E2…). Plusieurs moments d’écriture (retour a posteriori sur l’écrit) : identifiés par T1, T2 etc.

si rature : [code#caractères raturés] si ajout : <code#caractères ajoutés> … où code est indiqué dans l'en-tête de la transcription e.g. P = enseignant → [P#caractères raturés] @1 [T2#texte source] dépl a posteriori par le même élève @1 [E2T2#texte source] dépl a posteriori par un autre élève @1 [PT2#texte source] dépl a posteriori par l’enseignant

Autre élément (grandes lettres, dessins, ...) Tout élément non indiqué explicitement dans le guide n'est pas à transcrire mais à mentionner sous forme de commentaire libre dans l'en-tête. Cela permet d'avertir le lecteur de l'existence d'éléments non transcrits. {marge} élément verbal ne s’inscrivant pas tel quel dans le texte {T2#marge} élément verbal ne s’inscrivant pas tel quel dans le texte inscrit a posteriori #FIGURE# élément non verbal faisant partie de l’écrit {#FIGURE#} élément non verbal périphérique ne faisant pas partie de l’écrit

Page 4: Règles pour la constitution d’un corpus d’écrits d’élèves

EA 7345 Clesthia

Ecole, Mutations, Apprentissages EA 4507

EA 4671

3. ANNOTATION : Le fichier annoté n’est pas destiné à être vu par des utilisateurs du corpus mais à être lu par un logiciel de textométrie. Les conventions d’annotation correspondent en partie aux conventions de codage XML, ce qui signifie que certains signes, les chevrons par exemple, n’ont plus la valeur philologique (marquage d’un ajout) mais la valeur textométrique (balise XML). L’annotation linguistique concerne les erreurs orthographiques. On ne corrige pas la ponctuation. Pour annoter un mot ou une suite de mots dont on souhaite rectifier l’orthographe, on procède de la manière suivante :

- isoler le segment à annoter entre deux signes < > - placer ensuite le tiret bas _ - écrire le segment normé, entre les deux signes < >

Exemples :

- Erreur d’orthographe sur un seul mot non composé : o Les <pettit>_<petites> filles

- Erreur sur un mot composé : o <rez de chaussé>_<rez-de-chaussée>

- Erreur de segmentation : o <lape tifil>_<la petite fille>

Coupure de mot en fin de ligne sur le manuscrit : Si un scripteur coupe un mot parce qu’il est en fin de ligne, on procède de la même manière que pour les corrections orthographiques avec le système de < > mais en signalant que la correction est due à un problème de décodage du segment par le logiciel et non à une erreur d’orthographe (cela, pour éviter que les coupes en fin de ligne ne soient comptées comme des erreurs d’orthographe, qu’elles ne sont pas). Par exemple :

pourquoi on a <jouer>_<joué> <au>_<aux> <carte>_<cartes> avec un <vieill-£ ard>_<vieillard> Jack dit vous <jouer>_<joué> <au>_<aux> <carte>_<cartes> alors que moi Cas des remplacements : D’un point de vue strictement procédural, remplacement = suppression + ajout.

Page 5: Règles pour la constitution d’un corpus d’écrits d’élèves

EA 7345 Clesthia

Ecole, Mutations, Apprentissages EA 4507

EA 4671

Mais d’un point de vue linguistique, remplacement = substitution de X par Y, les deux occupant une même place syntaxique. Donc un adjectif peut être remplacé par une proposition relative, un GN par un autre GN, etc. Exemples de successions suppression + ajouts qui sont, ou pas, des remplacements : 1)

- L’élève avait écrit il essaia, il a supprimé essaia et a ajouté vit. On a bien une équivalence syntaxique (verbe / verbe), donc on peut dire que le scripteur a remplacé essaia par vit. 2)

Sur la deuxième ligne l’élève avait écrit Il va acheter un chien, il l’a supprimé puis a écrit Il part en vacances, à paris, avec ces parents, en avions. C’est bien un remplacement (substitution d’une phrase X à une phrase Y). 3)

L’élève avait écrit L’air était si lourd que je peinais à respirer quand je suis, il a supprimé quand je suis et mis un point après respirer. Ce n’est pas un remplacement : c’est une suppression suivie de l’ajout d’un point (pas d’équivalence syntaxique). Le Trameur n’est pas capable de décider tout seul si la succession suppression+ajout est ou n’est pas un remplacement. Il faut donc le lui signaler. On place un ® au début et à la fin des segments faisant l’objet d’un remplacement. Donc, sur les exemples précédents :

- exemple 1 : il ®[essaia] //vit//® des formules magiques il sortit pour les éssayer - exemple 2 : ®[Il va acheter un chien] //Il part en vacances, à paris, avec ses parent, en avions.//® - exemple 3 : L’air était si lourd que je peinais à respirer//.// [Quand je suis] Aujourd’hui c’était la fin du

Cas des remplacements de lettres : mMunicipal On transcrit et annote : ©[m]//M//©unicipal

Page 6: Règles pour la constitution d’un corpus d’écrits d’élèves

EA 7345 Clesthia

Ecole, Mutations, Apprentissages EA 4507

EA 4671

La substitution de lettre est repérée avec © au lieu de ® Attention : dans ce cas il ne faut pas mettre d’espace entre //M// et unicipal, de manière à ce que le logiciel traite Municipal comme un mot. Quand un scripteur biffe un terme comportant une erreur d’orthographe :

J’ai vu mon per on transcrit et annote :

J’ai vu mon [<per>_<père>] Pour un nom ajouté qui est mal orthographié :

J’ai vu mon //vie// père. sera annoté :

J’ai vu mon //<vie>_<vieux>// père.

Page 7: Règles pour la constitution d’un corpus d’écrits d’élèves

EA 7345 Clesthia

Ecole, Mutations, Apprentissages EA 4507

EA 4671

Tableau récapitulatif des règles d’annotation :

Toutes les opérations recensées dans le tableau de transcription sont combinables avec l’annotation. Pour une annotation plus facile, automatiser la transformation des signes d’ajout, < > dans la transcription, en // // (convention choisie pour remplacer, dans le fichier annoté, les chevrons qui deviennent des balises XML).

Elément à annoter Proposition de codage Erreur (ortho)graphique - erreur sur un mot : Les pettit filles - erreur sur un mot composé : rez de chaussée - erreur de segmentation : lape tifil - lettre illisible : dans la for♦t lointaine

<forme erronée>_<forme normée> Les <pettit>_<petites> filles <rez de chaussée>_<rez-de-chaussée> <lape tifil>_<la petite fille> Dans la < for#x#t>_<forêt> lointaine

Ajout Ajout d’une forme erronée : je <lai> vis

//segment ajouté// je //<lai>_<les>// vis

Suppression d’une forme erronée : J’ai vu mon per

[segment supprimé] J’ai vu mon [<per>_<père>]

Coupure de mot - en fin de ligne - mot inopinément coupé avec tiret

on a joué aux <car-£tes>_<cartes> on a joué aux <car-tes>_<cartes>

Remplacement - de mot : il essaia vit - de suite de mots : Il se promène Il part en vacances - de lettres : mMunicipal

Repérage par ® : il ®[essaia] //vit//® des formules magiques ®[Il se promène] //Il part en vacances//® Repérage par © : ©[m]//M//©unicipal

Page 8: Règles pour la constitution d’un corpus d’écrits d’élèves

EA 7345 Clesthia

Ecole, Mutations, Apprentissages EA 4507

EA 4671

4. DENOMINATION DES DOCUMENTS Le nom doit indiquer :

- le type d’établissement : école (EC), collègue (CO), lycée (LY), université (UN) - le niveau de classe : CM2 / 6 / 2 / L1 - l’identifiant de la classe (une lettre aléatoire) - le numéro du devoir en cas de plusieurs écrits provenant de la même classe - le numéro de l’élève dans la classe

Donc, pour la série « description de chambre qui a déjà reçu une première numérotation : Exemple des numéros commençant par B : B1, B2 etc. On les renomme : EC-CM2-B-1-1, EC-CM2-B-1-2, EC-CM2-B-1-3 etc. Et puisqu’il y a un second devoir venant de la même classe : EC-CM2-B-2-1, EC-CM2-B-2-2, EC-CM2-B-2-3 etc. S’il y a plusieurs versions du même texte (esquisse, brouillon, mise au net, etc.) on ajoute : V1 pour la 1ère version, V2 pour la deuxième. (s’il y a deux brouillons, on met V1 et V1bis pour faire en sorte que V2 soit toujours la version définitive). Problèmes sur la numérotation :

- il faut indiquer l’année de production sur tous les écrits (pas seulement les L1) - on a une succession de nombres à la fin, par forcément très pertinent. Eventuellement

à changer en précisant dans le codage à quoi correspond le nombre.

Exemple : version 1 du 1er devoir de l’élève n°3, école magonty 2, page 2 : EC-CM2-2015-MAG2-1-3-V1-2 Ou alors, en étant peut-être plus clair : EC-CM2-2015-MAG2-D1-E3-V1-P2