didactique des mathématiques, de la statistique et des disciplines

Université Lumière Lyon 2

ISPEF

Licence de sciences de l'éducation

Cours 3PA16820 :

Didactique des mathématiques, de lastatistique et des disciplines

scientifiquesJean-Claude Régnier

Titre du dossier :

L'échelle Dubois-Buyseou

de la mesure d'acquisition lexicaleà la transposition didactique

Nom : DELEUZE Prénom : Jean-Marc

N° d'étudiant : 8202589

Année universitaire 1999/2000

2

SOMMAIRE

1) Introduction page 3

2) Etat des lieux :

a) La banalisation de l'échelle Dubois-Buyse

b) Son principe et son histoire

c) Les limites, les dérives d'une utilisation abusive de l'outil statistique

d) A propos des statistiques page 5

e) Une problématique à poser

3) A la recherche de dispositifs de transposition didactique : page 6

a) Liaison avec les tableaux de l'Alphabet Phonétique International

b) Recherches sur Internet page 7

4) Pour une échelle rénovée et interactive au service de l'étude de l'orthographe lexicale page 8

5) Elaboration d'un outil didactique :

a) Saisie de l'échelle (mots et échelons) sous forme de base de données sous Excel

b) Calcul des fréquences d'apparition des mots à partir d'un corpus de 100 000 mots page 9

c) Ajout de nouveaux mots au vu des fréquences d'apparition observées

d) Transfert de la base de données sous FileMaker page 10

e) Ajout des phonèmes, graphèmes, correspondances graphophonétiques et "rentabilités"

f) Mise au point de fonctions interactives

g) Exemples d'utilisations possibles

6) La linguistique quantitative : page 12

a) Un texte de référence

b) Analyse du texte page 13

7) Difficultés rencontrées page 15

8) Résumé - Conclusion

9) Bibliographie page 16

10) Annexes :

a) Références à l'échelle Dubois-Buyse dans les manuels : le BLED de CM1 page 17

b) Tableaux de l'Alphabet Phonétique International page 18

c) Base de données page 26

d) ACQUISDB.xls (acquisitions par âge et par échelon) page 27

e) occurrences étude.xls (comptage général du corpus de 100000 mots) page 28

f) occurrences nom communs tri par fréquence.xls (loi de Zipf) page 29

g) Texte à décoder page 31

3

1) Introduction :

L'échelle Dubois-Buyse regroupe 3787 mots d'usage courant testés auprès d'enfants et adolescents. Ces

mots sont classés par échelon. Chaque échelon correspond à un pourcentage étalonné de réussite (mots

écrits justes sous la dictée) pour chaque âge.

Il s'agit donc d'un outil élaboré sur des bases statistiques.

Cette échelle est citée de moins en moins souvent dans les Instructions Officielles, mais son utilisation est

toujours très fréquente sans qu'elle soit pour autant explicite. C'est ainsi que quantité de manuels s'y

réfèrent lorsqu'ils proposent, au fil de leurs pages, des listes de mots "à apprendre".

Pour ces deux raisons (bases statistiques et utilisations ou références tendant à être non-explicites), il me

semble judicieux et légitime, dans un dossier consacré conjointement à la statistique et à la didactique, de

se pencher sur cet outil, à travers son histoire, les limites de sa validité, ses non-dits, ses usages et

réactualisations possibles.

La préoccupation didactique de l'enseignement me semble d'autre part encourager à en proposer une

transposition didactique, dans les limites de temps et de compétences qui sont les miennes.

2) Etat des lieux :

a) La banalisation de l'échelle Dubois-Buyse :

i) Dans les Instructions Officielles :

Les Programmes de 1995 (page 101) reprennent intégralement ceux de 1985 (page 85) dans la

"Production d'écrits, Cycles 2 et 3" : "L'élève doit pouvoir (…) orthographier correctement (…)

les mots d'usage courant donnés, par exemple, par les échelles de fréquence."

Dans le livret "La maîtrise de la langue à l'école", on trouve un passage plus explicite encore : "En

ce qui concerne l'orthographe lexicale, les tables de fréquence et de difficultés en usage sont un

excellent guide pour graduer les exigences à chaque niveau de l'apprentissage, mais ne doivent en

aucun cas être considérées comme des programmes d'enseignement".

ii) Dans les manuels :

Dans les manuels de français, notamment ceux traitant de l'orthographe, on trouve parfois des

listes de mots à apprendre à orthographier. Des "spécialistes" de cette méthode sont les fameux

ORTH et BLED, ce dernier proposant en fin d'ouvrage un "répertoire" à compléter organisé par

phonèmes. La référence, dans ces deux cas, à l'échelle Dubois-Buyse, bien que réelle, n'est pas

explicitée (voir Annexe "BLED CM1").

iii) Dans la littérature de jeunesse :

La référence, dans ce cas, qui touche aussi bien la littérature de loisir que celle destinée à l'école,

n'est jamais faite alors que les éditeurs utilisent quantité d'échelles pour adapter leur vocabulaire à

celui du public ciblé.

4

iv) Qu'en penser ?

On peut s'interroger sur les dangers d'une utilisation prolongée et de moins en moins explicite de

cette échelle sans questionnement autour des limites de sa validité et de son utilisation.

b) Son principe et son histoire :

L'échelle Dubois-Buyse est née en 1940 du travail de sept années de ses deux auteurs. Elle a été

réactualisée en 1947 par A. Pirenne et J. Lambert. Même si les auteurs s'en défendent, on peut

rapprocher leur travail des préoccupations d'A. Binet : la volonté de mesurer une acquisition y fait

clairement référence, et l'échelle est parue en 1952 dans le Bulletin de la Société Alfred Binet.

Le point de départ de la recherche est l'enquête sur le vocabulaire fondamental du français écrit mené

par le Dr Aristizabal du Laboratoire de Didactique expérimentale de l'Université de Louvain sur la

base de 1400 lettres d'adultes et de 4100 rédactions spontanées d'élèves des deux sexes qui a permis

d'aboutir à une liste de 4329 mots. Sur ceux-ci, 3724 mots ont été dictés, en fin d'année scolaire, à

59469 élèves d'école primaire (ce qui est peu : 595 enfants pour chacune des dix tranches d'âge

étudiées). L'interprétation statistique de ces résultats a permis de classer tous les mots en 43 groupes

ou "échelons". Chacun de ces groupes contient des mots de difficulté équivalente et représente dans

son ensemble une difficulté moyenne également distante de celle des deux échelons voisins. Les 43

groupes étant ainsi séparés par des distances égales, leur ensemble constitue une "échelle" permettant

une mesure précise de la capacité orthographique. L'échelle a été amenée à 3787 mots par la

suppression de l'échelon 40 (y a-t-il encore équidistance entre les échelons 39 et 41 ?) et l'apport des

"mots-outils" non-étalonnés.

c) Les limites, les dérives d'une utilisation abusive de l'outil statistique :

Les enquêtes successives ont porté sur un corpus de texte arbitrairement défini, et donc discutable, et

sur un échantillon d'enfants francophones scolarisés tout aussi arbitraire. Si les différents auteurs et les

éditions répétées ont régulièrement pris la précaution de tester l'échelle sur quelques établissements,

on ne peut que regretter qu'aucune enquête de grande envergure n'ait été faite dans les dernières

décennies.

L'échelle Dubois-Buyse est censée mesurer les acquisitions réalisées sans apprentissage systématique

préalable. L'utiliser en tant que corpus de référence / objectif pour l'apprentissage revient donc à viser

une progression qui se ferait naturellement ou, dans le meilleur des cas, à détecter d'éventuels retards

chez des enfants, ce qui n'est pas sans rappeler la parenté d'esprit avec les tests Binet.

Le gros écueil de cette mesure est évidemment de détacher le mot de sa phrase, ce qui oblige à dicter

celui-ci après avoir dit une phrase le présentant et lui donnant sens.

Du fait de son isolement artificiel et pour ne pas interférer avec les règles grammaticales, les mots

sont à écrire sous leur forme neutre (singulier pour les noms et adjectifs, masculin pour les adjectifs,

infinitif pour les verbes). Ainsi, pour un verbe, le radical parfois très variable dans la conjugaison ne

sera pas nécessairement maîtrisé par l'acquisition de la graphie infinitive, alors que le verbe aura peut-

5

être été choisi pour sa grande fréquence d'apparition dans les textes sous forme conjuguée. C'est ainsi

que le verbe "aller" sera classé à l'échelon 13 ("facile"), alors qu'il compte trois radicaux (all-, ir-, v-).

d) A propos des statistiques :

Le cas de l'échelle Dubois-Buyse me semble constituer un exemple de l'apport et de l'influence des

statistiques, notamment dans des situations complexes telles que les apprentissages.

Comme chacun, je suis à la fois séduit par des "chiffres", ce qui signifie aussi un oubli réflexe et fatal

de l'ignorance des modalités de leur extraction, et méfiant vis-à-vis des réductions des situations,

indispensables à leur obtention.

Il me semble qu'il faudrait mettre avant tout insister sur l'impossibilité de transfert de leurs résultats,

ce qui obligerait à se renseigner sur les conditions de recueil et de traitement des données, deux étapes

pendant lesquelles des décisions sont prises, limitant les situations et les éclairages.

Ainsi, il m'est arrivé souvent de proposer des situations-jeux telles que :

- parier sur les résultats de la somme de deux dés lancés simultanément en m'attribuant le gain pour

les sommes 5, 6, 7, 8 et 9. L'autre joueur gagnant pour les sommes 2, 3, 4, 10, 11 et 12, il lui

semblait devoir gagner plus souvent. Je mettais ainsi en évidence l'influence "traîtresse" du calcul

combinatoire sur des événements équiprobables.

- démonter la magie de mécanismes telles que la multiplication sur les doigts, la stratégie gagnante

du jeu de Nim (passer la main avec une somme binaire nulle) ou le carré magique.

- analyser les résultats d'élections et mettre en évidence le problème des bulletins blancs et le

caractère douteux des interprétations de transfert des voix entre les deux tours.

e) Une problématique à poser :

L'échelle Dubois-Buyse est à rénover pour les raisons suivantes :

- l'informatique s'est grandement développée depuis le travail de messieurs Dubois et Buyse, pour

ne pas dire qu'elle est née… Les possibilités de calcul et de traitement d'aujourd'hui permettent de

prendre en compte des quantités d'informations beaucoup plus importantes. Le corpus de texte

notamment, utilisé pour calculer les fréquences d'apparition des mots, pourrait être nettement plus

conséquent.

- les modalités de dictées gagneraient à être explicitées (quelle phrase de présentation pour chaque

mot ?) et l'aspect culturel des mots ("chantre" à l'échelon 12 !) pris en compte (quel pays

francophone pour le corpus de textes, quelle nationalité pour l'élève ?).

- les échelons devraient être recalculés et le principe de l'équidistance entre eux vérifié.

- l'échelle mesurant le degré d'acquisition de l'orthographe lexicale, il conviendrait de prendre en

compte l'existence et les modalités d'apprentissage préalable de celle-ci dans les résultats des

dictées.

6

- dans sa forme actuelle, l'échelle ne fait que mesurer. On pourrait l'utiliser, puisqu'elle fournit des

corpus de mots adaptés à chaque âge, pour un travail d'étude des correspondances

graphophonétiques en intégrant celles-ci pour chaque mot.

- en plus du problème des homophones ("cou" et "coup" dont la distinction se fait, lors de la dictée,

par la phrase de présentation), de nombreux mots peuvent prendre des fonctions différentes. Ainsi,

"avoir" est considéré comme correspondant à deux mots différents selon qu'il est nom (échelon

14) ou verbe (mot-outil). Il conviendrait au moins de préciser pour chaque mot ses fonctions

possibles, voire de l'étalonner par fonctions.

- l'échelle n'étant censée que mesurer un degré d'acquisition, on ne tient aucun compte de la

fréquence d'apparition des mots, alors que celle-ci, couplée avec l'échelon, pourrait apporter une

notion de "rentabilité" (fréquence/échelon = "à quel point ce mot vaut-il le coup d'être su ?").

- la forme papier, seule disponible aux moments de la création et des réactualisations de l'échelle,

n'est pas la forme idéale pour effectuer des tris (rechercher les mots finissant en [waR] entre les

échelons x et y). Une base de données interactive serait plus appropriée à ces tris et à une

utilisation par les élèves eux-mêmes.

Ainsi, pour ces raisons à la fois techniques et didactiques, on pourrait ainsi obtenir un outil plus fiable

et qui dépasserait la simple mesure de type QI, sans l'abandonner pour autant, pour devenir un outil

qui aiderait à rendre l'apprentissage de l'orthographe lexicale moins mécanique.

3) A la recherche de dispositifs de transposition didactique :

La transposition didactique est le processus de transposition de savoirs savants en savoirs à enseigner.

Il est clair que l'orthographe lexicale n'apparaît pas comme un enseignement gratifiant s'il s'agit

simplement de faire acquérir un stock de graphies parfaitement arbitraires. En recherchant une

progression fiable et en utilisant l'échelle Dubois-Buyse qui peut sembler adaptée, l'enseignant se borne à

organiser un enseignement programmé. Ayant moi-même beaucoup utilisé l'échelle Dubois-Buyse, faute

de mieux, dans l'enseignement spécialisé (Section d'Education Spécialisée) puis en CE2 et CM2, j'ai eu

l'occasion d'essayer de trouver des moyens de rendre l'apprentissage de l'orthographe lexicale moins

mécanique, notamment en reliant cet outil aux tableaux de l'Alphabet Phonétique International.

a) Liaison avec les tableaux de l'Alphabet Phonétique International :

On trouvera en annexes ces tableaux retravaillés avec des élèves de Cycle 3 en décloisonnement.

J'avais fait le choix de ne pas utiliser les symboles phonétiques mais de leur substituer des "mots-clés"

("rat" pour [a]). Dans les graphies du son [a] ("rat") qui se rencontre dans 1109 des 3787 mots de

l'échelle, on trouve pour la graphie "a" un mot exemple ("papa") et les fréquences d'apparition de cette

correspondance graphophonétique selon qu'elle se situe en début (240 : "amour"), en fin (11 : "la") ou

entre ces deux extrémités du mot (807 : "tabac").

7

Les graphies en italique indiquent, hors échelle Dubois-Buyse, une déclinaison dûe à la conjugaison

("ient" dans [i]), celles qui sont soulignées le doivent aux marques de pluriel ("aps" dans [a]).

Une fois ce travail de repérage et de comptage fait par les élèves, l'étude des résultats apporta

quelques révélations surprenantes :

- le son [e] ("mère") s'écrit le plus souvent "e" (59+536) et non "è" (90) ou "ê" (2+26) !

- le son [e] ("dé") s'écrit parfois "ê" (14/1307) : pêcher, mêler,…

- le son [s] ("se") s'écrit essentiellement "s" (248+229+7) ou "se" (10+1+9) à 504

souvent "c" (44+117) ou "ce" (6+7+80) à 254

rarement "ss" (134) ou "sse" (34) à 168

moins encore "ç" (1+9) mais sans tenir compte de la conjugaison

àà Les règles du "ss" et du "c" devant s'entendre [s] sont-elles si indispensables à la survie ?

Nous avions également recherché les fréquences des phonèmes ainsi que celles des lettres, ce dernier

travail ayant ensuite été utilisé pour venir à bout de messages codés (par lettres).

b) Recherches sur Internet :

Preuve que l'échelle Dubois-Buyse n'est pas morte, on la trouve même sur Internet !

C'est ainsi que j'ai trouvé, en utilisant le logiciel métamoteur "Copernic 99" avec les mots-clés

"Dubois Buyse" 83 références dont :

i) Des listes de "vocabulaire" :

Il s'agit d'utilisations classiques de l'échelle pour bâtir des répertoires de mots ou des progressions

par niveaux de classes.

ii) ELMO :

Rappelons la popularité de ce logiciel de l'Association Française pour la Lecture qui, sorti à

l'époque de la "valise éducative" des MO5 et TO7, contrastait avec les autres logiciels qui n'étaient

souvent que des "QCM animés". ELMO se réfère donc aussi à l'échelle Dubois-Buyse dont elle

utilise les mots échelonnés pour construire des exercices concernant l'élargissement du champ

utile lors d'une fixation de l'œil, l'empan visuel, la discrimination, la rapidité d'exploration et les

comportements d'anticipation.

iii) ECHELLIA :

C'est un logiciel proposant 5 exercices permettant de mémoriser l'orthographe des mots de

l'échelle Dubois-Buyse, améliorer la vitesse de lecture, entraîner l'œil à une grande mobilité et

améliorer la vitesse de frappe au clavier. Ces deux logiciels, que j'ai téléchargé dans le cas

d'ELMO ou commandé et reçu (ECHELLIA), puis testés, permettent de paramétrer la difficulté,

notamment avec la durée de l'affichage, et d'éditer de nouveaux exercices.

8

4) Pour une échelle rénovée et interactive au service de l'étude de l'orthographe lexicale :

Il me paraît difficile d'étudier un outil aussi utilisé et "abusé" que l'échelle Dubois-Buyse sans en proposer

une version plus orientée vers la transposition didactique en orthographe lexicale que vers la simple

mesure du degré d'acquisition de celle-ci, mesure qui en est l'objectif initial mais que notre nature

humaine nous pousse à pervertir pour en faire un outil didactique d'apprentissage.

Ce serait d'autant plus dommage que j'avais déjà entrepris un travail sur l'échelle Dubois-Buyse (voir

point 3-a) qui avait nécessité la saisie de l'échelle sous Excel en y incorporant les correspondances

graphophonétiques.

Pour aller jusqu'au terme de ce que j'estimerais "didactiquement correct", il me faudrait mener un travail

qui dépasserait largement mon temps et, plus encore, mon budget. L'outil que j'envisage donc de mettre

au point dans les pages qui suivent aura donc d'importantes limites : les mots ne seront pas ré-étalonnés,

le calcul des fréquences d'apparition se basera sur un corpus relativement réduit, l'outil interactif final ne

comportera pas toutes les fonctions souhaitables. Mais l'ensemble devrait, je l'espère, ressembler à une

pré-maquette de ce qui pourrait être réalisé et permettre déjà des recherches intéressantes pour les élèves.

5) Elaboration d'un outil didactique multimédia :

a) Saisie informatique de l'échelle sous forme de base de données sous Excel :

On trouvera en annexe une page de cette base de données. Chaque fiche comporte les champs :

- Mot.

- Echelon : le "0" correspondait aux mots-outils.

- Fait : le "O" correspondait aux mots déjà appris, ce qui permettait de faire un apprentissage

systématique tout en "tirant" les mots à apprendre en fonction des lectures, des notions abordées

en grammaire ou en orthographe.

- Fonction : certains mots en remplissent plusieurs ("acide"), on peut effectuer des tris par noms,

adjectifs, adverbes, verbes, prépositions.

- Phonétique : les sons sont codés par mots-clés ([a]=rat), on utilise la parenthèse d'ouverture, le

tiret et la parenthèse de fermeture pour pouvoir trier les mots selon la position d'un son ( "*-dé)"

signifie [e] en fin de mot, "*-dé-*" signifie [e] en milieu de mot).

- Transcription : on associe là le graphème au phonème, on peut ainsi rechercher les sons [e]

s'écrivant "et" en fin de mot avec le critère de tri "*-mère=et)".

Le codage des sons était familier aux élèves et repris dans les tableaux de l'Alphabet Phonétique

International" ainsi que sur des jeux de cartes (une par son avec toutes les graphies possibles pour

dicter, construire ou écrire des mots) que j'avais fabriqués.

Ici s'arrête le travail fait avant la réalisation du présent dossier.

9

b) Calcul des fréquences d'apparition des mots à partir d'un corpus de 100 000 mots :

Je me limiterai à un corpus de 100000 mots pour des raisons pratiques (je n'ai pas de logiciel de

comptage d'occurrences). Ce corpus est extrait d'un hebdomadaire "les Clés de l'Actualité" des années

1980 qui s'adressait à des adolescents de 15-16 ans pour les raisons suivantes :

- ce périodique contenait différents types de textes (informatifs, prescriptifs, narratifs),

- il s'adressait au public correspondant aux plus hauts échelons de l'échelle, ce qui peut donner un

corpus qui serait un objectif d'apprentissage lexical à terme,

- le choix de la période couverte (années 80) est censé mettre en évidence les biais dûs aux

événements de l'actualité d'alors sur les fréquences d'apparition des mots,

- j'ai un stock de ces périodiques suffisamment conséquent pour pouvoir choisir les articles de mon

échantillon selon une procédure aléatoire (numéro, page, colonne, rang),

- j'ai déjà saisi ce corpus dans le début des années 1990 (à la main !) mais je n'avais pas eu le

courage d'effectuer le comptage… c'est l'occasion !

On arrive à un total de 124429 "mots" : symboles, nombres, noms propres, etc… le "dépassement"

des 100000 mots étant dû notamment aux articles "apostrophés" (l').

Sur ces 124429 "mots", on trouve (voir Annexe "occurrences étude.xls") :

Ponctuations et Signes = 18318Nombres, dates, heures... = 2386

Mots = 103725dont Noms propres, étrangers... 5496

et Mots "ordinaires" = 98228

TOTAL = 124429

Echelle DUBOIS-BUYSE = 79549soient 79%

des mots "ordinaires"Seuls, les "mots ordinaires" seront désormais pris en compte.

On remarque au passage que :

- l'échelle Dubois-Buyse couvre assez bien le corpus (79%),

- le corpus ne constitue pas un échantillon, même si on peut noter 5536 apparitions de l'occurrence

"de", il faudrait donc un corpus de 1 à 10 millions de mots…

c) Ajout de nouveaux mots au vu des fréquences d'apparition observées :

Le parti est pris de :

- ne pas supprimer de mots pré-existants dans l'échelle Dubois-Buyse même s'ils n'apparaissent pas

dans le corpus,

- ajouter 213 nouveaux mots (pour aboutir à une échelle de 4000 mots) par ordre décroissant de

leurs fréquences d'apparition.

10

d) Transfert informatique de la base de données Excel sous FileMaker :

Ce choix de logiciel est dicté uniquement par une meilleure maîtrise. "Access" aurait été peut-être

préférable car plus répandu.

e) Ajout des phonèmes, graphèmes, correspondances graphophonétiques et "rentabilités" :

L'ajout des phonèmes, graphèmes et correspondances graphophonétiques ne concerne que les 213

nouveaux mots. La "rentabilité" est égale au rapport de la fréquence par l'échelon. Sa valeur maximale

est de "311,23" pour le mot "pour" qui a une fréquence de "934" et qui est à l'échelon 3.

Les mots nouveaux sont fixés arbitrairement à l'échelon 100 pour ne pas obtenir de valeurs

"faussement parlantes" en rentabilité (valeur maximale de "3,21" pour le mot "procès" qui est le mot

nouveau le plus fréquent dans le corpus, tous les autres mots nouveaux ayant une rentabilité inférieure

à 1), les mots-outils sont rassemblés dans un échelon 0 pour obtenir "?" en rentabilité.

f) Mise au point de fonctions interactives :

i) Sécurité :

Deux niveaux d'utilisation sont prévues :

- édition : pour ceci, il faut saisir le mot de passe "0558" à l'ouverture et qui permet de modifier

la base (données, interfaces),

- élèves : sans le mot de passe, les élèves peuvent manipuler la base sans danger pour les

données et les interfaces (FileMaker enregistre en permanence, d'où danger…).

ii) Interfaces :

- un écran d'accueil qui oriente directement vers l'écran de recherche, celui de présentation des

résultats de la recherche précédente, une présentation des principes et du fonctionnement

d'ensemble de la base,

- un écran de présentation, imprimable, qui explique l'échelle Dubois-Buyse, les notions de

fréquence et de rentabilité, les différents champs, le codage des phonèmes en "mots-clés" qu'il

est possible d'entendre, le mot de passe pour éditer la base, un bouton vers l'écran d'accueil,

- un écran de recherche, comportant tous les champs, avec menus déroulants pour les rubriques

"Niveau", "Echelon" et "Fonction", des boutons vers les autres interfaces, les repères (la

syntaxe) pour définir les critères de recherche, des boutons pour afficher les fiches précédentes

et suivantes des résultats de recherche, un bouton de réinitialisation du tri, un bouton vers

l'écran de présentation des résultats, le cumul des fréquences d'apparition observées,

- un écran de présentation des résultats de la recherche, imprimable, affichant toutes les fiches

répondant aux critères de tri, le cumul des fréquences d'apparition observées et des boutons

renvoyant vers les autres écrans.

g) Exemples d'utilisations possibles :

La syntaxe typique des bases de données doit faire l'objet d'un apprentissage tutoré ; on aurait pu créer

des fonctions d'édition de critères de tri.

11

Néanmoins, de nombreuses recherches peuvent être faites et donner lieu à des présentations

graphiques sur des tableurs.

Quelques exemples :

i) Recherche de graphies d'un son :

Graphies du son [s] en "t" ("- tion") pour les mots des échelons du CE1 :

Saisies dans les champs Niveau = " CE1 " Transcription = " ==*-se=t-* "

Résultats nation, salutation

ii) Recherche sur les fonctions :

Mots faisant fonction de noms et de verbes :

Saisies dans les champs Fonction = " NOM/VER "

Résultats boucher, conseiller, coucher, déjeuner, dîner, officier, souper

iii) Recherche croisée sur les mots-outils et les fonctions :

Mots-outils faisant fonction de préposition :

Saisies dans les champs Fonction = " PRE " Niveau = " Outil "

Résultats à, aux, d', de

iv) Recherche croisée sur les fins de mots et les fonctions :

Adjectifs finissant en -er :

Saisies dans les champs Mot = " ==*er " Fonction = " ADJ "

Résultats amer, cher, entier, familier, fier, forestier, fruitier, grossier, laitier,

léger, ménager, particulier, printanier, singulier, régulier, financier

v) Recherche sur les familles de mots :

Mots comportant le segment "porte" :

Saisies dans les champs Mot = " ==*porte* "

Résultats apporter, emporter, importer, porte, portée, portefeuille, porte-plume,

porter, porteur, rapporter, remporter, reporter, supporter, transporter

vi) Recherche sur les préfixes :

Verbes commençant en "pré" :

Saisies dans les champs Mot = " ==pré* " Fonction = " VER "

Résultats précéder, précipiter, préférer, préoccuper, préparer, présenter,

préserver, prétendre, prévenir, prévoir

12

6) La linguistique quantitative :

a) Un texte de référence :

Pour terminer ce dossier consacré à un outil statistique de mesure d'acquisition d'orthographe lexicale, j'ai

lu un article au titre de circonstance et qui ouvre des perspectives de didactique linguistique :

Linguistique et statistique in Linguistique quantitative in LINGUISTIQUE, (Encyclopedia

Universalis, 1973, page 1056) :

"Historiquement, les premiers à avoir abordé les aspects quantitatifs du langage sont sans doute les

cryptographes et les sténographes. Les cryptographes ont dû établir des tables de fréquences des lettres ;

et c'est au sténographe Baptiste Estoup que l'on doit les premières observations connues sur les

fréquences relatives des mots dans un texte.

Ces observations, reprises et développées ultérieurement, en particulier par Georges K. Zipf, consistent en

ceci : si l'on dresse une table de l'ensemble des mots différents d'un texte quelconque, classés par ordre de

fréquences décroissantes, on constate que la fréquence d'un mot est inversement proportionnelle à son

rang dans la liste, ou, autrement dit, que le produit de la fréquence de n'importe quel mot par son rang est

constant (…). Cette égalité, qui n'est vraie qu'en approximation, est indépendante des locuteurs, des types

de textes et des langues. Il semble ainsi qu'il s'agisse véritablement d'un trait général des énoncés

linguistiques. Cette constatation (…) est souvent désignée sous le nom de loi de Zipf ; elle n'est pas isolée,

mais n'est que la première de toute une série d'autres que l'on peut résumer ainsi :

- La fréquence relative des catégories grammaticales, bien que variant d'un individu ou d'un texte à

l'autre, est stable. C'est ainsi qu'en français les mots outils (articles, pronoms, conjonctions,

prépositions) représentent 50% de n'importe quel texte, l'autre moitié étant constituée par les mots

pleins (substantifs, verbes, adjectifs, adverbes). (…)

- La fréquence des mots d'une langue dans le discours est liée à leur structure phonétique ; en

particulier, le nombre de phonèmes d'un mot dépend de son rang. On peut ainsi observer une

tendance générale de toutes les langues, selon laquelle plus un mot est fréquent, plus il est court

(c'est-à-dire moins son "coût de production" est élevé). (…)

Dans le domaine de la pédagogie des langues, la statistique lexicale permet d'établir des lexiques de

base qui représentent la part la plus fondamentale du vocabulaire d'une langue et qui doivent, par

conséquent, faire l'objet d'un enseignement particulier (français fondamental, etc.).

Au niveau de l'alphabet ou de la phonologie, l'étude statistique peut fournir d'importants

renseignements de tous ordres. Par exemple, en sténographie, on aura naturellement intérêt à attribuer

les signes les plus simples aux lettres les plus fréquentes en vertu de la recherche de l'économie du

coût ; on se souvient d'autre part comment William Legrand, le héros du Scarabée d'or d'Edgar Poe,

parvient à décrypter le message codé en utilisant les caractères statistiques des lettres de l'orthographe

anglaise. (…)

La liste des services rendus par la statistique dans le domaine linguistique pourrait être fort longue."

13

b) Analyse du texte :

i) Loi de Zipf :

Un calcul sur le corpus de "mots ordinaires" (voir Annexe "occurrences noms communs tri par

fréquence.xls") donne une constante théorique de 9596. 77% des mots du corpus se situent dans

une fourchette de 20% de part et d'autre de cette valeur. Cette loi est donc plutôt respectée,

d'autant que le corpus a une taille statistiquement trop réduite par rapport aux fréquences

d'apparition observées (80% des mots font moins de 5 apparitions dans le corpus).

ii) La part des mots outils :

Dans le corpus étudié, sur les 97110 occurrences, 41263 concernent les mots outils, soient 42%.

iii) Le nombre de phonèmes et le rang :

Phonèmes 13 12 11 10 9 8 7 6 5 4 3 2 1Mots 2 4 11 52 112 241 439 688 895 813 492 206 38

Occurrences 18 97 115 350 922 1957 3604 5142 7865 9554 13441 18437 24779

Le rang étant inversement proportionnel au nombre d'occurrences, on remarque que le nombre

d'occurrences d'un mot décroît exponentiellement par rapport à son nombre de phonèmes.

Rang x Fréquence

0

2000400060008000

10000

12000140001600018000

1

24

3

48

5

72

7

96

9

12

11

14

53

16

95

19

37

21

79

Rang x Fréquence

0

5000

10000

15000

20000

25000

1 2 3 4 5 6 7 8 9 10 11 12 13

Phonèmes

Occurrences

14

iv) La longueur des mots et le rang :

Nombre de lettres 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Occurrences 2257 26904 11213 10233 9827 6521 6742 5914 3151 2063 781 556 213 60 6

Mis à part les mots d'une lettre ("à" et "y"), on voit bien les occurrences décroître avec

l'augmentation du nombre de lettres des mots.

v) Les fréquences des lettres :

Sur les 626192 signes du corpus de 100000 mots étudiés, on trouve 494858 lettres de l'alphabet,

accentuées ou non, réparties comme ci-dessous :

Lettres e s a n i r t u l o d c pFréquence x 1000 173 85 79 75 72 70 69 58 56 55 40 35 30

Lettres m v f g q b h x j y k z wFréquence x 1000 27 13 12 11 9 9 8 5 4 3 1 1 0

On trouvera en annexe une démarche de résolution du problème de décodage utilisant les

fréquences d'apparition des lettres et celles de leurs combinaisons.

vi) D'autres recherches possibles :

D'autres recherches de linguistique quantitative (Peyrard, 1972, page 199) démontrent que le

nombre de syllabes d'un mot est égal au logarithme de la probabilité d'emploi de celui-ci. De

même, Georges K. Zipf a montré que le nombre de significations d'un mot est proportionnel à la

racine carrée de sa fréquence.

Il est sans doute difficile d'envisager de pointer de tels détails avec des élèves de l'enseignement

primaire. On pourra cependant faire constater que les mots les plus fréquents sont les plus courts,

que ce sont ceux qui ont un champ sémantique parfois si large qu'on en évite l'usage (faire) à

l'écrit, ou qu'ils ont un sens précis mais très usité (TGV) ou une forte charge émotive ; c'est ainsi

que, parmi les expressions devenues abréviations puis mots écrits en lettres minuscules, le mot

"sida" est un "cas record" par la vitesse de ses transformations successives.

0

5000

10000

15000

20000

25000

30000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Nombre de lettres

Occ

urr

ence

s

Nombre de lettres

Occurrences

15

7) Difficultés rencontrées :

Il est toujours très frustrant d'être déçu avant même de finir un travail. Les occasions ont été nombreuses :

- Un corpus de 100000 mots s'est révélé très insuffisant. Même si je ne peux pas le multiplier par 10 ou

100, l'outil fabriqué et les notions de fréquence et de rentabilité se révèlent d'une fiabilité douteuse.

- Investir un gros travail solitaire sur les bases peu sûres d'échelons très probablement dépassés sans

avoir les moyens de les mettre à l'épreuve n'a pas été très gratifiant.

- Un stock de 4000 mots est très insuffisant pour se livrer à des recherches lexicales.

Cependant, compte-tenu des impératifs de production, l'outil, en tant que maquette de projet, permet déjà

des recherches intéressantes, à condition de se garder de transférer ce qui ne peut l'être, la statistique...

Il est également difficile d'être parfaitement rigoureux ; ainsi, j'ai hésité souvent entre les termes

"fréquence" et "occurrences" et j'ai finalement choisi d'opter presque systématiquement pour le premier

mot, même lorsqu'il s'agit de comptages car c'est bien la notion de fréquence qui est sous-jacente.

8) Résumé - Conclusion :

A partir d'un outil de mesure, on peut donc, en introduisant d'autres données, en lui donnant un

fonctionnement plus souple, et en le croisant avec d'autres outils, aborder une didactique de l'orthographe

lexicale et de la linguistique qui mette les élèves dans des situations de recherches qui les intéressent.

On pourrait estimer que les quelques exemples d'activités linguistiques donnés ici, non explicitées dans

leurs procédures du fait des contraintes de taille du dossier mais très accessibles à des enfants de l'école

primaire, ne les concernent pas. A cette opinion, je répondrai d'une part que, pour avoir pratiqué des

activités d'un niveau ambitieux avec des élèves en grande difficulté, j'ai pu constater à chaque fois que le

défi mobilise et révèle très bien des ressources insoupçonnables, parce qu'inutilisées, dans d'autres

situations, et d'autre part que les activités portant sur les champs sémantiques, en vocabulaire, tout comme

des situations de décodage sont très courantes et sollicitent pourtant des compétences et des attitudes

qu'on oublie trop souvent d'expliciter.

Le présent dossier est à considérer comme formant un tout avec les fichiers informatiques joints et

élaborés pour cette ébauche de recherche, parmi lesquels la base de données interactive "Scale.fp3"

représente l'outil didactique mis au point à cette occasion.

16

9) Bibliographie :

TERS F., MAYER G., REICHENBACH D., 1975, L'échelle Dubois-Buyse d'orthographe usuelle

française, 3ème édition revue et corrigée, OCDL Paris

BONNET J., GUIBERT P., GASTINEAU T., 1981, Orthographe et principe d'analogie, Catalogue

orthographique pour l'école élémentaire, Editions de l'Ecole, Paris

BABIN N., PIERRE M., 1991, Programmes, Instructions, Conseils pour l'école élémentaire, Collection

L'école au quotidien, Hachette Ecoles

Programmes de l'école primaire, 1995, CNDP

La maîtrise de la langue à l'école, 1992, CNDP

BLED E., BLED O., BERLION D., 1992, 1er en orthographe, CM1, Collection BLED, Hachette

GUION J., 1985, Apprendre l'orthographe, SERMAP-HATIER

Logiciel "Echellia", http://dlp.ipl.com

Logiciel "ELMO", http://www.lecture.org/logiciel/elmo/elmo.htm

PEYTARD J., GENOUVRIER E, 1972, Linguistique et enseignement du français, Larousse

Conférences "2000 en France" du Conservatoire National des Arts et Métiers (archivées au format Real

Audio sur http://www.telerama.fr ), Cycle "Les signes et le sens" :

- CERQUIGLINI B., Renouveau et perspectives sur la langue française,

- DANLOS L., Linguistique et informatique,

- BENVENISTE C. B., La linguistique descriptive au 20ème siècle,

- DUCROT O., Le sens

LEBART L., Statistique Textuelle, (avec A. Salem), Dunod, Paris, 1994, 344 p.

Logiciel "HYPERBASE"

17

Référence à l'échelle Dubois-Buyse dans les manuels

BLED CM1

Page 7 (leçon 1) : mots échelonssentier 19chemin 8localité 19vallée 18géographie 17sommet 22plaine 17terre 2transport 19végétation 28ECHELON MOYEN = 16,9

Page 43 (leçon 13) : mots échelonsparure 19reverdir 19dominer 19beauté 19haie 17ruisseau 19printemps 19temps 18buisson 19feuillage 19feuille 13approcher 17ECHELON MOYEN = 18,1

Page 82 (leçon 26) : mots échelonsétage 16avenue 16ville 11musée 16monument 18région 17habitation 17habiter 23endroit 18environ 18ECHELON MOYEN = 17

MOYENNE GENERALE DES ECHELONS = 17,4

l'échelon 17 ayant un taux de réussite de 81% en CM1

31

TEXTE A DECODER

C E S E R A I T M E R V E I L L E U X

S I L S U F F I S A I T D E

C O N N A I T R E L E S F R E Q U E N C E S

D A P P A R I T I O N D E S L E T T R E S

P O U R P O U V O I R D E C O D E R U N

T E X T E

M A I S I L F A U T D I S P O S E R D

U N C O R P U S S U F F I S A M M E N T

I M P O R T A N T P O U R Q U E L E S

R E S U L T A T S S T A T I S T I Q U E S

S O I E N T A P P L I C A B L E S

TOTAL DU TEXTE = 200 lettres.

Fréquences d'apparition des lettres dans le corpus de 100000 mots :

Lettres e s a n i r t u l o d c pFréquence théorique x 1000 173 85 79 75 72 70 69 58 56 55 40 35 30

Lettres m v f g q b h x j y k z wFréquence x 1000 27 13 12 11 9 9 8 5 4 3 1 1 0

32

1) Le codage du "E" est vite résolu par sa très haute fréquence d'apparition :

Fréquences d'apparition des lettres dans le texte à décoder :

M P L O K I ☺ U N H Y B G5 10 10 11 0 18 0 13 9 0 0 1 0

T V F R C D E X S Z W Q A18 2 6 14 6 7 26 2 22 0 0 2 13

C E S E R A I T M E R V E I L L E U X E E E E E

S I L S U F F I S A I T D EE

C O N N A I T R E L E S F R E Q U E N C E SE E E E E

D A P P A R I T I O N D E S L E T T R E SE E E

P O U R P O U V O I R D E C O D E R U NE E

T E X T EE E

M A I S I L F A U T D I S P O S E R DE

U N C O R P U S S U F F I S A M M E N TE

I M P O R T A N T P O U R Q U E L E SE E

R E S U L T A T S S T A T I S T I Q U E SE E

S O I E N T A P P L I C A B L E SE E

33

2) Le codage du "S" est trouvé grâce à sa haute fréquence d'apparition associée à saposition de fin de mot sur plusieurs mots qui se suivent :

C E S E R A I T M E R V E I L L E U X E S E E E E

S I L S U F F I S A I T D ES S S E

C O N N A I T R E L E S F R E Q U E N C E SE E S E E E S

D A P P A R I T I O N D E S L E T T R E SE S E E S

P O U R P O U V O I R D E C O D E R U NE E

T E X T EE E

M A I S I L F A U T D I S P O S E R DS S S E

U N C O R P U S S U F F I S A M M E N TS S S E

I M P O R T A N T P O U R Q U E L E SE E S

R E S U L T A T S S T A T I S T I Q U E SE S S S S E S

S O I E N T A P P L I C A B L E SS E E S

34

3) Départager les autres lettres :Les lettres suivantes à décoder ont essentiellement des caractéristiques de combinaisonsentre elles :

Tableaux des caractéristiques combinatoires des lettres dans le corpus de100000 mots :"E devant" pour A : occurrences de la chaîne "EA""E derrière" pour A : occurrences de la chaîne "AE""doublée" pour A : occurrences de la chaîne "AA""finale" pour A : occurrences de A en fin de mot

A B C D E F G H I J K L ME devant 671 187 2339 483 1425 534 616 27 439 135 22 2429 3043rang E devant 13 18 8 16 9 15 14 24 17 21 25 7 6

A B C D E F G H I J K L ME derrière 44 527 3759 11113 742 1719 1347 4211 551 71 10162 4506

rang Ederrière

23 17 9 1 15 13 14 8 16 22 2 7

A B C D E F G H I J K L Mdoublée 23 9 364 10 1425 630 23 0 19 0 1 2235 1016rang doublée 12 17 10 16 3 8 12 23 14 23 20 1 5

A B C D E F G H I J K L Mfinale 6702 24 528 464 25813 141 77 64 2015 6 65 1501 161

rang finale 5 24 11 12 1 17 19 21 8 26 20 9 16

N O P Q R S T U V W X Y ZE devant 9784 82 1050 156 7035 14739 5000 3504 872 14 704 41 139rang E devant 2 22 10 19 3 1 4 5 11 26 12 23 20

N O P Q R S T U V W X Y ZE derrière 4878 105 2270 0 10147 4581 6842 3683 2640 22 193 229 73

rang Ederrière

5 20 12 25 3 6 4 10 11 24 19 18 21

N O P Q R S T U V W X Y Zdoublée 1279 53 486 0 736 2024 937 2 1 1 4 0 17rang doublée 4 11 9 23 7 2 6 19 20 20 18 23 15

N O P Q R S T U V W X Y Zfinale 6753 198 164 57 5392 18784 10364 2800 32 8 1194 273 132

rang finale 4 14 15 22 6 2 3 7 23 25 10 13 18

Mêmes caractéristiques relevées dans le texte à décoder :

M P L O K I ☺ U N H Y B G2 3

finale

T V F R C D E X S Z W Q A6 5 2 5 1 11

35

M P L O K I ☺ U N H Y B G1 1 3

E devant

T V F R C D E X S Z W Q A1 4 1 1 8 1

M P L O K I ☺ U N H Y B G2 5 1 3

E derrière

T V F R C D E X S Z W Q A2 1 4 2 4 2

M P L O K I ☺ U N H Y B G1 2 1 1

double

T V F R C D E X S Z W Q A1 2

Le T est trouvé par l'association de sa grande fréquence d'apparition et de saposition en fin de mot.

Le R se caractérise aussi par sa grande fréquence d'apparition et par l'égalité desoccurrences des chaînes RE et ER.

Ayant identifié les lettres E, S, T et R, on trouve fatalement des mots quasi-completset les connaissances lexicales suffisent ensuite pour achever le décodage du message.

didactique des mathématiques, de la statistique et des disciplines

Documents