projet : automatiser la découverte de moyens mnémotechniques

Projet :Automatiser la

découverte de moyens mnémotechniques

Philippe Gambette21 mai 2005

Introduction

Un projet à intégrerau logiciel libreFury Languaged’apprentissagede fiches devocabulaire.

L’objectif : faire trouver par le programme un ou des moyens mnémotechniques personnalisés pour l’utilisateur pour chaque faute lors du test.

Les outils informatiques : l’exploration de données et les graphes sémantiques.

Deux types de moyens mnémotechniques

Supposons que je me teste de la façon suivante :j'ai le terme français, je dois trouver l'anglais correspondant.

Deux types de moyens mnémotechniques :

L’analogie sémantique : je cherche un terme français, ou un terme anglais que je connais déjà- qui se rapproche du terme français sur le fond (le sens).- qui se rapproche du terme anglais correspondant sur la forme (lettres communes ou sons communs).Exemple : abri to shield (protéger) + terre shelter

La recréation du contexte : je cherche une phrase d’un texte que je connais un peu (proverbes, paroles de musique, de jeu vidéo, ou de film) qui contient le terme anglais.Exemple : shelter Gimme shelter (titre d’une chanson des Rolling Stones, et d’un film documentaire sur le groupe)

La méthode d’analogie sémantique

Les analogies de fond (sens) :

Il s’agit de construire un graphe sémantique contenant tous les mots du dictionnaire français pour les nœuds et pour les arêtes une longueur dépendant de la proximité de sens de ces mots.

A chaque nœud du graphe correspondant à un mot, on associe sa traduction en anglais, si l’utilisateur la connaît.

Les analogies de forme (lettres communes ou sons communs) :

On utilise un algorithme classique d’alignement de séquences, avec calcul de score.

La construction du graphe sémantique

Les problèmes classiques de contruction de graphe sémantique (polysémie par exemple) nous importent peu pour ces graphes sémantiques (on s’autorise des moyens mnémotechniques capillotractés...). La littérature est fournie à propos de la construction de graphes sémantiques. Si cela suffit, on utilisera la méthode simple et rapide suivante :

On utilise comme base la 8° édition du Dictionnaire de l’Académie, voire d’autres sources pour des index de définitions de mots plus récents.

On construit tout d’abord une liste de tous les mots du dictionnaire. Puis on détermine pour chaque mot dans quel article il apparaît, et le nombre d’occurrences dans cet article.

On effectue une phase de normalisation pour affecter des valeurs aux arêtes.

L’évaluation des mots connus par l’utilisateurDans un premier temps, on ne fait qu’associer un mot

anglais à sa traduction dès que l’utilisateur se teste correctement dessus.

On peut envisager une méthode automatique pour évaluer le vocabulaire connu par l’utilisateur (déterminer son niveau), en commençant par lui faire passer un petit test de vocabulaire “échantillon”. Il s’agira alors de :- déterminer les mots à placer dans cet échantillon, afin de bien déterminer une gradation de difficulté.- faire un calibrage : faire passer ce test à plusieurs volontaires pour calibrer la méthode, et obtenir la liste de vocabulaire connu par ces volontaires (de forts utilisateurs de Fury Language).- mettre en relation les résultats des tests avec le vocabulaire connu (modèles de Markov cachés, analyse bayésienne ?), et stocker le modèle obtenu.

L’alignement de séquences

On mène plutôt une recherche de plus grand sous-mot commun qu’un alignement optimal de séquences.

Il faut toutefois créer une matrice de distance pour les lettres ou les sons.

Il faudra éventuellement en faire une pour chaque langue.

L’algorithme de recherche d’analogie sémantique

On peut exécuter cet algorithme de recherche de moyen mnémotechniques soit en cours de test, dès que l’utilisateur fait une faute, soit hors test, sur une des fiches d’erreurs de l’utilisateur.

Pour chaque terme français dont la traduction en anglais n’est pas connue par l’utilisateur :

Je trouve le noeud du graphe sémantique associé au terme français, et j’effectue, sur ce nœud et ses voisins (jusqu’à une certaine distance), une recherche de la plus grande analogie de forme entre le terme anglais non connu de l’utilisateur et l’étiquette du nœud (le mot français) ou sa traduction en anglais connue de l’utilisateur.

J’ai trouvé un moyen mnémotechnique d’analogie sémantique, ou plusieurs.

L’algorithme de recherche de contexte

Il s’agit de construire une base de phrases (en anglais) connues ou retenues facilement (dont l’apprentissage est motivant pour l’utilisateur) :- paroles de chansons (avec rimes de préférences).- répliques de films.- messages de jeux vidéos.- proverbes.

Il faut ensuite traiter cette base pour y effectuer des recherches rapides.

Cette méthode est similaire à celle des programmes de desktop-search. Utiliser l’un d’entre eux serait peut-être plus simple.

Conclusion et contraintes

Ainsi, le programme indique à l’utilisateur une liste de moyens mnémotechniques possibles pour retenir le terme de la langue étrangère. A lui de choisir le meilleur, ou de n’en choisir aucun.

Contrainte de taille :

Certainement plus que les 2 Mo de l’actuelle version de Fury Language -Lite-…

Pour indication, le dictionnaire de l’Académie (base du grape sémantique) fait 20Mo en html.

Contrainte de temps :

Pas très important si on ne tient pas à rechercher le moyen mnémotechnique pendant la phase de test.

RéférencesNabil Hathout : Analogies morpho-synonymiques. Une méthode d’acquisition automatique de liens morphologiques à partir d’un dictionnaire de synonymes.http://www.li.univ-tours.fr/taln-recital-2001/Actes/tome1_PDF/

partie2_p30_322/art20_p223_232.pdf

Mathieu Lafourcade, Violaine Prince : Modélisation de l’Hyperonymie via la combinaison de réseaux sémantiques et de vecteurs conceptuels.http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2004/pdf/JADT_065.pdf

George A. Miller : WordNet: A Lexical Database for English.http://l2r.cs.uiuc.edu/~danr/Teaching/CS598-04/Papers/miller95.pdf

Haïfa Zargayouna et Sylvie Salotti : Mesure de similarité sémantique pourl’indexation de documents semi-structurés.http://www-lipn.univ-paris13.fr/seminaires/AtelierRaPC/Articles/haifa.pdf

Olivier Ferret : Découvrir des sens de mots à partir d’un réseau de cooccurrences lexicales.

http://www.lpl.univ-aix.fr/jep-taln04/proceed/actes/taln2004-Fez/Ferret.pdf

8e édition du Dictionnaire de l'Académie française

http://fr.wiktionary.org/wiki/Wiktionnaire:Dictionnaire de l'Académie françaisehttp://colet.uchicago.edu/cgi-bin/getobject_?p.0:0./projects/artflb/

databases/artfl/dicos/acad1932/IMAGE/

projet : automatiser la découverte de moyens mnémotechniques

Documents