18 mai 2004p. 1 méthodes pour informatiser des langues et des groupes de langues « peu dotées »...
Post on 03-Apr-2015
104 Views
Preview:
TRANSCRIPT
18 mai 2004 p. 1
Méthodes pour informatiser des langueset des groupes de langues « peu dotées »
Vincent Berment
GETA, laboratoire CLIPS, IMAGUniversité Joseph Fourier
p. 2INTRO I II III IV CONC
Ingénieur dans le secteur privé depuis 1988
Avant la thèse (1992-2000) : Étude de la langue laotienne puis de ses problèmes
d’informatisation, de 1992 à 1998 Acteur de l’informatisation du laotien depuis 1998
Traitements de textes, claviers virtuels, polices…
Thèse (2001-2004) : Prise de recul par rapport à cette expérience Élaboration de méthodes générales pour l’informatisation Mise en œuvre
Données personnelles
p. 3INTRO I II III IV CONC
Plan de la présentation
Introduction I. Réduire les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives
p. 4INTRO I II III IV CONC
Quelques ordres de grandeur
Services / ressources
Partie générique du
logiciel
Partie du logiciel spécifique à la
langue
Nombre de langues disposant de ces services et ressources linguistiques
Traitement du texte Saisie simple Visualisation / impression Recherche et remplacement Sélection du texte Tri lexicographique Correction orthographique
20 000 heures (10 h-ans)
4 000 heures (2 h-ans)
48 langues dans Office XP 27 langues dans Open Office
Correction grammaticale Correction stylistique Traitement de l’oral Synthèse vocale Reconnaissance de la
parole
Traduction
Traduction automatisée 40 000 heures
(20 h-ans) 80 000 heures
(40 h-ans)
18 paires de langues chez Systran, incluant toutes le français ou l'anglais
ROC Reconnaissance optique de
caractères
Ressources Dictionnaire bilingue Dictionnaire d’usage
2 000 heures (1 h-ans)
10 000 heures (5 h-ans)
260 langues via le site yourdictionary.com
p. 5INTRO I II III IV CONC
Langues bien et mal dotées informatiquement
6809 langues
Langues Très bien dotées informatiquement Quelques dizaines de langues-τ
Allemand, anglais, français, japonais, russe… Informatisation rentable => éditeurs de logiciels
Apple, IBM, Microsoft, Xerox…
Langues Peu ou Moyennement dotées Plus de 6000 langues-π et µ Informatisation pas ou peu rentable => autres
Groupes de locuteurs créés spontanément Projets de développement…
p. 6INTRO I II III IV CONC
Besoin de développer des logiciels et des ressources En informatique multilingue
Au niveau des systèmes d’exploitation Encodage des caractères Méthodes de saisie Affichage
Au niveau des interfaces de programmation Éditeurs de texte Tri lexicographique
En traitement automatique des langues naturelles Au niveau applicatif
Traduction automatisée Reconnaissance optique des caractères Gestion de dictionnaires
Au niveau des ressources Dictionnaires d’usage et dictionnaires bilingues
Quelles sont les difficultés ?
p. 7INTRO I II III IV CONC
Contexte souvent peu propice Ressources limitées
Manque de moyens Manque de formation
Difficultés dues à la langue Langue peu décrite (dictionnaire, grammaire) Langue à orthographe non stabilisée Langue de tradition orale
Politiques d’assimilation des minorités ethniques Manque de motivation des populations Faible pénétration de l’informatique
Approche le plus souvent inadéquate Sociopolitique (réunions, rapports, peu de technique) Économique (limité à de l’équipement)
Quelles sont les difficultés ?
C’est avant tout un problème d’informatique
p. 8INTRO I II III IV CONC
ONU/UNESCO : préservation du patrimoine linguistique
Déclaration du Millénaire (2000) Déclaration universelle sur la diversité culturelle (2001) Recommandation concernant la promotion et l’usage du
multilinguisme et l’accès universel au cyberespace (2003)
Union Européenne : protection des minorités linguistiques de l’Union
Résolution Arfé (1981) Résolution Kuijpers (1987) Charte des langues régionales ou minoritaires (adoption
1992, entrée en vigueur 1998)
Un large mouvement pour la protection des langues
p. 9INTRO I II III IV CONC
Travaux généraux sur l’informatisation des langues « minoritaires »
Ateliers dans plusieurs conférences (LREC, TALN…) Éditeurs de logiciel, SIL International (polices de caractères, outils) Consortium Unicode (standardisation des systèmes d’écritures)
Initiatives portant sur des groupes de langues Numéro spécial d’Elsnews , consacré à l’informatisation des langues
minoritaires d’Europe SALTMIL : groupe d’intérêt spécial pour les langues « minoritaires » Bureau européen pour les langues les moins répandues Réseau Mercator de recherche et d’information sur les langues
régionales et minoritaires de l’Union Européenne Intérêt des organisateurs de conférences pour ce sujet
12 articles acceptés : COLING, Papillon, PAN-Asia, Journées Montoises d’Informatique Théorique, Burma Studies, Digital GMS…
Un domaine de recherche dynamique
p. 10INTRO I II III IV CONC
Travaux sur des langues ou des groupes de langues-π InitiativeB@bel : standardisation (éthiopien), bibliothèques audio
(abkhazien, bats, laz), dictionnaire (abkhazien-géorgien) Carnegie-Mellon : traduction automatique (mapudungun, inupiaq et
siona) Projets MULTEXT et dérivés : outils d’annotation de corpus (catalan,
occitan, suédois, bulgare, estonien, hongrois, roumain, slovène, tchèque, bambara, kikongo, et swahili)
Projet DART : localisation de Mozilla (breton, irlandais, gaélique d’Écosse et gallois)
Lancaster / Oxford : projet de corpus des minorités vivant au Royaume-Uni (hindi, penjabi, somali, turc, ourdou)
Canada : polices de caractères (inuktitut) IXA : base de données lexicales et correcteur d’orthographe (basque) MIT2 : standardisation orthographique et ROC (créole haïtien)
Un domaine de recherche dynamique
p. 11INTRO I II III IV CONC
S’intégrer à des environnements génériques Réutiliser le code lorsque c’est possible Recourir à Internet pour rapprocher les acteurs Recourir à la mutualisation Recycler les dictionnaires existants
Quelques idées pour commencer
Domaines de compétences spécifiques nécessaires : génie logiciel génie linguiciel
Idées banales pour des informaticiens
C’est aussi et peut-être surtout du TALN
p. 12INTRO I II III IV CONC
Première partie de la présentation
Introduction I. Optimiser les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives
p. 13INTRO I II III IV CONC
« S’intégrer à des environnements génériques »
PARTIE GÉNÉRIQUE DU LOGICIEL
PARTIE SPÉCIFIQUE DU LOGICIEL
ILG/LS
Logiciel pour langue-π
p. 14INTRO I II III IV CONC
LaoWord : DLL intégrée dans l’environnement Word Temps de développement : 2500 heures
<< temps de développement d’un traitement de textes Fonctionnalités ajoutées à Word pour le laotien
Choix entre 4 dispositions de clavier courantes Saisie et changements de police indépendants de la police utilisée Tri lexicographique des tableaux Sélection du texte par syllabes entières Lexique laotien-français Transcriptions phonétiques Fonctions de mise en forme spécifiques (ligatures, réglage de hauteur)
Intégration à Excel ou à PowerPoint estimée à quelques dizaines d’heures
Créer un traitement de texte laotien à partir de Word
p. 15INTRO I II III IV CONC
Gestion multi-policesCaractère abstrait → caractère(s) réel(s)Un tableau par police de caractères
« Réutiliser le code lorsque c’est possible »
n ນ
o ນ
Clavier Lao US
Clavier Duang Jan
ນCaractère
abstrait (‘n’)
Code 110Police Lao France
Code 111Police Laos
Standard
Gestion multi-claviersCode touche → caractère abstraitUn tableau par répartition clavier
Passer de LaoWord à BanglaWord
p. 16INTRO I II III IV CONC
La saisie de texte dans LaoWord
TABLEAULAO FRANCE
TABLEAUPOLICE LAO 2
Ensemble des caractères abstraits pour le laotien
TABLEAUPOLICE LAO 3
TABLEAUPOLICE LAO 1
Saisie LaoWord
DLL + HOOK (entrée) DLL + HOOK (sortie)
150 heures(générique)
100 heures (1 police)+ ≈ 3 heures par police
TABLEAUDUANG JAN
p. 17INTRO I II III IV CONC
Extension à la saisie du bengali en Unicode
TABLEAUBANGLA BIJOY
TABLEAUBANGLA UNICODE
Ensemble des caractères abstraits pour le bengali
Saisie BanglaWord
DLL + HOOK (entrée) DLL + HOOK (sortie)
8 heures(réutilisation)
10 heures (1 police)
p. 18INTRO I II III IV CONC
Gain obtenus pour la saisie grâce à la réutilisation
Coût la 1ère fois
(laotien : LaoWord)
Coût les fois suivantes
(bengali : BanglaWord)Gain
250 h 18 h 92,8 %
5 millions de locuteurs au Laos
300 millions de locuteurs au Bengladesh
p. 19INTRO I II III IV CONC
Environnements génériques + réutilisation
Logiciel 2
Logiciel 3
Complémentlangue 2
Complémentlangue 3
Logiciel 1 Complémentlangue 1
Logiciel 4 Complémentlangue 4
Word
OpenOffice
Excel
PowerPoint
Laotien
Bengali
Khmer
Birman
Environnementgénérique
Complémentlinguistique
p. 20INTRO I II III IV CONC
nL / nE = nombre de langues / d’environnementstL / tE = temps de développement du code linguistique / génériquerL / rE = taux de réutilisation du code linguistique / générique
Formule du gain de réutilisation
Nb langues Économie Économie (en heures)
2 63,33 % 7 600 (4 400 au lieu de 12 000)
5 72,83 % 21 850 (8 150 au lieu de 30 000)
10 76,00 % 45 600 (14 400 au lieu de 60 000)
100 78,85 % 473 100 (126 900 au lieu de 600 000)
1000 79,14 % 4 748 100 (1 251 900 au lieu de 6 000 000)
Si nE=4, tL=1000 heures, tE=500 heures, rL=rE=95 %
Économie = (nL*tL*rL*(nE-1)+nE*tE*rE*(nL-1)) / (nL*nE*(tL+tE))
p. 21INTRO I II III IV CONC
Deuxième partie de la présentation
Introduction I. Optimiser les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives
p. 22INTRO I II III IV CONC
Construction collaborative d’un dictionnaire
Principes Mutualisation : chacun contribue à quelques articles dans
son dictionnaire personnel, et on intègre ensuite Par exemple 500 contributeurs fournissant chacun 100 mots Intégration des articles contrôlée par des linguistes Échange (ex. fourniture d’une contribution contre un service)
Facilitation : pour toucher plus de personnes Construction du dictionnaire sur Internet Couplage avec un service en ligne d’aide à la traduction
Avantages Prise en charge par les populations linguistiques
Connaissant leurs langues Impliquées dans l’informatisation de leurs langues
Évolution permanente du dictionnaire
p. 23INTRO I II III IV CONC
Mise en œuvre pour la langue laotienne (LaoLex)
p. 24INTRO I II III IV CONC
Le service d’aide à la traduction en ligne
p. 25INTRO I II III IV CONC
Le service d’aide à la traduction en ligne
p. 26INTRO I II III IV CONC
Page de saisie d’une nouvelle entrée (1)
p. 27INTRO I II III IV CONC
Page de saisie d’une nouvelle entrée (2)
Introduction I II III IV Concl.
p. 28INTRO I II III IV CONC
Révision d’une entrée de dictionnaire
p. 29INTRO I II III IV CONC
Contributeurs 12 étudiants et 1 enseignant de l’INALCO Quelques visiteurs
Nombre d’articles à ce jour Une centaine de mots dans le dictionnaire général Plusieurs centaines dans les dictionnaires
personnels Temps passé : ≈ 60 jours
Travail à temps partiel : ≈ 5 % du temps pendant ≈ 6 mois Pas encore de promotion sur le web
Premier bilan de ce travail collaboratif
p. 30INTRO I II III IV CONC
Troisième partie de la présentation
Introduction I. Réutiliser le code et le savoir-faire II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives
p. 31INTRO I II III IV CONC
Segmentation et traduction dans LaoLex
Comment traduire mot à mot un texte non segmenté ?(problème commun à environ 30 systèmes d’écriture en Asie du Sud-Est)
p. 32INTRO I II III IV CONC
On segmente le texte en syllabes ສະບາຍດີ�ທຸກໆທຸ ານ → ສະ-ບາຍ-ດີ�-ທຸກ-ໆ-ທຸ ານ
On regroupe les syllabes pour former des mots contenus dans le dictionnaire (algorithme de « plus longue chaîne d’abord ») ສະ-ບາຍ-ດີ�-ທຸກ-ໆ-ທຸ ານ → ສະບາຍດີ�-ທຸກ-ໆ-ທຸ ານ
On présente le résultat ສະບາຍດີ� (bonjour) ທຸກ (tout, tous) ໆ (?) ທຸ ານ
(personne)
Algorithmes de segmentation et de traduction
p. 33INTRO I II III IV CONC
La reconnaissance des syllabes est complexe
ເມື�ອ
ມື + ເ �ອ
ໄປ
ໄ + ປ
ລາ
ລ + າ
C VC V C V
Forme générale des syllabes laotiennes = C [C] [A] V [C]Formes et positions problématiques des voyelles
m üaaï pl a
V CC V C V
müapaïla
p. 34INTRO I II III IV CONC
Le nombre des syllabes peut être contraignant
Birman :
Forme générale : (C ou CS) [L] V [C ou ◌ ou ◌ [ ◌ ] [ ◌ ou ]]
Cardinaux des constituants : |C| = 33, |CS| = 20, |L| = 15, |V| = 35 Majorant : (33+20)x16x35x(34+2)x2x3 = 6 410 880 syllabes
Khmer : Forme générale : (C [CS [CS]] [D1] ou CS [CS]) V [C [CS] [D2]] ou VI ou L Cardinaux des constituants : |C| = 33, |CS| = 32, |V| = 33, |VI| = 14, |L| = 10 Majorant : (33x33x33x4+32x33)x33x(34x33x3)+14+10 = 16 084 538 736 syllabes
Laotien : Forme générale : (C ou GC) [A] V [CF] Cardinaux des constituants : |C| = 27, |A| = 4, |GC| = 36, |V| = 38 et |CF| = 8 Majorant : (27+36)x5x38x9 = 95 760 syllabes
Siamois (thaï) : Forme générale : (C ou GC) [A] V [CF] Cardinaux des constituants : |C| = 44, |GC| = 140, |A| = 4, |V| = 41, |CF| = 38 Majorant : (44+140)x5x41x39 = 1 471 080 syllabes
p. 35INTRO I II III IV CONC
Reconnaissance des syllabes : un problème dur !
Représentation par une grammaire
Syllabes = CC :t + CCA : a CF + CCA :k CFO + CCA ( : y + : u + : b + : n + : 5 + : 6 ) CFO + :g CC :t + :g CCA : a CF + :g CCA CFO + :c CC :t + :c CCA : a CF + :c CCA CFO + :3 CC :t + CCA : q CF + :3 CCA CFO + :g CC :kt + CCA :va CF + CCA : = + CCA :v CF + :g CCA ( : y + : u ) CFO + :g CC : ap + CCA :Pa CF + :g CCA :p + CCA :P CF + :g CCA ( : bv + : nv ) CFO + CC : q;t + CCA :;a CF + CCA : q; + CCA :; CF + ( :w + :. ) CCA + :g CCA : qk + CCA : e ;
CCA = CC + CC Acc ;CC = GC + CI ;GC = :s ( :' + :p + :o + :, + :] + : ^ + :; ) + CI :; ;CI = :d + :0 + :7 + : ' + :9 + :l + :- + :p + :f + :8 + :4 + :m +
:o + :[ + :x + :z + :/ + :r + :2 + :, + :1 + :i + :] + :; +
:s + :v + :I + :È + :É ;CFO = CF + {} ;CF = :d + :f + :[ + : ' + :o + :, + :p + :; ;Acc = : j + : h + : H + : J ;
p. 36INTRO I II III IV CONC
Mise en œuvre des grammaires de syllabes
Analyseur syntaxique Code C++ généré directement à partir de la grammaire des syllabes par
un compilateur de grammaire hors contexte Testé sur le laotien (LaoLex, LaoWord…) Un peu lent (0,5 s pour un double-clic, Windows 95, 133 MHz)
Automate d’états finis L’ensemble des syllabes étant fini, le langage est régulier Calcul de l’automate minimal en 3 étapes :
Calcul d’une expression régulière à partir de la grammaire, Calcul d’un automate non déterministe à partir de l’expression régulière, Calcul de l’automate minimal à partir de l’automate non déterministe.
Testé sur le laotien et sur le khmer Instantané dans tous les cas Sera intégré prochainement dans un « GMSLex » et un « GMSWord »
p. 37INTRO I II III IV CONC
Mise au point des grammaires de syllabes
Sylla : Outil pour la mise au point des automates de reconnaissance de syllabes Réduit le temps de développement d’environ 80 % (60 h au lieu de 300 en moyenne) Permet aux populations linguistiques de réaliser leur modèle de syllabes Utilisé pour : birman, khmer, laotien et thaï (encore 25 systèmes de ce type à faire)
p. 38INTRO I II III IV CONC
Quatrième partie de la présentation
Introduction I. Réutiliser le code et le savoir-faire II. Travailler avec les populations linguistiques III. Informatiser un groupe de langue IV. Approche projet Conclusion et perspectives
p. 39INTRO I II III IV CONC
Disposer d’outils pour mesurer : Le niveau d’informatisation de départ Le niveau d’informatisation obtenu
Choisir de ce que l’on veut informatiser : Les langues Les services
Réaliser le projet Définition de l’architecture logicielle Définition de l’organigramme des tâches
Informatiser un groupe de langues
p. 40INTRO I II III IV CONC
Indice-σ Mesure la satisfaction des utilisateurs de logiciels et,
incidemment, le niveau d’informatisation de la langue Définitions :
Langues-π : indice-σ < 10 Langues-µ : 10 < indice-σ < 14 Langues-τ : indice-σ > 14
Exemples : birman : 5,46 / 20 khmer : 6,14 / 20 laotien : 8,68 / 20
(< 10/20 langues-π)
Outil de mesure du niveau d’informatisation
p. 41INTRO I II III IV CONC
Tableau de l’indice-σ pour le khmer
Services / ressources Criticité (de 0 à 10)
Note (/20)
Note pondérée (Criticité x Note)
Traitement du texte Saisie simple 10 16 160 Visualisation / impression 10 14 140 Recherche et remplacement 8 12 96 Sélection du texte 6 12 72 Tri lexicographique 5 0 0 Correction orthographique 2 0 0 Correction grammaticale 0 0 0 Correction stylistique 0 0 0 Traitement de l’oral Synthèse vocale 5 0 0 Reconnaissance de la parole 5 0 0 Traduction Traduction automatisée 8 4 32 ROC Reconnaissance optique de
caractères 9 0 0
Ressources Dictionnaire bilingue 10 4 40 Dictionnaire d’usage 10 0 0 Total 88 540 Moyenne (/20) 540 / 88 = 6,14
p. 42INTRO I II III IV CONC
Classes de services Criticités (*)
ATraitement de textes, services de base (saisie, affichage, impression, recherche, sélection, tri)
16
BTraitement de textes, services avancé (correcteurs d’orthographe, de grammaire, de style)
6
C Synthèse et reconnaissance de la parole 8
D Traduction automatisée 14
E Reconnaissance optique de caractères 16
F Dictionnaires bilingues et d’usage 15
(*) : Moyennes des valeurs constatées sur trois langues (birman, khmer et laotien)
Quels services informatiser ?
p. 43INTRO I II III IV CONC
Critères de choix des langues : Nombre de locuteurs, Caractère officiel ou national de la langue, Caractère central de la langue, Intérêt des populations pour des moyens
informatiques dans leur langue, Motivation des bailleurs pour l'informatisation d'une
langue, Niveau d'informatisation de la langue (indice-σ), Existence d’une grammaire et d’un dictionnaire, Existence d'une langue proche bien informatisée, Présence d’un bilinguisme permettant de faciliter la
communication.
Pour quelles langues ?
p. 44INTRO I II III IV CONC
Pour quelles langues ?
Langue Locuteurs Famille Off./Nat. Indice-σ Dict. Commentaires 1 abkhaze 105 000 nord-caucasienne 2 aceh 3 000 000 austronésienne 3 achi, cubulco 45 000 maya 4 achi, rabinal 37 300 maya 5 acoli 773 800 nilo-saharienne 6 adangme 825 900 nigéro-congolaise 7 adygh 300 000 nord-caucasienne 8 afar 1 579 000 afro-asiatique 9 afrikaans 6 381 000 indo-européenne
10 agariya 55 757 austro-asiatique 11 aguacateco 18 000 maya 12 akan 7 000 000 nigéro-congolaise 13 albanais (gheg) 2 000 000 indo-européenne
Exemple : Famille nigéro-congolaise, Nombre de locuteurs > 500 000, Indice-σ < 7, Langue officielle ou nationale, Existence d’un dictionnaire papier.
p. 45INTRO I II III IV CONC
Architecture et organisation en tâches
COMPLÉMENT LINGUISTIQUEGÉNÉRIQUE
IG/L
OUTILS LINGUICIELS
COMPLÉMENT GÉNÉRAL
COMPLÉMENT LINGUISTIQUESPÉCIFIQUE
ILG/LS
GÉNÉRATION
PLATE-FORME D'ACCUEILPOUR DES COMPLÉMENTS
LINGUISTIQUES
Grands éditeurs de logicielsLogiciels pour langues-τ
Grands éditeurs de logicielsCompléments pour présenter une
interface standard
Groupes de développement Faible diversité
Populations linguistiquesGrande diversité
LOGICIEL DE BASE
COMPLÉMENT POUR
LANGUE-π
p. 46INTRO I II III IV CONC
Informatisation d’un groupe de langues
Cent langues, six ans
T0-1 T0+1 T0+2 T0+3 T0+4 T0+5 T0+6
Travaux amont
Préparation du projet NU
Développement d’un site web et des moyens de communication NU
Travaux généraux, recensement, spécifications
Travaux avec Unicode et les éditeurs de logiciel GROUPE 1
Recensement de la situation linguistique et choix des langues GROUPE 2
Recensement du besoin en compléments et outils GROUPE 2
Spécification des compléments et outils GROUPE 2
Travaux pour les langues insuffisamment décrites PL
Traitement du texte
Développement des compléments généraux EL
Développement des compléments linguistiques génériques GD
Développement d’outils pour linguistes GD
Développement des compléments linguistiques spécifiques PL
Aides à la traduction
Développement d’outils pour linguistes GD
Construction des ressources linguistiques PL
Ressources linguistiques
Développement d’outils pour linguistes GD
Construction des ressources linguistiques PL
NU=Nations Unies (exemple), PL=Populations LinguistiquesEL=Éditeurs de Logiciels, GD=Groupes de Développement
Groupe de travail sur le recensement de la situation (intérêt des populations, état d'informatisation, langues proches bien informatisées...) et des besoins en compléments et outils (travail par groupes de langues, en particulier pour les compléments linguistiques génériques).Objectif : Rédaction de spécifications techniques utilisables par des informaticiens pour les compléments et les outils.Publication du planning général incluant les étapes avec la liste des langues retenues pour chacune d’elles.
Groupes de travail pour les langues insuffisamment décrites.Objectif : Création de groupes de linguistes et réalisation de dictionnaires et de grammaires pour des étapes ultérieures.
Groupe de travail sur la complétion du standard Unicode, des polices de caractères, et des classes d'édition de texte.Objectif : Régler définitivement les problèmes de saisie, d'affichage et d'impression et obtenir des logiciels de base intégrant tous les systèmes d'écriture existants.
Diffusion des spécifications des compléments linguistiques génériques et des outils pour linguistes.Appel d'offres pour leur réalisation.Invitation des universités et instituts de langues à répondre en consortiums en fonction de leurs compétences.Objectif : Développement des compléments linguistiques génériques et des outils pour linguistes.
Diffusion des spécifications des compléments généraux.Objectif : Intégration de l’interface IG/L aux logiciels de base.
Diffusion des outils linguiciels et lancement des projets de réalisation des compléments linguistiques spécifiques et des ressources linguistiques.Accompagnement des projets de compléments linguistiques spécifiques (participation des différents acteurs intéressés : projets multilingues...).Objectif : Développement des compléments linguistiques spécifiques.
p. 47INTRO I II III IV CONC
Conclusion et perspectives
Introduction I. Langues mal dotées informatiquement II. Réutiliser le code et le savoir-faire III. Informatiser un groupe de langue IV. Approche projet Conclusion et perspectives
p. 48INTRO I II III IV CONC
Apports de la thèse
Une méthode pour mesurer le niveau d’informatisation Indice de criticité et note par service d’informatisation Définition des langues peu, moyennement et très bien dotées
Une méthodologie de développement Architecture en modules réutilisables Utilisation des environnements génériques pour langues-τ Recours à Internet Distribution OpenSource (LaoUniKey) Implication des populations linguistiques avec réalisation d’outils adaptés
(Sylla, LaoLex) Sites web collaboratifs
Première analyse de la question de la motivation des populations linguistiques à contribuer à l’informatisation de leurs langues
10 14
π μ τ
200
p. 49INTRO I II III IV CONC
Apports de la thèse
Étude en largeur et en profondeur des problèmes d’informatisation
Contexte sociopolitique, projets existants Annexes voulues complètes pour servir de point d’entrée pour des
recherches ultérieures Contribution à l’informatisation de quelques langues
Le laotien : traitement de textes complet, aide à la traduction, dictionnaire
Le birman, le khmer et le siamois (thaï) : modèles syllabiques Le bengali : saisie Unicode
Mise en évidence qu’il s’agit d’un problème de TALN, et donc d’informatique
p. 50INTRO I II III IV CONC
Perspectives personnelles
Généraliser les fonctionnalités obtenues à la trentaine de systèmes d’écriture sous-informatisés d’Asie du Sud-Est
p. 51INTRO I II III IV CONC
Participer activement aux projets d’informatisation de l’Union Européenne et des Nations Unies
Appliquer les méthodes présentées à la traduction automatique du laotien
Adaptation directe de la maquette Ariane anglais-thaï (générique) Appui sur UNL (générique) + maquette anglais-thaï (réutilisation) Évaluation des grammaires statiques de B. Vauquois (outils) Évaluation de méthodes d’apprentissage utilisant un corpus UNL
Poursuivre une recherche de fond sur les méthodes Élaboration d’outils linguiciels Réduction des temps de développements
Perspectives personnelles
18 mai 2004 p. 52
top related