21-23 novembre 2012simc iii1 la langue française à lheure du numérique the french language in the...

23
21-23 Novembre 2012 SIMC III 1 La langue française à l’heure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1 , G. Francopoulo 2 , A. Max 1 , F. Yvon 1 , P. Zweigenbaum 1

Upload: lothair-prevost

Post on 03-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

21-23 Novembre 2012 SIMC III 1

La langue françaiseà l’heure du numériqueThe French Language

in the Digital Age 

J. Mariani1,2

P. Paroubek1, G. Francopoulo2, A. Max1, F. Yvon1,P. Zweigenbaum1

Page 2: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Livres Blancs

• Livres Blancs sur les langues européennes– Publiés par le réseau META-NET (Sept. 2012)– Présentent

• la situation de ces langues• l’état des technologies qui les traitent

– 31 Livres Blancs pour 30 langues• Nationales / régionales• dont les 23 langues officielles de l‘UE• Bilingues : langue concernée + anglais

http://www.meta-net.eu/whitepapers

21-23 Novembre 2012 SIMC III 2

Page 3: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Livre Blanc pour le Français

21-23 Novembre 2012 SIMC III 3

Page 4: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

La langue française

• 128 millions de locuteurs « natifs ou réels »– 16ème langue maternelle la plus parlée dans le monde

• 300 millions de personnes parlant français– 6ème langue la plus parlée dans le monde

• Derrière l’anglais, le chinois mandarin, l’espagnol, l’hindi et le russe

21-23 Novembre 2012 SIMC III 4

Page 5: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

La langue française

• Langue officielle dans près de 30 pays– Deuxième place derrière l‘anglais

• Langue de la République Française– Plus de 80 langues parlées en France

• Langue de travail dans de nombreuses organisations internationales– OCDE, ONU (UNESCO, OIT), CIO, OEB,

UA…

21-23 Novembre 2012 SIMC III 5

Page 6: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

La langue française

• Deuxième langue la plus traduite (langue source) dans le monde (UNESCO)– (loin) derrière l’anglais

• Troisième langue la plus traduite (langue cible) dans le monde– derrière l’allemand et l’espagnol

21-23 Novembre 2012 SIMC III 6

Page 7: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

La langue française

• 129 millions de personnes parlent français en Europe– 3ème langue seconde derrière l’anglais et

l’allemand• Une des 23 langues officielles de l’Union

Européenne– 2ème langue la plus traduite à la CE (derrière l’anglais)

- langue source ou langue cible– 1997 : 45% des documents traduits étaient en anglais

et 40% en français– 2007 : 72% des documents traduits étaient en anglais

et 12% en français !

21-23 Novembre 2012 SIMC III 7

Page 8: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Le français sur Internet

21-23 Novembre 2012 SIMC III 8

Page 9: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Le français sur Internet

• Wikipedia– 284 langues (Juin 2012)– + 1 M articles : Anglais (3,9M), Allemand (1,4M),

Français (1,2M), Néerlandais (1 M)– + 100K : Basque,…– + 10K : Occitan, Breton,…– + 1K : Corse, Flamand, Franco-provençal, Picard…

5 June 2012 French Month of Science - HLT Workshop - Tallinn - Estonia

9

Page 10: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

21-23 Novembre 2012 SIMC III 10

Les technologies de la langue

• Traitement automatique de la langue écrite– Monolingue

• Analyseur morphosyntaxique, analyseur syntaxique, Extracteur de terminologie, … Compréhension et génération de texte, Résumé Automatique, Recherche d’Informations (moteur de recherche), Systèmes de Réponse aux Questions (cf IBM Watson/Jeopardy)…

– Interlingue• Recherche d’Informations interlingue, Traduction automatique ou

assistée, …

• Traitement automatique de la langue parlée– Monolingue

• Reconnaissance et compréhension de la parole, Synthèse vocale, Dialogue oral, Reconnaissance du locuteur, …

– Interlingue• Identification de la Langue, Traduction vocale,…

Page 11: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

21-23 Novembre 2012 SIMC III 11

Les technologies de la langue

• Traitement automatique de la langue signée– Analyse, Synthèse, Traduction

• Technologies essentielles pour permettre l’accessibilité– Technologies intermédias : Synthèse vocale à partir du texte

(handicapés visuels), Transcription de la parole, Traitement de la langue des signes (handicapés auditifs), Commande vocale (handicapés moteurs)

– Technologies interlingues : pour supprimer les barrières de la langue, qu’on peut considérer comme un handicap.

Page 12: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

21-23 Novembre 2012 SIMC III 12

Ressources Linguistiques

• Nécessité de disposer d’une infrastructure pour développer les technologies– Ressources linguistiques– Moyens d’évaluation

• Ressources linguistiques– Données, corpus, lexiques, dictionnaires, bases terminologiques

et encyclopédiques (Wikipédia, DBpédia, Semanticpédia)…• Nécessaires pour mener les recherches en linguistique• Nécessaires pour effectuer l’apprentissage automatique des

systèmes basés sur les approches statistiques (plus grandes sont les données, meilleurs sont les systèmes)

– Standards pour la distribution des données

Page 13: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

21-23 Novembre 2012 SIMC III 13

Evaluation

• Evaluation des Technologies de la Langue– Comparer les performances des systèmes de différents

laboratoires, basés sur différentes approches, sur des données communes, avec un procole commun, dans le cadre de campagnes d’évaluation

• Indicateur de la qualité de la recherche et du progrès technologique• Compétition / coopération internationales (« coopétition »)• Compare les performances des technologies avec les besoins des

applications (TRL)

Page 14: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

21-23 Novembre 2012 SIMC III 14

Histoire de la Reconnaissance Vocaleà travers les évaluations du NIST

Page 15: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

21-23 Novembre 2012 SIMC III 15

Performances en Traduction Automatique (score BLEU %)

Page 16: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

21-23 Novembre 2012 SIMC III 16

Corpus Parallèles pour la Traduction Automatique

Courtesy Euromatrix

Page 17: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Etat des technologies et des ressources pour le français (0-

6)

21-23 Novembre 2012 SIMC III 17

Page 18: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Traitement de la parole

21-23 Novembre 2012 SIMC III 18

Page 19: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Traitement de l’écrit

21-23 Novembre 2012 SIMC III 19

Page 20: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Traduction Automatique

21-23 Novembre 2012 SIMC III 20

Page 21: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Ressources linguistiques

21-23 Novembre 2012 SIMC III 21

Page 22: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Effort technologique en France

• Quelques grands programmes nationaux au fil des ans– FRANCIL (AUF), Techno-Langue, Quaero,…– Disponibilité de ressources linguistiques– Connaissance du niveau technologique

• Bon niveau de la recherche

• Tissu industriel : PMEs

21-23 Novembre 2012 SIMC III 22

Page 23: 21-23 Novembre 2012SIMC III1 La langue française à lheure du numérique The French Language in the Digital Age J. Mariani 1,2 P. Paroubek 1, G. Francopoulo

Conclusions

• Ressources et technologies disponibles pour le français, mais loin derrière l’anglais

• Manque de continuité dans le soutien des pouvoirs publics à l’effort scientifique et industriel (France et Europe)

• Alors qu’il apparaît essentiel de disposer de Technologies de la langue pour traiter le multilinguisme (donnée fondamentale de l’UE)

• Souhait d’un large programme coordonné au plan européen (Commission et Etats-Membres)

21-23 Novembre 2012 SIMC III 23