proposition d'équipe associée -...

5

Upload: duongtu

Post on 11-Mar-2018

218 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Proposition d'équipe associée - pauillac.inria.frpauillac.inria.fr/~huet/FIRNCL/proposal.pdfProposition d'équipe associée Gérard Huet Projet Cristal 9 juin 2001 1 Motivation Il

Proposition d'équipe associée

Gérard HuetProjet Cristal

9 juin 2001

1 Motivation

Il s'agit de donner un cadre de coopération entre les équipes françaises etles équipes indiennes travaillant en linguistique computationnelle, ainsi quede permettre à nos travaux sur le traitement du sanskrit de béné�cier del'aide des spécialistes indiens de cette langue, et d'être valorisés au mieuxpar cette interaction.

Il s'agit donc davantage d'établir le contact avec un réseau de spécia-listes du traitement informatique des langues indiennes, plutôt que d'établirdes relations exclusives avec une équipe particulière. Néanmoins, le corres-pondant principal en Inde est bien identi�é, et une collaboration a déjà étéamorcée cette année.

La période est favorable au démarrage de cette coopération. En e�et, leMinistry of Information Technology vient de démarrer cette année un projetnational �Technology Development for Indian Languages� qui rassemble lesprincipaux acteurs indiens du traitement des langues naturelles ; un docu-ment en annexe donne la con�guration initiale de cet e�ort, en janvier 2001.Le réseau indien est donc en cours de constitution. Du côté français, unetelle coordination n'est pas encore établie, mais une ré�exion nationale esten cours qui devrait aboutir prochainement à un renforcement des e�orts deR&D jusqu'ici assez dispersés.

Remarquons que Gérard Huet anime aujourd'hui les relations scienti-�ques entre l'INRIA et l'Inde, et que le �nancement de cette propositioncontribuerait à soutenir cette coopération globalement, notamment en �nan-çant des missions de visite de centres indiens réputés dans d'autres domainesintéressant l'INRIA en général.

1

Page 2: Proposition d'équipe associée - pauillac.inria.frpauillac.inria.fr/~huet/FIRNCL/proposal.pdfProposition d'équipe associée Gérard Huet Projet Cristal 9 juin 2001 1 Motivation Il

2 Equipes indiennes partenaires potentielles

2.1 Hyderabad

Le principal correspondant indien de cette coopération est Dr NarayanaMurthy, Professeur à l'Université d'Hyderabad, auteur d'un système de re-présentation des langues UCSG (Universal Clause Structure Grammar) etd'un système de traduction assistée par ordinateur MAT (Machine AssistedTranslation) qui est capable de traiter des applications en vraie grandeur,notamment la traduction de textes o�ciels de plusieurs centaines de pagede l'anglais au kannada. Ce système est ainsi utilisé pour établir la versiono�cielle du budget de l'état du Karnataka.

Le professeur Narayana Murthy est l'un des principaux spécialistes in-diens du traitement de la langue naturelle. Il connait déjà plusieurs équipesfrançaises du domaine. Il a notamment organisé à Hyderabad l'Atelier Franco-Indien sur le traitement des langues naturelles (CEFIPRA Indo-FrenchWork-shop on Natural Language Processing) qui s'est tenu à Hyderabad en mars1997. Nous l'avons depuis invité à l'INRIA une semaine en mars 2001 pourlui faire rencontrer les équipes Atoll de Rocquencourt, Langue et Dialogueainsi que Calligrammes à Nancy, ainsi que l'équipe Talana de Paris 7 etl'ATILF (Trésor de la Langue Française) à Nancy.

Un autre correspondant important à Hyderabad est le Pr Rajiv Sangaldu IIIT (Indian Institute of Information Technology, Hyderabad). Dr Sangalest l'auteur d'un livre important sur le traitement informatique des languesindiennes[1]. G. Huet l'a rencontré en 1996, lorsqu'il dirigeait l'équipe d'in-formatisation du sanskrit à l'IIT de Kanpur.

2.2 Pune

Pune (Maharashtra) est le site de nombreuses institutions illustres dusavoir traditionnel, telles que le Bhandarkar Institute. G. Huet a rencon-tré à plusieurs reprises le Pr V. N. Jha, directeur du Center for AdvancedSanskrit Studies de la Pune University, et a visité le Sanskrit dictionary pro-ject du Deccan College, centre prometteur pour la valorisation de ses outilslexicographiques.

2.3 Delhi

A l'IIT de Delhi le Pr Rukmini Bhaya Nair est une linguiste intéresséepar les aspects cognitifs des représentations langagières. Elle est en contactavec des linguistes du CNRS, et vient régulièrement à Paris. Elle assistait à

2

Page 3: Proposition d'équipe associée - pauillac.inria.frpauillac.inria.fr/~huet/FIRNCL/proposal.pdfProposition d'équipe associée Gérard Huet Projet Cristal 9 juin 2001 1 Motivation Il

un colloque à la Sorbonne début juin 2001, et nous avons établi un contactfructueux. Son étudiant Farhad Mehta e�ectue un stage de mai à juillet2001 au projet Cristal, pour développer un module OCaml de traitement desrelations régulières, aux �ns d'analyse automatique de l'allitération ( sandhi).

2.4 Bangalore

Le CDAC (Center for Development of Advanced Computing) se préoc-cupe depuis plusieurs années des applications du traitement des langues na-turelles. G. Huet a visité leur centre de Pune en mars 2000, où il a rencontréle Dr Hemant Darbari, responsable de l'équipe de linguistique computation-nelle. Le spécialiste du traitement du sanskrit, Dr Ramanujan, travaille aucentre de Bangalore, où il développe un système Desika de compréhensiondu sanskrit, ainsi qu'un traitement de texte spécialisé destiné à l'édition detextes critiques.

2.5 Divers

G. Huet a rencontré à plusieurs reprises le Pr Prafulla Mishra, qui dirigele Département de Sanskrit d'Utkal University (Bhubaneswar, Orissa), ainsique Pr Sanghamitra Mohanti, qui y dirige le Département de ComputerScience et qui est responsable du traitement de l'oriya dans le projet national�Indian Languages Technology�.

Il compte établir prochainement un contact avec Dr Lakshmi Tatachar, del'Academy of Sanskrit Research de Melkote (près de Mysore, au Karnataka).

Au total, 24 institutions indiennes participent à ce jour au programme�Indian Languages Technology� (voir document ci-joint).

3 Programme de travail

3.1 2001

En octobre 2001, une mission de visite de Tata Infotech à Bombay etPune par G. Huet est prévue. Une visite des partenaires de Pune (CASS,Deccan College et CDAC) permettrait de mettre en route une collaborationactive sur les structures de corpus. Il serait prévu notamment une visite duBhandarkar Institute, qui vient de �naliser l'édition critique du Mahabha-rata.

En décembre 2001 mission de visite de l'IIIT d'Hyderabad, et de coordi-nation de la coopération avec le Pr N. Murthy de l'Université d'Hyderabad.

3

Page 4: Proposition d'équipe associée - pauillac.inria.frpauillac.inria.fr/~huet/FIRNCL/proposal.pdfProposition d'équipe associée Gérard Huet Projet Cristal 9 juin 2001 1 Motivation Il

Proposition d'un stage d'été pour un étudiant de l'IIT de Delhi.

3.2 2002

En février, visite du CDAC de Bangalore (2 semaines).Prévoir une ou deux visites d'une à deux semaines des centres français

du traitement de la langue naturelle par des spécialistes indiens. En été,hébergement au projet Cristal d'un étudiant de l'IIT de Delhi dans le cadred'un stage d'été.

En décembre, organisation d'un workshop franco-indien de traitementdes langues naturelles à Bhubaneswar, Orissa.

3.3 2003

Mission de longue durée de G. Huet à Pune, Bangalore et Hyderabadpour dé�nir avec les spécialistes concernés une structure de représentationde corpus de textes devanagar� permettant la co-référence lexique-corpus, etle traitement parallèle de plusieurs versions d'un texte au sein d'un mêmeapparatus critique.

Plusieurs séjours d'une à deux semaines en France de chercheurs indienscoopérant avce les équipes françaises de linguistique computationnelle, aux�ns de dé�nition de standards communs de représentations de ressourceslinguistiques.

4 Moyens

Une enveloppe de 60KF missions/invitations par an semble adéquate.Les 6 mois d'invitation de spécialistes sur 3 ans sont su�sants.

Références

[1] Akshar Bharati, Vineet Chaitanya and Rajeev Sangal. Natural Lan-guage Processing - A Paninian Perspective. Prentice-Hall of India, NewDelhi, 1995.

[2] G. Huet. �Structure of a Sanskrit Dictionary.� INRIA Research Reportunder preparation.

[3] G. Huet. �Computational Linguistics for Sanskrit : a Software Enginee-ring Approach�. Contribution to anniversary volume in honor of RodBurstall, to appear 2002.

4

Page 5: Proposition d'équipe associée - pauillac.inria.frpauillac.inria.fr/~huet/FIRNCL/proposal.pdfProposition d'équipe associée Gérard Huet Projet Cristal 9 juin 2001 1 Motivation Il

[4] G. Huet. �Design of an Electronic Sanskrit Reader". Workshop on IndianLanguages, Constanz, oct. 2001.

[5] Farhad Metha.�An Ocaml library of Finite-state tools for morphologyanalysis.� Rapport de stage, projet Cristal, juillet 2001.

[6] K. Narayan Murthy. �Machine Assisted Translation.� Proceedings ofNLPRS-99 Fifth Natural Language Processing Paci�c Rim Symposium,Beijing, China, November 5-7, 1999.

5