samar - premier bilan d'étape - oct. 2010

Download Samar - Premier bilan d'étape - Oct. 2010

If you can't read please download the document

Upload: stefane-fermigier

Post on 04-Dec-2014

1.472 views

Category:

Technology


5 download

DESCRIPTION

 

TRANSCRIPT

  • 1. 1 erbilan dtape 15 octobre 2010

2. Objectifs

  • Le projet SAMAR a pour objectif de dvelopper une plateforme de traitement multimdia en langue arabe, et de valider ces travaux en menant les exprimentations :
    • Sur la totalit des dpches arabes produites par lAFP depuis 10 ans, soit environ un million de dpches, reprsentant plus de 150 millions de mots.
    • Sur un ensemble de flux radios arabes
    • Sur un ensemble de flux tlvisuels arabes

17/10/10 3. Vie du projet

    • Embauches
      • Locuteurs natifs arabe, nationalits reprsentes
        • Algrienne
        • Egyptienne
        • Jordanienne
        • Jordano-Palestinienne
        • Marocaine
        • Mauritanienne
        • Soudannaise
        • Tunisienne

17/10/10 4. Vie du projet

    • Embauches
      • Contrats
        • 3 embauches CDI : Antidot, Mondeca
        • 5 embauches CDD : Temis, Vecsys
        • 1 contrat rgie : AFP
        • 1 ingnieur de recherche : GREYC
        • 1 contrat thse : LIMSI
        • 1 contrat Post Doctorant: LIMSI

17/10/10 5. Vie du projet

    • Un communiqu de presse
      • Communiqus de Presse parus le 16 mars 2010 (FR US)
      • Article paru dans econtent mag (US)
        • http://www.econtentmag.com/Articles/News/News-Feature/SAMAR-Project-Mapping-Arabic-Language-to-Aid-News-Searchers-67535.htm

17/10/10 6. Vie du projet

    • Logo SAMAR
    • Site Webhttp://www.samar.fr/

17/10/10 7. Vie du projet

  • Runions
    • 4 plnires
      • Lancement du projet 01/10/2009
    • 7 runions thmatiques
    • 2 confrences tlphoniques
    • 1 semaine de travail en quipe Tunis (Greyc Llacan)

17/10/10 8. Objectifs Administratifs

    • Accord de consortium
      • Ngociations en cours de finalisation (LIMSI AFP)
      • Accord de secret en cours de finalisation
    • Demande de prolongation du projet (6 mois)
      • Permettre des embauches sur 3 ans
      • Date de fin de projet
      • 30/09/2012

17/10/10 9. Livrables

  • 11 livrables attendus pour le 01/10/2010
    • 9 livrables prts tre remis
    • 2 seront diffrs
      • L3.1:12/2010
      • L5.1:01/2011

17/10/10 10. SP1Expression des besoins Denis Teyssou Bernard Apfeldorfer Dominique Ferrandini 11. LAFP en arabe 17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

12. La production arabe de lAFP

  • Service arabe cr en 1974 au Caire puis migr Nicosie en 1987.
    • Desk de 25 journalistes.
    • Production journalire de 300 dpches environ.
  • En grande partie, de la traduction du franais vers larabe.
    • Une production native en dveloppement
  • Des produits multimdias avec photos, vidos et infographies

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

13. Taxonomie IPTC en arabe 17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

14. De nouveaux services multimdia 17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

15. Un CMS adapt la production 17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

16. Systme Samar: vue fonctionnelle 17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

17. SP1Expression des besoins Hacne Cherfi Bernard Vatant 18. SP1: Ressources terminologiques et ontologies

  • Mise en place dun serveur termino-ontologique
  • Crer et grer le Modle ontologique SAMAR
  • Donner accs aux connaissances SAMAR pour les autres systmes
    • Ressources multilingues et alignes diriges par lontologie
    • Infrences et consolidation des entits dans la base de connaissances

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

19. SP1: Ressources terminologiques et ontologies

  • V1 de lontologie SAMAR
  • Ressources rfrentielles
    • IPTC
    • Geonames (zone du Monde arabe)
    • Entits nommes du Joint Research Centre : JRC
      • dbut dintgration
  • Dmo

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

20. SP1: Ressources terminologiques et ontologies

  • V2 de lontologie SAMAR
    • Intgration avec le systme dannotation
    • Export vers le systme dindexation
  • Ressources terminologiques
    • Consolider la base de connaissances
    • JRC + autres ressources

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

21. SP1: Ressources terminologiques et ontologies

  • Enrichir les rfrentiels
    • avec des ressources dialectales (avec Vecsys)
      • Ex. : dialecte gyptien
    • avec des ressources translittres (LLACAN) si monolingues
      • Pour les entits nommes (personnes, lieux, etc.)

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

22. SP2Analyse Morpho syntaxique de larabe Fathi Debili Ayadi Chabi r 23. Analyse AutomatiquevsAnalyse Interactive O utils d'annotation interactifs etproduction de corpus annots Voyellation, Etiquetage, Lemmatisation,et Analyse syntagmatique de larabe Appariement syllabique et Translittration Fr Ar

  • Paris, 15 octobre 2010

24. Objectifs

    • Analyse Automatique vs Analyse Interactive Outils d'annotation interactifs etproduction de corpus annots Voyellation, Etiquetage, Lemmatisation,et Analyse syntagmatique de larabe Appariement syllabique et Translittration Fr-Ar
  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

25. Traitement de larabe: rappels

    • Ralisation d'outils d'annotation interactifs permettant la production de corpus annots
    • Amlioration des performances de G-LexAr
    • Annotation effective denviron 400 mille mots
    • Ralisationdun systme de translittration des nom propres FrAr
  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

26. Analyse morphologique de larabeArborescence lexicale 27. Arborescence lexicale dcoupage 1 dcoupage 2 voyellation 21 voyellation 22 lemme 211 lemme 222 lemme 221 lemme 213 lemme 212 ht 2111 ht 2112 ht 2113 ht 2221 ht 2131 ht 2132 UM dcoupagen voyellation 2p voyellation 11 voyellation 12 ht 2121 ht 2122 ht 2211 ht 2212 lemme 111 ht 1111 ht 1112 28. Voyellation Lemmatisation Etiquetage

  • m 1 m 2 m 3 ... m L
  • V 11 V 12V 21V 22V 23V 31V 32V 33
  • L 111 L 112L 121 L 211 L 221L 222L 311 L 321L 322L 323
  • t 1111t 1211 t 2211t 2213t 3111 t 3221t 3231
  • t 1112 t 2212t 3211t 3212t 3213
  • t 1121 t 1122t 2111 t 2221 t L111...t Lp L q L n L

29. Des niveaux dambigut levs Niveaux dambigut de lhyper-forme arabe Ambigut Segmentale Vocalique et Casuelle Lemmatique Grammaticale Dictionnaire (66.10 6dentres) 1,08 2,17 1,68 2,99 Sous lexique (157031) 1,26 6,40 2,65 9,16 En usage (2.10 6 ) 1,32 7,84 3,66 10,76 30. Cot de la voyellation exprim en nombre de frappes

  • En arabe, la plupart des lettres ( 87% en dfinition, 77% en usage ) demandent pour tre voyelles dtre accompagnes dun signe diacritique dont la saisie cote au minimum 2 frappes, limage du trma en franais.
  • Voyeller manuellement un mot arabe quivaut, en nombre de frappes au clavier, le ressaisir entirement voyell.
  • La saisie de ( ktb ) cote 3 frappes.
  • La saisie de la forme voyelle ( kataba ) cote 9 frappes.
  • Voyeller ( ktb ) pralablement saisiecote aussi 9 frappes , soit autant que la forme voyelle ( kataba ) entirement ressaisie.

31. Les signes diacritiques

  • 14 choix possibles si lon inclut labsence de voyelle
  • Non voyell

32. Des cots dannotation et de saisie levsCot moyen du caractre en nombre de frappes Cot moyen du caractre Proportion des signes diacritiques Proportion dans le cot de la saisie Anglais 1,00001 0,0005 % 0,001 % Franais 1,003 3,51 % 3,84 % Arabe non voyell 1,037 - - Arabe voyell 1,46 45% 60% 33. Annotation interactive de corpus arabes

  • Les efforts doivent tre fait dans deux directions:
    • De lanalyse automatique: performances autant sous langle de la pertinence linguistique que sous langle de la rapidit informatique
    • De lergonomie interactive: en introduisant de nombreuses fonctionnalits permettant:
      • De faciliter les choix linguistiques et dassurer une meilleure reproductibilit de lannotation manuelle
      • De rduire les cots dannotation et contrle manuels

34. Analyse automatiquevsAnalyse interactive Analyse automatique Annotation interactive laboration des rgles Un cercle vertueux 35. SAMSAr S ystme d A nnotationM orphoS yntagmatique de l Ar abe Slection du mot Voyeller Lemmatiser et Etiqueter Affichage de tous les contextes o apparat le motSlection de lune de ses occurrences Arborescence lague associe loccurrence slectionne Slectionde la branche VLT qui convient Attribution dela branche VLT retenue loccurrenceslectionne Mise jour desdictionnaires et des rgles Slection duCorpus puis du Texte annoter

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

36. Annotation syntagmatique

  • Ce qui se prsente l'entre de l'analyseur syntagmatique est la structure de donnes suivante:
  • La sortie attendue de l'analyseur syntagmatique est une structure de donnes o les syntagmes et entits nommes sont dlimits et tiquets
  • Etiquettes syntagmatiques : par ex. SN, SV.
  • Entits nommes : par ex. Date, Nom de personne, Nom de lieu, Distance, etc.
  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

M 1 M 2 M n Voyellation V 1 V 2 V n Lemme L 1 L 2 L n Etiquette T 1 T 2 T n 37. Annotation syntagmatique CV CN1 CN2

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

38. Analyse syntagmatiqueet Annotation interactive Dlimitation des Syntagmes et Entits Nommes Arborescences lexicales lagues issues de G-LexAr Apprentissage des Rgles issues de lannotation en cours Extraction des Syntagmes etEntits Nommes automatiquement reconnus R analyse syntagmatique aprs annotation morpho grammaticale ou apprentissage

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

39. S tation d A nalyseM orphoS yntaxique de l Ar abe SAMSAr

  • Annotation morpho grammaticale manuelle
  • Analyse morpho grammaticale: introduction de dictionnaires dhyper formes donnant accs des arborescences lagues
  • Analyse syntagmatique et reconnaissance des entits nommes
  • Autres dveloppements:
  • Voyellation
  • Translittration
  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

40. Translittration FranaisArabe

  • Objectif : passer d'un systme d'criture un autre. Ici, du systme d'criture du franais celui de l'arabe, et inversement.
  • Les difficults que pose la translittration sont relativement bien connues. Elles sont lies au fait que les systmes alphabtiques n'ont pas le mme nombre de lettres, et que les correspondances tablies entre lettres ou groupe de lettres ne sont pas biunivoques.
  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

41. Appariement Syllabique Amira

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

a mi ra 42. Appariement segmental etConstruction des rgles de translittration Rglescontextuelles Rgles non contextuelles

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

Chane source Contexte avant Contexte aprs a mi mi a ra ra mi Chane cible Nombre doccurrences 1 1 1 Chane source a mi ra Chane cible Nombre doccurrences 1 1 1 43. Translittration FranaisArabe

  • Forme gnrale d'une rgle de translittration:
  • P( CC|CS ,Ctx 1 ,Ctx 2 )
  • o:
  • CS:Chane Source
  • CC:Chane Cible
  • Ctx 1 : Contexte avant
  • Ctx 2 : Contexte aprs
  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

44. Translittration Franais Arabe R: Rgles,T: Translittration, C: Contextuelles, NC: Non Contextuelles,V: Voyell, NV: Non Voyell, F: Franais, A: Arabe

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

Rgles de translittrationFranais Arabe Arabe Franais V oyell N onV oyell V oyell N onV oyell C ontextuelles RT C V FA RT C NV FA RT C V AF RT C NV AF N on C ontextuelles RT NC V FA RT NC NV FA RT NC V AF RT NC NV AF 45. Translittration FrAr Appariement syllabique ou infra syllabique

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

46. Translittration FrAr Segmentation de la chane source

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

47.

  • Edward
  • Algbre
  • Mars
  • Toyota
  • Neptune
  • Walter

Appariement des cognats FrAr

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

48. SP3Moteur de recherche Jrme Mainka Fabrice Lacroix 49. Moteur de recherche

  • Donnes indexer
    • Donnes multilingues
      • Arabe
      • Anglais
      • Franais
    • Donnes structures
      • Format NewsML
    • Volumtrie :
      • 1 million de news indexer
      • 200 news par jour
    • Support cross lingue
      • Utilisation de rfrentiels multilingues aligns

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

50. Indexation de l'Arabe

  • Tokenisation
    • comme pour l'Anglais et le Franais :
    • tokens spars par des espaces / ponctuations
  • Lemmatisation
    • problmatique
    • langue trs flexionnelle
    • beaucoup d'agglutinations
    • utilisation prvue du lemmatiseur du SP2
  • Normalisation
    • recours au transcodage pas vraiment utile
    • translittration plus utile mais complique
    • fournie par le SP2

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

51. Indexation transcription S2T

  • Mots associs des indices de confiance
    • Possibilit de prise en compte de ces indices :
      • Boolen
        • Seuil
      • Proba
        • Pondration de l'indexation

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

52. Indexation traduction

  • Deux dmarches
    • Paresseuse
      • On se contente d'indexer les diffrentes versions comme l'original
      • Problme : environnement cross lingue. On doit avoir la possibilit d'afficher le rsum et la correspondance dans toutes les langues
      • =>
    • Innovante
      • Faire correspondre les traductions des segments de texte

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

53. Dmonstration 17/10/10 54. Dmonstration 17/10/10 55. Dmonstration 17/10/10 56. Perspectives

    • Incorporation du lemmatiseur SP2
    • Facettage multilingue
    • Indexation continue
    • Extension smantique

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

57. SP4Extraction entits nommes Leila Zighem Sylvie Guillemin-Lanne 58. Extraction des entits nommes

  • Skill Cartridge dextraction dentits nommes en arabe
    • Personnes
    • Organisations
    • Lieux
    • Dates

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

59. Particularits de la langue arabe

  • Absence de majuscules
    • Contrairement dautres langues comme le franais ou langlais
    • Sachant que la majuscule est un moyen trs efficace dans le processus de reconnaissance des noms propres.
  • Absence de voyelles
    • Labsence des voyelles brves entrane de nombreuses ambiguts
  • Agglutination
    • La langue arabe est une langue agglutinante,
    • Une segmentation en Tokens seulement nest pas suffisante
    • Ncessite une analyse morphologique de la langue

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

60. Lanalyseur morpho-syntaxique

  • Intgration de Glexar dans la solution Luxid Temis
    • Lanalyseur morpho-syntaxique
    • OffreArabic Packdistribue aux partenaires du projet
      • Antidot, Vecsys, LIMSI
  • Dsagglutination des prfixes et des suffixes
    • Base sur les lemmes fournis par Glexar

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

61. Skill Cartridge entits nommes

  • Intgration des lexiques
    • Personnes
      • Prnoms, noms,
      • Mots amorces (civilits, fonctions, gentils)
    • Lieux
      • Noms de lieux,
      • Mots amorces introduisant un lieu
    • Organisations
      • Organisations commerciales,
      • Organisations gouvernementales
      • Organisations non gouvernementales
      • Variantes en sigles latins,
      • Mots amorces
    • Les dates et autres marqueurs temporels
      • chiffres, mois, jours de semaine, sparateurs (/ ouou-)

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

62. Skill Cartridge entits nommes

  • Implmentation des rgles dextraction
    • Expressions rgulires dcrivant un patron morpho-syntaxique
    • Manipulent des concepts, des tags grammaticaux, du lexique
  • Deux tapes de dveloppement de la Skill Cartridge
    • Rgles simples
      • Construisent des concepts partir des patrons morpho-syntaxiques et du lexique
      • ~FirstName-LEX/LastName-LEX

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

63. Skill Cartridge entits nommes

    • Rgles complexes
      • Introduisent des contextes pour guesser une entit nomme
      • Recours des mots amorces
      • ~~Fonction/~~Gentille?{
      • (~~FirstName|~~LastName)/[]+ /(~~FirstName|~~LastName)
      • }

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

64.

    • Matrice des combinaisons possibles

Lextraction des noms de personnes

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

abd-LEXnisba-LEXAl-LEXPSmasculin-LEXPSsacre-LEXPSfeminin-LEXprenom-compose-sacre prenom-masculin-compose prenom-feminin-compose NS-LEXnom-compose abd-LEX prnom-compose-sacre nisba-LEXnisba-abd nisba-Al nom-compos nom-compos nom-compos nom-compos nom-compos nom-compos Al-LEXAl-abd Al-nisba nom-compos nom-compos nom-compos nom-compos nom-compos nom-compos nisba-abd nom-compos nisba-Al nom-compos nom-compos nom-compos nom-compos nom-compos nom-compos Al-nisba nom-compos nom-compos nom-compos nom-compos nom-compos Al-abd nom-compos PSmasculin-LEX personne personne personne personne personne personne personne personne PSsacre-LEX personne personne personne personne personne personne personne personne PSfeminin-LEX personne personne personne personne personne personne personne personne prenom-compose-sacre personne personne personne personne personne personne personne personne prenom-masculin-compose personne personne personne personne personne personne personne personne prenom-feminin-compose personne personne personne personne personne personne personne personne NS-LEX personne personne personne personne personne personne personne personne nom-compose nom compos 65. abd-LEXnisba-LEXAl-LEXPSmasculin-LEXPSsacre-LEXPSfeminin-LEXprenom-compose-sacre prenom-masculin-compose prenom-feminin-compose NS-LEXnom-compose abd-LEX Abd Alhakim nisba-LEXBen Abd Ben Al Ben Daoud Ben Aziz Ben Zouhra Ben Abd Allah Ben Laden Ben Al saoud Al-LEXAlAbd Al Ben Al Daoud Al Aziz Al Zouhra Al Abd Allah Al saoud Al Ben ali nisba-abd Ben Abd Ellah nisba-Al Ben Al Daoud Ben Al Aziz Ben Al Zouhra Ben Al Abd Allah Ben Al saoud Ben Al Ben ali Al-nisba Al Ben Daoud Al Ben saoud Al Ben Zouhra Al Ben Abd Allah Al Ben ali Al-abd Al Abd Ellah PSmasculin-LEX Nadjib Daoud Nadjib Abd El hafid Nadjib Zouhra Nadjib Abd Allah Nadjib chamse Eldin Nadjib Nour Elhouda Nadjib Daoud Nadjib Ben Al Ben ali PSsacre-LEX Aziz Daoud Aziz hakim Aziz Zouhra Aziz Abd Allah Azizchamse Eldin Aziz Nour Elhouda Aziz Daoud Aziz Ben Al Ben ali PSfeminin-LEX Naouel Daoud Naouel hakim Naouel Zouhra Naouel Abd Allah Naouelchamse Eldin Naouel Nour Elhouda Naouel Daoud Naouel Ben Al Ben ali prenom-compose-sacre Abd Elbasit Daoud Abd Elbasit Aziz Abd Elbasit Zouhra Abd Elbasit Abd Esamad Abd Elbasitchamse Eldin Abd Elbasit Nour Elhouda Abd Elbasit Daoud Abd Elbasit Ben Al Ben ali prenom-masculin-compose Nour eldin Daoud Nour eldin Aziz Nour eldin Zouhra Nour eldin Abd Allah Nour eldinchamse Eldin Nour eldin Nour Elhouda Nour eldin Daoud Nour eldin Ben Al Ben ali prenom-feminin-compose Nour Elhouda Daoud Nour Elhouda Aziz Nour Elhouda Zouhra Nour Elhouda Abd Allah Nour Elhoudachamse Eldin Nour Elhouda Nour Elhouda Nour Elhouda Daoud Nour Elhouda Ben Al Ben ali NS-LEX Rezouk Daoud Rezouk Aziz Rezouk Zouhra Rezouk Abd Allah Rezoukchamse Eldin Rezouk Nour Elhouda Rezouk Daoud Rezouk Ben Al Ben ali nom-compose Ben daoud BenAl Ben ali 66. Le roiAbdElah BenAbdElazizBenAbdElrahman AlSaoud Person Simple Simple First Name Last Name Simple Simple Simple Simple Simple Simple Simple Simple Simple Compos Simple Simple Termes du lexique Concepts IntermdiairesLien entre Concepts Simple Simple Simple Compos Compos Simple Simple Compos Simple Simple Compos 67. Lextraction des noms de personnes17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

Le roiAbdElah BenAbdElazizBenAbdElrahman AlSaoud 68.

  • Rgles complexes
    • Dfinition des contextes droits et gauches

Lextraction des noms de personnes

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

Droit Noyau Personne Gauche ~~VerbeCitation ~~Civilite ~~Fonction ~~Gentille? ~~Fonction ~~Gentille? ~~VerbeCitation ~~Fonction ~~Gentille? ~~Fonction ~~Gentille? ~~Civilite ~~Fonction ~~Gentille? ~~Fonction ~~Gentille? 69. Lextraction des noms de personnesPerson A dclar le prsident iranienMohamed Ahmadi Najad Contexte Person Fonction Prnom Prnom Nationalit Verbe -Citation Mot pas dans le lexique

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

70. Evaluation

  • Corpus
    • Dpches AFP
      • Dpches de lAgence France-Presse
      • Jeu de 1000 phrases extraites de dpches (SP7)
    • Articles du journal gyptien (Elahram)
      • A partir darticles sur le Web
    • Articles du monde diplomatique
      • Jeu darticles fournis par ELRA
      • Ce jeu a servi pour le dveloppement de la premire version

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

71. Evaluation

  • Protocole dvaluation
    • Good
      • Lentit est bien extraite,
      • Le concept est correct
    • Good Type
      • Une partie seulement de lentit est bien extraite,
      • trop court ou bien trop long
      • Le concept est correct
    • Wrong
      • Lentit est errone
      • Le concept est faux

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

72. Evaluation

  • Processus dvaluation
    • Skill Cartridge Quality Tool (SCQT)
      • Procde des extractions automatiques sur un jeu de documents
      • Affiche les concepts extraits
      • Garde en mmoire les concepts dj valids
      • Calcule automatiquement la prcision des concepts extraits
      • Pas de calcul de rappel pour le moment

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

73. Evaluation 17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives
  • Rsultats
    • Corpus Alharam
    • Corpus AFP

Concepts Extracted Missed Good Good Concept Not validated precision /Entity/Location 354 0 352 354 0 99,7% /Entity/Organization 77 0 77 77 0 100,0% /Entity/Person 257 0 243 248 0 95,5% /Entity/Time-Expression/Duration 56 0 48 56 0 92,9% /Entity/Time-Expression/Exacte Time 36 0 36 36 0 100,0% /Entity/Time-Expression/Relative Time 121 0 107 121 0 94,2% Global 901 0 863 892 0 95,8% Concepts Extracted Missed Good Good Concept Not validated precision /Entity/Location 2047 0 1996 2010 0 97,9% /Entity/Organization 185 0 182 182 0 98,4% /Entity/Person 495 0 422 483 0 91,4% /Entity/Time-Expression/Duration 123 0 120 122 0 98,4% /Entity/Time-Expression/Exacte Time 97 0 97 97 0 100,0% /Entity/Time-Expression/Relative Time 644 0 635 644 0 99,3% Global 3591 0 3452 3538 0 96,1% 74. Perspectives

  • Skill Cartridge
    • Etendre la couverture de la Skill Cartridge
      • Ajout de rgles contextuelles
      • Tester limpact de rgles moins fiables
    • Enrichir les lexiques
      • Lieux: introduire la base Geonames
      • Noms dactualit ne pas rater
  • valuations
    • Evaluer le rappel
      • Fonctionnalit dannotation bientt intgre la plateforme dvaluation
    • Etendre la reprsentativit des corpus
      • Variation des corpus, des domaines (ex : des textes juridiques, scientifiques) et des styles (ex : Forum, blog)

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

75. CMS Nuxeo lAFP 17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

76.

  • ChoukranDjazilan
  • Merci

77. SP6Transcription de la parole Samir Matrouf Ccile Woerhling Bernard Prouts 78. SP6 Reconnaissance de la parole

  • Objet de la tche dans le projet
    • Transcription automatique en langue arabe destine la traduction et lindexation des documents audio
  • Dveloppement du module de transcription automatique
    • Systme existant pour larabe moderne standard BN: Emissions dinformation Radio/TV
    • Adaptation du systme dautres types de parole: Emissions de plateau, reportages

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

79. SP6 Reconnaissance de la parole

  • Adaptation des modles acoustiques et des modles de langage
    • Adaptation des modles dautres types de document: dbat, interview, (dialectes: Egyptien, Levantin)
  • Corpus
    • Audio: environ une centaine dheures de donnes dialectales pour adapter modles(dbat, dialecte, thmatique)
    • Texte: quelques millions de mots pour les modles de langage
  • Collecte des donnes audio et texte
    • Dfinition des sources (Chane TV/Radio, web, AFP)
    • Infrastructure ddie la collecte et au traitement des transcriptions

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

80. SP6 Reconnaissance de la parole

  • Transcription manuelle des donnes audio
    • Spcification des conventions (normalisation de lcriture)
    • Transcription manuelle pour lapprentissage

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

81. SP6 Reconnaissance de la parole

  • Travail effectu
    • Description du corpus et spcification des conventions de transcription
    • Collecte des donnes Audio:150heures
    • Collecte des donnes texte: quelques millions de mots de lAFP et20 millionsde mots du web.
    • Transcription manuelle des donnes pour lapprentissage:40 heures

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

82. SP6 Reconnaissance de la parole

  • Dmonstration (Vido)
    • Arabe journalistique
    • Arabe dialectale

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

83. SP6 Reconnaissance de la parole

  • Exemple de rsultat de transcription en MSA (Journalistique)
  • Exemple de rsultat de transcription en dialecte gyptien
    • ,,
  • Exemple de rsultat de transcription en dialecte palestinien

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

84. SP6 Reconnaissance de la parole

  • Perspectives
    • Finir les collectes et les transcriptions manuelles
    • Adapter les modles acoustiques et modles de langages pour prendre en compte le BC (Broadcast Conversation: Dialecte, interview, dbat,)
    • Enrichir le texte reconnu par les ponctuations
    • Evaluation
    • Intgration

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

85. SP7Traduction Automatique Hlne Bonneau-Maynard Franois Yvon Souhir Gahbiche Gilles Adda Adrien Lardilleux 86. Objectifs

  • LIMSI : Traduction automatique
    • de larabe vers le franais
    • de larabe vers langlais

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

87. Travail effectu

  • tude Ressources ncessaires lamlioration des modles de traduction automatique
    • livrable SP7.1 avec GREYC
  • Acquisition des ressources en arabe :
    • ar:fr (7,6 M phrases), ar:en (5 M phrases)
  • Comparaison des outils linguistiques pour le traitement de la langue arabe.

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

88. Construction dun systme de traduction

  • Systme ar:fr de rfrence

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

89. Systme ar:fr de rfrence

  • Corpus parallle pour le systme ar:fr de rfrence :

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

dbats politiques7 403 K phrases commentaires de nouvelles journalistiques221 K phrases Nouvelles dans le domaine de la sant18 K phrases 90. Travail effectu

  • Mise en place d'un flux FTP accessible aux partenaires.
  • Traduction priodique des dpches de lAFP de larabe vers le franais (depuis dc. 2009) avec le systme de rfrence.
  • 37K dpches, 729 K phrases arabes traduites en franais.

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

91. Systme SAMAR-1

  • Objectif : construire un systme adapt aux donnes AFP
    • Pas de donnes parallles adaptes
    • Beaucoup de dpches en arabes sont des traductions de dpches crites en franais
    • Mthode pour extraire automatiquement les dpches qui sont des traductions les unes des autres

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

92. Systme SAMAR-1

    • Au total 43090 phrases parallles (41870 phrases pour entranement, 1250 pour lvaluation)

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

93. Rsultats obtenus

  • Evaluation sur 1250 phrases
  • BLEU = mesure dvaluation pour la traduction.
  • Etat de lart (Quaero ar:fr, BLEU = 18)

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

Systme de traduction Taille du corpus dapprentissage BLEU Rfrence 7 643 71729,1 SAMAR-1 41 840 31,4 Rfrence + SAMAR-1 7 685 557 34,2 94. Exemple de Traduction Automatique (AR-FR)

  • Systme : Rfrence + SAMAR-1
  • Taille du texte traduire : 1250 phrases extraites des dpches AFP

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

95. Perspectives

  • Traitement spcifique des entits nommes (Temis), en intgrant leur translittration (LLacan).
  • Constitution dynamique des corpus d'entrainement pour adapter les modles de traduction l'actualit => traduction plus performante.
  • Traduction de transcriptions automatiques de donnes audio (traduction de la parole).
    • difcile pour la langue arabe
    • larabe parl diffre de larabe crit

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

96.

  • Merci pour votre attention

17/10/10 97. SP7Traduction Automatique Yves Lepage Nadine Lucas Wigdan Mekki 98. SP7:Traduction Automatique

  • Contribution du Greyc
    • Mise au point dun module automatique de traduction de larabe vers le franais et vers langlais
      • SP 7.1 : recueil et prtraitement des corpus arabe-anglais et arabe-franais
      • SP 7.2 : dveloppement de systme de traduction baseline
      • SP 7.3 : amlioration des alignements sous-phrastiques
      • SP 7.4 : amliorations du systme baseline

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

99. Approche statistique en T. A.

    • Apprentissage:
    • partir de donnes alignes au niveau des phrases, on apprend dans un premier temps des modles quon appliquera dans un deuxime temps lors de la traduction sur des donnes nouvelles traduire. Il est donc ncessaire de disposer de donnes alignes en quantit suffisante.
    • Lacquisition ou la production de telles donnes est donc prendre en compte du point de vue financier dans la ralisation dun systme de traduction automatique par mthode statistique.

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

100. Objectifs

    • Traitement des corpus acquis par lanalyseur du LLACAN
      • (SP 7.1)
    • Constitution dun systme de traduction baseline
      • (SP 7.2)
    • Production de tables de traduction avec GIZA++, Anymalign et retour au LLACAN
      • (SP 7.3 et SP 2)

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

101. Corpus analys

    • LDC arabe-anglais
    • 1 200 000 phrases alignes
    • 32 855 000 mots

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

102. Sortie avec GLexar

    • Forme brute : `attaques
    • Forme voyelle: `attaques
    • Forme lemmatise: `attaque
    • Forme segmente: `lattaque

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

103. Rsultats

  • http://users.info.unicaen.fr/~jgosme/?traduction-arabe-original

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

104. Conclusion

    • Rsultats montrant que voyellation, lemmatisation ou segmentation napportent pas forcment en scores BLEU sur des donnes de petite taille.
    • La traduction partir de loriginal lemporte (peut-tre de faon significative). Les pr-traitements nont pas eu dinfluence sur les donnes.
    • G-Lexar donne de meilleurs rsultats avec la forme segmente

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

105. Perspectives

    • Reproduction dexpriences de traduction avec GIZA++ et Moses sur le corpus arabe-anglais de la campagne IWSLT10
      • (changement du domaine) :
      • Avec GLexar
      • Avec BAMA
    • Reproduction dexpriences sur les donnes de lAFP (arabe-franais)
    • Dfinition dun serveur local dexpriences de traduction

17/10/10

  • Objectifs
  • Travail effectu
  • Travail en cours
  • Perspectives

106. SP8 Integration Stefane Fermigier 107. Prrequis Techniques 108. API Web Services

  • Antidot: REST
  • Mondeca: SOAP, SPARQL
  • Nuxeo: CMIS, REST, SOAP
  • Temis: SOAP, UIMA
  • Vecsys: SOAP

109. Use case et flux globaux 110. Services et points dintgration 111. Questions ouvertes

  • Finir de dterminer les points dintgration et les protocoles / API utiliss
  • Choix de la mthode dintgration: point-to-point, ESB, UIMA, FISE?
  • Packaging: une ou plusieurs machines virtuelles?

112. Conclusion