modèles phylogénétiques de la diversification des langues

Download Modèles phylogénétiques de la diversification des langues

If you can't read please download the document

Upload: robin-ryder

Post on 16-Apr-2017

1.664 views

Category:

Technology


1 download

TRANSCRIPT

Modles phylogntiquesde la diversificationdes languesRobin J. RyderCEREMADE Paris Dauphine / CREST - INSEE

Travaux effectus avec Geoff K. Nichollsau Dpartement de Statistiques, Universit d'Oxford

www.slideshare.net/robinryder/nice

Carles li reis, nostre emper[er]e magnesSet anz tuz pleins ad estet en Espaigne :Tresquen la mer cunquist la tere altaigne.Ni ad castel ki devant lui remaigne ;Mur ne citet ni est remes a fraindre,Fors Sarraguce, ki est en une muntaigne.

Chanson de Roland, 1r (XIme sicle)

La plus commune faon d'amollir les coeurs de ceux qu'on a offensez, lors qu'ayant la vengeance en main, ils nous tiennent leur mercy, c'est de les esmouvoir par submission commiseration et piti.

Montaigne, Essais, I, 1 (1580)

Tes yeux sont si profonds qu'en me penchant pour boireJ'ai vu tous les soleils y venir se mirerS'y jeter mourir tous les dsesprsTes yeux sont si profonds que j'y perds la mmoire

Aragon, Les Yeux d'Elsa (1942)

Et la piaule swingue au son du ghetto, on tape la porteChill c'est trop fort ! baisse le son merde ! j'connaisA chaque fois c'est pareil tant pis il faut qu'a pteEt profite en tratre des nouveaux albums qu'Rod m'achte

Akhnaton, Juste une pression (2005)

Similarits entre langues

Langues Indo-Europennes

Diversification des langues

Les langues voluent d'une faon semblable aux espces biologiques

Des similarits entre langues peuvent donner une indication qu'elles sont cousines

Modle le plus commun : arbre

Questions rsoudre

Structure de l'arbre

ge des nuds internes

ge de la racine : 6000-6500 BP ou 8000-9500 BP ?

Vocabulaire de base

100 ou 200 ou mots, prsents dans quasiment toutes les langues : oiseau, main, manger, rouge...

Possibilit d'emprunt (l'volution ne suit pas un arbre), mais :

"Facile" dtecter

Rare

Peu d'influence sur les rsultats

Donnes binaires

Anglais : sea

Allemand : See, Meer

Franais : mer

Italien : mare

Grec : thalasa

Classes de cognats :1. {sea, See}2. {Meer, mer, mare}3. {thalasa}

Contraintes

Contraintes sur la structure de l'arbre

30 contraintes sur l'ge de certains nuds ou langues anciennes

Ces contraintes sont ncessaires pour valuer les taux et permettre de dater la racine.

Description du modle

Les traits naissent un taux

Les traits disparaissent un taux

et sont constants

Description du modle (2)

Des catastrophes se produisent un taux

Lors d'une catastrophe, chaque trait disparat avec une probabilit et Poiss() traits naissent.

/=/ : le nombre de traits est constant en moyenne.

Description du modle (3)

Processus d'observation: chaque point est manquant avec une probabilit i

Certains traits ne sont pas observs et ne sont donc pas inclus dans les donnes

Processus d'observation

Processus d'observation

Processus d'observation

Processus d'observation

Infrence baysienne

Distribution a priori des paramtres

La vraisemblance donne une distribution a posteriori.

Distribution a posteriori

Calcul de vraisemblance

Chane de Markov Monte Carlo

L'estimation directe de cette distribution est difficile.

On construit une chane de Markov dont la distribution l'quilibre est la distribution cherche.

Chane de Markov Monte Carlo

Test sur des donnes synthtiques

Vrai arbre, ~40 mots/langueArbre consensus

Test sur des donnes synthtiques (2)

Taux de disparition ()

Influence des emprunts

Vrai arbre, ~40 mots/langueEmprunts : 10%

Arbre consensus

Influence des emprunts (2)

Arbre consensus

Vrai arbre, ~40 mots/langueEmprunts : 50%

Influence des emprunts (3)

La structure est bien reconstruite

Les dates sont sous-estimes

ge de la racine

Taux de disparition ()

Emprunts : 50%

Prsence d'emprunts ?

Validation croise

Donnes

Langues Indo-Europennes

Vocabulaire de base (Swadesh 100 ou 200)

Deux bases de donnes

Dyen et al. (1997): 87 langues, surtout modernes

Ringe et al. (2002): 17 langues, surtout anciennes

MCMC

Catastrophes incluses

Donnes manquantes incluses

Logiciel TraitLab, cod en MatLab

ge de la racine

Questionsotzky sprgsmlervragenquestionsFragendomandepytaniaquestes ntrebrivpraanjapreguntespreguntasfrgorvraespurningar

quaestioneskessessprsmlerklusimaicwestiwnau