Modles phylogntiquesde la diversificationdes languesRobin J. RyderCEREMADE Paris Dauphine / CREST - INSEE
Travaux effectus avec Geoff K. Nichollsau Dpartement de Statistiques, Universit d'Oxford
www.slideshare.net/robinryder/nice
Carles li reis, nostre emper[er]e magnesSet anz tuz pleins ad estet en Espaigne :Tresquen la mer cunquist la tere altaigne.Ni ad castel ki devant lui remaigne ;Mur ne citet ni est remes a fraindre,Fors Sarraguce, ki est en une muntaigne.
Chanson de Roland, 1r (XIme sicle)
La plus commune faon d'amollir les coeurs de ceux qu'on a offensez, lors qu'ayant la vengeance en main, ils nous tiennent leur mercy, c'est de les esmouvoir par submission commiseration et piti.
Montaigne, Essais, I, 1 (1580)
Tes yeux sont si profonds qu'en me penchant pour boireJ'ai vu tous les soleils y venir se mirerS'y jeter mourir tous les dsesprsTes yeux sont si profonds que j'y perds la mmoire
Aragon, Les Yeux d'Elsa (1942)
Et la piaule swingue au son du ghetto, on tape la porteChill c'est trop fort ! baisse le son merde ! j'connaisA chaque fois c'est pareil tant pis il faut qu'a pteEt profite en tratre des nouveaux albums qu'Rod m'achte
Akhnaton, Juste une pression (2005)
Similarits entre langues
Langues Indo-Europennes
Diversification des langues
Les langues voluent d'une faon semblable aux espces biologiques
Des similarits entre langues peuvent donner une indication qu'elles sont cousines
Modle le plus commun : arbre
Questions rsoudre
Structure de l'arbre
ge des nuds internes
ge de la racine : 6000-6500 BP ou 8000-9500 BP ?
Vocabulaire de base
100 ou 200 ou mots, prsents dans quasiment toutes les langues : oiseau, main, manger, rouge...
Possibilit d'emprunt (l'volution ne suit pas un arbre), mais :
"Facile" dtecter
Rare
Peu d'influence sur les rsultats
Donnes binaires
Anglais : sea
Allemand : See, Meer
Franais : mer
Italien : mare
Grec : thalasa
Classes de cognats :1. {sea, See}2. {Meer, mer, mare}3. {thalasa}
Contraintes
Contraintes sur la structure de l'arbre
30 contraintes sur l'ge de certains nuds ou langues anciennes
Ces contraintes sont ncessaires pour valuer les taux et permettre de dater la racine.
Description du modle
Les traits naissent un taux
Les traits disparaissent un taux
et sont constants
Description du modle (2)
Des catastrophes se produisent un taux
Lors d'une catastrophe, chaque trait disparat avec une probabilit et Poiss() traits naissent.
/=/ : le nombre de traits est constant en moyenne.
Description du modle (3)
Processus d'observation: chaque point est manquant avec une probabilit i
Certains traits ne sont pas observs et ne sont donc pas inclus dans les donnes
Processus d'observation
Processus d'observation
Processus d'observation
Processus d'observation
Infrence baysienne
Distribution a priori des paramtres
La vraisemblance donne une distribution a posteriori.
Distribution a posteriori
Calcul de vraisemblance
Chane de Markov Monte Carlo
L'estimation directe de cette distribution est difficile.
On construit une chane de Markov dont la distribution l'quilibre est la distribution cherche.
Chane de Markov Monte Carlo
Test sur des donnes synthtiques
Vrai arbre, ~40 mots/langueArbre consensus
Test sur des donnes synthtiques (2)
Taux de disparition ()
Influence des emprunts
Vrai arbre, ~40 mots/langueEmprunts : 10%
Arbre consensus
Influence des emprunts (2)
Arbre consensus
Vrai arbre, ~40 mots/langueEmprunts : 50%
Influence des emprunts (3)
La structure est bien reconstruite
Les dates sont sous-estimes
ge de la racine
Taux de disparition ()
Emprunts : 50%
Prsence d'emprunts ?
Validation croise
Donnes
Langues Indo-Europennes
Vocabulaire de base (Swadesh 100 ou 200)
Deux bases de donnes
Dyen et al. (1997): 87 langues, surtout modernes
Ringe et al. (2002): 17 langues, surtout anciennes
MCMC
Catastrophes incluses
Donnes manquantes incluses
Logiciel TraitLab, cod en MatLab
ge de la racine
Questionsotzky sprgsmlervragenquestionsFragendomandepytaniaquestes ntrebrivpraanjapreguntespreguntasfrgorvraespurningar
quaestioneskessessprsmlerklusimaicwestiwnau