Download - LA GÉNÉTIQUE MOLÉCULAIRE POUR LES NULS
LA GÉNÉTIQUE MOLÉCULAIRE POUR LES NULS
Jeudi 15 mars : Cours 1 Introduc4on : De Mendel à Watson et Crick ; le code généDque ; descripDon du dogme central.
Jeudi 12 avril : Cours 2 Les machines moléculaires de la géné4que : Comment est traitée l’informaDon ; la réplicaDon de l’ADN, sa transcripDon en ARN messager, la traducDon du message.
Jeudi 3 mai : Cours 3 Les ou4ls de la géné4que moléculaire : De la mutagénèse à l’ADN recombinant ; « clonage » et séquençage des gènes.
Jeudi 24 mai : Cours 4 L’intégra4on cellulaire de la géné4que : L’intégraDon de la généDque dans la biologie cellulaire ; comment la cellule uDlise l’informaDon généDque ; régulaDon généDque et épigénéDque de l’expression des gènes.
Jeudi 7 juin: Cours 5 Les résultats actuels de la géné4que : Des développements technologiques récents aux applicaDons sociétales ; le séquençage du génome humain.
MSC
MATIÈRE ET SYSTÈMES COMPLEXES
UMR 7057 associée au CNRS et à l'Université Paris 7
LA GÉNÉTIQUE MOLÉCULAIRE POUR LES NULS De Mendel au séquençage du génome humain
Comment la généDque est devenue moléculaire, quelles sont les méthodes, les possibilités et les ambiDons de ceUe science
au développement rapide. Jean-‐Pierre Henry, directeur de Recherche Emérite CNRS
Les résultats actuels de la géné4que -‐5-‐
Des développements technologiques récents aux applicaDons sociétales ; le séquençage du génome
humain.
Jean-‐Pierre HENRY 7 Juin 2012
Résumé des cours précédents (1)
• À l’intérieur d’une espèce, il y a des traits communs (morphologiques et foncDonnels) et des varia4ons individuelles, tous les deux héréditaires
• Tous les deux sont associés avec les gènes, véritable mémoire cellulaire, localisée dans le noyau
• Les gènes sont disposés linéairement sur les chromosomes, structures complexes associant l’ADN, polymère de 4 signaux portant l’informaDon dans leur séquence et de protéines permeUant la compacDon de l’ADN (1, 80 m de long)
• L’informaDon circule de l’ADN vers les protéines dont la séquence est codée par les gènes: un gène, une protéine
• Le mécanisme de ceUe circulaDon forme le dogme central
Résumé des cours précédents (2)
• L’informaDon de l’ADN est la même dans toutes les cellules et elle est répliquée de cellule en cellule (système de haute fidélité)
• Dans une cellule donnée, un nombre limité de gènes est exprimé; l’ADN correspondant est transcrit en ARN messager
• La séquence de l’ARN messager est traduite en séquence d’acides aminés composant une protéine, selon un code universel: un gène, une protéine
• La traducDon se fait au niveau de complexes de protéines et d’ARN, les ribosomes
Résumé des cours précédents
Les méthodes de la généDque moléculaire (1)
• Beaucoup de méthodes sont basées sur la complémentarité des bases des deux brins de l’ADN
• La base purique A est associée à la base pyrimidique T et de même G avec C
• Les deux brins sont an4parallèles (enchainements sucres phosphates)
• Ils portent la même informaDon
Résumé des cours précédents Les enzymes de restricDon (2)
Les généDciens fragmentent l’ADN à des sites bien définis à l’aide des enzymes de restric4on: la coupure dépend de la séquence; avec des ligases on fait du couper-‐coller
Résumé des cours précédents La PCR (Polymerase Chain ReacDon) (3)
Un fragment d’ADN peut être recopié (amplifié) par recopie par l’ADN polymérase
Résumé des cours précédents Les puces à ADN (4)
Les puces à ADN sont basées sur le principe de l’hybrida4on (complémentarité) d’un ADN ou ARN à tester à une collecDon de séquences immobilisées
Résumé des cours précédents La méthode de séquençage de Sanger (5)
La méthode est limitée par la résoluDon des gels d’électrophorèse à 100 à 500 bases
Le programme du jour La génomique: avoir une vue d’ensemble du
foncDonnement du génome
• Le séquençage du génome humain
• Les nouvelles méthodes de séquençage de masse
• La vision du génome humain en 2012
-‐1-‐ Le séquençage du génome humain
Le projet Human Genome Project Le projet Celera Genomics
L’historique du projet HGP
• En supposant voisines les séquences d’une paire de chromosomes, l’objecDf est le séquençage de 22 chromosomes plus les chromosomes X et Y, esDmé à plus de 3 x 109 bases
• En 1985, le chancelier de l’Université de Californie (Santa Cruz) discute le projet avec 12 biologistes; ils concluent à la possibilité de réussir mais sont divisés sur l’opportunité
• La communauté est divisée (discovery science vs hypothesis driven approaches)
• L’Académie des Sciences reprend le débat en 1988 et le Comité après un débat d’un an souDent le projet
• Le programme sera lancé en 1990 avec un souDen financier de $ 3 milliards du Département de l’Energie et des NIH, le but étant la séquence du génome en 2005 (15 ans)
• Le premier Directeur est J Watson, qui insiste pour un consorDum internaDonal
Progression du projet
• Le projet HGP est le premier projet « lourd » de la biologie
• Selon les recommandaDons, il devait ne pas se limiter au génome humain
• J Watson avait insisté sur les contraintes éthiques
• Par exemple, tous les fragments de séquence ont été publiés dés leur obtenDon
• En 1998, un projet concurrent a été lancé par le privé « Celera, Craig Venter », forçant le consorDum à accélérer
• Une première ébauche a été publiée en 2001 et le projet fini en 2004
ConsorDum
• Whitehead InsDtute (Cambridge, USA)
• The Sanger Center (Cambridge, GB)
• Washington University (USA) • Baylor College (USA) • RIKEN (Japon) • Genoscope (France) • Beijing Genomics InsDtute (Chine) • Max Planck for Molecular GeneDcs
(Allemagne) • Department of Molecular Biology,
Keio University (Japan) • ….
• J Watson a voulu un effort internaDonal de la recherche académique
• La gesDon du projet a impliqué une coordinaDon des efforts, depuis la préparaDon des échanDllons (donneurs anonymes, sang ou sperme) jusqu’à la distribuDon des construcDons à séquencer
• Après des tests de faisabilité, le séquençage de masse a commencé en 1995
• L’arrivée de C Venter a fait préférer la publicaDon d’une ébauche avant la publicaDon définiDve
La stratégie: Hierarchical shotgun sequencing
• L’idée du consorDum est d’ordonner des grands fragments avec recouvrement
• BAC: Bacterial ArDficial Chromosomes (≈ 30 000)
• CeUe stratégie a été choisie car le génome humain comporte de nombreuses répéDDons (50%)
• C’était le premier génome avec autant de répéDDons
• Les fragments ordonnés ont ensuite été distribués
Les méthodes de séquençage (1)
• La méthode de base reste la méthode de Sanger
• Mais nombreuses amélioraDons techniques pendant le projet
• Le but est d’automaDser la méthode
• Les « terminateurs » sont fluorescents et la lecture se fait par des laser à plusieurs couleurs
• Le nombre de pistes d’électrophorèse est mulDplié
Les méthodes de séquençage (2)
• Certains laboratoires (Whitebread, Boston) construisent des plates-‐formes roboDsées
• En juin 2000, les centres produisent un génome humain enDer en 6 semaines, soit 1 000 nucléoDdes par s, 24 h par jour, 7 jours sur 7
• A la fin, 23 Giga pb, soit une couverture de 7, 5 fois le génome
• Une amélioraDon importante: chaque base est doté d’un score de qualité
L’assemblage des séquences (1) la méthodes FISH
CeUe méthode permet de placer une séquence sur un chromosome
Une variante esthéDque : la méthode SKY
• Le principe est le même: des sondes permeUent l’idenDficaDon des chromosomes
• La méthode est uDlisée pour idenDfier des translocaDons: transfert d’un fragment de chromosome sur un autre chromosome
(Schröck et al (1996) Science,273, 494)
L’assemblage des séquences (2)
• Toutes les séquences (environ 25 000) sont alignées par chromosome (points)
• En ordonnée, on porte les posiDons sur le chromosome (FISH) ou sur la carte généDque
• On contrôle la linéarité • Les points en haut sont des
séquences erronées, placées sur un autre chromosome
Les résultats : Nature (2001), 409, 860-‐917
• Exemple de données de séquençage • Différentes informaDons sont indiquées dont les gènes • La couverture est de 90% de l’euchromaDne; il y a 250 000 trous
Le projet Celera: Whole-‐genome shotgun sequencing strategy
• La stratégie ne fait pas appel à une étape de fragments avec recouvrement
• Trois types de banques de fragments sont préparés, qui sont séquencés directement
• Le nombre de fragments est calculé pour couvrir le génome 6, 3 et une fois
• Il est alors possible d’assembler une séquence
• Le résultat a été publié dans Science, la semaine de la publicaDon de Nature
• Le projet a pris 3 ans, mais il a uDlisé les résultats du ConsorDum (Venter et al (2001) Science,291, 1304-‐1350)
-‐2-‐ Les nouvelles méthodes de séquençage de masse
Quelques exemples des développements technologiques induits par le projet HGP
Nouvelle généraDon de séquençage (NGS) Une logique différente: séquençage massivement parallèle
• Dans la méthode de Sanger, les échanDllons sont préparés par inserDon dans des bactéries et clonage
• Les électrophorèses ne permeUent pas un parallélisme massif (<400)
• Dans les NGS, on dépose de très nombreux fragments (106) qui sont analysés cycliquement
• Les analyses sont plus nombreuses, mais aussi plus courtes
(Shendure and Ji (2008) Nature Biotech, 26, 1135)
Une étape criDque: la préparaDon des échanDllons (1, Roche 454)
• Une soluDon est d’ajouter à la collecDon de fragments d’ADN des amorces pour la PCR et des billes (≈ 1 µ) portant une amorce, ainsi que l’ADN polymérase
• Le mélange est fait dans une émulsion avec une diluDon donnant un fragment par gouUe
• Après amplificaDon, on a des billes liant des collecDons homogènes de fragments d’ADN
• On prépare ainsi des collecDons (millions) de billes différentes: on parle de « polonies »
Une étape criDque: la préparaDon des échanDllons (2, Illumina Solexa)
• Une autre méthode est d’amplifier (PCR) sur une lame sur laquelle sont fixés les amorces
• Un fragment va s’apparier, puis sera copié; la copie est maintenant liée au substrat; après dénaturaDon, elle va s’apparier (pont) à la seconde amorce, permeUant une nouvelle polymérisaDon…
Séquençage et imagerie 1, Roche 454: bioluminescence
• Après rupture de l’émulsion et transfert des fragments sur des billes de 30 µ, ces dernières sont mises dans une plaque PTP (PicoTiterPlate), obtenue à parDr d’une fibre opDque: une bille par puits
• Les réacDfs sont amenés par microfluidique • L’ADN polymérase copie l’ADN et libère du
pyrophosphate; par des enzymes annexes, celui-‐ci est converD en ATP qui donne une émission de bioluminescence avec la luciférase de luciole,
• On amène un nucléoDde à chaque cycle et on lit les émissions dans chaque puits
• On fait ≈ 400 000 lectures de 200 à 300 pb à chaque fois
(Margulies et al (2005) Nature, 437, 376)
Séquençage et imagerie 2, Illumina Solexa: terminateur réversible
• Les « polonies » apparaissent comme des spots ≈ 1µ, avec des ADN homogènes
• On recopie à parDr d’une amorce avec l’ADN polymérase; à chaque cycle, on ajoute des analogues des 4 nucléoDdes, bloqués en 3’ (terminateurs) et fluorescents
• Après lavage, on lit la fluorescence, puis on fait sauter la foncDon bloquante et la fluorescence
• On redémarre un nouveau cycle • On effectue plus de 100 millions de
lectures d’environ 35 pb
(Bentley et al (2008) Nature, 456, 53)
La chimie des terminateurs réversibles
• A la différence de la technique de Sanger, beaucoup de ces approches procèdent conDnument, par cycles
• Il faut donc introduire un marqueur fluorescent et un bloquant de manière réversible
• Dans la technique Illumina, deux azido ont été introduits
• Les liaison sont photosensibles • La technique a demandé de
muter l’ADN polymérase pour qu’elle uDlise ces molécules
Une technique par molécule unique en conDnu Pacific Biosciences
• C’est l’ADN polymérase qui est immobilisée (une molécule/puits)
• L’enzyme copie la matrice avec des nucléoDdes fluorescents sur le groupe non-‐intégré (leaving group)
• La lecture se fait dans un volume très peDt (guide d’ordre zéro)
Les méthodes du futur: l’uDlisaDon de nanopores
• Des canaux traversant les membranes biologiques permeUent le passage d’ADN; dans un montage à deux comparDments et avec une différence de potenDel, le passage des ions est bloqué pendant la translocaDon de l’ADN; pas d’effet séquence net
• On lie une ADNase au pore; les nucléoDdes libérés traversent le pore avec des vitesses différentes: possibilité de développement
(Branton et al (2008) Nature Biotechnology, 26, 1146)
Comparaison des méthodes
(Metzker (2010) Nature Rev Genet, 11, 31)
Pourquoi cet effort? (1)
• Le génome a déjà été séquencé
• Mais, votre génome n’est pas le mien: recherche des variaDons individuelles
• Re-‐séquençage rapide, avec minimum de difficultés d’assemblage
• Beaucoup de quesDons se posent: – Comment repérer les gènes codant pour des protéines?
– Quelles sont les séquences transcrites en ARN mais non traduites en protéines (par exemple, microARN) ?
– Où sont les séquences régulatrices liant les facteurs de transcripDon?
Pourquoi cet effort? (2)
– Comment se réparDssent les nucléosomes et quelles histones portent-‐ils? Comment régulent-‐ils la lecture des gènes?
– Où sont les dinucléo4des GC méthylés qui sont des marques épigénéDques importantes?
• Des approches par des puces ADN ciblées existent pour la plupart de ces quesDons
• Par exemple, on peut chercher dans une cellule quel ARN est exprimé, par complémentarité avec des gènes immobilisés
• Mais le séquençage ne fait pas d’hypothèses et donne une vue globale
• A la suite du développement des méthodes de séquençage, des projets sont apparus: RNA-‐seq, ChIP-‐seq, …
L’exemple ChIP-‐seq
• La chromaDne est fragmentée à l’aide d’une ADNase coupant les séquences de liaison
• On uDlise des anDcorps dirigés contre les protéines (histones et non histones) pour enrichir une fracDon parDculière
• On récupère l’ADN et on séquence massivement, avec les méthodes de nouvelle généraDon
La vision du génome humain en 2012
Quelles informaDons sont dans le génome ?
Le site UCSC Genome Browser
• A la suite de la publicaDon des résultats du HGP, tous les résultats sont accessibles en ligne.
• Ils sont stockés au NaDonal Center for Biotechnology (hUp://www.ncbi.nlm.nih.gov)
• Les résultats obtenus doivent être homogénéisés. Les séquences validées (séquences de référence) sont des RefSeq
• Pour travailler sur ceUe masse de données, il existe des logiciels ouverts, dont celui de l’Université de Californie Santa Cruz (hUp://genome.ucsc.edu/)
• Les séquences couvrent maintenant 99,7% du génome euchromaDque avec un taux d’erreur de 1/100 000 b; 200 Mb d’hétérochromaDne ne sont pas couverts
Le chromosome 9
• La première trace montre le chromosome et ses bandes • La seconde indique la fréquence des séquences codant des protéines • L’interrupDon correspond à l’hétérochromaDne du centromère
La Dopamine β-‐Hydroxylase sur le chromosome 9
• Le premier schéma donne la posiDon sur le chromosome • La séquence ADN est interrompue par 12 introns; la longueur du gène est de 22 982 bases dont 1830 sont codantes (1830:3=610 acides aminés) • La figure montre aussi les sites de liaison des facteurs de transcripDon et des nucléosomes, ainsi que les parentés avec les vertébrés
L’extrémité N-‐terminale de la DBH
• A ceUe échelle, on voit les bases et leur traducDon en acides aminés • Au démarrage, on voit une zone sensible à l’ADNase (pas de nucléosome) et un site de liaison d’un facteur de transcripDon
Données génomiques
Quelles informaDons générales donne le séquençage du génome?
Génome et protéines (1) • Comme nous l’avons vu sur le chromosome 9, il y a une
hétérogénéité de distribuDon avec les zones riches et des « déserts »
• Une première surprise a été le nombre limité de gènes codant des protéines: environ 21 000 (chiffre de 2007)
• Les chiffres iniDalement proposés en 2001 tournaient entre 30 et 40 000 (difficulté d’idenDfier une séquence codante, efforts par l’ARNm, RNAseq)
• Du point de vue évoluDf, pas de corrélaDon entre taille du génome et nombre de gènes: – C elegans : 103 cellules; génome: 0, 1 Gb; 21 000 gènes – Drosophile: 50 103 cellules; génome: 0,18 Gb; 22 000 gènes – Souris: 1011 cellules; génome: environ 2,7 Mb; 25 000 gènes
• La complexité humaine n’apparaît pas dans le nombre de gènes de protéines
Génome et protéines (2) • Non seulement, le nombre de
gènes varie peu, mais la séquence est très conservé
• Le tableau montre la conservaDon des séquence codant des protéines chez les vertébrés
• On considère 65% des gènes codant des protéines ont des orthologues 1:1 chez les autres vertébrés placentaires (90 millions d’années)
• Parmi les autres, beaucoup dérivent de séquences dupliquées
• L’invenDon de nouvelles protéines est rare
Colonne 1: ConservaDon globale du génome; colonne2: conservaDon des séquences codant des protéines
Génome et protéines (3)
• Si le nombre de gènes codant pour des protéines est faible, le nombre de protéines est beaucoup plus grand
• Plus de 90% des protéines implique un épissage
• Il existe souvent plusieurs manières d’assembler les exons, variables avec le Dssu
• Une protéine est souvent un assemblage de modules (domaines)
• On complique une architecture en ajoutant des domaines
Nombre d’architectures différentes
Génome et protéines (4) Deux anecdotes
• Pseudogènes: ce sont des séquences non codantes analogues de séquences codantes
• Souvent, elles ne possèdent pas d’introns • Elles sont interprétées comme des ARNm recopiés par la
transcriptase reverse et intégrées dans l’ADN par un rétrotransposon
• Monoamine oxydases (MAO): ces enzymes importantes du métabolisme des neurotransmeUeurs sont localisées sur la membrane externe des mitochondries
• Elles proviendraient d’un transfert horizontal de gènes avec les bactéries; elles n’existent pas chez les invertébrés
Structure de la chromaDne (1)
• Les informaDons obtenues par ChIP-‐Seq permeUent de déchiffrer le contrôle de l’acDvité des gènes par la chromaDne
• Le promoteur correspond à un pic d’histone 3 lysine 4 triméthylée (H3K4me3), un double pic de H3K4me1, à un site de liaison de l’ARN polymérase (RNAPII) et à une zone de sensibilité à l’ADNase
(Hawkins et al (2010) Nature Rev Genet,11, 476)
Structure de la chromaDne (2)
• La figure montre trois promoteurs acDfs, définis par leur code histone
• Les deux premiers permeUent l’expression de protéines (séquence du gène: bleu; de la protéine gris foncé)
• Le troisième correspond à une transcripDon en ARN non codant (en rouge)
• En gris clair, une séquence de protéine qui n’est pas exprimée car le promoteur est inacDf
(Lander, ES (2011), Nature,470, 187)
Que conDent le génome ?(1) Les éléments répétés
• Une grosse difficulté du projet HGP a été l’existence de séquences répétées représentant plus de 50% du génome
• Une parDe importante de celles-‐ci est représentée par des éléments de type transposons ou rétransposons
• Certains sont encore mobiles et ils parDcipent à la dynamique du génome
• D’autres sont des fossiles, uDles poursuivre l’évoluDon du génome
Que conDent le génome ?(2) Une surprise, les CNE (Conserved Noncoding Elements
• Avec des hypothèses, il possible de connaître la vitesse de mutaDon d’une séquence « neutre » et donc de dater un génome
• La comparaison de l’homme avec la souris, puis le rat et le chien a montré qu’une fracDon (6%) du génome humain évoluait peu et avait donc une foncDon bien qu’elle ne codât pas pour des protéines; 500 NCE sont ultraconservés sur 200 bases ou plus
• En rouge, séquence codantes en bleu, CNE, souvent dans des déserts avec parfois des gènes de développement
OrganisaDon du génome (1) Une souris qui bouge
• Le séquençage du génome de la souris (Nature, 2002) a montré une conservaDon forte des séquences d’ADN (38%) et de leur ordre sur le chromosome à moyenne échelle
• Mais il y a de nombreuses translocaDons
• La figure montre un caryotype humain et le code couleurs indique le chromosome de la souris sur lequel on trouve le segment
OrganisaDon du génome (2) Qui sont mes voisins?
• Des cellules sont fixées par le formol qui réDcule les protéines voisines sur la chromaDne
• Après restricDon et ligaDon, les ADN voisins (rouge et bleu) sont massivement séquencés
• Les résultats sont exprimés comme des matrices pour des fragments d’une Mb
• Les proximités sont d’abord intrachromosomale, puis sont associées les régions de chromaDne ouverte sur les chromosomes acDfs
(Liebermann-‐Aiden et al (2009) Science, 326, 289)
OrganisaDon du génome (3) Qui sont mes voisins?
• A parDr de la théorie des polymères, il avait été proposé un repliement en « equilibrium globule » (polymère dans un mauvais solvant)
• Les auteurs proposent une structure en « fractal globule » avec une organisaDon qui se développe à parDr d’un collier de perles
VariaDons individuelles du génome (1) L’origine des traits héréditaires
• Les variants généDques sont classés selon la taille de l’élément modifié • On ne peut plus parler de « sauvage » et de « mutants » mais de fréquence rela4ve d’un variant
VariaDons individuelles du génome Les minisatellites (1)
• Ce sont des séquences de 500 à 20 000 pb qui sont présentes à des sites bien définis
• La composiDon de ces séquences est constante, seul leur nombre est variable d’un individu à un autre
• Chaque minisatellite existe à plusieurs loci (2-‐50)
• L’hétérogénéité est différente à chaque locus
VariaDons individuelles du génome Les minisatellites: empreinte ADN (2)
• Les minisatellites sont uDlisés pour définir les empreintes d’ADN
• A l’aide d’adaptateurs, on amplifie par PCR les régions contenant le satellite
• Des gels d’électrophorèse permeUent ensuite de séparer les satellites par leur taille
• On montre que si on uDlise 24 loci, la probabilité d’avoir des profils idenDques est de 1/ 17.109
VariaDons individuelles du génome SNP, Single NucleoDde Polymorphisme (1)
• Il s’agit d’une variaDon (remplacement) d’une base à une posiDon donnée
• Dans une séquence codante, cela peut changer un acide aminé (staDsDquement rare)
• Trois génomes individuels ont été séquencés complètement, ceux de J Watson, de C Venter et d’un chinois
• La figure a montre en bleu, jaune et rose les variaDons spécifiques aux individus (≈ 106)
• La figure b montre les variaDons d’acides aminés
VariaDons individuelles du génome SNP, Single NucléoDde Polymorphisme (2)
• Les SNP sur le génome ( chromosome 7); la trace SNPs CEU correspond à la somme de tous les SNP pour des individus européens
• Au niveau d’un individu, les SNP ne sont pas régulièrement espacés • La carte des SNP d’un individu est son génotype • Le projet HapMap a établi en 2005 le génotype de 269 individus de 5
populaDons (séquençage massif)
SNP, Single NucléoDde Polymorphisme (3) L’existence de génotypes
• Le projet HapMap a eu un résultat surprenant
• Un SNP est parfaitement corrélé à plusieurs voisins et parDellement corrélé à beaucoup d’autres
• La distribuDon des 36 SNP de l’exemple correspond à seulement 7 haplotypes
• Deux explicaDons: le génome humain est jeune et nous sommes tous parents
• Vitesse de recombinaison variable en foncDon de la posiDon
( InternaSonal HapMap consorSum (2005) Nature,437, 1299)
Maladies héréditaires La voie classique
• Pour rechercher le gène impliqué dans une maladie héréditaire, on doit travailler sur la généalogie de la famille: mandélien ou non, récéssif ou non, lié au sexe, ..
• Sur la figure, hémophilie portée par le X dans la famille royale anglaise
• CeUe démarche est lente et nécessite des grandes familles
• La démarche a été faite sur la populaDon islandaise qui a une généalogie très ancienne
SNP, Single NucléoDde Polymorphisme (4) L’associaDon du génotype avec les maladies
• L’ensemble de l’espèce humain est considérée comme une famille, chacun avec son haplotype
• Pour une une maladie, on cherche les associaDons avec des haplotypes, qui pointent vers des loci sur le chromosome
• Genome-‐Wide Associa4on Studies (GWAS)
• CeUe approche a été appliquée aux maladies rares monogéniques, mais aussi aux maladies communes polygéniques
• PraDquement, puces avec > 5.105 SNP
Maladie de Crohn: 71 loci apparaissent
Le génome de l’homme de Néandertal (1)
• Des fragments d’os trouvés dans une caverne de CroaDe datés de 40 000 ans ont été analysés
• 95 à 99% de l’ADN est bactérien • DégradaDon chimique de C en
U
• 4 Gigab ont été lues avec une contaminaDon moyenne de 0,7% par l’ADN moderne
• Alignement avec génome humain et chimpanzé
(Green et al (2010) Science,328, 710)
Le génome de l’homme de Néandertal (2)
• Après avoir quiUé l’Afrique, nos ancêtre européens ont rencontré Néandertal et des mélanges de populaDons ont eu lieu
• 4% de notre génome proviendrait de Néandertal
• La comparaison des génomes permet des hypothèses sur ceux de nos gènes qui ont été sélecDonnés
• Parmi ceux-‐ci, des gènes impliqués dans la morphologie crânienne et dans les capacités cogniDves
Conclusions (1)
• Après le séquençage du génome humain, la généDque a changé d’ère
• Sur le plan des moyens, elle a rejoint une certaine physique qualifiée de « Big Science ». Les projets en cours et les invesDssements technologiques indiquent que ce n’est pas une mode
• Une conséquence est la formaDon de consorDum internaDonaux de chercheurs; une autre est la publicité des résultats déposés dans des banques
Conclusions (2)
• Le séquençage a produit trois « scoops »: – Le faible nombre de gènes codant des protéines
– L’existence d’ARN non codants, conservés (les CNE) – L’existence de génotypes discrets
• Ces nouvelles données ont eu des applicaDons immédiates: 2 850 gènes de maladies rares Mandéliennes idenDfiés; 1 100 loci affectant des maladies courantes polygéniques
• La principale conséquence est la transformaDon de la généDque (et de la biologie): les Américains parlent du passage « Hypothesis-‐driven » à « Discovery Science »
• Y-‐a-‐t-‐il une place pour la physique dans ceUe évoluDon?