prof. n. boukhatemgenetiquefondamentale.e.g.f.unblog.fr/files/2016/12/cours-de-genomique... ·...
TRANSCRIPT
Vue d'ensemble de diverses cartes génomiques par rapport à la séquenced'ADN génomique. Les cartes représentent différents niveaux de résolutionpour décrire un génome en utilisant des marqueurs génétiques. Les cartescytologiques sont obtenus au microscope. Les cartes génétiques (barre grise)sont obtenues par des expériences de croisement dans lesquelles lesrecombinaisons chromosomiques sont analysées. Les cartes physiques sontobtenues à partir de clones se chevauchant Identifiés par hybridation desfragments clones (barres grises) avec des sondes courantes (astérisques gris).
Comparaison schématiquedes deux approches deséquençage complet dugénome.1. L'approche complèteshotgun: on coupe l'ADN enfragments ~ 2 kB, qui sontclonés En petits vecteurs etséquencés individuellement.Les fragments séquencéssont ensuite rassemblés enune séquence finale en uneétape.2. L'approche hiérarchique :on coupe l'ADN enfragments de tailleintermédiaire (~ 150 kB). Lesfragments d'ADN sontclonés dans des BAC. Unecarte physique doit êtreconstruite sur la base desclones BAC. Chaque cloneBAC est ensuite soumis àl'approche shotgun.
Diagramme schématique montrant trois niveaux différents d'assemblage deséquences. Les contigs sont formés en combinant des lectures de séquencebrutes de diverses orientations après suppression des chevauchements.Échafaudages: Sont assemblés à partir de contigs et orientés unidirectionnellement sur un chromosome. Parce que les fragments deséquence générés peuvent être dans l'un ou l'autre des brins d'ADN, desflèches sont utilisées pour représenter la direction d’écritures desséquences qui sont écrites dans l’orientation 5’ → 3’.
Exemple d‘assemblage de séquences avec ou sans application d'unecontrainte forward/revers, qui fixe la distance de séquence entre lesdeux extrémités d'un sous-clone. Sans la retenue de cette contrainte, lefragment rouge estmal assemblé en raison de la présence d'élément répétitif au milieu dufragment.
La longueur moyenne des lectures est d'environ 500bases.
Assembler un ensemble de séquence génomique, cesfragments courts sont joints pour former des fragmentspuis on enlève les chevauchementsCes séquences plus longues fusionnées sont appeléescontigs, qui sont généralement de 5 000 à 10 000 bases delong.
Un certain nombre de contigs qui se chevauchentpeuvent être fusionnées pour former des échafaudages (30000-50 000 bases, également appelées supercontigues),qui sont unidirectionnellement orienté le long d'une cartephysique d'un chromosome.
Les échafaudages chevauchants sont ensuite connectéspour créer la carte finale la plus précise du Génome.
Appels de base et programmes d'assemblagePhred (www.phrap.org/) est un programme UNIX pour lesappels de base.
Phrap (www.phrap.org/) est un programme UNIX pourl'assemblage de séquences.
VecScreen (www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html)est un site Web dont le programme aide à détecter lesséquences de vecteurs bactériens contaminants les séquences.
TIGR Assembler (www.tigr.org/) est un programme UNIX deTIGR pour l'assemblage de gros fragments de séquenceprovenant de shotgun.
ARACHNE (www-genome.wi.mit.edu/wga/) est un programmeUNIX gratuit pour l'assemblage de lectures de de génome entierà partir de séquences shotgun.
Avant que la séquence assemblée ne soitdéposée dans une base de données, elle doitêtre analysée pour des caractéristiquesbiologiques utiles.
Le processus d'annotation du génomefournit des commentaires sur lesfonctionnalités des gènes
Cela implique deux étapes: prédiction etaffectation fonctionnelle des gènes
Annotation du Génome
Une fois le séquençage et l’assemblage du génome
d’un organisme achevé, 2 principales questions :
1) Où sont les gènes et comment sont-ils distribués ?
Distinguer gènes et éléments transposables
Annotation structurale
2) Quelle est la fonction de ces gènes ?
Annotation fonctionnelle
Annotation génétique du génome humainprédiction théorique et vérification expérimentale
Les structures des gènes prédites par desprogrammes de prédiction des exon (GenScan ouFgenesH)
Les prédictions sont vérifiées par des recherchesBLAST sur une base de données de séquences.
Les gènes prédits sont comparés avec desséquences d'ADNc et de EST déterminéesexpérimentalement (GeneWise, Spidey, SIM4 etEST2Genome)
Principales Etapes de l’Annotation du Génome
Prédictions sont contrôlées manuellementpar des curateurs humains.
Cadres de lecture ouverts déterminés etattribution fonctionnelle des protéines codées(recherche d'homologie BLAST sur base dedonnées de protéines)
D'autres descriptions fonctionnelles:recherche des motifs de protéines dans basesde données de domaines (Pfam; InterPro )
Principales Etapes de l’Annotation du Génome
Gène prédit fonctionnel Structure complète
Codon initiateur M (ATG)Stop codon TAA, TAG or TGAGT (GC) / AG splicing sitePas de stop dans les exons prédits
Pseudogene (non fonctionnel) Structure NON complete
missing_acceptormissing_donormissing_start_codonmissing_stop_codonmultiple_stop_in_frame
● Ou sont les gènes?● Les prédictions sont basées sur la structure
(motifs, signatures ): intron, exon, splice site, UTR.
Gene
StopGT AG
CDS (CoDing Sequence)
ATG
Exon1 Exon2
Annotation automatique
Deux méthodes d'annotation automatique :
1. Méthodes intrinsèques (ab-initio)
2. Méthodes extrinsèques
-Basée uniquement sur des analyses informatiques avec des modèles statistiques
-Modèles probabilistes (Hidden Markov Models - Modèles de chaîne de Markov cachées - HMM) pour faire la distinction entre les régions codantes et non-codantes du génome
- Besoin d'un set d'entraînement de gènes annotés pour être efficace "apprentissage"
1. Méthode intrinsèque d'annotation automatique
Exemples de logiciels de prédiction des gènes
Plantes: GeneMark.HMMGeneFinderEugeneFgeneSHGlimmerAAugustus
Animaux:GenieHMMgeneMagPieGenIDGrail
Humain:GenescanGeneFinderGeneWise
Outils d'annotation automatique des gènes
Annotation...agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttaggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggtaacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggtacatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtggcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcgcaattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaaatgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgctgagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccgactactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcgatgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcctcaagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatggtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtgcgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcaccttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcgaccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaaagctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagccaaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctgcgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaacgttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagacgaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgtgaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctgcccgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctctttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctgttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgctgatctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacctgttgatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttatcagtgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcgctgatggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgttt
agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttaggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggtaacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggtacatcagtggcaaatgcagaacgttttctgcgtgttgctaatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtggcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcgcaattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaaatgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgctgagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccgactactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcgatgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcctcaagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatggtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtgcgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcaccttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcgaccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaaagctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagccaaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctgcgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaacgttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagacgaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgtgaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctatgcgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctctttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctgttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgctgatctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacctgttgatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttatcagtgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcgctgatggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgttttctcggtggtatgcagttgatgatcgaagaaaacgacatcatcagccagcaagtgccagggtttgatgagtggctgtgggtgctggcgtatccggggattaaagtctcgacggcagaagccagggctattttaccggcgcagtatcgccgccaggattgcattgcgcacgggcgacatctggcaggcttcattcacgcctgctattcccgtcagcctgagcttgccgcgaagctgatgaaagatgttatcgctgaaccctaccgtgaacggttactgccaggcttccggcaggcgcggcaggcggtcgcggaaatcggcgcggtagcgagcggtatctccggctccggcccgaccttgttcgctctgtgtgacaagccggaaaccgcccagcgcgttgccgactggttgggtaagaactacctgcaaaatcaggaaggttttgttcatatttgccggctggatacggcgggcgcacgagtactggaaaactaaatgaaactctacaatctgaaagatcacaacgagcaggtcagctttgcgcaagccgtaacccaggggttgggcaaaaatcaggggctgttttttccgcacgacctgcc
ggaattcagcctgactgaaattgatgagatgctgaagctggattttgtcacccgcagtgcgaagatcctctcggcgtttattggtgatgaaatcccacaggaaatcctggaagagcgcgtgcgcgcggcgtttgccttcccggctccggtcgccaatgttgaaagcgatgtcggttgtctggaattgttccacgggccaacgctggcatttaaagatttcggcggtcgctttatggcacaaatgctgacccatattgcgggtgataagccagtgaccattctgaccgcgacctccggtgataccggagcggcagtggctcatgctttctacggtttaccgaatgtgaaagtggttatcctctatccacgaggcaaaatcagtccactgcaagaaaaactgttctgtacattgggcggcaatatcgaaactgttgccatcgacggcgatttcgatgcctgtcaggcgctggtgaagcaggcgtttgatgatgaagaactgaaagtggcgctagggttaaactcggctaactcgattaacatcagccgtttgctggcgcagatttgctactactttgaagctgttgcgcagctgccgcaggagacgcgcaaccagctggttgtctcggtgccaagcggaaacttcggcgatttgacggcgggtctgctggcgaagtcactcggtctgccggtgaaacgttttattgctgcgaccaacgtgaacgataccgtgccacgtttcctgcacgacggtcagtggtcacccaaagcgactcaggcgacgttatccaacgcgatggacgtgagtcagccgaacaactggccgcgtgtggaagagttgttccgccgcaaaatctggcaactgaaagagctgggttattaagccgtggatgatgaaaccacgcaacagacaatgcgtgagttaaaagaactgggctacacttcggagccgcacgctgccgtagcttatcgtgcgctgcgtgatcagttgaatccaggcgaatatggcttgttcctcggcaccgcgcatccggcgaaatttaaagagagcgtggaagcgattctcggtgaaacgttggatctgccaaaagagctggcagaacgtgctgatttacccttgctttcacataatctgcccgccgattttgctgcgttgcgtaaattgatgatgaatcatcagtaaaatctattcattatctcaatcaggccgggtttgcttttatgcagcccggcttttttatgaagaaattatggagaaaaatgacagggaaaaaggagaaattctcaataaatgcggtaacttagagattaggattgcggagaataacaaccgccgttctcatcgagtaatctccggatatcgacccataacgggcaatgataaaaggagtaacctgtgaaaaagatgcaatctatcgtactcgcactttccctggttctggtcgctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggctggtggaaacaacattatgaatggcgaggcaatcgctggcacctacacggaccgccgccaccgccgcgccaccataagaaagctcctcatgatcatcacggcggtcatggtccaggcaaacatcaccgctaaatgacaaatgccgggtaacaatccggcattcagcgcctgatgcgacgctggcgcgtcttatcaggcctacgttaattctgcaatatattgaatctgcatgcttttgtaggcaggataaggcgttcacgccgcatccggcattgactgcaaacttaacgctgctcgtagcgtttaaacaccagttcgccattgctggaggaatcttcatcaaagaagtaaccttcgctattaaaaccagtcagttgctctggtttggtcagccgattttcaataatgaaacgactcatcagaccgcgtgctttcttagcgtagaagctgatgatcttaaatttgccgttcttctcatcgaggaacaccggcttgataatctcggcattcaatttcttcggcttcaccgatttaaaatactcatctgacgccagattaatcaccacattatcgccttgtgctgcgagcgcctcgttcagcttgttggtgatgatatctccccagaattgatacagatctttccctcgggcattctcaagacggatccccatttccagacgataaggctgcattaaatcgagcgggcggagtacgccatacaagccggaaagcattcgcaaatgctgttgggcaaaatcgaaatcgtcttcgctgaaggtttcggcctgcaagccggtgtagacatcacctttaaacgccagaatcgcctggcgggcattcgccggcgtgaaatctggctgccagtcatgaaagcgagcggcgttgatacccgccagtttgtcgctgatgcgcatcagcgtgctaatctgcggaggcgtcagtttccgcgcctcatggatcaactgctgggaattgtctaacagctccggcagcgtatagcgcgtggtggtcaacgggctttggtaatcaagcgttttcgcaggtgaaataagaatcagcatatccagtccttgcaggaaatttatgccgactttagcaaaaaatgagaatgagttgatcgatagttgtgattactcctgcgaaacatcatcccacgcgtccggagaaagctggcgaccgatatccggataacgcaatggatcaaacaccgggcgcacgccgagtttacgctggcgtagataatcactggcaatggtatgaaccacaggcgagagcagtaaaatggcggtcaaattggtaatagccatgcaggccattatgatatctgccagttgccacatcagcggaaggcttagcaaggtgccgccgatgaccgttgcgaaggtgcagatccgcaaacaccagatcgctttagggttgttcaggcgtaaaaagaagagattgttttcggcataaatgtagttggcaacgatggagctgaaggcaaacagaataaccacaagggtaacaaactcagcaccccaggaacccattagcacccgcatcgccttctggataagctgaataccttccagcggcatgtaggttgtgccgttacccgccagtaatatcagcatggcgcttgccgtacagatgaccagggtgtcgataaaaatgccaatcatctggacaatcccttgcgctgccggatgcggaggccaggacgccgctgccgctgccgcgtttggcgtcgaacccattcccgcctcattggaaaacatactgcgctgaaaaccgttagtaatcgcctggcttaaggtatatcccgccgcgccgcctgccgcttcctgccagccaaaagcactctcaaaaatagaccaaatgacgtggggaagttgcccgatattcattacgcaaattaccaggctggtcagtacccagattatcgccatcaacgggacaaagccctgcatgagccgggcgacgccatgaagaccgcgagtgattgccagcagagtaaagacagcgagaataatgcctgtcaccagcgggggaaaatcaaaagaaaaactcagggcgcgggcaacggcgttcgcttgaactccgctgaaaattatgccataggcgatgagcaaaaagacggcgaacagaacgcccatccagcgcatccccagcccgcgcgccatataccatgccggtccgccacgaaactgcccattgacgtcacgttctttataaagttgtgccagagaacattcggcaaacgaggtcgccatgccgataaacgcggcaacccacatcca
Exon 1
Exon 2
Exon 3
Exon 4
Start
Stop polyA
TF binding site
TATA Box
ADNg
Protéine
AlignementADNg - Protéine
AlignementADNg - ADNc
ADNc ADNg
AlignementADNg - ADNg
Approche comparative basée sur les similarités de séquences-> la séquence à annoter est comparée aux bases de données
3 types de comparaison
2. Méthodes extrinsèques
L'annotation fonctionnelle sera toujours déduite des similarités (homologies) avec les éléments prédits dans les bases de données
sequence (query)
target (Subject)
database
BLASTN nucleotide nucleotide NR , EST, genomes
BLASTX translated nucleotide
protein Swissprot-Trembl
BLASTP protein protein Swissprot-Trembl
TBLASTX translated nucleotide
translated nucleotide
NR , EST, genomes
TBLASTN protein translated nucleotide
NR , EST, genomes
2. Méthodes extrinsèques
Blast génome contre dbEST
Dans l'exemple ci-contre,on a réalisé un Blastnd'un contig de 5 kbcontenant un gèneunique contre la banquedbEST.
Bases de Données de signatures de domaines protéiques qui peuventêtre utilisées pour la classification et l'annotation automatique desprotéinesInterproscan : classe les séquences en superfamilles, familles et sous-familles; prédit l'occurrence des domaines fonctionnels et des sitesimportants
Domaines protéiques conservés = signatures
http://www.ebi.ac.uk/interpro/
BD de domaines utilisées par Interproscan :
Prosite patternsPfamProDomSuperfamilyTIGRFAMsGENE3DHAMAPPANTHERPIRSF
2. Méthodes extrinsèques
Les bases séquences protéiques sont pour la grande majoritéuniquement le résultat de la traduction in-silico de séquencesnucléiques (pas de certitude biologique)exemple: Trembl database = traduction automatique de NR database.
(protéines incomplètes, fragments).
Swissprot contient un nombre moins important de protéines queTrembl, mais les séquences sont vérifiées manuellement par des bio-curateurs
Les séquences EST sont souvent de mauvaise qualité (séquencagesimple brin, erreurs)Cluster d’ESTs disponibles, détection de structures correspondant àdes gènes
Les séquences de génomes complets sont très utiles pour faire dutransfert d’annotation. Mais seules les espèces proches (phylogénie)donnent une annotation pertinente (divergence, évolution)
Bases de données
Les gènes ne représentent qu’une petite portion du génome● Les éléments répétés peuvent représenter plus de 80% du génome (blé)
différents typesClass Order Superfamily Family Code / Label
Copia opie RLCGypsy maggy RLG
Unclassified RLXL1 RIL
Unclassified RIXAlu RSA
Unclassified RSXCACTA DTCMutator DTM
Stowaway DTTTourist DTH
Helitron Helitron DHH
LTR, long terminal repeat;LINE, long interspersed nuclear element;SINE, short interspersed nuclear element;TIR , terminal inverted repeat.MITE, Miniature Inverted Transposable Element
DNA transposons
TIR
MITE
LINE
SINE
Retrotransposon
LTR
Eléments répétés
-les TEs peuvent être confondus avec des gènes codant pour des protéines (transposases et traces)
-les TEs perturbent la structure des modèles de gène, en s'insérant dans les introns par exemple (longues insertions, le modèle de gène est coupé fréquemment)
Mais ce n’est pas une obligation, surtout si on veut pouvoir décrire l’ensemble des éléments d’une région donnée
Repeat masker est l'outil le plus utilisé pour masquer les répétitions
http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker
On peut filtrer les éléments répétés avant l'annotation des gènes
Annotation automatique pratique, mais à vérifier manuellement !
Réalisée avec des programmes informatiques, algorithmes
statistiques
- le résultat est un équilibre entrefaux positifs et faux négatifs- le transfert peut induire des erreursou des aberrations
travail humain, donc :
- lent !- également source d'erreur !
Annoter manuellement les gènes dans les régions d'intérêt
Pour faciliter l'annotation manuelle, utilisation de systèmes d'annotation contrôlés et "universels" (chaînes de traitement de prédictions automatiques, stockage des annotations, interfaces web graphiques de requête, d'exploration et de validation)
Annotation automatique
Méthode intégrative = ab-initio + approches comparativesPrédictions ab-initio des gènes couplées aux résultats de similarité avecles bases de données pour améliorer significativement l'annotation (lesméthodes intrinsèques et extrinsèques se complémentent)
Méthode intégrative d'annotation automatique
Evaluation de la pertinence de l’annotationExemple de l’évaluation de l’annotation sur des séquences de
clones BAC MedicagoVP (vrais positifs) gènes prédits, réellement présents = bonne prédictionFP (faux positifs) gènes prédits, mais réellement non présents = sur prédictionFN (faux négatifs) gènes non prédits, mais normalement présents = sous prédictionVN (vrais négatifs) gènes non prédits, et réellement absents = bonne prédiction
Gene finder Sn N Sp N Sn E Sp E Sn G Sp GGenScan+ 83.2 98.2 69.6 78 25.8 29
GenMarkHMM 89.9 94.8 73.1 76.6 32.4 31.6FgenesH-At 95.1 93 85.3 81.4 47 46.5FgenesH-Mt 97.6 92.1 85.1 80.7 52.8 47.8
EGN 93.7 95 84.7 85.4 55.5 50.5EGN+FgenesH 97.8 94.2 90 86.9 63.2 56.4EGN+FH+AA 98.6 93.9 92.4 88 69.2 61.8
EGN+FH+AA+EST
98.2 99.9 94.4 94.6 80.2 79.4
la pertinence est mesurée par le rapport Sensibilité/spécificité : Sn/Sp
Sensibilité =
Spécificité =