prof. n. boukhatemgenetiquefondamentale.e.g.f.unblog.fr/files/2016/12/cours-de-genomique... ·...

28
Cours de génomique Prof. N. Boukhatem

Upload: others

Post on 28-Oct-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

Cours de génomique

Prof. N. Boukhatem

Vue d'ensemble de diverses cartes génomiques par rapport à la séquenced'ADN génomique. Les cartes représentent différents niveaux de résolutionpour décrire un génome en utilisant des marqueurs génétiques. Les cartescytologiques sont obtenus au microscope. Les cartes génétiques (barre grise)sont obtenues par des expériences de croisement dans lesquelles lesrecombinaisons chromosomiques sont analysées. Les cartes physiques sontobtenues à partir de clones se chevauchant Identifiés par hybridation desfragments clones (barres grises) avec des sondes courantes (astérisques gris).

Comparaison schématiquedes deux approches deséquençage complet dugénome.1. L'approche complèteshotgun: on coupe l'ADN enfragments ~ 2 kB, qui sontclonés En petits vecteurs etséquencés individuellement.Les fragments séquencéssont ensuite rassemblés enune séquence finale en uneétape.2. L'approche hiérarchique :on coupe l'ADN enfragments de tailleintermédiaire (~ 150 kB). Lesfragments d'ADN sontclonés dans des BAC. Unecarte physique doit êtreconstruite sur la base desclones BAC. Chaque cloneBAC est ensuite soumis àl'approche shotgun.

Diagramme schématique montrant trois niveaux différents d'assemblage deséquences. Les contigs sont formés en combinant des lectures de séquencebrutes de diverses orientations après suppression des chevauchements.Échafaudages: Sont assemblés à partir de contigs et orientés unidirectionnellement sur un chromosome. Parce que les fragments deséquence générés peuvent être dans l'un ou l'autre des brins d'ADN, desflèches sont utilisées pour représenter la direction d’écritures desséquences qui sont écrites dans l’orientation 5’ → 3’.

Exemple d‘assemblage de séquences avec ou sans application d'unecontrainte forward/revers, qui fixe la distance de séquence entre lesdeux extrémités d'un sous-clone. Sans la retenue de cette contrainte, lefragment rouge estmal assemblé en raison de la présence d'élément répétitif au milieu dufragment.

La longueur moyenne des lectures est d'environ 500bases.

Assembler un ensemble de séquence génomique, cesfragments courts sont joints pour former des fragmentspuis on enlève les chevauchementsCes séquences plus longues fusionnées sont appeléescontigs, qui sont généralement de 5 000 à 10 000 bases delong.

Un certain nombre de contigs qui se chevauchentpeuvent être fusionnées pour former des échafaudages (30000-50 000 bases, également appelées supercontigues),qui sont unidirectionnellement orienté le long d'une cartephysique d'un chromosome.

Les échafaudages chevauchants sont ensuite connectéspour créer la carte finale la plus précise du Génome.

Appels de base et programmes d'assemblagePhred (www.phrap.org/) est un programme UNIX pour lesappels de base.

Phrap (www.phrap.org/) est un programme UNIX pourl'assemblage de séquences.

VecScreen (www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html)est un site Web dont le programme aide à détecter lesséquences de vecteurs bactériens contaminants les séquences.

TIGR Assembler (www.tigr.org/) est un programme UNIX deTIGR pour l'assemblage de gros fragments de séquenceprovenant de shotgun.

ARACHNE (www-genome.wi.mit.edu/wga/) est un programmeUNIX gratuit pour l'assemblage de lectures de de génome entierà partir de séquences shotgun.

Avant que la séquence assemblée ne soitdéposée dans une base de données, elle doitêtre analysée pour des caractéristiquesbiologiques utiles.

Le processus d'annotation du génomefournit des commentaires sur lesfonctionnalités des gènes

Cela implique deux étapes: prédiction etaffectation fonctionnelle des gènes

Annotation du Génome

Une fois le séquençage et l’assemblage du génome

d’un organisme achevé, 2 principales questions :

1) Où sont les gènes et comment sont-ils distribués ?

Distinguer gènes et éléments transposables

Annotation structurale

2) Quelle est la fonction de ces gènes ?

Annotation fonctionnelle

Annotation génétique du génome humainprédiction théorique et vérification expérimentale

Les structures des gènes prédites par desprogrammes de prédiction des exon (GenScan ouFgenesH)

Les prédictions sont vérifiées par des recherchesBLAST sur une base de données de séquences.

Les gènes prédits sont comparés avec desséquences d'ADNc et de EST déterminéesexpérimentalement (GeneWise, Spidey, SIM4 etEST2Genome)

Principales Etapes de l’Annotation du Génome

Prédictions sont contrôlées manuellementpar des curateurs humains.

Cadres de lecture ouverts déterminés etattribution fonctionnelle des protéines codées(recherche d'homologie BLAST sur base dedonnées de protéines)

D'autres descriptions fonctionnelles:recherche des motifs de protéines dans basesde données de domaines (Pfam; InterPro )

Principales Etapes de l’Annotation du Génome

Gène prédit fonctionnel Structure complète

Codon initiateur M (ATG)Stop codon TAA, TAG or TGAGT (GC) / AG splicing sitePas de stop dans les exons prédits

Pseudogene (non fonctionnel) Structure NON complete

missing_acceptormissing_donormissing_start_codonmissing_stop_codonmultiple_stop_in_frame

● Ou sont les gènes?● Les prédictions sont basées sur la structure

(motifs, signatures ): intron, exon, splice site, UTR.

Gene

StopGT AG

CDS (CoDing Sequence)

ATG

Exon1 Exon2

Annotation automatique

Deux méthodes d'annotation automatique :

1. Méthodes intrinsèques (ab-initio)

2. Méthodes extrinsèques

-Basée uniquement sur des analyses informatiques avec des modèles statistiques

-Modèles probabilistes (Hidden Markov Models - Modèles de chaîne de Markov cachées - HMM) pour faire la distinction entre les régions codantes et non-codantes du génome

- Besoin d'un set d'entraînement de gènes annotés pour être efficace "apprentissage"

1. Méthode intrinsèque d'annotation automatique

Exemples de logiciels de prédiction des gènes

Plantes: GeneMark.HMMGeneFinderEugeneFgeneSHGlimmerAAugustus

Animaux:GenieHMMgeneMagPieGenIDGrail

Humain:GenescanGeneFinderGeneWise

Outils d'annotation automatique des gènes

Annotation...agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttaggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggtaacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggtacatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtggcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcgcaattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaaatgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgctgagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccgactactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcgatgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcctcaagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatggtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtgcgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcaccttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcgaccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaaagctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagccaaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctgcgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaacgttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagacgaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgtgaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctgcccgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctctttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctgttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgctgatctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacctgttgatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttatcagtgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcgctgatggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgttt

agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttaggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggtaacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggtacatcagtggcaaatgcagaacgttttctgcgtgttgctaatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtggcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcgcaattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaaatgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgctgagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccgactactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcgatgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcctcaagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatggtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtgcgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcaccttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcgaccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaaagctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagccaaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctgcgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaacgttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagacgaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgtgaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctatgcgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctctttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctgttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgctgatctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacctgttgatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttatcagtgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcgctgatggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgttttctcggtggtatgcagttgatgatcgaagaaaacgacatcatcagccagcaagtgccagggtttgatgagtggctgtgggtgctggcgtatccggggattaaagtctcgacggcagaagccagggctattttaccggcgcagtatcgccgccaggattgcattgcgcacgggcgacatctggcaggcttcattcacgcctgctattcccgtcagcctgagcttgccgcgaagctgatgaaagatgttatcgctgaaccctaccgtgaacggttactgccaggcttccggcaggcgcggcaggcggtcgcggaaatcggcgcggtagcgagcggtatctccggctccggcccgaccttgttcgctctgtgtgacaagccggaaaccgcccagcgcgttgccgactggttgggtaagaactacctgcaaaatcaggaaggttttgttcatatttgccggctggatacggcgggcgcacgagtactggaaaactaaatgaaactctacaatctgaaagatcacaacgagcaggtcagctttgcgcaagccgtaacccaggggttgggcaaaaatcaggggctgttttttccgcacgacctgcc

ggaattcagcctgactgaaattgatgagatgctgaagctggattttgtcacccgcagtgcgaagatcctctcggcgtttattggtgatgaaatcccacaggaaatcctggaagagcgcgtgcgcgcggcgtttgccttcccggctccggtcgccaatgttgaaagcgatgtcggttgtctggaattgttccacgggccaacgctggcatttaaagatttcggcggtcgctttatggcacaaatgctgacccatattgcgggtgataagccagtgaccattctgaccgcgacctccggtgataccggagcggcagtggctcatgctttctacggtttaccgaatgtgaaagtggttatcctctatccacgaggcaaaatcagtccactgcaagaaaaactgttctgtacattgggcggcaatatcgaaactgttgccatcgacggcgatttcgatgcctgtcaggcgctggtgaagcaggcgtttgatgatgaagaactgaaagtggcgctagggttaaactcggctaactcgattaacatcagccgtttgctggcgcagatttgctactactttgaagctgttgcgcagctgccgcaggagacgcgcaaccagctggttgtctcggtgccaagcggaaacttcggcgatttgacggcgggtctgctggcgaagtcactcggtctgccggtgaaacgttttattgctgcgaccaacgtgaacgataccgtgccacgtttcctgcacgacggtcagtggtcacccaaagcgactcaggcgacgttatccaacgcgatggacgtgagtcagccgaacaactggccgcgtgtggaagagttgttccgccgcaaaatctggcaactgaaagagctgggttattaagccgtggatgatgaaaccacgcaacagacaatgcgtgagttaaaagaactgggctacacttcggagccgcacgctgccgtagcttatcgtgcgctgcgtgatcagttgaatccaggcgaatatggcttgttcctcggcaccgcgcatccggcgaaatttaaagagagcgtggaagcgattctcggtgaaacgttggatctgccaaaagagctggcagaacgtgctgatttacccttgctttcacataatctgcccgccgattttgctgcgttgcgtaaattgatgatgaatcatcagtaaaatctattcattatctcaatcaggccgggtttgcttttatgcagcccggcttttttatgaagaaattatggagaaaaatgacagggaaaaaggagaaattctcaataaatgcggtaacttagagattaggattgcggagaataacaaccgccgttctcatcgagtaatctccggatatcgacccataacgggcaatgataaaaggagtaacctgtgaaaaagatgcaatctatcgtactcgcactttccctggttctggtcgctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggctggtggaaacaacattatgaatggcgaggcaatcgctggcacctacacggaccgccgccaccgccgcgccaccataagaaagctcctcatgatcatcacggcggtcatggtccaggcaaacatcaccgctaaatgacaaatgccgggtaacaatccggcattcagcgcctgatgcgacgctggcgcgtcttatcaggcctacgttaattctgcaatatattgaatctgcatgcttttgtaggcaggataaggcgttcacgccgcatccggcattgactgcaaacttaacgctgctcgtagcgtttaaacaccagttcgccattgctggaggaatcttcatcaaagaagtaaccttcgctattaaaaccagtcagttgctctggtttggtcagccgattttcaataatgaaacgactcatcagaccgcgtgctttcttagcgtagaagctgatgatcttaaatttgccgttcttctcatcgaggaacaccggcttgataatctcggcattcaatttcttcggcttcaccgatttaaaatactcatctgacgccagattaatcaccacattatcgccttgtgctgcgagcgcctcgttcagcttgttggtgatgatatctccccagaattgatacagatctttccctcgggcattctcaagacggatccccatttccagacgataaggctgcattaaatcgagcgggcggagtacgccatacaagccggaaagcattcgcaaatgctgttgggcaaaatcgaaatcgtcttcgctgaaggtttcggcctgcaagccggtgtagacatcacctttaaacgccagaatcgcctggcgggcattcgccggcgtgaaatctggctgccagtcatgaaagcgagcggcgttgatacccgccagtttgtcgctgatgcgcatcagcgtgctaatctgcggaggcgtcagtttccgcgcctcatggatcaactgctgggaattgtctaacagctccggcagcgtatagcgcgtggtggtcaacgggctttggtaatcaagcgttttcgcaggtgaaataagaatcagcatatccagtccttgcaggaaatttatgccgactttagcaaaaaatgagaatgagttgatcgatagttgtgattactcctgcgaaacatcatcccacgcgtccggagaaagctggcgaccgatatccggataacgcaatggatcaaacaccgggcgcacgccgagtttacgctggcgtagataatcactggcaatggtatgaaccacaggcgagagcagtaaaatggcggtcaaattggtaatagccatgcaggccattatgatatctgccagttgccacatcagcggaaggcttagcaaggtgccgccgatgaccgttgcgaaggtgcagatccgcaaacaccagatcgctttagggttgttcaggcgtaaaaagaagagattgttttcggcataaatgtagttggcaacgatggagctgaaggcaaacagaataaccacaagggtaacaaactcagcaccccaggaacccattagcacccgcatcgccttctggataagctgaataccttccagcggcatgtaggttgtgccgttacccgccagtaatatcagcatggcgcttgccgtacagatgaccagggtgtcgataaaaatgccaatcatctggacaatcccttgcgctgccggatgcggaggccaggacgccgctgccgctgccgcgtttggcgtcgaacccattcccgcctcattggaaaacatactgcgctgaaaaccgttagtaatcgcctggcttaaggtatatcccgccgcgccgcctgccgcttcctgccagccaaaagcactctcaaaaatagaccaaatgacgtggggaagttgcccgatattcattacgcaaattaccaggctggtcagtacccagattatcgccatcaacgggacaaagccctgcatgagccgggcgacgccatgaagaccgcgagtgattgccagcagagtaaagacagcgagaataatgcctgtcaccagcgggggaaaatcaaaagaaaaactcagggcgcgggcaacggcgttcgcttgaactccgctgaaaattatgccataggcgatgagcaaaaagacggcgaacagaacgcccatccagcgcatccccagcccgcgcgccatataccatgccggtccgccacgaaactgcccattgacgtcacgttctttataaagttgtgccagagaacattcggcaaacgaggtcgccatgccgataaacgcggcaacccacatcca

Exon 1

Exon 2

Exon 3

Exon 4

Start

Stop polyA

TF binding site

TATA Box

ADNg

Protéine

AlignementADNg - Protéine

AlignementADNg - ADNc

ADNc ADNg

AlignementADNg - ADNg

Approche comparative basée sur les similarités de séquences-> la séquence à annoter est comparée aux bases de données

3 types de comparaison

2. Méthodes extrinsèques

L'annotation fonctionnelle sera toujours déduite des similarités (homologies) avec les éléments prédits dans les bases de données

sequence (query)

target (Subject)

database

BLASTN nucleotide nucleotide NR , EST, genomes

BLASTX translated nucleotide

protein Swissprot-Trembl

BLASTP protein protein Swissprot-Trembl

TBLASTX translated nucleotide

translated nucleotide

NR , EST, genomes

TBLASTN protein translated nucleotide

NR , EST, genomes

2. Méthodes extrinsèques

Blast génome contre dbEST

Dans l'exemple ci-contre,on a réalisé un Blastnd'un contig de 5 kbcontenant un gèneunique contre la banquedbEST.

Bases de Données de signatures de domaines protéiques qui peuventêtre utilisées pour la classification et l'annotation automatique desprotéinesInterproscan : classe les séquences en superfamilles, familles et sous-familles; prédit l'occurrence des domaines fonctionnels et des sitesimportants

Domaines protéiques conservés = signatures

http://www.ebi.ac.uk/interpro/

BD de domaines utilisées par Interproscan :

Prosite patternsPfamProDomSuperfamilyTIGRFAMsGENE3DHAMAPPANTHERPIRSF

2. Méthodes extrinsèques

Gene Ontology

Les bases séquences protéiques sont pour la grande majoritéuniquement le résultat de la traduction in-silico de séquencesnucléiques (pas de certitude biologique)exemple: Trembl database = traduction automatique de NR database.

(protéines incomplètes, fragments).

Swissprot contient un nombre moins important de protéines queTrembl, mais les séquences sont vérifiées manuellement par des bio-curateurs

Les séquences EST sont souvent de mauvaise qualité (séquencagesimple brin, erreurs)Cluster d’ESTs disponibles, détection de structures correspondant àdes gènes

Les séquences de génomes complets sont très utiles pour faire dutransfert d’annotation. Mais seules les espèces proches (phylogénie)donnent une annotation pertinente (divergence, évolution)

Bases de données

Les gènes ne représentent qu’une petite portion du génome● Les éléments répétés peuvent représenter plus de 80% du génome (blé)

différents typesClass Order Superfamily Family Code / Label

Copia opie RLCGypsy maggy RLG

Unclassified RLXL1 RIL

Unclassified RIXAlu RSA

Unclassified RSXCACTA DTCMutator DTM

Stowaway DTTTourist DTH

Helitron Helitron DHH

LTR, long terminal repeat;LINE, long interspersed nuclear element;SINE, short interspersed nuclear element;TIR , terminal inverted repeat.MITE, Miniature Inverted Transposable Element

DNA transposons

TIR

MITE

LINE

SINE

Retrotransposon

LTR

Eléments répétés

-les TEs peuvent être confondus avec des gènes codant pour des protéines (transposases et traces)

-les TEs perturbent la structure des modèles de gène, en s'insérant dans les introns par exemple (longues insertions, le modèle de gène est coupé fréquemment)

Mais ce n’est pas une obligation, surtout si on veut pouvoir décrire l’ensemble des éléments d’une région donnée

Repeat masker est l'outil le plus utilisé pour masquer les répétitions

http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker

On peut filtrer les éléments répétés avant l'annotation des gènes

Annotation automatique pratique, mais à vérifier manuellement !

Réalisée avec des programmes informatiques, algorithmes

statistiques

- le résultat est un équilibre entrefaux positifs et faux négatifs- le transfert peut induire des erreursou des aberrations

travail humain, donc :

- lent !- également source d'erreur !

Annoter manuellement les gènes dans les régions d'intérêt

Pour faciliter l'annotation manuelle, utilisation de systèmes d'annotation contrôlés et "universels" (chaînes de traitement de prédictions automatiques, stockage des annotations, interfaces web graphiques de requête, d'exploration et de validation)

Annotation automatique

Méthode intégrative = ab-initio + approches comparativesPrédictions ab-initio des gènes couplées aux résultats de similarité avecles bases de données pour améliorer significativement l'annotation (lesméthodes intrinsèques et extrinsèques se complémentent)

Méthode intégrative d'annotation automatique

Evaluation de la pertinence de l’annotationExemple de l’évaluation de l’annotation sur des séquences de

clones BAC MedicagoVP (vrais positifs) gènes prédits, réellement présents = bonne prédictionFP (faux positifs) gènes prédits, mais réellement non présents = sur prédictionFN (faux négatifs) gènes non prédits, mais normalement présents = sous prédictionVN (vrais négatifs) gènes non prédits, et réellement absents = bonne prédiction

Gene finder Sn N Sp N Sn E Sp E Sn G Sp GGenScan+ 83.2 98.2 69.6 78 25.8 29

GenMarkHMM 89.9 94.8 73.1 76.6 32.4 31.6FgenesH-At 95.1 93 85.3 81.4 47 46.5FgenesH-Mt 97.6 92.1 85.1 80.7 52.8 47.8

EGN 93.7 95 84.7 85.4 55.5 50.5EGN+FgenesH 97.8 94.2 90 86.9 63.2 56.4EGN+FH+AA 98.6 93.9 92.4 88 69.2 61.8

EGN+FH+AA+EST

98.2 99.9 94.4 94.6 80.2 79.4

la pertinence est mesurée par le rapport Sensibilité/spécificité : Sn/Sp

Sensibilité =

Spécificité =

http://southgreen.cirad.fr/

Plateforme d'annotation GNPAnnot au CIRAD

Annotateurintégration

vérification

croisement

analyse

Annotation automatique Annotation manuelle