chapitre 1 / introduction et bases de données

30
Cours de bioinformatique 1 Chapitre 1 / Introduction et bases de données Qu'est ce que la bio-informatique? • Integration des méthodes mathématiques, statistiques et informatiques pour analyser les donées biologiques, biochimiques et biophysiques (Georgia Inst of Tech., USA) • Bio-informatique est l'étude de l'information biologique et son passage de son site de stockage dans le génome vers de divers produits géniques dans la cellule. ... Il s'agit de la création et de développement des technologies avancées pour résoudre des problèmes de la biologie moléculaire (Stanford University, USA) Domaines de la bio-informatique • Stockage et gestion des données • Structures moléculaires : Visualisation, analyse, classification, prédiction • Analyse de séquences : Alignements, recherches de similarités, détection de motifs • Génomique : Annotation des génomes, génomique comparative • Phylogénie : Relations évolutives entre gènes, entre génomes, entre organismes Inférence de scénarios évolutifs • Génomique fonctionnelle : Transcriptome, protéome, interactome • Analyse des réseaux biomoléculaires : Réseaux métaboliques, d’interactions protéiques, de régulation génétique, … Exemples d'applications • Recherche en biologie L'organisation moléculaire de la cellule / organisme Développement Mécanismes de l'évolution • Médecine Diagnostic de cancers Détection des gènes impliqués dans le cancer • La recherche pharmaceutique mécanismes d'action des médicaments

Upload: others

Post on 18-Jun-2022

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

1

Chapitre 1 / Introduction et bases de données

Qu'est ce que la bio-informatique?

• Integration des méthodes mathématiques, statistiques et informatiques pour analyser les

donées biologiques, biochimiques et biophysiques (Georgia Inst of Tech., USA)

• Bio-informatique est l'étude de l'information biologique et son passage de son site de

stockage dans le génome vers de divers produits géniques dans la cellule. ... Il s'agit de la

création et de développement des technologies avancées pour résoudre des problèmes de la

biologie moléculaire (Stanford University, USA)

Domaines de la bio-informatique

• Stockage et gestion des données

• Structures moléculaires : – Visualisation, analyse, classification, prédiction

• Analyse de séquences : – Alignements, recherches de similarités, détection de motifs

• Génomique : – Annotation des génomes, génomique comparative

• Phylogénie : – Relations évolutives entre gènes, entre génomes, entre organismes

– Inférence de scénarios évolutifs

• Génomique fonctionnelle : – Transcriptome, protéome, interactome

• Analyse des réseaux biomoléculaires : – Réseaux métaboliques, d’interactions protéiques, de

régulation génétique, …

Exemples d'applications

• Recherche en biologie

– L'organisation moléculaire de la cellule / organisme

– Développement

– Mécanismes de l'évolution

• Médecine

– Diagnostic de cancers

– Détection des gènes impliqués dans le cancer

• La recherche pharmaceutique

– mécanismes d'action des médicaments

Page 2: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

2

– identification de cibles pharmaceutiques

• Biotechnologie

– La thérapie génique

– Bioingénierie

Bio-informatique appliquée

Bases des données

Banques de données généralistes : – Données globales (pas de focus sur une

application ou organisme particulier) informations hétérogènes

Banque ou base de données spécialistes : – Données plus homogènes autour

d’une thématique

1. Banques de séquences généralistes

1.1. Banques généralistes de séquences nucléotidiques

• EMBL (European Molecular Biology Laboratory) :

– Création 1980 par l’European Molecular Biology Organisation

– Diffusée par European Bioinformatics Institute (EBI)

• Genbank

– Création 1982 par IntelliGenetics

– Diffusée par National Center for Biotechnology Information (NCBI)

• DDBJ (DNA Databank of Japan)

– Création 1986 par National Institute of Genetics (NIG)

– Diffusée par National Institute of Genetics (NIG)

Ces trois banques échangent systématiquement leur contenu depuis 1987 et ont adopté

un système de conventions communes « The DDBJ/EMBL/Genbank Feature Table

Definition »

Qualité des séquences des banques généralistes

• Très riches

Page 3: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

3

– Grand nombre de séquences accessibles

– Grande diversité des organismes représentés

– Informations accompagnant les séquences (annotation, expertise, bibliographie, liens)

• Peu/pas de contrôles sur la qualité des entrées

– Les auteurs sont responsables des entrées ! => Nombreux Problèmes/Erreurs

• Erreurs dans les séquences (contaminations, séquençage, méthodologie)

1.2. Banques généralistes de séquences protéiques

• TrEMBL : traduction automatique de EMBL

• Genpept : traduction automatique de GenBank

• PIR (Protein Information Ressource) :

– Première banque des protéines (1965)

– Banque américaine (NBRF- National Biomedical Research Fondation)

– Protéines regroupés en familles

• SwissProt

– 1986 à l’université de Genève

– Origine des séquences TrEMBL

Swiss-Prot + PIR + TrEMBL-EBI = UniProt (Universal Protein Ressource)

http://www.uniprot.org/

2. Banques spécialisées

2.1. Banques spécialisées des génomes complets

• RefSeq/ NCBI

• UCSC Genome Browser : University California Santa Cruz (Quelques Eukaryotes )

• ERC Genome Browser : (Quelques vertébrées)

• Genome Reviews/EBI (2002) : (Batéries, Archées, qqs Eucaryotes)

• EnsEMBL Genomes (2010) : – EnsemblBacteria – EnsemblPlants – EnsemblProtists

– EnsemblFungi – EnsemblMetazoa

Page 4: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

4

2.2. Banques spécialisées des domaines protéiques

• Définition du Domaine :

–Unité structurale capable de se replier indépendamment du reste de la protéine

– Région dont la fonction a été caractérisée

– Séquences homologues qu’on peut trouver dans des contextes moléculaires différents

• Définition du Motif

– Résidus essentiels à une fonction (pas nécessairement les résidus consécutifs)

Bases de données spécialisées des domaines protéiques

• ProDom : Générée automatiquement à partir de UniProt

• Pfam

• Prosite : Motifs et sites fonctionnels

2.3. Banques spécialisées des Éléments mobiles

• RepBase (pour les Eucaryotes) :

– Éléments Transposables

– Micro- et minisatellites

– ARN ribosomal

– ARNt…

Page 5: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

5

Chapitre 2 : Concepts de l’évolution en bioinformatique

1. Similarité :

% Identité « identities »: Proportion de résidus (acide aminés ou nucléotides) identiques entre

les séquences.

% Similarité « positives »: Proportion de résidus similaires entre les séquences

Identities = 14/26 (54%),

Positives = 15/26 (58%),

VCGMWLDGDIAAVDMFTHVEIGDDEV

V G W+ GDI MFTH DD EV

VAGIWVAGDIRGGPMFTHTAYDDFEV

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences nucléiques aléatoires ?

4 bases => % Identité attendu entre séquences aléatoires: ¼= 25%

• % Identité entre deux séquences protéiques aléatoires ?

20 aa => % Identité attendu entre séquences aléatoires: 1/20 = 5%

2. Similarité, homologie, analogie :

La similarité entre deux séquences peut s’interpréter par trois hypothèses alternatives:

– Homologie: la ressemblance s’explique par le fait que les deux séquences

divergent d’un ancêtre commun.

– Evolution convergente (analogie): les similarités sont apparues dans les deux

séquences de façon indépendante, mais ont été sélectionnées pour la même raison.

– Similarité due au hasard

Page 6: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

6

2 .1. Homologie

• Deux séquences sont dites homologues si elles possèdent un ancêtre commun

• L’existence d’un ancêtre commun est inférée à partir de la similarité

Homologie ≠ Similarité

• L’homologie n’est pas quantifiable

– Deux séquences sont homologues (possèdent des caractères communs parce qu’elles

dérivent d’un ancêtre commun) ou elles ne le sont pas.

– Raisonnement binaire (vrai ou faux)

• La similarité est quantifiable

– On peut dire de deux séquences qu’elles sont similaires à 50% ou 75%

• Généralement on infère l’homologie sur base de similarité élevée entre les séquences

2.2. Duplication et spéciation

• Deux séquences qui descendent d’un ancêtre commun divergent.

• La divergence peut résulter d’une duplication ou d’une spéciation.

– Duplication : mutation génétique caractérisée par le dédoublement du matériel

génétique sur un chromosome.

– Spéciation : Apparition d'une nouvelle espèce par différenciation entre deux

populations

• Evénements de mutations :

– Substitutions

Page 7: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

7

– Délétions + Insertions = indel

• on observe un certain niveau de similarité entre deux séquences (% identité, % similarité).

• Sur cette base, on évalue des scénarios évolutifs: cette similarité peut provenir

– d’une évolution convergente (analogie);

– d’une évolution divergente à partir d’un ancêtre commun (homologie);

– du hasard.

• Si la deuxième hypothèse est la plus vraisemblable, on infère que les séquences sont

homologues.

Exemlple : Similarité sans homologie : Convergence ou simple hasard pour de courtes

séquences (quelques résidus)

Homologie/analogie

• Analogie: relation entre deux caractères qui se sont développés de manière

convergente à partir d’ancêtres différents.

• Homologie: L'homologie est la relation entre les deux caractères qui sont

descendus, le plus souvent avec une divergence, d'un caractère ancestral commun.

Page 8: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

8

Les catégories d’homologies

1. Orthologie: Paire de gènes homologues dont le dernier ancêtre commun a eu lieu

immédiatement avant un événement de spéciation

• A, B et C sont orthologues

2. Paralogie: paire de gènes homologues dont le dernier ancêtre commun a eu lieu

immédiatement avant un événement de duplication génique

• Les fonctions d’un ou de plusieurs paralogues peuvent changer au cours de l’évolution

(spécialisation, nouvelle fonction)

• B et C sont paralogues

• A et C, A et B sont orthologues

Page 9: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

9

3. Xénologie: relation entre les deux gènes homologues dont l'histoire, depuis leur

dernier ancêtre commun, implique le transfert interspécifique (horizontal) du matériel

génétique.

Exercice1 :

Page 10: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

10

Page 11: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

11

Exercice 2 :

Page 12: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

12

Page 13: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

13

Chapitre3 : L’ Alignement

• Alignement de séquences : représentation de deux ou plusieurs séquences biologiques

(ADN, ARN ou protéines) les unes sous les autres, de manière à en faire ressortir les régions

homologues.

• Objectif de l'alignement : Disposer les résidus (nucléotides ou acides aminés) pour

identifier les résidus homologues en maximisant le nombre d’identités ou de similarités entre

résidus dans les différentes séquences.

• Ceci nécessite en général l'introduction de "trous" (gaps) à certaines positions dans les

séquences, de manière à aligner les résidus communs sur des colonnes successives.

Alignez les séquences suivantes:

Seq1 : GTTACGA

Seq2 : GTTGGA

Alignement 1 Alignement 2

Seq1 GTTACGA Seq1 GTTACGA

Seq2 GTTG- GA Seq2 GTT- GGA

*** ** *** **

Alignement des séquences :

Identification des positions homologues dans les séquences nucléotidique ou protéiques afin

de maximiser leurs similarités

Page 14: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

14

Alignement global et local

Matrices des substitutions (matrice des scores)

Page 15: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

15

Page 16: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

16

Page 17: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

17

Le score de l’alignement dépend :

– Des matrices de substitutions => impossible de comparer des alignements faits avec des

matrices différentes

– Longueur de l’alignement

Les scores servent à optimiser un alignement, une matrice de scores et une pénalité des

gaps donnés

Page 18: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

18

Modèle d’évolution :Kimura à deux paramètres

Page 19: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

19

Pénalité des indels

Page 20: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

20

Page 21: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

21

Évolution des séquences protéiques

Modèles d’évolution des séquence protéiques

Mesure des fréquences de substitution dans des alignements de protéines homologues :

– Matrices basées sur des arbres construits en utilisant le maximum de parcimonie :

• PAM (Dayhoff et al., 1978).

• JTT (Jones et al., 1992).

– Matrices basées sur des arbres construits en utilisant le maximum de vraisemblance :

• WAG (Whelan et Goldman, 2001).

– Matrices basées sur des comparaisons par paires utilisant des alignements locaux :

• BLOSUM (Henikoff et Henikoff, 1992).

Construction d’une matrice de substitution

1. La Matrice PAM

Page 22: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

22

Matrice de PAM250

2. La Matrice de BLOSUM 62

Page 23: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

23

BLOSUM globalement meilleures que PAM.

Score d’un alignement

Page 24: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

24

Page 25: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

25

Alignement exact : Trouver le meilleur alignement entre deux

séquences

Alignement sans gap

• Faire glisser une séquence sur l'autre

• Calculer le score de l'alignement pour chaque décalage possible

• Choisir l’alignement avec le meilleur score

• Algorithme simple mais pas très efficace (pas des indels)

• Temps de calcul:

o L1, L2 => longueurs des deux séquences

o L2<L1

o L1+L2-1 alignements possibles

o Pour chaque alignement le score est la somme des scores sur la région chevauchante

(max=L2).

Alignement exact avec gaps

• Alignements sans gaps sont rarement instructifs, car ils ne parviennent pas à détecter les

insertions et délétions

• L’Introduction des gaps augmente la complexité du problème: à chaque position il peut être

• gap dans la première séquence

• gap dans la deuxième séquence

• superposition de résidu 1 avec résidu 2 (match ou substitution (S))

• Le temps de calcul est proportionnel à 3 L , où L est la taille de la séquence la plus courte.

• Le nombre de possibilités augmente ainsi de manière exponentielle avec la longueur de

séquence.

– Pour deux séquences de taille 1000, il y a ~ 3 1000

(10 477

) alignements possibles.

Page 26: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

26

1. Algorithme Needleman et Wunsch (Alignement global)

• Needleman et Wunsch ont proposé un algorithme appelé programmation dynamique

• Effectue un alignement global (les séquences sont alignées sur toute la longueur)

• Le temps de traitement est proportionnel au produit des longueurs de séquence.

• Garanti pour trouver l'alignement optimal pour une matrice de substitution donnée.

Page 27: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

27

• Soit S(i, j) la valeur optimum du score dans la case de coordonnées (i, j) :

– Définition par rapport aux scores dans les trois cases adjacentes (i – 1, j), (i – 1, j – 1) et

(i, j – 1) :

δ (ai, -) et δ (-, bj): score du gap

Les étapes a suivre pour arriver a l’alignement sont :

1- La préparation d’une matrice de score

2- Traçage du chemin a partir de la valeur du score la plus élevée

3- Alignement des 2 séquences selon la règle des flèches

Règle Numéro 2 :

1- Création de gap avant chaque séquence (On ajoute une ligne et une colonne

supplémentaires afin d’initialiser la matrice)

Page 28: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

28

2- Initialisation de la matrice en commençant par la valeur 0 et en ajoutant la valeur de

l’indel

Page 29: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

29

*

2. Algorithme de Smith et Waterman (Alignement local)

• Algorithme dérivé de Needleman et Wunsch :

– Initialisation des bords à 0.

– N’importe quelle case de la matrice peut être considérée comme point de départ pour

le calcul du score.

Page 30: Chapitre 1 / Introduction et bases de données

Cours de bioinformatique

30

Exemple :