plan
DESCRIPTION
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE IIDC : Frédéric Durak UMR 8090 : Philippe Froguel. Plan. Présentation et stratégie de recherche du laboratoire Objectifs L’Interface Les analyses - PowerPoint PPT PresentationTRANSCRIPT
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats
Franck De-graeve Master ASE IIDC : Frédéric Durak
UMR 8090 : Philippe Froguel
Plan
1. Présentation et stratégie de recherche du laboratoire
2. Objectifs
3. L’Interface
4. Les analyses
5. Les résultats
6. Conclusions et perspectives
Le laboratoire
• Recherche des gènes de prédisposition au diabète de type II et à l’obésité.
Génomique et physiologie moléculaire des maladies métaboliques UMR 8090 Philippe Froguel
• Équipe de 40 personnes dont l’équipe bioinfo-biostatistique composée de 6 personnes
Sélection de gènes d’intérêts
• Principe de gène candidat
Intégrations des données
200 listes430 000 identifiants
8000 gènes intégrés/ 40000 gènes humains
Rs245895Rs245548Rs224887Rs278415Rs365874
Rs1558474Rs448
PlgPlscr2
InsPon1
Popdc3PrlrProc
Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474
Rs448
INS
Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474
Rs448
Rs245895Rs245548Rs224887Rs278415Rs365874
Rs1558474Rs448
Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474
Rs448
Rs245895Rs245548Rs224887Rs278415Rs365874
Rs1558474Rs448
GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953
GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953
GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953
GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953
PlgPlscr2
InsPon1
Popdc3PrlrProc
PlgPlscr2
InsPon1
Popdc3PrlrProc
Gas2Scd1Ins
Pon1PrlrProc
1557459_at1557820_at
1568619_s_at200043_at
200694_s_at
1557459_at1557820_at
1568619_s_at200043_at
200694_s_at
1557459_at1557820_at
1568619_s_at200043_at
200694_s_at
1557459_at1557820_at
1568619_s_at200043_at
200694_s_at
1557459_at1557820_at
1568619_s_at200043_at
200694_s_at
AF058956AI180687AF031939
Y17345AI845103
AF058956AI180687AF031939
Y17345AI845103
AF058956AI180687AF031939
Y17345AI845103
118316411831651183166118316711831701183171
118316411831651183166118316711831701183171
SGDB
Plan
1. Présentation et stratégie de recherche du laboratoire
2. Objectifs
3. L’Interface
4. Les analyses
5. Les résultats
6. Conclusions et perspectives
• Sélection des gènes candidats qui s'appuie sur une base de données
Objectifs
• Faciliter la navigation parmi les résultats
• Intégration de sources de données très hétérogènes
L’architecture
Apache -> serveur WEB
Php et Mysql -> affichage des pages dynamiques
Perl et Mysql -> traitement et intégration des données
Perl -> filtre et analyse des résultats
R -> statistique, graphique
Plan
1. Présentation et stratégie de recherche du laboratoire
2. Objectifs
3. L’Interface
4. Les analyses
5. Les résultats
6. Conclusions et perspectives
Page d’accueil
Ajout de données
Base de données
Plan
1. Présentation et stratégie de recherche du laboratoire
2. Objectifs
3. L’Interface
4. Les analyses
5. Les résultats
6. Conclusions et perspectives
Les analyses
Récupération de la séquence
• Unification des types de données hétérogènes en séquence • Le choix de la base de données publique dépend de la saisie de l’utilisateur
• Récupération au format standard (fasta):
>em|U03177|FL03177 Insulin
AGATACAAGGAAGTTAGAGGCTAAAACAGGATATCTGTGGTTAAGCACCTGTGAGGCCAAGAACAGTTAAACCCCGGATATAGCTGAAACAGCAGAAGTTTCGCCAGCAGTCTCCAGGCTCCCCA
Position de la séquence sur les chromosomes
• Recherche de la position sur le génome grâce au logiciel BLAT
• Adaptation du programme pour un fonctionnement en local
• Modification de l’étape d’alignement pour une accélération du processus de 20 à 30 fois.
• Récupération des gènes correspondant à cette position
Comparaison de séquence contre une banque de données
• Comparaison grâce au logiciel BLAST
• Utilisation des bases locales
• Synthèse des résultats de BLAT et de BLAST dans un fichier
Les processus
• Temps d’exécution de 1 à 2 jours
• Stockage des opérations dans un fichier
• Système multi-utilisateurs gérés grâce au PID
Plan
1. Présentation et stratégie de recherche du laboratoire
2. Objectifs
3. L’Interface
4. Les analyses
5. Les résultats
6. Conclusions et perspectives
Les résultats
Intégrations des données
200 listes430 000 identifiants
8000 gènes intégrés/ 40000 gènes humains
Rs245895Rs245548Rs224887Rs278415Rs365874
Rs1558474Rs448
PlgPlscr2
InsPon1
Popdc3PrlrProc
Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474
Rs448
INS
Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474
Rs448
Rs245895Rs245548Rs224887Rs278415Rs365874
Rs1558474Rs448
Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474
Rs448
Rs245895Rs245548Rs224887Rs278415Rs365874
Rs1558474Rs448
GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953
GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953
GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953
GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953
PlgPlscr2
InsPon1
Popdc3PrlrProc
PlgPlscr2
InsPon1
Popdc3PrlrProc
Gas2Scd1Ins
Pon1PrlrProc
1557459_at1557820_at
1568619_s_at200043_at
200694_s_at
1557459_at1557820_at
1568619_s_at200043_at
200694_s_at
1557459_at1557820_at
1568619_s_at200043_at
200694_s_at
1557459_at1557820_at
1568619_s_at200043_at
200694_s_at
1557459_at1557820_at
1568619_s_at200043_at
200694_s_at
AF058956AI180687AF031939
Y17345AI845103
AF058956AI180687AF031939
Y17345AI845103
AF058956AI180687AF031939
Y17345AI845103
118316411831651183166118316711831701183171
118316411831651183166118316711831701183171
SGDB
Le comptage de bloc (1)
• Comptage par nom de gène ?
• Comptage par position
Identifiant AIdentifiant B
Identifiant AB (gène X)
Le comptage de bloc (2)
Le comptage de bloc (3)
Le format de l’UCSC
• Choix des données par groupes ou individuellement
• Choix des couleurs de piste
Le format de l’UCSC (2)
• http://genome.ucsc.edu/cgi-bin/hgGateway• Position -> chr11:2,131,213-2,145,372
• Récupération du fichier
•Visualisation des blocs
GMOD (1)
• Permet de "naviguer" le long du génome
• Prend en charge le format GFF, stockage dans une base SQL
• Jeux de données présent pour effectuer des tests
• Grande souplesse de configuration
• Données de l’homme disponibles sur le site de l’UCSC
GMOD (2)
Plan
1. Présentation et stratégie de recherche du laboratoire
2. Objectifs
3. L’Interface
4. Les analyses
5. Les résultats
6. Conclusions et perspectives
Conclusions (1)
• Problème de temps de réponse- Optimisation de programmes- Système de cache sur disque- Base de données au lieu de fichier (GMOD)
• Problème de configuration système
- Installation de packages - Problème de droits- Mysql en service
Conclusions (2)
• Travail en interaction avec- Biologiste (utilisateurs)- Équipe bio-informatique- Administrateur système
• Utilisation d’un large panel de technologies- DB (Mysql)- Web (apache, php)- Programmation (perl)- Système (gestion des packages)
Perspectives
• Pondération sur les scores
• Ajout de nouvelles stratégies pour l’identification basée sur des tables de correspondance
• Enrichissement quotidien de la base de données par les utilisateurs
Perspectives
• Développement dans le cadre du projet ANR
Gènes sélectionnés par cet outil seront étudiés par des études génétiques
• Mise en ligne sur Internet avec une publication dans un journal de biologie
Internet Local
Données partielles publiées
Données complètesconfidentielles
Remerciements
Sophie GallinaChristophe WachterDavid Le GuilcherStefan GagetJean-Claude ChèvreAinsi que toute l’équipe du laboratoire