enrichissement de paires de gènes dont les interactions ...€¦ · depuis la nuit des temps,...
TRANSCRIPT
ENRICHISSEMENT DE PAIRES DE GÈNES DONT LES INTERACTIONS CAUSENT LA SCHIZOPHRÉNIE À L’AIDE DE BASES DE DONNÉES GÉNOMIQUES ET APPLICATION À UNE ÉTUDE D’ASSOCIATION CAS-
TÉMOINS DE L’EST DU QUÉBEC.
Mémoire
Simon Noël
Maîtrise en neurobiologie - Neurobiologie
Maître ès sciences (M. Sc.)
Québec, Canada
© Simon Noël, 2014
iii
Résumé
Nous essayons de trouver de nouvelles interactions géniques pouvant donner une
résistance ou une susceptibilité pour développer la schizophrénie. Nous avons
donc fait l’enrichissement de voies en utilisant GSEA et Biofilter. Nous avons
ensuite cherché de nouvelles interactions avec la méthode JE et la régression
logistique parmi les paires de gènes identifiées. De plus, nous avons obtenu plus
de résultats statistiquement significatifs qu’une sélection se basant sur les valeurs
d’association marginale. Par ailleurs, les résultats pointent certains candidats
intéressants comme le gène NRXN1 qui code pour une protéine d’adhésion
cellulaire du système nerveux et qui aurait une interaction causant une
susceptibilité avec le gène ROBO1, un gène impliqué dans la guidance des
axones, et une autre avec le gène CDH13, un gène jouant le rôle de régulateur
négatif dans la croissance des axones. Ces trois gènes sont déjà liés à la
schizophrénie dans la littérature et pourraient servir de biomarqueurs.
v
Table des matières
RÉSUMÉ ............................................................................................................................................ III
TABLE DES MATIÈRES .................................................................................................................... V
LISTE DES FIGURES ........................................................................................................................ IX
LISTE DES TABLEAUX .................................................................................................................... XI
LISTE D’ABRÉVIATIONS ............................................................................................................... XIII
AVANT-PROPOS ............................................................................................................................. XV
CHAPITRE 1 ....................................................................................................................................... 1
1.1 INTRODUCTION ........................................................................................................................... 2
1.2 OBJECTIFS .................................................................................................................................. 5
1.2.3 Aperçu des étapes ..................................................................................................................................... 5
CHAPITRE 2 ....................................................................................................................................... 7
2.1 MATÉRIEL ET MÉTHODE ........................................................................................................... 8
2.1.1 Population/données .................................................................................................................................. 8
2.1.2 Association marginale .............................................................................................................................. 9
2.1.3 Interaction gène-gène/Épistasie ............................................................................................................ 10
2.1.4 Méthodes de filtrage basées sur les connaissances biologiques .......................................................... 11
2.1.5 Logiciel et base de données .................................................................................................................... 12 2.1.5.1 GO ..................................................................................................................................................13 2.1.5.2 GEA ...............................................................................................................................................13 2.1.5.3 MSigDB .........................................................................................................................................14 2.1.5.4 DAVID ..........................................................................................................................................14 2.1.5.5 BIOFILTER ...................................................................................................................................15 2.1.5.6 GSEA .............................................................................................................................................16 2.1.5.7 JE ...................................................................................................................................................18 2.1.5.8 R .....................................................................................................................................................20 2.1.5.9 Perl .................................................................................................................................................20 2.1.5.10 Osprey ..........................................................................................................................................21
CHAPITRE 3 ..................................................................................................................................... 23
vi
3.1 RÉSULTATS ............................................................................................................................... 24
3.1.1 Résultats de cartographie et filtrage .................................................................................................... 24
3.1.2 Résultats GSEA ...................................................................................................................................... 26
3.1.3 Résultats Biofilter .................................................................................................................................. 27
3.1.4 Résultats Régression logistique ............................................................................................................. 28
3.1.5 Résultats JE ............................................................................................................................................ 28
3.1.6 Résultats retenus .................................................................................................................................... 30
3.1.7 Résultats Osprey .................................................................................................................................... 46
CHAPITRE 4 ..................................................................................................................................... 49
4.1 DISCUSSION .............................................................................................................................. 50
4.1.1 Cartographie et filtrage ......................................................................................................................... 51
4.1.2 GSEA ...................................................................................................................................................... 51
4.1.3 Biofilter ................................................................................................................................................... 52
4.1.4 Régression logistique VS JE .................................................................................................................. 53
4.1.5 Enrichissement ....................................................................................................................................... 53
4.1.6 Résultats retenus .................................................................................................................................... 54
4.1.7 Osprey ..................................................................................................................................................... 55
4.1.8 Comparaison avec Jia ............................................................................................................................ 56
4.1.9 Littérature .............................................................................................................................................. 57
4.1.10 Élagage neuronal .................................................................................................................................. 58
4.1.11 Autre approche essayée ....................................................................................................................... 59
4.2 CONCLUSION ............................................................................................................................ 60
BIBLIOGRAPHIE .............................................................................................................................. 63
ANNEXE ........................................................................................................................................... 73
A1 : Résumé graphique du projet ................................................................................................................. 73
A2 : Liste des gènes ......................................................................................................................................... 74
vii
A3 : Information supplémentaire sur les différentes bases de données ..................................................... 79
A4: Détails sur l’épistasie ............................................................................................................................... 81
A5 : Résumé MSigDB ..................................................................................................................................... 85
A6 : Résumé des tests pour paramétrer Biofilter ......................................................................................... 87
A7 : Détails des tests pour paramétrer GSEA .............................................................................................. 95
A8 : Vulgarisation - La Schizophrénie : Une maladie multigénique complexe ....................................... 134
ix
Liste des figures
FIGURE 1 : FORMULE POUR LE CALCUL DE L’ENRICHISSEMENT DE GSEA ........................ 17
FIGURE 2 : KCNQ1 VS NAV2 ......................................................................................................... 31
FIGURE 3 : RELN VS CTNND2 ....................................................................................................... 32
FIGURE 4 : GRM3 VS GRM7 ........................................................................................................... 33
FIGURE 5 : ADCY8 VS PRDM14 ..................................................................................................... 34
FIGURE 6 : ROBO1 VS NRXN1 ....................................................................................................... 35
FIGURE 7 : CDH13 VS NRXN1 ........................................................................................................ 36
FIGURE 8 : TLK1 VS PDIA6 ............................................................................................................ 37
FIGURE 9 : PLCB1 VS PLCL2 ........................................................................................................ 38
FIGURE 10 : GPC5 VS PKNOX2 ..................................................................................................... 39
FIGURE 11 : FAIM2 VS SHANK2 .................................................................................................... 40
FIGURE 12 : CDH13 VS CYCS ........................................................................................................ 41
FIGURE 13 : DLG2 VS RGS7 .......................................................................................................... 42
FIGURE 14 : CAMK2D VS KCNQ5 .................................................................................................. 43
FIGURE 15 : REPRÉSENTATION DE NOS NOUVELLES INTERACTIONS ................................. 47
xi
Liste des tableaux
TABLEAU 1 : TABLEAU DE FREQUENCE DE GENOTYPE A 2 LOCUS (G ET H) ..................... 10
TABLEAU 2 : EXEMPLE DE NOTRE FICHIER DE DONNÉES...................................................... 19
TABLEAU 3 : RESUME CARTOGRAPHIE ET FILTRE .................................................................. 25
TABLEAU 4 : RESULTATS GSEA .................................................................................................. 26
TABLEAU 5 : RESULTATS BIOFILTER ......................................................................................... 28
TABLEAU 6 : RESUME DES RESULTATS DE JE ......................................................................... 29
TABLEAU 7 : RESUME INTERACTION .......................................................................................... 43
TABLEAU 8 : BIOMARQUEUR POTENTIEL .................................................................................. 48
TABLEAU 9 : COMPARAISON AVEC JIA ...................................................................................... 56
TABLEAU 10 : MODIFICATION POUR CORRESPONDRE A JIA ................................................. 57
TABLEAU 11 : LISTE DES GÈNES ................................................................................................. 78
xiii
Liste d’abréviations
ADN : Acide DésoxyriboNucléique ALIGATOR : Association LIst Go AnnoTatOR BED : Best-Estimate DSM-III-R Diagnosis Ch : Chromosome CRIUSMQ : Centre de Recherche de l’Institut Universitaire en Santé Mentale de Québec CRULRG : Centre de Recherche de l’Université Laval affilié à Robert Giffard DAVID : Database for Annotation, Visualization and Integrated Discovery. DIP : The Database of Interacting Proteins DSM : Diagnostic and Statistical Manual of mental disorders DSM-III : DSM - Troisième révision générale DSM-III-R : Révision du DSM-III publiée en 1987 DSM-IV : DSM - Quatrième révision générale ES : Enrichment Score GEA : Gene Expression Atlas GO : Gene Ontology GSEA : Gene Set Enrichment Analysis IUSMQ : Institut Universitaire en Santé Mentale de Québec JE : Joint Effect KEGG : Kyoto Encyclopedia of Genes and Genomes MAGENTA : Meta-Analysis Gene-set Enrichment of variaNT Associations MSigDB : Molecular Signatures Database NES : Normalised Enrichment Score
xiv
SNP : Single-Nucleotide Polymorphism
xv
Avant-propos
Ce mémoire de Maîtrise est le résultat de plusieurs mois de travail et d’innovations.
La route ne fut pas toujours facile. De nombreuses embûches se sont présentées.
Je dois donc une fière chandelle à une merveilleuse équipe qui m’a supporté tout
au long de mon projet.
J’aimerais dans un premier temps remercier mon directeur, M. Alexandre Bureau.
Sa grande patience est tout à son honneur. Il a su aussi démontré une grande
générosité de son temps et fourni de précieux conseils.
J’aimerais aussi remercier mon codirecteur, M. Simon Hardy. Chacune de nos
rencontres fut très enrichissante. Il a su amener de l’eau au moulin chaque fois
que je pensais être en période de sécheresse.
Je voudrais également remercier du fond du cœur une équipe du tonnerre du
CRIUSMQ. Un merci tout spécial à M. Jordie Croteau, M. Molière Nguilé Makao ,
M. David Dubé St-Hilaire et M. Thomas Paccalet. Vous avez été les meilleurs
alliés que l’on peut espérer avoir pour relever les divers défis que ma Maîtrise a
offerts.
Une Maîtrise ne se fait pas sans un certain financement. J’aimerais donc
remercier l’Institut canadien de recherche en santé (IRSC, subvention MOP-
106448) et le Fonds de recherche du Québec – Santé (FRSQ).
Je dois par ailleurs souligner l’immense contribution du Dr Michel Maziade pour
l’accès aux données de l’échantillon de patients schizophrènes et de témoins.
En terminant, j’aimerais remercier famille et amis. Vous avez été un support moral
essentiel tout au long de ma Maîtrise. Derrière chaque grand homme, il y a une
très grande femme. J’aimerais terminer avec un merci tout spécial à une super
xvi
grande femme. Merci Julie, ma tendre amour(e). Tu as été pour moi tel un phare
dans la nuit. Ta présence, autant dans les bons que dans les mauvais moments, a
été pour moi une source d’inspiration.
1
CHAPITRE 1
2
1.1 Introduction
Depuis la nuit des temps, l’homme a été confronté à la maladie mentale. De par le
passé, l’absence de connaissance scientifique et le désir de l’Homme de tout
comprendre ont amené de fausses croyances comme la sorcellerie, la possession
démoniaque, le vaudou, etc. Par la suite, les connaissances ont évolué et le
surnaturel fut remplacé par la maladie. Face à l’incompréhension, nous utilisions la
lobotomie ou les électrochocs. Avec l’avancement des connaissances, on en est
venu à la médication. Cette méthode n’est malgré tout pas parfaite. La science
continue toujours d’avancer et aujourd’hui, on étudie les mécanismes mêmes des
maladies mentales par diverses techniques telles que le séquençage et
l’identification de variants rares. Une meilleure connaissance des mécanismes
d’une maladie permet l’identification de biomarqueurs pour diagnostiquer plus tôt la
maladie et permet des thérapies pharmaceutiques beaucoup plus ciblées et
efficaces. Certaines maladies comme l’épilepsie sont maintenant considérées
comme étant le symptôme d’autres maladies. La science avance, mais pour la
schizophrénie, la route est encore longue. Le projet de ma maîtrise consiste à
étudier cette maladie au niveau génétique par le biais de l’analyse des interactions
géniques dans le cadre d’une étude d’association. La schizophrénie échappe
encore à notre compréhension, car elle est une maladie très complexe. Nous
pouvons définir la schizophrénie comme étant « une psychose grave survenant
chez l'adulte jeune, habituellement chronique, cliniquement caractérisée par des
signes de dissociation mentale, de discordance affective et d'activité délirante
incohérente, entraînant généralement une rupture de contact avec le monde
extérieur et parfois un repli autistique. Schizophrénie vient du grec skizein : fendre
et de phren : pensée.» [Infirmiers.com, 2010]. Aux facteurs environnementaux
s’ajoute un arrière-plan multigénique très complexe. De plus, les psychiatres de
l’équipe du CRULRG ainsi que ceux un peu partout dans le monde s’accordent à
dire qu’il existe plusieurs types de schizophrénie. Leur désaccord est cependant
très grand quand vient le temps de les définir. Le problème déjà complexe peut
même être empiré par ce manque de classification. C'est comme si nous en étions
3
à comparer des pommes à des oranges tout en tentant de trouver les causes de la
maladie.
Le côté multigénique de la maladie la rend très complexe à analyser, mais cette
tâche n’est pas impossible. En effet, d’autres maladies multigéniques complexes
comme la maladie de Hirschsprung [Cantrell, 2004] [Owens, 2005] [De Pontual,
2009] [Tam, 2009] ou de Bardet-Biedl [Badano, 2005] ont maintenant plusieurs de
leurs interactions qui sont bien caractérisées. L’avancement constamment
grandissant de la bio-informatique met à notre disposition des outils de plus en
plus avancés, nombreux et précis. Nous pouvons parler ici d’outils
d’enrichissement comme ALIGATOR [Holmans, Peter], Biofilter [Ritchie Lab],
GSEA [BROAD Institute] et MAGENTA [BROAD Institute]. Nous pouvons aussi
parler d’outils d’associations comme PLINK [Purcell] et JE [Cordell, Heather J, et
Masao Ueki]. Il y a aussi des bases de données complexes comme DAVID
[National Institute of Allergy and Infectious Diseases], GO [Open Biological and
Biomedical Ontologies] et GEA [European Molecular Biology Laboratory -
European Bioinformatics Institute]. Nous pouvons aussi inclure les logiciels de
représentations graphiques comme Osprey [Tyers]. Il existe aussi plusieurs outils
avancés de Bio-informatique. La communauté qui entoure cette discipline est
aussi très active et dynamique. Nous pouvons parler ici par exemple de la
communauté Bioconductor [Anon] qui développe des modules de bio-informatique
pour le logiciel R [CRAN]. Comme une Maîtrise possède un cadre temporel limité,
nous n‘utiliserons pas toutes ces ressources.
Nous allons travailler sur une population venant de l’Est du Québec, endroit
reconnu pour avoir une population dérivée d’un effet fondateur entraînant une
forte homogénéité génétique, et donc, étant un bon bassin pour la recherche de
variante rare de gènes qui s’y retrouvent en plus grande fréquence que dans les
autres bassins de populations selon [Moreau, 2007]. Nos données sont sous la
forme d’étude cas-témoins telle que rapportée dans l’article de Ripke [Ripke et
coll., 2013]. Il est cependant commun de voir que certaines études se font sur des
4
familles afin de minimiser l’impact négatif de la mauvaise compréhension de la
maladie en minimisant l’hétérogénéité génétique puisque les atteints d’une même
famille ont les même gènes [Maziade, 2005]. Il est aussi commun de voir des
études sur des populations plus vastes [Jia, 2010]. Nous n’avons pas choisi cette
approche en raison de la trop grande hétérogénéité de ce type de bassin
génétique qui pourrait entraîner des faux négatifs. [Ritchie, 2011] adopte une
démarche et une approche très similaire à la démarche de notre projet et des
différentes approches que nous utiliserons. Elle démontre aussi l’importance de
filtrer nos données afin de diminuer le nombre de calculs. De plus, ces nouvelles
interactions que nous tenterons d’identifier pourront servir de biomarqueurs de la
maladie.
5
1.2 Objectifs
La schizophrénie est une grave maladie multi génique complexe. Dans le cadre
de mon projet, nous tenterons de trouver de nouvelles interactions géniques
pouvant expliquer la maladie en complétant les étapes suivantes :
- Filtrer les SNPs du jeu de données pour assurer leur qualité et les gènes que
l’on peut associer à ces SNPs pour garder le plus pertinent à la schizophrénie afin
de diminuer le nombre de calculs.
- Comparer le nombre d’interactions trouvées avec la méthode JE sur un ensemble
de SNPs enrichi par GSEA ou par Biofilter calibré par la maladie de Hirschsprung
ou de Bardet-Biedl avec les résultats de l’ensemble de SNPs sélectionnés par
association marginale.
- Trouver les interactions géniques déjà connues en utilisant Biofilter.
- Identifier des voies qui peuvent être enrichi via GSEA.
- Chercher de nouvelles interactions avec une régression logistique et la méthode
JE parmi les paires de gènes identifiés par GSEA ou Biofilter
-Tracer le graphe des interactions trouvées.
1.2.3 Aperçu des étapes
L’annexe A1 illustre très bien l’ensemble du projet. Nous partirons des résultats
obtenus préalablement par l’équipe du Dr Bureau et qui nous serviront à
classer/trier notre liste de gènes retenus pour, soit faire des tests d’interactions,
soit faire de la prédiction de voies (pathways) pour ensuite faire des tests
6
d’interactions. Pour faire notre prédiction de voies (pathways), nous utiliserons la
méthode d’enrichissement de jeux de gènes telle qu’implantée dans le logiciel
GSEA que nous utiliserons avec une liste de voies (pathways) déjà connues en
faisant 1000 permutations ou Biofilter qui nous donnera la liste des interactions
déjà connues. Afin de limiter nos recherches au cerveau, nous utiliserons une liste
de gènes s’exprimant dans le cerveau et provenant de GEA pour filtrer les
prédictions d’interactions de Biofilter ainsi que nos tests d’interactions afin de
diminuer le nombre de calculs. En parallèle, nous calibrerons Biofilter en nous
basant sur les résultats obtenus en se référant à des maladies multigéniques
complexes mieux comprises comme la maladie de Hirschsprung ou celle de
Bardet-Biedl. Les interactions seront recherchées par des analyses d’association.
Nous ferons aussi de nombreux tests sur nos différents logiciels afin de bien
comprendre la portée de chaque paramètre. Le gène encore inconnu responsable
de l’association du SNP rs1156026 à la schizophrénie trouvée par l’équipe du
CRULRG (d’ailleurs, ce gène, sans nom actuellement, sera appelé ainsi pour mon
projet) sera ajouté systématiquement à chaque analyse. Nous ferons nos
analyses d’association sur les résultats de GSEA et Biofilter avec JE. Nous
comparerons aux résultats d’association marginale directement soumis à JE. Bien
sûr, nous résumerons et interpréterons nos résultats.
7
CHAPITRE 2
8
2.1 Matériel et méthode
Nous présenterons dans cette section les différentes méthodes et logiciels que
nous avons utilisés dans le cadre de ce projet.
2.1.1 Population/données
Pour ce projet de maîtrise, nous avons à notre disposition les données génétiques
de personnes de l’Est du Québec atteintes ou non de schizophrénie recrutées
dans une étude dirigée par Dr M. Maziade [Bureau, 2013]. 247 personnes étaient
atteintes et 250 étaient des contrôles. Un cas était défini comme étant une
personne ayant reçu un diagnostic de schizophrénie. Pour établir ce diagnostic,
une entrevue structurée pour le DSM-III-R ou le DSM-IV couplée aux informations
parentales et aux dossiers médicaux complets a été faite. Par la suite, un panel de
4 psychiatres a fait un BED donnant le diagnostic [Maziade, 2005].
L’hybridation a été faite pour des SNPs sur une puce Illumina HumanHap300
personnalisée avec 57 000 SNPs additionnels. Nous avons donc une liste de
SNPs. Un SNP est une variation d’une seule paire de bases qui peut se retrouver
n’importe où dans le génome. Comme nous voulons travailler avec des gènes,
nous devons trouver quels SNPs se retrouvent dans un gène ou proche d’un gène
et quels SNPs se retrouvent dans une partie non codante de notre ADN. Nous
avons donc rattaché nos SNPs à un ou des gènes. Nous disons « des », car il y a
chevauchement de gènes pour certains SNPs. Pour rattacher un SNP à un gène,
nous avons utilisé 2 approches. Premièrement, nous avons vérifié si le SNP était
à l’intérieur de la partie codante du gène (exon) ou à moins de 50k bases de ce
dernier (exon ou intron) afin de tenir compte du déséquilibre de liaison. Nous
avons aussi refait les mêmes choses, mais pour une cartographie directe, c’est-à-
dire que pour être associé à un gène, un SNP doit directement s’y retrouver
(exon). L’équipe de notre centre de recherche a déjà fait quelques analyses sur
9
les données que nous avons notre disposition comme vérifier l’équilibre de Hardy-
Weinberg par exemple ou encore vérifier les fréquences alléliques, ou bien vérifier
le bon appariement des cas et témoins selon les composantes principales de
variation génique, etc [Quackenbush, 2002]. Elle n’a cependant pas effectué
d’analyse sur les chromosomes X et Y et l’ADN mitochondrial. Comme nous
partons de ces analyses, nous nous retrouvons donc à avoir quelques gènes en
moins. Afin de profiter au maximum des analyses précédentes, les SNPs restants
ont ensuite été filtrés avec des critères définis préalablement par notre équipe,
c’est-à-dire la moyenne de la fréquence de l’allèle mineur chez les cas et les
témoins > 1 %, un taux cible (call rate) minimum de 98 % et une valeur-p au test
de Hardy-Weinberg >= 2,5 x 10-5. Comme nous nous intéressons aux gènes
exprimés dans le cerveau et que notre liste de SNP initiale couvrait le génome
autosomal au complet, un autre filtre a été appliqué sur notre liste de gènes pour
ne conserver que ceux étant exprimés dans le cerveau selon la GEA. Le but de ce
dernier filtre est de minimiser les calculs. Pour nos 2 méthodes, nous avons
ensuite sorti le minimum de SNPs référant à un gène, le maximum et la moyenne.
2.1.2 Association marginale
L’association marginale se trouve à être l’association entre le phénotype et
fréquences génotypiques dans les marges du tableau 1. Elle est un moyen plus
rapide que les modèles multivariés de voir si un gène semble lié à un phénotype
d’intérêt. Une bonne partie du projet de recherche repose sur les associations
marginales qui ont été précédemment calculées. Si la schizophrénie était une
maladie basée sur un seul gène, nous pourrions en rester là, car la solution serait
déjà trouvée avec le signal que notre équipe a obtenu sur le chromosome 13
[Bureau, 2013], mais la maladie est multigénique. Nous devons donc poursuivre
notre investigation en regardant les interactions gènes-gènes. Il existe deux
maladies multigéniques complexes, la maladie de Bardet-Biedl et la maladie de
Hirschsprung, qui sont de bons exemples de maladies impliquant des interactions
10
gènes-gènes. Ces deux maladies ont l’avantage d’être très bien connues, c’est-à-
dire que nous connaissons bien chacun des gènes impliqués dans la maladie et
que les différentes interactions qu’ils ont entre eux sont connues et bien
documentées [Cantrell, 2004] [Owens, 2005] [De Pontual, 2009] [Tam, 2009]
[Badano, 2005]. Elles nous servirons donc de modèles. Les valeurs-p obtenues
suite à l’association marginale servent donc entre autres à ordonner notre liste de
gènes retenus pour GSEA par exemple ou servent de critère de sélection comme
défini dans la section sur Biofilter (2.1.5.5).
Locus G \ Locus H H1H1 H1H2 H2H2
G1G1 q22 q21 q20
G1G2 q12 q11 q10
G2G2 q02 q01 q00
Tableau 1 : Tableau de fréquence de génotype à 2 locus (G et H)
q00 = nombre de cas avec aucun allèle mineur pour le 1er SNP et aucun allèle mineur pour le 2e SNP.
q01 = nombre de cas avec aucun allèle mineur pour le 1er SNP et 1 allèle mineur pour le 2e SNP.
q02 = nombre de cas avec aucun allèle mineur pour le 1er SNP et 2 allèles mineurs pour le 2e SNP.
q10 = nombre de cas avec 1 allèle mineur pour le 1er SNP et aucun allèle mineur pour le 2e SNP.
q11 = nombre de cas avec 1 allèle mineur pour le 1er SNP et 1 allèle mineur pour le 2e SNP.
q12 = nombre de cas avec 1 allèle mineur pour le 1er SNP et 2 allèles mineurs pour le 2e SNP.
q20 = nombre de cas avec 2 allèles mineurs pour le 1er SNP et aucun allèle mineur pour le 2e SNP.
q21 = nombre de cas avec 2 allèles mineurs pour le 1er SNP et 1 allèle mineur pour le 2e SNP.
q22 = nombre de cas avec 2 allèles mineurs pour le 1er SNP et 2 allèles mineurs pour le 2e SNP.
2.1.3 Interaction gène-gène/Épistasie
L’épistasie est définie comme l’interaction entre 2 gènes quand le phénotype
dépend de cette interaction et peut être masqué par l’un des 2 gènes ou les 2 dans
certains cas « symétriques » [Cordell, 2002]. L’étude des interactions gènes-
gènes constitue donc la principale tâche de mon projet. Plusieurs logiciels et
méthodes permettent d’analyser l’épistasie [Cordell, 2009]. Nous ferons une
11
régression logistique sur nos données afin de voir les possibilités d’épistasie ainsi
qu’une analyse selon la méthode JE. [Kooperberg, 2008] définit bien ce que
devrait être une telle régression. Il nous démontre que le test de l’effet
d’interaction sous un modèle logistique est approximativement indépendant du
test de l’effet marginal. Nous pouvons donc grâce à cette indépendance choisir
des gènes en fonction de leur valeur-p d’un test marginal sans craindre d’avoir de
biais de sélection sur le paramètre d’interaction et donc, nous pourrons réduire le
nombre de corrections pour contrôler les erreurs de type1. En effet, plutôt que de
corriger pour les paires entre tous nos SNPs, nous n’aurons qu’à corriger pour les
paires entre les SNPs testés. Pour faire la régression logistique, nous
utiliserons la formule log(/1- ) = B0 + B1X1 + B2X2 + B3X1X2 où est le risque
théorique, B0 est notre ordonnée à l’origine, B1X1 et B2X2 sont nos variables
indépendantes (codage allélique) avec leur coefficient (pente) pour nos 2 gènes et
B3X1X2 est notre terme d’interaction entre nos 2 gènes. [Cordell, Ueki, 2011] nous
allume cependant un feu rouge lors de sa présentation sur certaines des méthodes
existant pour tester l’épistasie, nous démontrant leurs failles comme par exemple
la possibilité de considérer comme résultat positif la présence d’un effet principal
sur un seul locus et non une interaction et proposant des corrections. Elle nous
propose aussi sa propre méthode, la méthode JE. Un élément clé de ce projet
étant la comparaison de méthodes, nous essayerons aussi la méthode JE que
nous suggère le Dr Cordell. Un résumé de notre réflexion se trouve à l’Annexe A4
2.1.4 Méthodes de filtrage basées sur les connaissances
biologiques
Depuis longtemps, diverses données biologiques sont collectées et assemblées
dans de grosses bases de données. Nous allons voir dans cette section comment
tirer parti de ce travail colossal.
12
[Bush, 2009] recommande d’utiliser au préalable le savoir biologique déjà
disponible pour enrichir nos données. L’enrichissement pourrait se définir comme
étant l’utilisation d’information des bases de données pour cibler plus
spécifiquement de l’information comme des gènes ou des paires de gènes. Il nous
parle aussi du logiciel Biofilter [Ritchie Lab] qui permet de faire cet enrichissement
à priori. Ce logiciel a été retenu pour mon projet. Nous en parlerons donc plus
dans la sous-section Biofilter (2.1.5.5). L’un des avantages de cette méthode est
l’utilisation des catégories GO [Open Biological and Biomedical Ontologies] afin de
diminuer le nombre de calculs. [Chasman, 2008] utilise aussi GO comme base de
données principale dans son approche. Nous examinerons la base de données
GO plus tard, dans la sous-section GO (2.1.5.1). [Köhler, 2008] utilise une
approche similaire à celle de Bush en ce sens qu’il utilise des bases de données
pour avoir le savoir biologique comme point de départ, mais son approche repose
sur les réseaux d’interactions. [Wang, 2007] nous présentent une autre approche
en utilisant le logiciel GSEA (BROAD Institute), un logiciel conçu à la base pour de
l’enrichissement d'expression génique, mais qui selon leur article peut être utilisé
aussi pour l’enrichissement de voies (pathways) pour des SNPs par de simples
modifications. Cette solution étant aussi retenue pour mon projet, elle sera, elle
aussi, discutée plus en profondeur dans la section sous-section GSEA (2.1.5.6).
Une autre solution d’enrichissement proposée par la BROAD Institute est le logiciel
MAGENTA qui se spécialise dans l’enrichissement lorsque le génotype n’est pas
connu [Segrè, 2010]. [Holmans, 2009] et [Manning, 2009] utilisent eux aussi le
principe d’enrichissement, mais avec une autre méthode. Cette revue s’arrête
cependant en 2011 par manque de temps.
2.1.5 Logiciel et base de données
Cette section est dédiée à la partie la plus importante du projet : Les différents
logiciels et bases de données que nous avons utilisés.
13
2.1.5.1 GO
GO est une grosse base de données ontologique qui permet de classifier les
différents gènes selon leurs fonctions. Dans un premier temps, les gènes sont
répartis en 3 catégories. Les gènes servant de composante cellulaire, ceux
servant dans des processus biologiques et ceux ayant une fonction moléculaire.
Chacune de ces catégories est ensuite divisée en sous catégories plus spécifiques
qui sont elles-mêmes divisées en sous-catégories, etc. Cette structure
hiérarchisée permet de trouver plus facilement des liens entre différents gènes, car
il est reconnu que des gènes avec des fonctions similaires oeuvrent souvent sur
les mêmes ligands ou dans les mêmes voies (pathways). En termes
d’informaticien, les gènes qui se retrouvent dans chaque feuille de l’arbre sont
réputés pour interagir entre eux ou avoir des fonctions très similaires et donc si un
gène d’intérêt se retrouve dans une feuille, il serait bien d’examiner les autres
gènes de cette même feuille pour voir s’ils pouvaient faire partie de nouvelles
interactions.
2.1.5.2 GEA
GEA est une grosse base de données sémantiquement enrichie de méta-analyse
provenant de statistiques obtenues d’archives de puce à expression. Elle contient
donc des informations sur les expressions des gènes. Les expériences sur
chaque gène y sont référencées et identifient une expression à la hausse ou à la
baisse dans le cadre de leur étude en se basant sur les valeurs des tests
statistiques effectués lors de l’expérience. Nous avons donc utilisé cette base de
données pour y en extraire la liste des gènes qui sont exprimés dans le cerveau
afin de pouvoir ne garder que ces gènes lors de nos analyses et ainsi diminuer le
nombre de calculs. Pour agir ainsi, nous supposons que les gènes impliqués dans
la schizophrénie sont tous exprimés dans le cerveau et donc qu’il n’y a pas de
14
gènes uniquement exprimés dans le cœur ou les poumons qui sont impliqués
dans la maladie par exemple.
2.1.5.3 MSigDB
La MSigDB est une base de données contenant une collection de voies
(pathways) annotées pour différents organismes et dans un format utilisable par
GSEA. Lors de nos analyses, nous nous intéresserons aux voies (pathways) qui
sont présentes dans notre cerveau. Nous avons donc interrogé cette base de
données pour en extraire une sous-base de données de voies (pathways)
retrouvées chez l’homme avec le mot clé Homo Sapiens et nous avons ensuite
extrait une sous-sous-base de données ne contenant que les voies (pathways)
d’intérêt en nous servant de la liste de mots clés : « schizophrenia depressive
bipolar brain neur* cortex spinal cogni* glial astrocytes synap* dendrite axon* nerv*
acetylcholine actin anion cation channel volt* sodium calcium potassium gaba tgf
glutamate vesicle». Un résumé plus complet se retrouve à l’Annexe A5
2.1.5.4 DAVID
Le logiciel DAVID (National Institute of Allergy and Infectious Diseases.) a été
utilisé pour annoter notre liste de SNPs après les avoir cartographiés (mappés)
sur un gène. En gros, il prend une liste de symboles et cherche la description du
gène auquel il réfère lorsque cette dernière est connue. Il retourne ensuite le
résultat dans un format texte que l’on peut greffer facilement avec Perl. Cette
annotation constitue un artifice facilitant la compréhension des résultats en
permettant de rapidement voir ce que fait un gène et ainsi mieux comprendre son
lien avec un autre gène avec lequel il interagirait.
15
2.1.5.5 BIOFILTER
Biofilter est un logiciel développé par le laboratoire du Dr Ritchie. Il prend une liste
de SNPs et cherche dans plusieurs bases de données (GO, KEGG, Net Path,
pfam, Reactome, DIP et BioCarta. Voir Annexe A3) les interactions biologiques
qui sont déjà connues [Turner, 2011]. Nous nous sommes basés sur les résultats
d’association marginale (valeur p marginale < 0.2), ainsi que sur les résultats de
cartographie (mapping) positif pour définir notre liste de SNPs. Pour avoir une
interaction déjà connue, GO par exemple, comme expliqué dans la section sur GO
(2.1.5.1), va donner l’information à Biofilter qu’il y a interaction entre les gènes qui
se retrouvent dans la même feuille. En utilisant sa propre base de données,
Biofilter associe chaque SNP à un gène puis il vérifie pour chaque paire de gènes
la présence d’interaction connue dans les bases de données pour l’une des
sources. Chaque fois qu’une interaction est trouvée dans une base de données
(source), un indice est incrémenté de 1. La recherche se poursuit ainsi pour
chaque source. Un autre indice est incrémenté de 1 pour chaque source différente
où une interaction a été trouvée. Nous avons donc un indice final au format
source-interaction (ex. : 6-78). Nous pouvons aussi fournir nos propres
informations reliées à la maladie qui nous intéresse. La liste ainsi obtenue est un
meilleur point de départ pour nos analyses d’interactions, car elle diminue le
nombre de calculs. En effet, nous utilisons la prémisse que si une paire de gènes
est reconnue pour avoir une interaction, les chances pour que ces gènes de façon
individuelle aient d’autres interactions avec d’autres gènes sont plus élevées que
pour une sélection au hasard et ces interactions pourraient contribuer à causer une
maladie. Afin de paramétrer convenablement Biofilter, nous avons fait les
différents tests présentés à l’Annexe A6. Il est à noter que nous avons demandé à
Biofilter dans ses paramètres de configuration de se limiter aux 50 000 meilleures
paires de gènes car nous avons déterminé dans nos tests que ce serait suffisant
pour englober notre point de coupure. Ce dernier sera fixé en se basant sur les
résultats qu’obtiendra Biofilter sur nos maladies connues de Hirschsprung et de
16
Bardet-Biedl. La version 0.5 de Biofilter fut utilisée pour effectuer ces tests, mais
celle utilisée pour les résultats du projet fut la version 2.0 [Pendergrass, 2013].
2.1.5.6 GSEA
GSEA est un logiciel qui à la base permet de faire de l’enrichissement d’expression
de gènes. Cet enrichissement d’expression de gènes est fait par une méthode de
calcul qui détermine si un groupe de gènes défini à priori montre une différence
d’expression statistiquement significative entre les différents états biologiques
(phénotypes). Il est cependant possible de lui donner notre propre liste de gènes
ordonnée selon notre test statistique préféré. Nous pouvons donc lui donner une
liste avec la valeur-p allélique minimum pour chacun des gènes de notre liste de
gènes retenus [Holden, 2008]. Le gène avec la plus petite valeur se retrouvant
ainsi au début de la liste et celui avec la plus grande à la fin. Pour calculer la
statistique d’enrichissement, GSEA fait en gros une marche dans notre liste de
gènes ordonnée en augmentant un indice quand un gène est présent (hit) dans
une voie (pathway) et en le diminuant lorsqu’il ne l’est pas (miss). Le score
d’enrichissement est calculé à partir de la valeur la plus éloignée de 0 de cette
variable que GSEA a rencontrée lors de cette marche. Lors du calcul de la valeur
d’enrichissement, il est possible d’accorder un poids au calcul de l’indice. La
valeur de 0 est la valeur « classique » et permet de faire un test statistique
standard de Kolmogorov–Smirnov. Nous pouvons aussi la changer pour 1, 1,5 et
2. Rappelons rapidement que le test de Kolmogorov–Smirnov permet de tester si
un échantillon suit une loi donné ou si deux échantillons suivent la même loi. La
formule pour calculer l’enrichissement est :
17
[Subramanian, 2005]
Figure 1 : Formule pour le calcul de l’enrichissement de GSEA
Formule pour le calcul de l’enrichissement de GSEA tel que défini par [Subramanian, 2005]
La valeur d’enrichissement est la déviation maximum de 0 de Phit - Pmiss
S est notre voie (pathway) qu’on analyse actuellement, Nh est le nombre de gènes
dans S, N est le nombre de gènes de notre liste ordonnée, i est la position du gène
dans notre liste ordonnée, gi est le gène à la position i dans notre liste ordonnée et
P est le poids. Le paramètre rj dépendrait du phénotype si nous utilisions cette
possibilité de GSEA. Cependant, dans notre situation, sa valeur est simplement la
valeur numérique du rang donné en entrée quand on fait une analyse avec une
liste pré ordonnée. Si S est distribué aléatoirement, alors le score
d’enrichissement est petit.
GSEA utilise une base de données contenant différentes voies (pathways)
connues (MSigDB). Il vérifie ensuite parmi notre liste de gènes retenus ceux qui
sont dans ces voies (pathways) puis fait son test d’enrichissement. Normalement,
il procède à des permutations des gènes, mais cela ne convient pas à des
données de SNP car sa méthode considère que nous sommes dans une situation
d’enrichissement d’expression de gènes. Comme il est important de faire des
permutations pour contrer la dépendance créée lors de tests multiples, nous les
ferons manuellement comme nous le suggère [Holmans, 2009]. Nous allons pour
chaque SNP tirer une valeur-p aléatoire d’une loi uniforme. Nous prenons ensuite
pour chaque gène le SNP avec la valeur-p minimum. Cette valeur p est ensuite
transformée en –log base 10 pour avoir la plus grande valeur possible pour la plus
petite valeur-p. GSEA a besoin de cette transformation pour ordonner
convenablement notre liste. Pour finir, nous resoumettons nos données à GSEA.
18
Nous referons le tirage ainsi que les étapes qui le suivent un total de 1000 fois
pour avoir nos 1000 permutations. Bien entendu, il faut aussi en plus des 1000
permutations soumettre notre liste originale. La méthode de Holmans est
cependant différente de la nôtre. Nous, nous regardons la valeur d’enrichissement
maximale. Lui il la regarde à différents points de coupure (cutoff). Il est aussi
possible de soumettre à GSEA notre propre liste de voies (pathways) alors nous
pourrons rester proches de la littérature récente et donc comparer notre approche
avec celle de [Jia, 2010] ou aller chercher des informations dans d’autres bases de
données. Afin de paramétrer convenablement GSEA, nous avons fait les
différents tests présentés à l’Annexe A7.
2.1.5.7 JE
JE est une méthode inventée par les Dr Cordell et Ueki [Ueki, 2012]. Comme cette
méthode était nouvelle lors de ma Maîtrise, nous l’avons programmée dans R.
Cependant, elle fut implantée depuis peu dans la suite logicielle CASSI [Cordell,
et Ueki, 2013]. À cause du phénomène de bruit dans les échantillons qui tire son
origine dans la trop grande hétérogénéité génétique de la schizophrénie, du côté
multigénique complexe de la maladie, de l’effet très faible sur le phénotype que
peut avoir une interaction génique, des erreurs de manipulation de la biopuce qui
nuisent à la qualité de l’échantillon, etc., les méthodes statistiques traditionnelles
pour détecter les possibles interactions ne donnent pas toujours de bons résultats.
En effet, il arrive que la simple présence d’un effet principal pour l’un des 2 locus
amène les tests traditionnels à détecter une interaction alors que dans les faits il
n’en existe aucune, donnant un faux positif. Une très faible interaction peut aussi
se perdre dans le bruit et passer inaperçue en donnant un faux négatif. La
méthode JE vient pallier ces problèmes. Cette méthode n’est sensible qu’aux
véritables effets d’interactions, c’est-à-dire aux effets qui sont détectés sur les 2
locus et qui sont statistiquement significatifs pour décrire une interaction génique,
ou, lorsque la maladie n’est pas suffisamment rare, à un effet principal aux 2 locus.
19
Le fonctionnement et l’implantation du JE ne sont pas si complexes. Nos données
sont sous la forme d’un tableau (tableau 2).
SUBID groupe rs1642 rs7323 rs1816 rs2884 …
17 000 1 2 1 0 1 …
17 001 1 0 1 1 2 …
17 002 1 1 1 0 0 …
18 000 0 2 0 0 0 …
18 001 0 1 0 0 2 …
… … … … … … …
Tableau 2 : Exemple de notre fichier de données
SUGID est le numéro unique attribué à chaque sujet et permettant d’assurer la confidentialité. Groupe permet
d’identifier nos cas et nos témoins. Cas = 1 et témoins = 0. Viens ensuite nos différents SNPs et leurs
valeurs. 0 = aucun allèle mineur. 1 = présence de l’allèle mineur sur l’un des deux chromosomes. 2 =
présence de l’allèle mineur sur chaque chromosome.
Par la suite, nous prenons une paire de SNPs qui ne sont pas situés dans le même
gène. Pour les cas, nous faisons les sommes pour chaque situation possible afin
d’obtenir les qij tels que définis au tableau 1.
Nous définissons ensuite les rapports marginaux suivants :
i22 = q22q00 / q20q02
i21 = q21q00 / q20q01
i12 = q12q00 / q10q02
i11 = q11q00 / q10q01
Posons Y(Ø) qui est défini comme étant le log du rapport de cotes des allèles tel
qu’estimé par la méthode de [Wu, 2010].
20
Y(Ø) = log(P11P22/P12P21)
Où Pjk est la probabilité de l’haplotype Gj -- Hk
Nous pouvons maintenant définir l’estimateur de Y(Ø) suivant :
Ycas = w22 (log i22) / 2 + w21 log i21 + w12 log i12 + w11 log(2 * i11 − 1)
Où les poids wij somment à 1 et sont choisis pour minimiser la variance Ycas.
En suivant les mêmes étapes pour les témoins, nous pouvons calculer Ytémoins.
JE = [Ycas - Ytémoins]2 / (Vcas + Vtémoins)
Où V représente la variance estimée de Y
2.1.5.8 R
R est un environnement de programmation en langage S développé par le Projet R
(CRAN). Fonctionnant sous le principe des modules, il est virtuellement possible
de lui faire faire n’importe quel type de tâche en lui fournissant les librairies
appropriées. Très utilisé par les Statisticiens, les Actuaires et les Physiciens, il
l’est aussi par les bio-informaticiens. L’essentiel de ce projet repose sur cette
architecture. La cartographie de nos SNPs, les différents filtres que nous avons
appliqués aux données, l’adaptation aux SNPs et son implantation, l’utilisation de
la régression logistique, les appels à Biofilter, l’implantation de JE et la production
des graphiques ont tous été faits dans R.
2.1.5.9 Perl
Perl (Perl) est un langage spécialisé dans la manipulation de chaîne de caractères
que nous avons utilisé afin de jumeler les annotations de DAVID à la cartographie
que nous avons faite des SNPs à notre disposition.
21
2.1.5.10 Osprey
Osprey (Tyers) est un logiciel spécialisé permettant de créer des représentations
graphiques des réseaux d’interactions protéine-protéine. Nous avons utilisé ce
logiciel pour représenter nos nouvelles interactions et tenté de déceler un réseau
d’interaction qui pourrait suggérer la présence d’une nouvelle voie (pathway) que
nous ne connaissons pas encore impliquée dans la schizophrénie. Il nous permet
entre autre de faire une sélection en éliminant automatiquement toutes les paires
de gènes qui ne possèdent aucune autre interaction et donc qui ne semblent
rattachés à aucun réseau. Par la suite, nous pouvons éliminer facilement
manuellement tous les réseaux qui sont composés de 3 gènes ou plus et qui ne
sont pas rattachés au réseau principal, soit le plus grand réseau d’interaction que
nous pouvons trouver.
23
CHAPITRE 3
24
3.1 Résultats
Nous présenterons dans cette section divers résultats dont nous discuterons plus
tard dans la section Discussion (4.1).
3.1.1 Résultats de cartographie et filtrage
Nous sommes partis d’une liste de 348 411 SNPs répartis partout dans le génome,
à l’exception des chromosomes X et Y et de l’ADN mitochondrial qui n’ont pas été
considérés. Certains sont dans des régions codantes, d’autres non. Comme nous
nous intéressons aux gènes, une première étape fut d’éliminer tous les SNPs
n’étant pas directement dans un gène ou à proximité d’un gène tel que défini dans
la section méthode (2.1.1). Comme certains SNPs ont eu des problèmes
d’hybridation et pour s’assurer de la qualité générale des données, un filtre a été
appliqué tel que défini dans la section Population/Donnée. Notre liste de SNPs
avant cartographie est donc passée à 327 729 SNPs. Dans la cartographie
Directe, nous avons réduit notre liste de SNPs à 153 110 localisés dans 15 559
gènes différents. Pour la cartographie Étendue, notre liste de SNPs fut réduite à
232 380 localisés dans ou proche de 21 397 gènes différents. Nous avons déjà
établi que nous nous intéressions aux gènes exprimés dans le cerveau. Afin de
tenir compte de cette réalité, un autre filtre a été appliqué à partir de la liste des
SNP exprimés au cerveau de GEA. La cartographie a ensuite de nouveau été
appliquée pour nous donner une cartographie Directe de 132 657 SNPs
directement localisés dans 13 472 gènes différents ayant une expression au
cerveau. La cartographie Étendue a donné 205 162 SNPs directement localisés
ou à proximité de 16 856 gènes différents ayant une expression au cerveau.
Certains gènes sont très petits et ne possèdent qu’un seul SNP. D’autres sont
énormes et vont contenir jusqu’à 751 SNP. Nous avons donc une moyenne de
25
9.92028 SNPs par gène avec une cartographie Directe et de 19.58003 avec une
cartographie Étendue. Le tableau 3 résume ces différents résultats.
Méthode de cartographie (mapping) Directe Étendue (50 kb de
chaque côté)
Nombre de SNPs au départ 348 411 348 411
Nombre de SNPs après cartographie (mapping) 153 110 232 380
Nombre de gènes pointé par un ou des SNPs 15 559 21 397
Nombre de SNPs total après filtre pour contrôle
de qualité
327 729 327 729
Nombre de gènes après filtre pour contrôle de
qualité
14 960 20 460
Nombre de SNPs après filtre pour garder gènes
exprimés au cerveau
132 657 205 162
Nombre de gènes après filtre pour garder gènes
exprimés au cerveau
13 472 16 856
Nombre de SNPs minimum par gène 1 1
Nombre de SNPs maximum par gène 721 751
Nombre de SNPs moyen par gène 9.92 19.58
Tableau 3 : Résumé cartographie et filtre
Tableau résumé des résultats pour une cartographie directe (Le SNP se retrouve directement dans le gène) et
une cartographie étendue (Le SNP se retrouve directement dans le gène ou jusqu’à une distance de 50 000
paires de bases de ce dernier). Il contient aussi les résultats du filtrage.
26
3.1.2 Résultats GSEA
L’enrichissement de notre jeu de données par la méthode GSEA a permis de faire
ressortir différentes voies (pathways) dont les gènes semblaient intéressants pour
la suite, c’est-à-dire pour nos tests pour trouver de nouvelles interactions.
Cartogr
aphie
Poids Nom Size ES NES Valeur-P Valeur-P NES Bonferroni
Direct Classique DEBIASI_APOPTO
SIS_BY_REOVIRUS
_INFECTION_UP 196 0.097 5.9067 0.0099 2.3765e-05 0.0129
Direct P1 BENPORATH_PRC
2_TARGETS
425 0.5136 5.2721 0.0099 1.8281e-06 0.0009
Direct P1 BENPORATH_EED
_TARGETS
694 0.4631 4.1803 0.0099 1.2797e-05 0.0069
Direct P1 KEGG_AMYOTROP
HIC_LATERAL_SCL
EROSIS_ALS
45 0.5542 3.9225 0.0099 4.2047e-05 0.0229
Étendue P1 BLALOCK_ALZHEI
MERS_DISEASE_D
N
1118 0.2514 4.0212 0.0099 2.1314e-05 0.0119
Étendue P1 KOYAMA_SEMA3B
_TARGETS_UP
197 0.3258 3.9174 0.0099 3.7300e-05 0.0209
Tableau 4 : Résultats GSEA
Tableau des résultats concluant de GSEA. Une voie (pathway) a été retenue lorsqu’elle présentait un résultat
au test de Bonferroni inférieur à 0.05. Nous y retrouvons la cartographie pour identifier nos gènes, le
paramètre de poids utilisé dans GSEA, le nom de la voie (pathway) identifiée, le nombre de gènes qui la
composent, la valeur obtenue pour le score d’enrichissement (ES), la valeur normalisée du score
d’enrichissement (NES), la valeur-p du ES, la valeur-p du NES et la valeur corrigée selon Bonferroni du NES
qui a servi à discriminer nos résultats.
La voie DEBIASI_APOPTOSIS_BY_REOVIRUS_INFECTION_UP contient la liste
des gènes liés à l’apoptose dont l’expression est modifiée suite à une infection par
rétrovirus. La voie BENPORATH_PRC2_TARGETS contient la liste des gènes qui
possèdent la marque de tri-méthylation H3K27 dans leur région promotrice et qui
sont capable de se lier au gène PRC2. La voie BENPORATH_EED_TARGETS
contient la liste des gènes capable de se lier au gène EED. La voie
KEGG_AMYOTROPHIC_LATERAL_SCLEROSIS_ALS contient la liste des gènes
27
impliqués dans la maladie de la Sclérose latérale amyotrophique. La voie
BLALOCK_ALZHEIMERS_DISEASE_DN contient la liste des gènes présentant
une baisse d’expression dans la maladie d’Alzheimer. Pour finir, la voie
KOYAMA_SEMA3B_TARGETS_UP contient la liste des gènes dont l’expression
est augmentée lorsque le gène SEMA3B est exprimé.
3.1.3 Résultats Biofilter
La méthode Biofilter a permis de faire ressortir différentes paires de gènes
reconnus pour avoir des interactions et donc qui ont un fort potentiel pour avoir
d’autres interactions que nous ne connaissons pas encore. Ces paires de gènes
sont donc intéressantes pour la suite, c’est-à-dire pour nos tests pour trouver de
nouvelles interactions. Le logiciel a été paramétré pour identifier les 50 000
meilleures paires de gènes parmi celles qu’il a cartographiées avec notre liste de
SNPs afin de s’assurer de trouver toutes les paires avec un indice égal ou
supérieur à notre seuil. Il est à noter que les résultats pour la cartographie Directe
et Étendue furent identiques (tableau 5). Ces résultats s’expliquent par le fait que
Biofilter fait lui-même sa propre cartographie et considère le déséquilibre de liaison
avec son paramètre de population qui permet de faire une cartographie étendue.
Sa cartographie de nos deux listes de SNPs fut donc pratiquement identique. Il y a
eu cependant quelques petites différences mais elles ne sont pas ressorties dans
les résultats. Ces différences mineures viennent du fait que nous avons appliqué
une distance de 50 KB de chaque côté d’un SNP pour notre cartographie étendue
alors que dans les faits, le déséquilibre de liaison n’est pas toujours identique
d’une région chromosomique à une autre. Biofilter est donc beaucoup plus
rigoureux que nous à ce sujet, même si cela n’a pas présenté de différence sur les
résultats.
28
Cartographie Nombre
de SNPs
soumis
Nombre de
paires de gènes
identifiés avant
coupure
Point de
coupure
Nombre de
paires de gènes
identifiés après
coupure
Nombre
de gènes
différents
Directe 25 799 50 000 4-156 6105 373
Étendue 64 511 50 000 4-156 6105 373
Tableau 5 : Résultats Biofilter
Tableau résumé des résultats concluants de Biofilter. Nous y retrouvons le type de cartographie pour
déterminer les SNPs soumis, le nombre de SNP que nous avons soumis, le nombre de paires de gènes que
Biofilter a identifiées comme étant reconnues pour avoir des interactions tel que nous l’avons défini dans le
fichier de configuration, le seuil qui représente l’index minimal que pouvait avoir une paire de gènes pour être
retenue, le nombre de paires de gènes retenues après coupure et le nombre total de gènes différents qui se
retrouvent dans les paires retenues.
3.1.4 Résultats Régression logistique
Aucun résultat statistiquement significatif n’a été identifié par les tests
d’interactions, que nous utilisions ou non un enrichissement par GSEA. Au vu de
ces résultats, il a été décidé de ne pas faire ce test avec l’enrichissement par
Biofilter afin de minimiser les temps de calculs.
3.1.5 Résultats JE
Nous avons voulu comparer les résultats des tests avec enrichissement à ceux
faits avec l’association marginale. Pour ce faire, nous avons fixé un point de
coupure comparatif permettant de choisir les Y meilleurs SNPs de l’association
marginale afin d’avoir un nombre de tests à peu près égal à ceux faits lors des
tests avec enrichissement. Le point de coupure comparatif sans enrichissement a
été défini comme étant
29
Y = ceiling ( (-1/2) + sqrt( (1/4) + (2 * nbTest) ) )
où ceiling : ceiling (plafond) prend un argument numérique simple x et retourne un
vecteur numérique contenant le plus petit entier qui n’est pas inférieur à l’élément
correspondant x
sqrt : Fonction racine carré
nbTest : Nombre de tests total faits pour lequel on veut trouver le nombre de SNPs
nécessaire afin de faire un nombre de test similaire.
Avec enrichissement
GSEA
Sans
enrichissement
GSEA
Avec
enrichissement
Biofilter
Sans
enrichissement
Biofilter
JE Directe 536 502 79 83
JE Étendu 855 372 79 33
Nb test JE
Directe
5 581 022 5 582 811 503 507 490 546
Nb test JE
Étendu
11 884 695 11 885 250 503 507 490 546
Tableau 6 : Résumé des résultats de JE
Tableau qui résume nos résultats pour JE avec enrichissement par GSEA, sans enrichissement pour un
nombre de test équivalent à GSEA, avec enrichissement par Biofilter et sans enrichissement pour un nombre
de test équivalent à Biofilter. Nous y retrouvons le nombre de résultats statistiquement significatif de tests
d’interactions suite à une correction de Bonferroni pour chacune de nos 2 cartographies ainsi que le nombre de
tests totaux effectués.
30
3.1.6 Résultats retenus
Après avoir passé une batterie de contrôles de qualité, de critères de sélections et
de validations de concepts (section 2.1.1, 2.1.2, 2.1.3, 2.1.4, 2.1.5.5, 2.1.5.6,
2.1.5.7 et 2.1.5.10) depuis le début de notre projet, une petite liste de paires de
gènes a su sortir du lot. Voici les différentes paires de marqueurs que nous avons
retenues. Chacun des graphiques 2 à 14 est un graphique des rapports de cotes
pour les paires de marqueurs dont les interactions ont une valeur p sous un seuil
de Bonferroni de 0.05 pour le test de JE et qui visuellement parlant démontrent
bien un effet d’interaction. Les graphiques 2 à 14 comportent aussi la particularité
d’être sous un seuil de 0.006 pour le test de la régression logistique. Chacun de
ces graphiques est accompagné d’une courte interprétation de l’interaction qu’on y
retrouve. À l’annexe A2 se trouve une table avec quelques informations
supplémentaires sur les différents gènes présentés dont les annotations. Chacune
de ces paires de gènes semble présenter une interaction statistiquement
significative non connue jusqu’à présent. Certaines de ces interactions donnent
une susceptibilité pour développer la maladie. D’autres donnent une résistance.
Dans certains cas, la présence de l’allèle mineur pour un seul des deux gènes
entraîne une plus forte susceptibilité pour développer la maladie, mais la présence
de l’allèle mineur de l’autre gène crée une interaction qui corrige le phénotype
introduit par l’allèle du premier gène pour ramener le risque de la maladie à celui
du génotype de référence. Nous qualifions ce phénomène de retour à la normale.
Le tableau 7 résume les interactions selon cette classification.
Légende pour les figures 2 à 14 :
Y : Rapport de cotes par rapport au génotype homozygote pour l’allèle majeur aux
deux marqueurs.
X : qij
Où i = nombre d’allèles mineurs pour le SNP1
Où j = nombre d’allèles mineurs pour le SNP2
Les figures comportent un intervalle de confiance à 95 %
31
Figure 2 : KCNQ1 VS NAV2
Voie BENPORATH_EED_TARGETS, cartographie Directe avec poids configuré à 1 dans GSEA. Ici, nous voyons que
quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une susceptibilité pour développer la
schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène NAV2 sont très rares.
32
Figure 3 : RELN VS CTNND2
Voie BENPORATH_EED_TARGETS, cartographie Directe avec poids configuré à 1 dans GSEA. Ici, nous voyons que
quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une susceptibilité pour développer la
schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène CTNND2 sont rares.
33
Figure 4 : GRM3 VS GRM7
Voie BENPORATH_EED_TARGETS, cartographie Directe avec poids configuré à 1 dans GSEA. Ici, nous voyons que
quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une résistance pour développer la schizophrénie.
Cependant, l’absence de l’allèle mineur pour un des 2 gènes en présence d’un homozygote de l’allèle mineur de l’autre gène
entraine une susceptibilité pour développer la schizophrénie. Il faut aussi noter que les homozygotes pour l’allèle mineur du
gène GRM3 sont rares.
34
Figure 5 : ADCY8 VS PRDM14
Voie BENPORATH_EED_TARGETS, cartographie Directe avec poids configuré à 1 dans GSEA. Ici, nous voyons que
quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une résistance pour développer la schizophrénie.
Cependant, l’absence de l’allèle mineur pour un des 2 gènes en présence d’un homozygote de l’allèle mineur de l’autre gène
entraine une susceptibilité pour développer la schizophrénie. Il faut aussi noter que les homozygotes pour l’allèle mineur du
gène PRDM14 sont rares.
35
Figure 6 : ROBO1 VS NRXN1
Voie BLALOCK_ALZHEIMERS_DISEASE_DN, cartographie Étendue avec poids configuré à 1 dans GSEA. Ici, nous
voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une forte susceptibilité pour
développer la schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène ROBO1 sont rares.
36
Figure 7 : CDH13 VS NRXN1
Voie BLALOCK_ALZHEIMERS_DISEASE_DN, cartographie Étendue avec poids configuré à 1 dans GSEA. Ici, nous
voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une forte susceptibilité pour
développer la schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène CDH13 sont rares.
37
Figure 8 : TLK1 VS PDIA6
Voie BLALOCK_ALZHEIMERS_DISEASE_DN, cartographie Étendue avec poids configuré à 1 dans GSEA. Ici, nous
voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une très forte susceptibilité pour
développer la schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène TLK1 sont rares.
Notons que le rapport de cotes de q12 sort du cadre du graphique, car sa valeur est 15
38
Figure 9 : PLCB1 VS PLCL2
Voie BLALOCK_ALZHEIMERS_DISEASE_DN, cartographie Étendue avec poids configuré à 1 dans GSEA. Ici, nous
voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une forte susceptibilité pour
développer la schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène PLCL2 sont rares.
39
Figure 10 : GPC5 VS PKNOX2
Voie BLALOCK_ALZHEIMERS_DISEASE_DN, cartographie Étendue avec poids configuré à 1 dans GSEA. Ici, nous
voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une très forte susceptibilité pour
développer la schizophrénie.
40
Figure 11 : FAIM2 VS SHANK2
Voie BLALOCK_ALZHEIMERS_DISEASE_DN, cartographie Étendue avec poids configuré à 1 dans GSEA. Ici, nous
voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une résistance à développer la
schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène FAIM2 sont rares.
41
Figure 12 : CDH13 VS CYCS
Voie BLALOCK_ALZHEIMERS_DISEASE_DN, cartographie Étendue avec poids configuré à 1 dans GSEA. Ici, nous
voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une résistance à développer la
schizophrénie. Il faut aussi noter que les homozygotes pour l’allèle mineur du gène CYCS sont rares.
42
Figure 13 : DLG2 VS RGS7
Voie BLALOCK_ALZHEIMERS_DISEASE_DN, cartographie Étendue avec poids configuré à 1 dans GSEA. Ici, nous
voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une résistance à développer la
schizophrénie.
43
Figure 14 : CAMK2D VS KCNQ5
Enrichissement fait par Biofilter. CAMK2D provient de la paire CAMK2B VS CAMK2D et possède un indice de 5-
56. KCNQ5 provient de la paire KCNQ3 VS KCNQ5 et possède un indice de 5-12. Ici, nous voyons que
quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a un retour à la normale du phénotype
qui a tendance autrement en présence d’allèle mineur pour un seul des deux gènes à entraîner une
susceptibilité pour développer la schizophrénie.
Catégorie Paires de gènes
Susceptibilité KCNQ1- NAV2, RELN- CTNND2, NRXN1- ROBO1, NRXN1- CDH13,
TLK1- PDIA6, PLCB1- PLCL2, GPC5- PKNOX2
Résistance GRM3- GRM7, FAIM2- SHANK2, CDH13- CYCS, DLG2- RGS7
Normale ADCY8- PRDM14, CAMK2D- KCNQ5
Tableau 7 : Résumé interaction
Tableau résumé qui liste les paires de gènes selon leur catégorie d’interaction. Une définition plus précise des
gènes est disponible au tableau 11.
44
Dans la première catégorie, nous avons retenu plusieurs paires de gènes dont la
présence de l’allèle mineure dans les 2 gènes pourrait créer une susceptibilité pour
développer la schizophrénie. Le gène KCNQ1 code pour une protéine de sous
unité de canal potassium contrôlé par le voltage. L’allèle mineur du SNP de ce
gène semblerait avoir une interaction causant une susceptibilité pour développer la
schizophrénie avec l’allèle mineur du SNP du gène NAV2, un gène qui code pour
une protéine qui est impliquée dans la croissance et migration des neurones (figure
2). Le gène RELN code pour une protéine de matrice extracellulaire qui contrôle
les interactions cellule-cellule critiques du positionnement et de la migration
neuronale. L’allèle mineur du SNP de ce gène semblerait avoir une interaction
causant une susceptibilité pour développer la schizophrénie avec l’allèle mineur du
SNP du gène CTNND2, un gène qui code pour une protéine de jonction adhésive
impliquée dans le développement du cerveau (figure 3). Le gène NRXN1 code
pour une protéine d’adhésion cellulaire du système nerveux. L’allèle mineur du
SNP de ce gène semblerait avoir une interaction causant une susceptibilité pour
développer la schizophrénie avec l’allèle mineur du SNP du gène ROBO1, un gène
qui code pour une protéine qui est impliquée dans la guidance des axones (figure
6), et une autre avec l’allèle mineur du SNP du gène CDH13, un gène qui code
pour une protéine qui sert de régulateur négatif de la croissance de l’axone
pendant la différenciation neurale et de protection contre l’apoptose dû à un stress
oxydatif (figure 7). Le gène TLK1 code pour une protéine de régulation de
l’assemblage de la chromatine. L’allèle mineur du SNP de ce gène semblerait
avoir une interaction causant une susceptibilité pour développer la schizophrénie
avec l’allèle mineur du SNP du gène PDIA6, un gène qui code pour une protéine
qui catalyse la formation, la réduction et l’isomérisation de ponts disulfure (figure
8). Le gène PLCB1 code pour une protéine de Phospholipase C. L’allèle mineur
du SNP de ce gène semblerait avoir une interaction causant une susceptibilité pour
développer la schizophrénie avec l’allèle mineur du SNP du gène PLCL2, un gène
qui code pour une protéine de Phospholipase C (figure 9). Le gène GPC5 code
pour une protéine qui joue un rôle important dans la division cellulaire. L’allèle
mineur du SNP de ce gène semblerait avoir une interaction causant une
45
susceptibilité pour développer la schizophrénie avec l’allèle mineur du SNP du
gène PKNOX2, un gène qui code pour une protéine qui joue un rôle important
dans la mort cellulaire (figure 10).
Dans la seconde catégorie, nous avons retenu quelques paires de gènes dont la
présence de l’allèle mineure dans les 2 gènes pourrait créer une résistance à
développer la schizophrénie. Le gène GRM3 code pour une protéine de récepteur
de glutamate métabotropique. L’allèle mineur du SNP de ce gène semblerait avoir
une interaction causant une résistance à développer la schizophrénie avec l’allèle
mineur du SNP du gène GRM7, un gène qui code pour une protéine de récepteur
de glutamate métabotropique (figure 4). Le gène FAIM2 code pour une protéine
qui a un rôle d’inhibiteur de l’apoptose. L’allèle mineur du SNP de ce gène
semblerait avoir une interaction causant une résistance à développer la
schizophrénie avec l’allèle mineur du SNP du gène SHANK2, un gène qui code
pour une protéine qui fait partie de l’échafaudage de la densité post synaptique et
attache les mGluRs aux récepteurs NMDA lors de la synaptogénèse (figure 11).
Le gène CDH13 code pour une protéine qui sert de régulateur négatif de la
croissance de l’axone pendant la différenciation neurale et de protection contre
l’apoptose dû à un stress oxydatif. L’allèle mineur du SNP de ce gène semblerait
avoir une interaction causant une résistance à développer la schizophrénie avec
l’allèle mineur du SNP du gène CYCS, un gène qui code pour une protéine qui sert
à l’initiation de l’apoptose (figure 12). Le gène DLG2 code pour une protéine qui
est impliquée dans la clustérisation des récepteurs et canaux ioniques
postsynaptiques. L’allèle mineur du SNP de ce gène semblerait avoir une
interaction causant une résistance à développer la schizophrénie avec l’allèle
mineur du SNP du gène RGS7, un gène qui code pour une protéine qui a le rôle de
régulateur des protéines-G postsynaptiques (figure 13).
Dans la troisième catégorie, nous avons retenu quelques paires de gènes dont la
présence de l’allèle mineure dans les 2 gènes pourrait ramener à la normale le
phénotype de développer la schizophrénie alors que la présence de l’allèle mineur
46
sur un seul des 2 gènes semble entraîner une susceptibilité. Le gène ADCY8 code
pour une protéine qui catalyse la formation de l’AMP à partir de l’ATP. L’allèle
mineur du SNP de ce gène semblerait avoir une interaction causant un retour à la
normale du phénotype pour la schizophrénie avec l’allèle mineur du SNP du gène
PRDM14, un gène qui code pour une protéine qui joue un rôle clé dans la
pluripotence en supprimant les marqueurs de différenciations, alors que la
présence de l’allèle mineur sur un seul des 2 gènes semble augmenter la
susceptibilité de développer la maladie (figure 5). Le gène CAMK2D code pour
une protéine qui joue un rôle important dans la plasticité synaptique. L’allèle
mineur du SNP de ce gène semblerait avoir une interaction causant un retour à la
normale du phénotype pour la schizophrénie avec l’allèle mineur du SNP du gène
KCNQ5, un gène qui code pour une protéine de sous unité de canal potassium
contrôlé par le voltage qui joue un rôle critique dans la régulation de l’excitabilité
neuronale, alors que la présence de l’allèle mineur sur un seul des 2 gènes semble
augmenter la susceptibilité de développer la maladie (figure 14).
3.1.7 Résultats Osprey
Voici le réseau des interactions que nous avons trouvées avec la méthode JE
combiné avec un enrichissement GSEA ou Biofilter et qui sont statistiquement
significatives. Il constitue un bon résumé graphique des principaux résultats. Pour
faire ce réseau, nous avons représenté dans Osprey chaque interaction que nous
avons obtenue et qui était statistiquement significative. Nous avons ensuite retiré
chaque groupe d’interaction qui n’était pas rattaché à ce qui ressemblait à un
noyau central. Nous avons ensuite réarrangé ce noyau central pour découvrir le
réseau d’interaction de la figure 15. Il est à noter que nous avons aussi obtenu
d’autres noyaux qui sont de moins grande importance. De ce réseau, nous
pouvons faire ressortir certains gènes qui sont impliqués dans un grand nombre
d’interactions potentielles, c’est-à-dire qu’ils ont 5 interactions différentes ou plus.
(tableau 8).
47
Figure 15 : Représentation de nos nouvelles interactions
Noeud : Bleu = Voie métabolique Benporath EED
Mauve = Voie métabolique de l’Alzheimer
Orange = Biofilter
Cyan = Gène présent dans les 2 voies
Fuchsia = Voie métabolique de l’Alzheimer et Biofilter
Lime = Voie métabolique Benporath EED et Biofilter
10 = Homozygotes allèle mineur extrêmement rare
48
15 = Homozygotes allèle mineur très rare
20 = Homozygotes allèle mineur rare
25 = Homozygotes allèle mineur commun
Arête : - Jaune pâle = normal - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE
- Jaune foncé = normal - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE et sous un seuil de 0.006
pour le test de la régression logistique
- Rouge pâle = susceptible - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE
- Rouge foncé= susceptible - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE et sous un seuil de
0.006 pour le test de la régression logistique
- Vert pâle = résistance - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE
- Vert foncé= résistance - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE et sous un seuil de 0.006
pour le test de la régression logistique
Gène Interaction statistiquement
significative
ABCC4 5
ERBB4 5
FBLN5 5
FHIT 5
NELL1 5
PKNOX2 5
SOX5 5
TLK1 5
CDH13 7
NCOR2 7
COL4A1 9
CSMD1 9
PLCB1 9
PTPRT 9
Tableau 8 : Biomarqueur potentiel
Tableau qui liste les gènes qui pourraient être de potentiels biomarqueurs à cause de leurs nombres
importants d’interactions statistiquement significatives liées à la maladie. Nous avons en premier le symbole
du gène et en second son nombre d’interactions statistiquement significatives détectées lors de nos analyses.
Une définition plus précise des gènes est disponible au tableau 11.
49
CHAPITRE 4
50
4.1 Discussion
Bien que la Schizophrénie soit une maladie aussi vieille que l’humanité et que nous
l’étudions depuis de très nombreuses années, elle est très loin d’être bien connue
et comprise. Son côté multigénique complexe jette un voile de mystère sur ses
origines et ses mécanismes de fonctionnement. La Bio-informatique est une
approche relativement nouvelle dans l’étude de cette maladie car on a maintenant
les moyens technologiques pour générer de grands ensembles de données avec
les puces de SNPs et les nouveaux séquenceurs. Beaucoup d’espérances sont
mises sur cette science pour qu’elle réussisse là où les sciences plus
traditionnelles ont échoué jusqu’à présent.
L’objectif de ce projet était de trouver de nouvelles interactions géniques
impliquées dans la schizophrénie chez la population de l’Est du Québec pouvant
aider à expliquer la maladie et d’identifier de possibles biomarqueurs de la maladie
à l’aide d’une étude Cas-Témoins sur laquelle nous avons appliqué des méthodes
de Bio-informatique à la fine pointe.
Notre projet présente ses forces et ses faiblesses. Du côté des forces, nous
pouvons énoncer l’homogénéité génétique de notre population d’étude, la
comparaison de différentes méthodes, ou encore la minutie que nous avons
employés pour bien comprendre chaque logiciel afin de bien les paramétrer et
définir des points de coupure le plus appropriés possible. En ce qui concerne
l’autre côté de la médaille, les faiblesses, nous pouvons noter l’avancement rapide
des bases de données qui occasionne une difficulté à les maintenir à jour pour le
projet. En effet, bien que nos bases de données aient été à jour au moment de
faire nos calculs, leur contenu très dynamique a déjà beaucoup évolué au moment
d’écrire ces lignes. La MSigDB par exemple est passée de 5 collections lors de
nos calculs à maintenant 7. Bien que notre choix de population puisse présenter
certains avantages, il constitue aussi une faiblesse. En effet, le bassin de
population étant très petit, nous n’avons que peu de cas pour notre étude, limitant
51
ainsi notre puissance statistique. Un échantillon possédant une bonne taille pour
ne pas nuire à la puissance est composé d’au minimum 1000 cas et 1000 témoins
[Moore, 2011].
4.1.1 Cartographie et filtrage
Les méthodes de cartographie et de filtrage sont relativement standard. Plusieurs
des résultats que nous avons obtenus pourraient être qualifiés de triviaux, c’est-à-
dire qu’ils confirment ce à quoi nous nous attendions. Par exemple, les résultats
de la cartographie ont, comme nous le pensions, donné moins de gènes que le
nombre de SNPs fournis pour la cartographie Directe, car certains SNPs n’ont pu
être cartographiés et que plusieurs gènes contiennent plus d’un SNPs. Ces
conclusions s’appliquent aussi à la cartographie étendue, mais le nombre de gènes
est plus grand que la cartographie Directe. Normal, car nous visons les gènes
environnant un SNP en plus de ceux dont un SNP est directement à l’intérieur.
Les résultats du filtrage biologique furent aussi attendus. Le nombre de gènes fut
réduit, car certains gènes ne sont pas exprimés au cerveau.
4.1.2 GSEA
GSEA est un logiciel développé pour l’étude de puce à expression génique et est
très efficace dans ce contexte. Nous avons donc dû l’adapter pour une étude sur
des SNPs (section 2.1.5.6) et nous assurer de son efficacité dans ce nouveau
contexte tel que l’ont fait [Wang, 2007], [Holden, 2008] et [Jia, 2010]. Nos tests ont
révélé que les voies trop petites ou trop grosses apportaient un certain biais aux
résultats. En effet, l’ES était gonflé pour les petites voies et trop petite pour les
grosses voies. Ce problème est connu et sommairement documenté dans le
manuel du logiciel. Pour corriger ce biais, nous avons exclu les voies contenant
moins de 6 gènes ou plus de 2200 suite à nos tests préliminaires présentés à
l’Annexe 7 qui démontrent que pour ces tailles, le biais est négligeable, bien que
52
dans la documentation il soit recommandé de ne prendre que les voies de 15
gènes ou plus. Jia [Jia, 2010], dont nous discuterons à la section 4.1.8, a décidé
de prendre les voies entre 10 et 250 gènes. Les premiers résultats obtenus furent
intéressants. Pour ne pas prendre de chance et être conservateur, nous avons
appliqué à la valeur NES une correction de Bonferroni (une méthode statistique
très conservatrice pour corriger le seuil de significativité lors de comparaisons
multiples) et malgré ce haut niveau de restriction, plusieurs voies sont ressorties.
Le nombre de gènes de ces voies est très variable (Tableau 4), indiquant que nous
avons correctement corrigé le biais qu’une taille trop petite ou trop grande pouvait
apporter car il n’y a pas de surreprésentation. La cartographie Étendue avec un
poids Classique n’a cependant donné aucune voie dont l’enrichissement était
statistiquement significatif suite à la correction de Bonferroni.
4.1.3 Biofilter
Biofilter fut l’approche la plus compliquée de notre projet. Le logiciel est encore en
développement par l’équipe du Dr Ritchie. Tout au long du projet, nous avons eu
accès à différentes versions du logiciel de type Beta. Débutant par la 0.5, nous
avons ensuite travaillé avec la 1.0 et la 1.5 avant de finir par la première version
stable, la version 2.0. Ce logiciel est très complet, car il inclut la cartographie des
gènes pour les SNPs en tenant compte du déséquilibre de liaison. Nous avons
cependant eu de la difficulté à correctement interpréter son indice afin de trouver
un point de coupure approprié en l’absence de test statistique approprié. Nous
nous sommes donc repliés sur nos 2 maladies connues : Hirschsprung et Bardet-
Biedl. En fixant comme point de coupure le plus bas indice obtenu pour les paires
de gènes qui interagissent pour causer ces maladies, nous avons choisi un point
de coupure très restrictif mais qui assure une meilleure qualité des résultats.
Notre point de coupure conservateur fixé à l’indice 4-1561 a permis de conserver
12,21 % des paires de gènes identifiés et nous a permis d’avoir 373 gènes
différents. Ce nombre de gènes est très inférieur à celui obtenu par GSEA. Pour
1 Voir section 2.1.5.5 pour explication de l’indice
53
expliquer cette grande différence, il existe une explication toute simple. Notre point
de coupure défini en analysant les résultats obtenus avec d’autres maladies
multigéniques aurait pu être plus flexible avec un critère statistique qui
maximiserait la capacité de discrimination. En quoi par exemple un indice de 5-17
serait meilleur qu’un indice de 3-158? Même si nous n’avons que 3 sources
différentes dans ce second cas, le fait d’avoir 158 références différentes donne
quand-même un poids non négligeable à la paire en question. Cependant, notre
point de coupure de 4-156 n’accepte pas de résultat à 3-158.
4.1.4 Régression logistique VS JE
Nous nous attendions à peu de résultats de la régression logistique. Cette
méthode est en effet peu adaptée aux types d’analyses nécessaires à notre projet
car elle démontre un manque de puissance dans les tests de termes d’interaction
[Gauderman, 2002]. Il ne fut donc pas surprenant de ne trouver aucun résultat
statistiquement significatif avec cette méthode pour les données enrichies avec
GSEA. Les résultats obtenus furent légèrement décevants, mais quand même
attendus. Nous n’avons donc pas procédé à cette analyse sur les résultats
enrichis avec Biofilter. Cependant, les valeurs-p calculées dans le cadre la
régression logistique, même si elles n’étaient pas statistiquement significatives,
n’étaient pas si mauvaises dans certains cas et concordaient avec JE. Elles ont
donc servi comme critère de sélection des figures 2 à 13. La méthode JE, elle,
nous a donné des résultats concluants, c’est-à-dire statistiquement significatifs.
Elle fut à la hauteur de nos attentes. Étant très bien adaptée pour le type de calcul
que nous avions à faire, elle est devenue un pilier du projet.
4.1.5 Enrichissement
Afin de valider l’utilité d’utiliser un enrichissement, nous avons comparé les
résultats obtenus avec et sans enrichissement pour chacune de nos deux
méthodes d’enrichissement. Dans les deux cas, nous pouvons constater que pour
54
un nombre de tests similaire, les méthodes JE combinées à un enrichissement
donnent de meilleurs résultats que sans enrichissement, en utilisant simplement
les valeurs d’association marginale comme critère pour définir la liste des SNPs à
tester. Encore pire, sans enrichissement, la cartographie Étendue ne permet de
produire que très peu de résultats. Cela veut donc dire que l’étendue du
déséquilibre de liaison est surestimée et que sans une méthode d’enrichissement
venant sélectionner les gènes qui seront utilisés, un gros biais de sélection
s’installe avec notre méthode de cartographie. Le déséquilibre de liaison étant
différent de région chromosomique en région chromosomique, une prochaine
approche pour le futur serait de ne pas prendre une distance de 50 kb de chaque
côté du SNP de façon systématique mais plus tôt d’adapter ce nombre au
déséquilibre de liaison par région chromosomique.
4.1.6 Résultats retenus
Dans les éléments importants à retenir, parmi les 35 gènes identifiés (figures 2 à
15 et tableau 8) dont nous avons discutés, nous en faisons ressortir 4. Il y a le
gène CSMD1. Ce gène a encore une fonction inconnue. Nous savons qu’il est
très fortement exprimé dans le cerveau. Nous savons qu’il semble lié à plusieurs
maladies mentales. Dans notre projet, il est très fortement ressorti dans plusieurs
interactions avec d’excellents résultats (tableau 8). Un autre gène à surveiller
serait le gène ABBC4. Aucun article publié dans Pubmed ne traite de ce gène.
C’est un peu un petit oublié de la recherche. Même si l’homozygotie de l’allèle
mineur est extrêmement rare (figure 15), ce gène a plusieurs interactions
statistiquement significatives qui sont intéressantes. À l’opposé, nous avons notre
« grosse vedette ». En effet, le gène ERBB4, en plus de posséder plusieurs
interactions statistiquement significatives dans notre projet (tableau 8), est très
reconnu en recherche comme étant un gène important de la schizophrénie car 133
articles dans Pubmed le lient à la maladie. Nous pouvons aussi noter l’absence
du gène CRULRG dans nos résultats. Même si le SNP de ce gène fut
systématiquement ajouté à chaque analyse, aucun résultat statistiquement
55
significatif n’est ressorti. Cela ne veut cependant pas indiquer qu’il n’est pas
important dans la maladie. L’absence d’interaction potentielle indiquerait
simplement que la simple présence de l’allèle mineur de ce gène aurait un impact
important vu sont fort taux d’association à la maladie. De plus, cette absence
d’interaction n’exclut pas l’existence d’interactions non-détectées car plusieurs
critères sévères pour filtrer nos SNPs et nos résultats ont été appliquées afin de
s’assurer d’avoir de bons résultats en minimisant les faux positifs et les faux
négatifs. Cette technique élimine aussi malheureusement certains vrais positifs.
4.1.7 Osprey
Osprey est un logiciel de représentation de réseaux d’interactions protéine-protéine
qui nous a permis de produire la figure 15. Bien que nous ayons pu observer la
présence de plusieurs petits réseaux d’interactions, nous avons décidé de ne
présenter que le principal que le logiciel a permis de mettre au jour. Cette figure
nous présente un très vaste réseau d’interaction où nous retrouvons des
chevauchements entre les résultats de nos différentes méthodes. De ce réseau,
nous pouvons faire ressortir certains gènes qui pourraient être d’excellents
biomarqueurs de la maladie de par leur grand nombre d’interactions potentielles,
semblant liées avec la maladie, avec d’autres gènes. Bien que cet élément ne
constitue pas en lui seul la définition d’un biomarqueur, il en est quand même un
élément important. En effet, l’une des caractéristiques d’un bon biomarqueur c’est
qu’il permet d’identifier efficacement un risque pour développer une maladie. Un
grand nombre d’interactions au tour d’un même gène permet donc de concorder
avec ce critère, car si aucun allèle mineur n’est présent sur ce gène, aucune des
interactions détectées n’aura d’incidence. Cependant, si l’allèle mineur est
présent, beaucoup de possibilités s’ouvrent quant aux possibles interactions ayant
une incidence sur la maladie. La liste de ces gènes est au tableau 8.
56
4.1.8 Comparaison avec Jia
Le Dr Jia [Jia et coll., 2010] a fait une étude similaire à la nôtre sur la schizophrénie
avec le logiciel GSEA modifié de façon similaire à la nôtre. Nous avons donc
essayé de comparer nos méthodes et nos résultats. Le tableau 9 résume les
principales différences entre sa méthode et la nôtre.
Nous Jia
Population Est du Québec Gain
Cas / Témoins 247/250 1158/1378
Nombre de SNPs / sujet ~350 000 ~700 000
Cartographie 0 (Directe) ou 50 kb 20 kb
BD pour la cartographie RefSeq 2012 RefSeq 2009
Origine des Voies MSigDB 2012 MSigDB 2009, BioCarta 2009
Sélection des Voies Mots Clés C2 et C5 C2
Nombre gènes par Voies Entre 5 et 2200 Entre 10 et 250
Nombre de permutations 1000 10 000
Tableau 9 : Comparaison avec Jia
Tableau comparatif entre notre méthode et nos paramètres et ceux de Jia pour GSEA
Notre prochaine étape a donc été d’essayer de reproduire au mieux ce qu’il avait
fait afin de pouvoir comparer nos résultats. Le tableau 10 résume les modifications
que nous avons apportées.
Modifications apportées Jia
Population Est du Québec Gain
Cas / Témoins 247/250 1158/1378
Nombre de SNPs / sujet ~350 000 ~700 000
Cartographie 0 (Directe) ou 50 kb 20 kb
BD pour la cartographie RefSeq 2012 RefSeq 2009
Origine des Voies MSigDB 2012 MSigDB 2009, BioCarta 2009
Sélection des Voies C2 C2
Nombre gènes par Voies Entre 10 et 250 Entre 10 et 250
Nombre de permutations 10 000 10 000
57
Tableau 10 : Modification pour correspondre à Jia
Tableau comparatif entre notre méthode et nos paramètres modifiés pour correspondre le plus possible à ceux
de Jia et ceux de Jia pour GSEA
Comme les bases de données étaient très différentes, car 3 années les
séparaient, les résultats ne furent pas identiques. Cependant, les voies que nous
avons obtenues avec les meilleurs résultats, même si elles sont différentes,
tournent autour des meilleurs qu’il a obtenus et vice versa. Le meilleur résultat de
concordance fut pour la voie NEURON_APOPTOSIS qui est sortie en 6e position
alors qu’elle était 2e dans l’étude de Jia et le moins bon fut la voie
CARM_ER_PATHWAY qui est ressortie en 123e position alors que dans son
étude, elle était ressortie en 5e position, ce qui n’est quand même pas si mal
considérant le nombre de voies dans la base de données qui est de 6483.
4.1.9 Littérature
Nous avons fait ressortir jusqu’à présent plusieurs gènes qui, soit avaient une
possible interaction statistiquement significative en lien avec la schizophrénie, soit
pouvaient être de bons candidats pour devenir biomarqueurs de la maladie. Nous
ne sommes pas le seul groupe de recherche à travailler sur cette maladie. Est-ce
que d’autres chercheurs auraient pu pointer ces mêmes gènes?
Aucune des interactions que nous avons présentées dans les figures 2 à 14 n’a été
relevée jusqu’à présent dans un autre article. La méthode JE étant très récente,
peu de chercheurs l’ont appliquée dans leurs recherches. Cependant, les gènes
suivants ont déjà été associés à la schizophrénie dans d’autres articles :
CDH13 [Børglum, 2013] : 3 articles,
CSMD1 [Steen, 2013] : 12 articles,
CTNND2 [Nivard, 2013] : 2 articles,
DLG2 [MacLaren, 2011] : 2 articles,
ERBB4 [Marballi, 2014] : 133 articles,
FHIT [Saul, 2012] : 1 article,
GPC5 [Maheshwari, 2002] : 1 article,
58
GRM3 [Lane, 2013] : 51 articles,
GRM7 [Saus, 2010] : 6 articles,
KCNQ5 [Kendler, 2011] : 2 articles,
NRXN1 [McLysaght, 2013] : 61 articles,
PKNOX2 [Wang, 2012] : 1 article,
PLCB1 [Lo Vasco, 2013] : 8 articles,
RELN [Fabi, 2013] : 56 articles,
ROBO1 [Potkin, 2010] : 2 articles,
SHANK2 [Guilmatre, 2013] : 4 articles,
SOX5 [Sellmann, 2013] : 3 articles.
4.1.10 Élagage neuronal
Tout au long de notre projet, nous avons accumulé une grande quantité de
résultats. Certains ont été présentés dans ce mémoire, d’autre pas afin d’en
simplifier la lecture. En regardant tous ces résultats, une conclusion s’impose. Il
semblerait que la schizophrénie chez la population de l’Est du Québec puisse se
relier à la présence de connexions aberrantes entre les neurones. Nos résultats
de recherches semblent majoritairement aller en ce sens, puisque nous avons
identifié des couples de gènes impliqués dans les phénomènes de neurogénèse
(ADCY8, CAMK2D, CDH13, COL4A1, FBLN5, GPC5, NAV2, NCOR2, NELL1,
PRDM14, SHANK2, SOX5, TLK1), d’apoptose (ABBC4, CDH13, CYCS, FAIM2,
PKNOX2), de guidance des cônes de croissance (ADCY8, CAMK2D, CDH13,
COL4A1, CTNND2, FBLN5, NAV2, NRXN1, PTPRT, RELN, ROBO1), etc. Nos
résultats sont compatibles avec l’hypothèse neurodéveloppementale de la
schizophrénie, ainsi qu’avec les théories d’élagage neuronal anormal (« pruning »
en anglais) émises par plusieurs chercheurs dans le passé [Boksa, 2012],
[Hayashi-Takagi, 2011], [Paus, 2008], [Pickard, 2011], [Rapoport, 2012],
[Rosenthal, 2011].
Voici un exemple bien connu d’élagage [Guertin, 2012]. Pendant le
développement du fœtus et de l’enfant, les neurones du cerveau font de très
59
nombreuses connexions afin de s’assurer de tout connecter. Ainsi, une fibre
musculaire qui ne doit posséder qu’une seule connexion à l’âge adulte peut en
posséder plus d’une dizaine pendant l’enfance. À l’adolescence, le cerveau
enclenche plusieurs mécanismes d’élagage afin de retirer toutes les connexions
superflues. La théorie d’élagage neuronal anormal dit que cet élagage peut mal se
dérouler, laissant ainsi à l’âge adulte la présence de plusieurs connexions
aberrantes. Plus ce nombre de connexions est élevé, plus les risques de
développer la maladie sont grands et donc moins le stress environnemental
déclencheur doit être grand pour faire apparaître le phénotype.
4.1.11 Autre approche essayée
Nous avons déjà essayé le logiciel ALIGATOR qui n’a pas fait le travail attendu
mais comme il est encore en développement, il pourrait être intéressant de lui
laisser une autre chance quand il ne sera plus en version Beta. Par exemple, sa
base de données dans sa version actuelle est internalisée et donc impossible de
mettre à jour. Dans une version ultérieure elle pourrait être externalisée rendant
ainsi le logiciel plus flexible et fonctionnel. Il y a aussi beaucoup de fonctions qui
sont prévues mais pas encore implantés. D’après la description de ces fonctions,
certaines pourraient être très utiles. Pour finir, parmi les fonctions actuellement
implantées, certaines ont encore quelques bugs. ALIGATOR, bien que
prometteur, a donc dû être exclu de notre projet car il est à un stade trop
préliminaire.
60
4.2 Conclusion
Tel que prévu, la méthode JE a permis de ressortir du bruit des informations
permettant d’identifier de nouveaux biomarqueurs de diagnostic de la
schizophrénie à l’aide de méthodes d’enrichissement. Ces résultats sont
compatibles avec les théories d’élagage neuronal anormal. De son côté, la
régression logistique n’a pas été assez adaptée pour avoir la puissance nécessaire
à avoir des résultats statistiquement significatifs. Les méthodes d’enrichissement
ont permis d’obtenir plus de résultats statistiquement significatifs qu’une sélection
se basant simplement sur les valeurs d’associations marginales. De par leur
fonctionnement fondamentalement différent, les méthodes d’enrichissement
Biofilter et GSEA ont donné des résultats différents mais complémentaires.
Au début de ma maîtrise, j’ai fait l’exercice de vulgarisation que l’on retrouve à
l’Annexe A8 dans le cadre d’un concours de bourse de vulgarisation. J’y compare
la schizophrénie à une chaise brisée. Aujourd’hui, au vu des résultats du projet,
nous pourrions vulgariser la schizophrénie comme étant un problème électrique
dans la boîte électrique principale de la maison. L’électricien qui a fait l’installation
initialement avait passé beaucoup de filage dans les murs, plus que nécessaire
afin de ne pas devoir recommencer. Cependant, quand fut le temps d’effectuer
tous les bons branchements et de retirer les fils superflus, il est arrivé quelques
problèmes. Certains fils ont été endommagés et d’autres connectés à la mauvaise
place, créant ainsi des courts-circuits. Tant que la consommation en électricité
reste faible, ces problèmes peuvent passer inaperçus. Cependant, quand la
consommation est plus grande, comme par exemple l’hiver quand il fait très froid,
qu’on fait le lavage pendant que le souper cuit et que plusieurs lumières de la
maison sont ouvertes, ces courts-circuits prennent une plus grande importance.
La boite électrique peut donc commencer à boucaner, premier signe de la maladie
qu’on appelle prodrome. Si la situation perdure, le feu va tout simplement prendre
dans la boîte électrique et donc la maladie va se développer. La médecine
actuelle ne permet pas de corriger le problème. Les différentes molécules que
61
nous avons ne font que couper le courant principal de la boîte électrique. Notre
projet va donc apporter un éclairage nouveau sur le fonctionnement de la boîte
électrique afin de pouvoir prévenir et dans le futur, guérir la maladie.
Pour le futur, plusieurs avenues pourraient servir de suite au projet. Nous avons
regardé les paires de gènes. Il pourrait être intéressant de regarder les triplets.
Les scripts qui ont été produits sont facilement modifiables pour ajouter ce niveau
de complexité. Par contre, le temps de calcul risque de ne pas être raisonnable. Il
y aurait cependant la possibilité de faire un travail d’optimisation algorithmique qui
réduirait légèrement ce temps de calcul. D’autres méthodes d’enrichissement
comme ALIGATOR et MAGENTA pourraient être étudiées et utilisées. Une étude
en protéomique pourrait être faite sur les paires identifiées afin de voir et
comprendre les mécanismes exacts que ces interactions pourraient avoir. Nous
pourrions aussi faire une sorte de carte de chaleur (heat map) afin de tenter de
regrouper nos différents cas dans un dendrogramme qui pourrait nous permettre
de faire ressortir un classement représentant des types de schizophrénie en se
basant sur les résultats de notre projet. Pour ce faire, nous pourrions attribuer un
score sur l’allèle en se basant sur le nombre de copies de l’allèle afin de pouvoir
définir un score de proximité. Nous avons bien sûr les potentiels biomarqueurs et
les interactions multigéniques que nous avons identifiés sur lesquels une
investigation plus poussée pourrait être faite afin d’en venir au développement d’un
test de diagnostic précoce des risques de susceptibilité ou l’identification de
nouveaux candidats comme cibles thérapeutiques.
63
Bibliographie
Anon. [s d]. Bioconductor [En ligne]. Fred Hutchinson Cancer Research Center, Disponible sur : < http://www.bioconductor.org/ >
CRAN. [s d]. R [En ligne]. CRAN, Disponible sur : < http://www.r-project.org/ >
Arnaudus, Ediacara, Loveless, Pierrot Lunaire, Poulos, TED, et Vincnet. [s d]. Épistasie [En ligne]. Wikipedia. Disponible sur : < http://fr.wikipedia.org/w/index.php?oldid=64471565 >
Badano, Jose L., Carmen C. Leitch, Stephen J. Ansley, Helen May-Simera, Shaneka Lawson, Richard Alan Lewis, Philip L. Beales, Harry C. Dietz, Shannon Fisher, et Nicholas Katsanis. 2005. « Dissection of epistasis in oligogenic Bardet–
Biedl syndrome ». Nature. Vol. 439, n°7074, p. 326‑ 330.
Bochdanovits, Zoltán, David Sondervan, Sophie Perillous, Toos van Beijsterveldt, Dorret Boomsma, et Peter Heutink. 2008. « Genome-Wide Prediction of Functional Gene-Gene Interactions Inferred from Patterns of Genetic Differentiation in Mice and Men ». PLoS ONE. Vol. 3, n°2, p. e1593.
Boksa, Patricia. 2012. « Abnormal synaptic pruning in schizophrenia: Urban myth
or reality? » J. Psychiatry Neurosci. JPN. Vol. 37, n°2, p. 75‑ 77.
Børglum, A D, D Demontis, J Grove, J Pallesen, M V Hollegaard, C B Pedersen, A Hedemand, M Mattheisen, A Uitterlinden, M Nyegaard, T Ørntoft, C Wiuf, M Didriksen, M Nordentoft, M M Nöthen, M Rietschel, R A Ophoff, S Cichon, R H Yolken, D M Hougaard, P B Mortensen, et O Mors. 2013. « Genome-wide study of association and interaction with maternal cytomegalovirus infection suggests new schizophrenia loci ». Mol. Psychiatry [En ligne]. Disponible sur : < http://www.nature.com/doifinder/10.1038/mp.2013.2 >
Boulesteix, Anne-Laure, Carolin Strobl, Stefan Weidinger, H.-Erich Wichmann, et Stefan Wagenpfeil. 2007. « Multiple Testing for SNP-SNP Interactions ». Stat. Appl. Genet. Mol. Biol. [En ligne]. Vol. 6, n°1,. Disponible sur : < http://www.bepress.com/sagmb/vol6/iss1/art37 > (Consulté le 17 janvier 2012).
BROAD Institute. [s d]. GSEA [En ligne]. BROAD Institute, Disponible sur : < http://www.broadinstitute.org/gsea/index.jsp >
BROAD Institute. [s d]. MAGENTA [En ligne]. BROAD Institute, Disponible sur : < http://www.broadinstitute.org/mpg/magenta>
BROAD Institute. [s d]. MSigDB [En ligne]. BROAD Institute, Disponible sur : < http://www.broadinstitute.org/gsea/msigdb/index.jsp >
64
Bureau, Alexandre. 2005. Les haplotypes: un ingrédient clé des études d’association génétique.
Bureau, Alexandre, Yvon C. Chagnon, Jordie Croteau, Alain Fournier, Marc-André Roy, Thomas Paccalet, Chantal Mérette, et Michel Maziade. 2013. « Follow-up of a Major Psychosis Linkage Site in 13q13-q14 Reveals Significant Association in Both
Case-Control and Family Samples ». Biol. Psychiatry. Vol. 74, n°6, p. 444‑ 450.
Bush, W S, J L McCauley, P L DeJager, S M Dudek, D A Hafler, R A Gibson, P M Matthews, L Kappos, Y Naegelin, C H Polman, S L Hauser, J Oksenberg, J L Haines, et M D Ritchie. 2011. « A knowledge-driven interaction analysis reveals potential neurodegenerative mechanism of multiple sclerosis susceptibility ».
Genes Immun. Vol. 12, n°5, p. 335‑ 340.
Bush, William S, Scott M Dudek, et Marylyn D Ritchie. 2009. « Biofilter: a knowledge-integration system for the multi-locus analysis of genome-wide association studies ». Pac. Symp. Biocomput. Pac. Symp. Biocomput.
p. 368‑ 379.
C. Glahn, David. 2010. Quantitative Imaging Genomics. Cours à l'Université de Yale le 22 juilet 2010.
Cantrell, V. A. 2004. « Interactions between Sox10 and EdnrB modulate penetrance and severity of aganglionosis in the Sox10Dom mouse model of
Hirschsprung disease ». Hum. Mol. Genet. Vol. 13, n°19, p. 2289‑ 2301.
Chasman, Daniel I. 2008. « On the utility of gene set methods in genomewide association studies of quantitative traits ». Genet. Epidemiol. Vol. 32, n°7,
p. 658‑ 668.
Cordell, Heather J, et Masao Ueki. [s d]. JE [En ligne]. 2013. CASSI: Genome-Wide Interaction Analysis Software, Disponible sur : < http://www.staff.ncl.ac.uk/richard.howey/cassi/introduction.html >.
Cordell, Heather J. 2009. « Detecting gene–gene interactions that underlie human
diseases ». Nat. Rev. Genet. Vol. 10, n°6, p. 392‑ 404.
Cordell , Heather J. 2002. « Epistasis: what it means, what it doesn’t mean, and statistical methods to detect it in humans ». Hum. Mol. Genet. Vol. 11, n°20,
p. 2463‑ 2468.
Cordell, Heather J., et Masao Ueki. 2011. Improved statistics for genome-wide interaction analysis. Présentation orale dans le cadre de la 6e réunion annuelle canadienne sur l'épidémiologie génétique et la génétique statistique, Toronto, 11-13 mai 2011.
European Molecular Biology Laboratory - European Bioinformatics Institute. [s d]. GEA [En ligne]. European Molecular Biology Laboratory - European Bioinformatics Institute, Disponible sur : < http://www.ebi.ac.uk/gxa/ >
65
Fabi, E, A Fusco, M Valiante, et R Celli. 2013. « [Genetics and epigenetics of
schizophrenia] ». Clin. Ter. Vol. 164, n°4, p. e319‑ 324.
Flint, J., et T. F.C. Mackay. 2009. « Genetic architecture of quantitative traits in
mice, flies, and humans ». Genome Res. Vol. 19, n°5, p. 723‑ 733.
Gauderman, W. J. 2002. « Sample Size Requirements for Association Studies of
Gene-Gene Interaction ». Am. J. Epidemiol. Vol. 155, n°5, p. 478‑ 484.
Grady, Benjamin J, Eric S Torstenson, Paul J McLaren, Paul I W DE Bakker, David W Haas, Gregory K Robbins, Roy M Gulick, Richard Haubrich, Heather Ribaudo, et Marylyn D Ritchie. 2011. « Use of biological knowledge to inform the analysis of gene-gene interactions involved in modulating virologic failure with efavirenz-containing treatment regimens in art-naïve actg clinical trials participants ». Pac.
Symp. Biocomput. Pac. Symp. Biocomput. p. 253‑ 264.
Guertin, Pierre. 2012. Neuroscience II - Organisation et contrôle du mouvement. Cours à l'Université Laval le 16 mars 2012.
Guilmatre, Audrey, Guillaume Huguet, Richard Delorme, et Thomas Bourgeron. 2013. « The emerging role of SHANK genes in neuropsychiatric disorders ». Dev. Neurobiol.
Hayashi-Takagi, Akiko, Peter B Barker, et Akira Sawa. 2011. « Readdressing synaptic pruning theory for schizophrenia: Combination of brain imaging and cell
biology ». Commun. Integr. Biol. Vol. 4, n°2, p. 211‑ 212.
Herold, Christine, Michael Steffens, Felix F Brockschmidt, Max P Baur, et Tim Becker. 2009. « INTERSNP: genome-wide interaction analysis guided by a priori
information ». Bioinforma. Oxf. Engl. Vol. 25, n°24, p. 3275‑ 3281.
Holden, M., S. Deng, L. Wojnowski, et B. Kulle. 2008. « GSEA-SNP: applying gene set enrichment analysis to SNP data from genome-wide association studies ».
Bioinformatics. Vol. 24, n°23, p. 2784‑ 2785.
Holmans, Peter. [s d]. ALIGATOR [En ligne]. Cardiff University, Disponible sur : < http://x004.psycm.uwcm.ac.uk/~peter/ >.
Holmans, Peter, Elaine K Green, Jaspreet Singh Pahwa, Manuel A R Ferreira, Shaun M Purcell, Pamela Sklar, Michael J Owen, Michael C O’Donovan, et Nick Craddock. 2009. « Gene ontology analysis of GWA study data sets provides insights into the biology of bipolar disorder ». Am. J. Hum. Genet. Vol. 85, n°1,
p. 13‑ 24.
Infirmiers.com. 2010. « Cours - Psychiatrie - La schizophrénie ». p. 12 [En ligne]. Infirmiers.com. Disponible sur : < http://www.infirmiers.com/etudiants-en-ifsi/cours/cours-psychiatrie-la-schizophrenie.html >.
66
Iossifov, I., T. Zheng, M. Baron, T. C. Gilliam, et A. Rzhetsky. 2008. « Genetic-linkage mapping of complex hereditary disorders to a whole-genome molecular-
interaction network ». Genome Res. Vol. 18, n°7, p. 1150‑ 1162.
Jberthet, Lexor, Malcolma, et Rettetast. [s d]. Epistasis and functional genomics [En ligne]. Wikipedia. Disponible sur : < http://en.wikipedia.org/w/index.php?oldid=398490459 >
Jia, Peilin, Lily Wang, Herbert Y. Meltzer, et Zhongming Zhao. 2010. « Common variants conferring risk of schizophrenia: A pathway analysis of GWAS data ».
Schizophr. Res. Vol. 122, n°1-3, p. 38‑ 42.
Kendler, Kenneth S, Gursharan Kalsi, Peter A Holmans, Alan R Sanders, Steven H Aggen, Danielle M Dick, Fazil Aliev, Jianxin Shi, Douglas F Levinson, et Pablo V Gejman. 2011. « Genomewide association analysis of symptoms of alcohol dependence in the molecular genetics of schizophrenia (MGS2) control sample ».
Alcohol. Clin. Exp. Res. Vol. 35, n°5, p. 963‑ 975.
Keshavan, Matcheri S, Henry A Nasrallah, et Rajiv Tandon. 2011. « Schizophrenia, “Just the Facts” 6. Moving ahead with the schizophrenia concept: from the
elephant to the mouse ». Schizophr. Res. Vol. 127, n°1-3, p. 3‑ 13.
Köhler, Sebastian, Sebastian Bauer, Denise Horn, et Peter N Robinson. 2008. « Walking the interactome for prioritization of candidate disease genes ». Am. J.
Hum. Genet. Vol. 82, n°4, p. 949‑ 958.
Kooperberg, Charles, et Michael LeBlanc. 2008. « Increasing the power of identifying gene × gene interactions in genome-wide association studies ». Genet.
Epidemiol. Vol. 32, n°3, p. 255‑ 263.
Lane, Tracy A, Thomas Boerner, David M Bannerman, James N C Kew, Elizabeth M Tunbridge, Trevor Sharp, et Paul J Harrison. 2013. « Decreased striatal dopamine in group II metabotropic glutamate receptor (mGlu2/mGlu3) double knockout mice ». BMC Neurosci. Vol. 14, p. 102.
Lee, I., B. Lehner, T. Vavouri, J. Shin, A. G. Fraser, et E. M. Marcotte. 2010. « Predicting genetic modifier loci using functional gene networks ». Genome Res.
Vol. 20, n°8, p. 1143‑ 1153.
Lo Vasco, Vincenza Rita, Lucia Longo, et Patrizia Polonia. 2013. « Phosphoinositide-specific Phospholipase C β1 gene deletion in bipolar disorder
affected patient ». J. Cell Commun. Signal. Vol. 7, n°1, p. 25‑ 29.
Mackay, Trudy F C, Eric A Stone, et Julien F Ayroles. 2009. « The genetics of quantitative traits: challenges and prospects ». Nat. Rev. Genet. Vol. 10, n°8,
p. 565‑ 577.
67
MacLaren, Erik J., Paul Charlesworth, Marcelo P. Coba, et Seth G.N. Grant. 2011. « Knockdown of mental disorder susceptibility genes disrupts neuronal network
physiology in vitro ». Mol. Cell. Neurosci. Vol. 47, n°2, p. 93‑ 99.
Maheshwari, Manjula, S L Christian, C Liu, J A Badner, S Detera-Wadleigh, E S Gershon, et Richard A Gibbs. 2002. « Mutation screening of two candidate genes from 13q32 in families affected with Bipolar disorder: human peptide transporter (SLC15A1) and human glypican5 (GPC5) ». BMC Genomics. Vol. 3, n°1, p. 30.
Manning, Alisa K, Julius Ngwa, Audrey E Hendricks, Ching-Ti Liu, Andrew D Johnson, Josée Dupuis, et L Adrienne Cupples. 2009. « Incorporating biological knowledge in the search for gene × gene interaction in genome-wide association studies ». BMC Proc. Vol. 3, n°Suppl 7, p. S81.
Marballi, Ketan K., Robert E. McCullumsmith, Stefani Yates, Michael A. Escamilla, Robin J. Leach, Henriette Raventos, et Consuelo Walss-Bass. 2014. « Global signaling effects of a schizophrenia-associated missense mutation in neuregulin 1: an exploratory study using whole genome and novel kinome approaches ». J. Neural Transm. [En ligne]. Disponible sur : < http://link.springer.com/10.1007/s00702-013-1142-6 >
Maziade, M, M-A Roy, Y C Chagnon, D Cliche, J-P Fournier, N Montgrain, C Dion, J-C Lavallée, Y Garneau, N Gingras, L Nicole, A Pirès, A-M Ponton, A Potvin, H Wallot, et C Mérette. 2005. « Shared and specific susceptibility loci for schizophrenia and bipolar disorder: a dense genome scan in Eastern Quebec
families ». Mol. Psychiatry. Vol. 10, n°5, p. 486‑ 499.
McLysaght, Aoife, Takashi Makino, Hannah M Grayton, Maria Tropeano, Kevin J Mitchell, Evangelos Vassos, et David A Collier. 2013. « Ohnologs are overrepresented in pathogenic copy number mutations ». Proc. Natl. Acad. Sci. U. S. A.
Moore, Jason H, et Scott M Williams. 2009. « Epistasis and its implications for
personal genetics ». Am. J. Hum. Genet. Vol. 85, n°3, p. 309‑ 320.
Moore, Lynne. 2011. Modélisation statistique en épidémiologie. Cours à l'Université Laval à l'hiver 2011.
Moreau, Claudia, Hélène Vézina, et Damian Labuda. 2007. « Effets fondateurs et variabilité génétique au Québec ». médecine/sciences. Vol. 23, n°11,
p. 1008‑ 1013.
National Institute of Allergy and Infectious Diseases. [s d]. DAVID [En ligne]. National Institute of Allergy and Infectious Diseases, Disponible sur : < http://david.abcc.ncifcrf.gov/ >
Nivard, M. G., H. Mbarek, J. J. Hottenga, J. H. Smit, R. Jansen, B. W. Penninx, C. M. Middeldorp, et D. I. Boomsma. 2013. « Further confirmation of the association
68
between anxiety and CTNND2 : replication in humans: Association between
anxiety and CTNND2 ». Genes Brain Behav. p. n/a‑ n/a.
Open Biological and Biomedical Ontologies. [s d]. GO [En ligne]. Open Biological and Biomedical Ontologies, Disponible sur : < http://www.geneontology.org/ >
Owens, S. E. 2005. « Genome-wide linkage identifies novel modifier loci of aganglionosis in the Sox10Dom model of Hirschsprung disease ». Hum. Mol.
Genet. Vol. 14, n°11, p. 1549‑ 1558.
Paus, Tomás, Matcheri Keshavan, et Jay N Giedd. 2008. « Why do many psychiatric disorders emerge during adolescence? » Nat. Rev. Neurosci. Vol. 9,
n°12, p. 947‑ 957.
Pendergrass, Sarah A, Alex Frase, John Wallace, Daniel Wolfe, Neerja Katiyar, Carrie Moore, et Marylyn D Ritchie. 2013. « Genomic analyses with biofilter 2.0: knowledge driven filtering, annotation, and model development ». BioData Min. Vol. 6, n°1, p. 25.
Perl. [s d]. The Perl Programming Language - www.perl.org [En ligne]. Perl, Disponible sur : < http://www.perl.org/ >
Pickard, Benjamin. 2011. « Progress in defining the biological causes of schizophrenia ». Expert Rev. Mol. Med. Vol. 13, p. e25.
De Pontual, Loïc, Norann A Zaghloul, Sophie Thomas, Erica E Davis, David M McGaughey, Hélène Dollfus, Clarisse Baumann, Seneca L Bessling, Candice Babarit, Anna Pelet, Cecilia Gascue, Philip Beales, Arnold Munnich, Stanislas Lyonnet, Heather Etchevers, Tania Attie-Bitach, Jose L Badano, Andrew S McCallion, Nicholas Katsanis, et Jeanne Amiel. 2009. « Epistasis between RET and BBS mutations modulates enteric innervation and causes syndromic Hirschsprung disease ». Proc. Natl. Acad. Sci. U. S. A. Vol. 106, n°33,
p. 13921‑ 13926.
Potkin, Steven G, Fabio Macciardi, Guia Guffanti, James H Fallon, Qi Wang, Jessica A Turner, Anita Lakatos, Michael F Miles, Arthur Lander, Marquis P Vawter, et Xiaohui Xie. 2010. « Identifying gene regulatory networks in
schizophrenia ». NeuroImage. Vol. 53, n°3, p. 839‑ 847.
Powell, Larkin A. 2007. « APPROXIMATING VARIANCE OF DEMOGRAPHIC PARAMETERS USING THE DELTA METHOD: A REFERENCE FOR AVIAN BIOLOGISTS ». The Condor. Vol. 109, n°4, p. 949.
Purcell, Shaun. [s d]. PLINK [En ligne]. Center for Human Genetic Research, Disponible sur : < http://pngu.mgh.harvard.edu/~purcell/plink/ >
Quackenbush, John. 2002. « Microarray data normalization and transformation ».
Nat. Genet. Vol. 32, n°Supp, p. 496‑ 501.
69
Rapoport, J L, J N Giedd, et N Gogtay. 2012. « Neurodevelopmental model of schizophrenia: update 2012 ». Mol. Psychiatry.
Rebbeck, Timothy R, Margaret Spitz, et Xifeng Wu. 2004. « Assessing the function of genetic variants in candidate gene association studies ». Nat. Rev. Genet. Vol.
5, n°8, p. 589‑ 597.
Ripke, Stephan, Colm O’Dushlaine, Kimberly Chambert, Jennifer L Moran, Anna K Kähler, Susanne Akterin, Sarah E Bergen, Ann L Collins, James J Crowley, Menachem Fromer, Yunjung Kim, Sang Hong Lee, Patrik K E Magnusson, Nick Sanchez, Eli A Stahl, Stephanie Williams, Naomi R Wray, Kai Xia, Francesco Bettella, Anders D Borglum, Brendan K Bulik-Sullivan, Paul Cormican, Nick Craddock, Christiaan de Leeuw, Naser Durmishi, Michael Gill, Vera Golimbet, Marian L Hamshere, Peter Holmans, David M Hougaard, Kenneth S Kendler, Kuang Lin, Derek W Morris, Ole Mors, Preben B Mortensen, Benjamin M Neale, Francis A O’Neill, Michael J Owen, Milica Pejovic Milovancevic, Danielle Posthuma, John Powell, Alexander L Richards, Brien P Riley, Douglas Ruderfer, Dan Rujescu, Engilbert Sigurdsson, Teimuraz Silagadze, August B Smit, Hreinn Stefansson, Stacy Steinberg, Jaana Suvisaari, Sarah Tosato, Matthijs Verhage, James T Walters, Douglas F Levinson, Pablo V Gejman, Kenneth S Kendler, Claudine Laurent, Bryan J Mowry, Michael C O’Donovan, Michael J Owen, Ann E Pulver, Brien P Riley, Sibylle G Schwab, Dieter B Wildenauer, Frank Dudbridge, Peter Holmans, Jianxin Shi, Margot Albus, Madeline Alexander, Dominique Campion, David Cohen, Dimitris Dikeos, Jubao Duan, Peter Eichhammer, Stephanie Godard, Mark Hansen, F Bernard Lerer, Kung-Yee Liang, Wolfgang Maier, Jacques Mallet, Deborah A Nertney, Gerald Nestadt, Nadine Norton, Francis A O’Neill, George N Papadimitriou, Robert Ribble, Alan R Sanders, Jeremy M Silverman, Dermot Walsh, Nigel M Williams, Brandon Wormley, Maria J Arranz, Steven Bakker, Stephan Bender, Elvira Bramon, David Collier, Benedicto Crespo-Facorro, Jeremy Hall, Conrad Iyegbe, Assen Jablensky, Rene S Kahn, Luba Kalaydjieva, Stephen Lawrie, Cathryn M Lewis, Kuang Lin, Don H Linszen, Ignacio Mata, Andrew McIntosh, Robin M Murray, Roel A Ophoff, John Powell, Dan Rujescu, Jim Van Os, Muriel Walshe, Matthias Weisbrod, Durk Wiersma, Peter Donnelly, Ines Barroso, Jenefer M Blackwell, Elvira Bramon, Matthew A Brown, Juan P Casas, Aiden P Corvin, Panos Deloukas, Audrey Duncanson, Janusz Jankowski, Hugh S Markus, Christopher G Mathew, Colin N A Palmer, Robert Plomin, Anna Rautanen, Stephen J Sawcer, Richard C Trembath, Ananth C Viswanathan, Nicholas W Wood, Chris C A Spencer, Gavin Band, Céline Bellenguez, Colin Freeman, Garrett Hellenthal, Eleni Giannoulatou, Matti Pirinen, Richard D Pearson, Amy Strange, Zhan Su, Damjan Vukcevic, Peter Donnelly, Cordelia Langford, Sarah E Hunt, Sarah Edkins, Rhian Gwilliam, Hannah Blackburn, Suzannah J Bumpstead, Serge Dronov, Matthew Gillman, Emma Gray, Naomi Hammond, Alagurevathi Jayakumar, Owen T McCann, Jennifer Liddle, Simon C Potter, Radhi Ravindrarajah, Michelle Ricketts, Avazeh Tashakkori-Ghanbaria, Matthew J Waller, Paul Weston, Sara Widaa, Pamela Whittaker, Ines Barroso, Panos Deloukas, Christopher G Mathew, Jenefer M Blackwell, Matthew A Brown, Aiden P Corvin, Mark I McCarthy, Chris C A Spencer, Elvira Bramon, Aiden
70
P Corvin, Michael C O’Donovan, Kari Stefansson, Edward Scolnick, Shaun Purcell, Steven A McCarroll, Pamela Sklar, Christina M Hultman, et Patrick F Sullivan. 2013. « Genome-wide association analysis identifies 13 new risk loci for
schizophrenia ». Nat. Genet. Vol. 45, n°10, p. 1150‑ 1159.
Ritchie Lab. [s d]. Biofilter [En ligne]. Ritchie Lab, Disponible sur : < http://chgr.mc.vanderbilt.edu/ritchielab/method.php?method=biofilter >
Ritchie, Marylyn D. 2011. « Using biological knowledge to uncover the mystery in the search for epistasis in genome-wide association studies ». Ann. Hum. Genet.
Vol. 75, n°1, p. 172‑ 182.
Rosenthal, Randall. 2011. « Of schizophrenia, pruning, and epigenetics: a
hypothesis and suggestion ». Med. Hypotheses. Vol. 77, n°1, p. 106‑ 108.
Saul, Michael C., Griffin M. Gessay, et Stephen C. Gammie. 2012. « A New Mouse Model for Mania Shares Genetic Correlates with Human Bipolar Disorder ». PLoS ONE. Vol. 7, n°6, p. e38128.
Saus, Ester, Anna Brunet, Lluís Armengol, Pino Alonso, José M Crespo, Fernando Fernández-Aranda, Miriam Guitart, Rocío Martín-Santos, José Manuel Menchón, Ricard Navinés, Virginia Soria, Marta Torrens, Mikel Urretavizcaya, Vicenç Vallès, Mònica Gratacòs, et Xavier Estivill. 2010. « Comprehensive copy number variant (CNV) analysis of neuronal pathways genes in psychiatric disorders identifies rare
variants within patients ». J. Psychiatr. Res. Vol. 44, n°14, p. 971‑ 978.
Schwarz, D. F., I. R. Konig, et A. Ziegler. 2010. « On safari to Random Jungle: a fast implementation of Random Forests for high-dimensional data ».
Bioinformatics. Vol. 26, n°14, p. 1752‑ 1758.
Segrè, Ayellet V, Leif Groop, Vamsi K Mootha, Mark J Daly, et David Altshuler. 2010. « Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits ». PLoS Genet. Vol. 6, n°8, p. 19.
Sellmann, C, L Villarín Pildaín, A Schmitt, F Leonardi-Essmann, P F Durrenberger, R Spanagel, T Arzberger, H Kretzschmar, M Zink, O Gruber, M Herrera-Marschitz, R Reynolds, P Falkai, P J Gebicke-Haerter, et F Matthäus. 2013. « Gene expression in superior temporal cortex of schizophrenia patients ». Eur. Arch. Psychiatry Clin. Neurosci.
Steen, Vidar M., Chirag Nepal, Kari M. Ersland, Rita Holdhus, Marianne Nævdal, Siri M. Ratvik, Silje Skrede, et Bjarte Håvik. 2013. « Neuropsychological Deficits in Mice Depleted of the Schizophrenia Susceptibility Gene CSMD1 ». PLoS ONE. Vol. 8, n°11, p. e79501.
Subramanian, Aravind, Pablo Tamayo, Vamsi K Mootha, Sayan Mukherjee, Benjamin L Ebert, Michael A Gillette, Amanda Paulovich, Scott L Pomeroy, Todd R Golub, Eric S Lander, et Jill P Mesirov. 2005. « Gene set enrichment analysis: a
71
knowledge-based approach for interpreting genome-wide expression profiles ».
Proc. Natl. Acad. Sci. U. S. A. Vol. 102, n°43, p. 15545‑ 15550.
Sun, Lei, Radu V Craiu, Andrew D Paterson, et Shelley B Bull. 2006. « Stratified false discovery control for large-scale hypothesis testing with application to
genome-wide association studies ». Genet. Epidemiol. Vol. 30, n°6, p. 519‑ 530.
Tam, Paul K. H., et Mercè Garcia-Barceló. 2009. « Genetic basis of Hirschsprung’s
disease ». Pediatr. Surg. Int. Vol. 25, n°7, p. 543‑ 558.
Thomas, Duncan. 2010. « Gene–environment-wide association studies: emerging
approaches ». Nat. Rev. Genet. Vol. 11, n°4, p. 259‑ 272.
Turner, Stephen D, Scott M Dudek, et Marylyn D Ritchie. 2011. « Incorporating Domain Knowledge into Evolutionary Computing for Discovering Gene-Gene
Interaction ». Lect. Notes Comput. Sci. Vol. 6238, n°2011, p. 394‑ 403.
Tyers, Mike. [s d]. Osprey [En ligne]. Tyers Lab, Disponible sur : < http://biodata.mshri.on.ca/osprey/OspreyHelp/index.html >
Ueki, et Cordell, Heather J. 2012. « Improved Statistics for Genome-Wide Interaction Analysis ». PLoS Genet. Vol. 8, n°4, p. e1002625.
Wang, Kai, Mingyao Li, et Maja Bucan. 2007. « Pathway-based approaches for analysis of genomewide association studies ». Am. J. Hum. Genet. Vol. 81, n°6,
p. 1278‑ 1283.
Wang, Kai, Mingyao Li, et Hakon Hakonarson. 2010. « Analysing biological pathways in genome-wide association studies ». Nat. Rev. Genet. Vol. 11, n°12,
p. 843‑ 854.
Wang, Ke-Sheng, Qunyuan Zhang, Xuefeng Liu, Longyang Wu, et Min Zeng. 2012. « PKNOX2 is associated with formal thought disorder in schizophrenia: a meta-analysis of two genome-wide association studies ». J. Mol. Neurosci. MN.
Vol. 48, n°1, p. 265‑ 272.
Wu, Xuesen, Hua Dong, Li Luo, Yun Zhu, Gang Peng, John D. Reveille, et Momiao Xiong. 2010. « A Novel Statistic for Genome-Wide Interaction Analysis ». PLoS Genet. Vol. 6, n°9, p. e1001131.
73
Annexe
Liste des différents documents en Annexe.
A1 : Résumé graphique du projet
A2 : Liste des gènes
A3 : Informations supplémentaires sur les différentes bases de données
A4 : Détails sur l’épistasie
A5 : Résumé MSigDB
A6 : Résumé des tests pour paramétrer Biofilter
A7 : Détails des tests pour paramétrer GSEA
A8 : Vulgarisation - La Schizophrénie : Une maladie multigénique complexe
A1 : Résumé graphique du projet
74
A2 : Liste des gènes
Gène Nom Ch Position Début Fin Annotation
ABBC4 ATP-binding
cassette,
sub-family C
(CFTR/MRP)
, member 4
13 13q32 95,672,083 95,953,705 Joue le rôle de
pompe lors de la
détoxification
cellulaire
ADCY8 adenylate
cyclase 8
8 8q24 131,064,350 133,025,889 Catalyse la
formation de
l’AMP à partir de
l’ATP
CAMK2D calcium/calm
odulin-
dependent
protein
kinase II
delta
4 4q26 114,372,188 114,683,669 Joue un rôle
important dans la
plasticité
synaptique
CDH13 cadherin 13 16 16q23.3 82,181,767 83,949,787 Régulateur négatif
de la croissance
de l’axone
pendant la
différenciation
neurale et
protection contre
l’apoptose dû à un
stress oxydatif
COL4A1 collagen,
type IV,
alpha 1
13 13q34 110,801,310 110,959,496 Joue un rôle
primordial dans la
structure cellulaire
CRULRG ND ND ND ND ND ND
CSMD1 CUB and
Sushi
multiple
domains 1
8 8p23.2 2,792,875 4,852,328 Fonction inconnue
CTNND2 catenin delta
2
5 5p15.2 10,664,224 12,805,295 Protéine de
jonction adhésive
impliquée dans le
développement du
cerveau
75
CYCS cytochrome c 7 7p15.3 24,737,974 25,252,604 Initiation de
l’apoptose
DLG2 discs large
homolog 2
11 11q14.1 82,972,506 85,367,597 Clustérisations
des récepteurs et
canaux ioniques
postsynaptiques
EED embryonic
ectoderm
development
11 11q14.2-q22.3 85,955,586 85,989,785 Participe à la
répression de
l’activité génique
par la
désacétylation des
histones
ERBB4 v-erb-b2
avian
erythroblastic
leukemia
viral
oncogene
homolog 4
2 2q33.3-q34 212,240,442 213,403,879 Impliquée dans
l’induction de la
mitogénèse et la
différenciation
cellulaire
FAIM2 Fas apoptotic
inhibitory
12 12q13 50,222,326 50,352,664 Inhibiteur de
l’apoptose
FBLN5 fibulin 5 14 14q32.1 92,335,755 92,414,046 Joue un rôle dans
le développement
et le remodelage
vasculaire
FHIT fragile
histidine triad
3 3p14.2 59,735,036 61,237,133 Joue un rôle dans
le métabolisme
des purines
GPC5 glypican 5 13 13q32 92,000,074 95,060,274 Joue un rôle
important dans la
division cellulaire
GRM3 glutamate
receptor 3
7 7q21.1-q21.2 85,104,543 86,781,656 Récepteur de
glutamate
métabotropique
GRM7 glutamate
receptor 7
3 3p26.1-p25.1 5,488,662 8,609,806 Récepteur de
glutamate
métabotropique
KCNQ1 potassium
voltage-
gated
channel
11 11p15.5 2,423,523 2,906,995 Sous unité de
canal potassium
contrôlé par le
voltage
76
KCNQ5 potassium
voltage-
gated
channel
6 6q14 73,331,571 73,908,574 Sous unité de
canal potassium
contrôlé par le
voltage qui joue
un rôle critique
dans la régulation
de l’excitabilité
neuronale
NAV2 neuron
navigator 2
11 11p15.1 19,245,610 20,405,329 Croissance et
migration des
neurones
NCOR2 nuclear
receptor
corepressor
2
12 12q24 124,808,957 125,052,079 Joue un rôle dans
la modification de
la structure de la
chromatide afin de
permettre /
empêcher la
transcription de
certains gènes
NELL1 NEL-like 1
(chicken)
11 11p15.1 20,691,117 21,597,232 Joue un rôle dans
la régulation de la
croissance et la
différenciation
cellulaire
NRXN1 neurexin 1 2 2p16.3 49,189,296 52,002,852 Une protéine
d’adhésion
cellulaire du
système nerveux
PDIA6 protein
disulfide
isomerase
2 2p25.1 10,590,207 11,272,302 Catalyse la
formation, la
réduction et
l’isomérisation de
ponts disulfure
PKNOX2 PBX/knotted
1 homeobox
2
11 11q24.2 124,964,266 125,454,575 Joue un rôle
important dans la
mort cellulaire
PLCB1 phospholipas
e C, beta 1
20 20p12 7,961,713 9,511,171 Phospholipase C
PLCL2 phospholipas
e C-like 2
3 3p24.3 16,628,299 17,784,240 Phospholipase C
77
PRDM14 PR domain
containing 14
8 8q13.3 70,846,744 71,316,020 Joue un rôle clé
dans la
pluripotence en
supprimant les
marqueurs de
différenciations
PTPRT protein
tyrosine
phosphatase,
receptor
type, T
20 20q12-q13 40,701,392 41,818,557 Joue un rôle de
traducteur de
signaux et
d’adhésion
cellulaire dans le
système nerveux
central
RELN Reelin 7 7q22 102,987,971 104,549,005 Protéine de
matrice
extracellulaire qui
contrôle les
interactions
cellule-cellule
critiques du
positionnement et
de la migration
neuronale
RGS7 regulator of
G-protein
signaling 7
1 1q43; 1q23.1 240,902,442 241,803,701 Régulateur des
protéines-G
postsynaptiques
ROBO1 roundabout
axon
guidance
3 3p12 75,955,845 80,214,118 Gène impliqué
dans la guidance
des axones
SEMA3B sema
domain,
immunoglobu
lin domain
(Ig), short
basic
domain,
secreted,
(semaphorin)
3B
3 3p21.3 50,305,040 50,314,573 Guidance du cône
de croissance des
axones pendant le
développement
78
SHANK2 SH3 and
multiple
ankyrin
repeat
11 11q13.2 70,116,806 71,159,477 Fait partie de
l’échafaudage de
la densité
postsynaptique et
attache les
mGluRs aux
récepteurs NMDA
lors de la
synaptogénèse
SOX5 SRY (sex
determining
region Y)-box
5
12 12p12.1 23,682,438 24,715,383 Joue un rôle dans
la régulation du
développement
embryonnaire et
participe à
déterminer le
destin des cellules
TLK1 tousled-like
kinase 1
2 2q31.1 171,673,200 172,341,562 Régulation de
l’assemblage de la
chromatine
Tableau 11 : Liste des gènes
Liste des différents gènes que nous retrouverons dans le mémoire avec, pour chaque gène, son symbole
officiel, son nom complet, le chromosome sur lequel il se retrouve, sa position chromosomique, le numéro de
sa première et de sa dernière paire de bases ainsi qu’un résumé de son annotation selon DAVID.
79
A3 : Information supplémentaire sur les différentes bases de
données
Base de données de Biofilter :
-GO : “The Gene Ontology project is a major bioinformatics initiative with the aim of
standardizing the representation of gene and gene product attributes across
species and databases. The project provides a controlled vocabulary of terms for
describing gene product characteristics and gene product annotation data from GO
Consortium members, as well as tools to access and process this data.”
-KEGG : “KEGG (Kyoto Encyclopedia of Genes and Genomes) is a database
resource that integrates genomic, chemical, and systemic functional information. In
particular, gene catalogs in the completely sequenced genomes are linked to
higher-level systemic functions of the cell, the organism, and the ecosystem.”
-NetPath : “'NetPath' is a curated resource of signal transduction pathways in
humans.”
-pfam : “The Pfam database is a large collection of protein families, each
represented by multiple sequence alignments and hidden Markov models
(HMMs).”
-Reactome : “REACTOME is an open-source, open access, manually curated and
peer-reviewed pathway database. Pathway annotations are authored by expert
biologists, in collaboration with Reactome editorial staff and cross-referenced to
many bioinformatics databases. These include NCBI Entrez Gene, Ensembl
and UniProt databases, the UCSC and HapMap Genome Browsers, the
KEGG Compound and ChEBI small molecule databases, PubMed, and Gene
Ontology.”
-DIP : “The Database of Interacting Proteins (DIP) catalogs experimentally
determined interactions between proteins. It combines information from a variety of
80
sources to create a single, consistent set of protein–protein interactions. The data
stored within DIP have been curated, both manually, by expert curators, and
automatically, using computational approaches that utilize the knowledge about the
protein–protein interaction networks extracted from the most reliable, core subset
of the DIP data. DIP is curated by the research group of David Eisenberg at
UCLA.”
-BioCarta : “Broadly, this information falls into four categories – gene function,
proteomic pathways, ePosters, and research reagents.”
81
A4: Détails sur l’épistasie
L’épistasie est définie comme l’interaction entre 2 gènes quand le phénotype
dépend de cette interaction et peut être masqué par l’un des 2 gènes ou les 2 dans
certains cas « symétriques ». Le Dr Cordell explique la problématique pour vérifier
l’Épistasie sous plusieurs angles lors de sa présentation à Toronto [Cordell, 2011].
Elle expose différentes approches comme celle de Wu [Wu et coll., 2010] qui
considère les haplotypes à 2 locus et détecte les interactions avec le log du rapport
de cote, contrairement à PLINK qui considère 4 allèles indépendants. Elle identifie
les problématiques de ces méthodes, comme par exemple la méthode de Wu qui
augmente les erreurs de type 1 ou encore de PLINK qui estime mal la variance.
Elle finit par nous proposer sa propre méthode. Le « joint effects » ou JE
Dans son article en 2002 [Cordell, 2002], elle expose aussi une problématique.
Les interactions détectées lors d’une régression logistique (échelle multiplicative)
ne sont pas les mêmes que celles détectées lors d’une régression linéaire (échelle
additive). Considérant la nature de notre jeu de donnée et les commentaires de
Cordell, la régression logistique est la plus appropriée pour nous.
Un autre des angles qu’elle explore cette fois-ci dans son article de 2009 [Cordell,
2009] est le temps de calcul. Plus une méthode est efficace et plus elle demande
en effet de temps de calcul. Elle recommande donc d’utiliser une méthode moins
efficace pour obtenir des résultats préliminaires et ensuite d’utiliser les méthodes
plus poussées sur ces résultats. Ce qu’elle recommande de faire, c’est d’utiliser
dans un premier temps PLINK avec son test semi-exhaustif pour une recherche
d’interaction entre 2 locus et de compléter avec un test aléatoire de forêt comme
implantée dans Randon Jungle [Schwarz, 2010]. Pour la première partie, la
documentation de PLINK sur l’épistasie apporte certains éclairages.
82
PLINK propose une méthode pour le test d’épistasie dite rapide. Ce test est basé
sur le score Z pour la différence du rapport de cote entre le SNP1 et le SNP2 entre
les cas et les contrôles.
Dans une régression logistique (Y = α + βX), le rapport de cote se trouve à être eβ
Où Y = variable dépendante, α = intercepte (ordonnée à l’origine) , β = pente et X =
variable indépendante.
Dans un premier temps, PLINK construit un test allélique pour un simple locus. Il
fusionne 2 fois 3 catégories génotypiques en 2 catégories alléliques. En gros, il
compte les 4N allèles indépendants observés à 2 locus d’un échantillon de N
individu dans un tableau 2X2. Donc, l’unité de l’analyse se trouve à être les allèles
et non les individus ou les haplotypes.
BB Bb bb
AA a b c
Aa d e f
aa g h I
Les allèles sont comptés à un locus, par exemple le locus B, de façon
conditionnelle au locus A. Nous avons donc une table 3x2
B b
AA 2a+b 2c+b
Aa 2d+e 2f+e
aa 2g+h 2i+h
83
La table est ensuite réduite à une table 2x2 qui ressemble à :
B b
A 4a+2b+2d+e 4c+2b+2f+e
a 4g+2h+2d+e 4i+2h+2f+e
À partir de ce tableau, le rapport de cote entre le locus A et B est calculé ainsi que
l’erreur standard. La valeur du test Z est Z = ( log(R) - log(S) ) / ( SE(R) + SE(S)
)
Où R et S sont respectivement les rapports de cotes pour les cas et les contrôles.
SE (Standard error) représente l’erreur type de R et S Notons ici que cette formule
est tirée de la documentation de PLINK et contient une erreur. Nous devrions
plutôt parler de variance à la place d’erreur type.
Ce rapport de cote est estimé par ab/cd avec une variance de 1/a+1/b+1/c+1/d
Où abcd sont les 4 cadrans du tableau 2x2 précédent. Ce test suit une distribution
normale standard dans le cadre d’une régression logistique sous le modèle
multiplicatif sans interaction. Il assume aussi que nous avons les conditions
définies par Hardy-Weinberg et que nous avons l’équilibre de liaison entre les 2
locus testés. Nous ne souhaitons cependant pas ces conditions alors il nous est
impossible d’utiliser PLINK directement. Une régression logistique devra donc être
programmée manuellement dans R.
Le Dr Cordell nous indique cependant une erreur dans cette façon de procéder lors
de sa présentation à Toronto [Cordell, 2011]. En effet, selon elle, l’estimation de
la variance n’est pas appropriée et diminue la puissance statistique. L’estimation
faite dans PLINK n’est cependant pas très loin de la réalité. PLINK suppose que
nous avons 3 fréquences d’haplotypes indépendantes. Ceci est restrictif. Elle
propose donc d’utiliser la méthode Delta pour évaluer la variance. Je ne sais pas
cependant ce qu’est cette méthode et/ou ce qu’elle implique. Il faudra donc aller
voir plus en détail ce qu’elle est et implanter dans R le calcul de Z. Selon Powell
84
dans son article de 2007 [Powell, 2007], l’estimation de la variance par la méthode
delta serait :
n
var(G) = var(Xi) (/Xi)2
i=1
où /Xi est la dérivée partielle de G qui respecte Xi.
Pour conclure, l’approche de PLINK ne sera pas utilisée. Premièrement, elle
suppose l’indépendance, ce que nous ne souhaitons pas, deuxièmement, elle
suppose l’équilibre de liaison, une autre chose non souhaitée. Pour finir, la
variance y est mal estimée. Comme nous l’avons vu, la méthode delta aurait
dû être utilisée pour estimer la variance. La méthode JE pourrait cependant être
une piste à explorer et être comparé avec une régression logistique faite
manuellement.
85
A5 : Résumé MSigDB
La MSigDB contient un total de 6769 ensembles de gènes (gene sets). De ces
gene sets, 6483 sont chez l’humain. La base de données est divisée en 5
catégories (C1 à C5).
La C1 contient les « gene sets » positionnels chez l’humain pour chaque
chromosome.
La C2 contient après une vérification manuelle pour éviter la redondance les
« gene sets » provenant de BioCarta, Gene arrays, KEGG, Reactome, Sigma-
Aldrich pathways, Signal traduction knowledge environment et signaling gateway
La C3 contient des « gene sets » de motifs basés sur les motifs de régulation
conservés provenant d’une étude comparative sur le génome du chien, de la
souris et de l’humain.
La C4 contient les « gene sets » « computationnels » qui sont définis par une
analyse de « expression neighborhoods » sur 380 gènes associés au cancer. Ces
gènes viennent de Human tissue compendium, Global Cancer Map, NCI-60 cell
lines et Novartis carcinoma compendium.
La C5 contient les « gene sets » que l’on peut retrouver dans GO sous le même
terme.
Légende pour la MSigDB :
Tout ce qui est du format chrXqY où X est un chromosome et Y une localisation
vient de la collection 1.
86
Tout ce qui contient CLUSTER ou fini par _UP ou DN ou TARGETS ou CANCER
ou qui commence par ST_ ou SA_ ou SIG_ ou WNT_ ou REACTOME_ ou
BIOCARTA_ ou KEGG_ viennent de la collection 2. Ceux commençant par
REACTOME_ ou BIOCARTA_ ou KEGG_ viennent respectivement de Reactome,
Biocarta et KEGG. Une petite quantité de pathways appartiennent aussi à cette
collection, mais elles n’ont rien de distinctif dans leurs noms.
Tout ce qui commence par V$ ou par une séquence d’Acide Nucléiques qui tient
compte de la redondance du genre GCGSCMNTTT vient de la collection 3
Tout ce qui débute par MORF, GCM, CAR, GNF2 ou module_X où X est un
nombre entre 1 et 576 vient de la collection 4.
La collection 5 vient de GO et chacun des pathways qu’elle contient ne possède
aucun signe distinctif sinon qu’ils n’ont pas les critères des collections 1, 3 et 4 et
que les critères identifiés pour la collection 2 ne s’appliquent pas à eux non plus.
La collection 3 créée beaucoup de chevauchement entre les pathways. Comme la
collection 1 regroupe les gènes par chromosomes et que la collection 4 ne
concerne que le cancer, ce qui n’est pas utile pour le projet, nous utiliserons donc
seulement la collection 2 et la collection 5
87
A6 : Résumé des tests pour paramétrer Biofilter
Note : Ces tests ont été faits avec une vieille version de Biofilter et leurs résultats
ont servi à paramétrer notre analyse avec la version 2 de Biofilter. Ici, dépendant
de la maladie « disease dependant » réfère à la possibilité d’ajouter notre propre
liste de gènes à la base de données de Biofilter et contient les gènes pour la
maladie de Hirschsprung [Cantrell, 2004] [Owens, 2005] [De Pontual, 2009] [Tam,
2009] et de Bardet-Biedl [Badano, 2005].
Sample : Référence. Paramètres de bases avec notre de liste de SNPs
Sample1 : augmentation de max gene count avec notre de liste de SNPs
Sample2 : diminution de max gene count avec notre de liste de SNPs
Sample3 : avec disease dependant complet avec notre de liste de SNPs
Sample4 : avec disease dependant complet et catégorie GO avec notre de liste de
SNPs
Sample5 : avec catégorie GO avec notre de liste de SNPs
Sample6 : avec population CEU_DP0.80 avec notre de liste de SNPs
Sample7 : avec catégorie GO et population avec notre de liste de SNPs
Sample8 : avec disease dependant complet, catégorie GO et population avec
notre de liste de SNPs
Sample9 : avec population CEU_DP1.00 avec notre de liste de SNPs
Sample10 : avec population CEU_DP0.70 avec notre de liste de SNPs
Sample11 : avec population CEU_RS1.00 avec notre de liste de SNPs
Sample12 : avec population CEU_RS0.80 avec notre de liste de SNPs
Sample13 : avec population CEU_RS0.70 avec notre de liste de SNPs
Sample14 : avec disease dependant contenant juste 1 gène(BBS2) avec notre de
liste de SNPs
Sample15 : avec disease dependant contenant juste 2 gènes(BBS2 et ARL6) avec
notre de liste de SNPs
88
Sample16 : avec disease dependant contenant juste 3 gènes(BBS2, ARL6 et
BBS4) avec notre de liste de SNPs
Sample17 : avec disease dependant contenant juste 2 gènes fictifs(MAISON et
BATEAU) avec notre de liste de SNPs
Sample18 : Meilleurs paramètres : Max gene count a été augmenté, population
fixée à CEU_RS0.80 avec notre de liste de SNPs. P.S.. Le disease dependant
n’est pas utilisé, car il ne permet pas de gagner de nouveaux résultats, juste de
leur donner du poids.
Problème détecté : à cause des isoformes, plusieurs id réfèrent au même symbole
et donc on ne peut savoir quel symbole réfère à quel ID quand on a des doublons
parmi les symboles.
Commande utilisée : Biofilter sample.config -W 2.0 1 000 000 > report_sample.txt
-Sample :
Hirschsprung :
Gène manquant :
EDNRB : Gène important et aucun SNPs. PHOX2B : aucun SNPs.
SNP manquant
SOX10 : Aucun SNPs -> sur chr Y.
Interaction trouvée :
EDN3 interagirait avec ECE1 : Pas selon la littérature examinée…
GDNF interagit avec NRTN : Pas selon la littérature examinée…
Pourtant il ressort avec le meilleur index…
ECE1 interagit avec CEP290 : Pas selon la littérature examinée…
Bardet-Biedl :
SNP manquant :
BBS1 : aucun SNPs. BBS10 aucun SNPs. BBS12 aucun SNPs.
WDPCP aucun SNPs.
89
Interaction trouvée :
BBS2 BBS4 ok
BBS4 MKKS ok
BBS2 BBS5 ok
BBS2 BBS7 ok
BBS2 ARL6 ok
ARL6 BBS7 ok
ARL6 MKKS ok
ARL6 BBS5 ok
ARL6 BBS4 ok
BBS4 BBS7 ok
BBS4 CEP290 ok
BBS4 MKKS ok
BBS4 BBS5 ok
BBS4 BBS9 ok
BBS5 TTC8 ok
BBS5 BBS9 ok
BBS5 BBS7 ok
BBS5 TTC8 ok
BBS5 MKKS ok
Etc.
Mais MKS1 et TRIM32 aucune interaction de trouvée. Toutes les
autres interactions attendues ont été trouvées.
-Sample1 : plus d’associations totales trouvées, mais rien de nouveau pour nos
maladies qui se retrouvent dans la littérature.
-Sample2 : moins d’associations trouvées et perte de quelques associations
recherchées.
90
-Sample3 : non fonctionnel. Disease dependant mal défini. Disease dependant
n’égale pas tous les gènes de la maladie comme je le pensais, mais plutôt gènes
interagissant entre eux. En gros, chaque élément d’un groupe disease dependant
interagit avec tous les autres éléments du même groupe disease dependant.
Chaque élément d‘un groupe disease dependant fait aussi augmenter l’index
d’implication de chaque combinaison avec d’autres gènes où il apparaît.
-Sample4 : catégorie GO mal définie, car catégorie GO actuelle utilisée pour
définition n’égale pas ceux de Biofilter datant de 2008. Disease dependant mal
défini aussi alors rien de concluant.
-Sample5 : catégorie GO mal définie, car catégorie GO actuelle utilisée pour
définition n’égale pas ceux de Biofilter datant de 2008.
-Sample6 : on a attrapé des gènes qui étaient manquants, mais nous n’avons pas
de nouvelle interaction valide selon la littérature.
Hirschsprung :
Interaction supplémentaire trouvée :
EDN3 interagirait avec EDNRB? Pas selon la littérature examinée
-Sample7 : catégorie GO mal définie, car catégorie GO actuelle utilisée pour
définition n’égale pas ceux de Biofilter datant de 2008.
-Sample8: catégorie GO mal définie, car catégorie GO actuelle utilisée pour
définition n’égale pas ceux de Biofilter datant de 2008. Disease dependant mal
défini aussi alors rien de concluant.
-Sample9 : Perte de certains SNPs comparé à l’exemple 6, mais aucune perte de
gènes ou d’interaction. Seul le models count est affecté.
-Sample10 : Identique à l’exemple 6.
91
-Sample11 : On a des SNPs de plus pour notre liste de gènes retenus comparés à
l’exemple 6 mais rien de nouveau. Nous avons donc un meilleur « Models count »
que l’exemple 6.
-Sample12 : On a attrapé un gène qui était manquant dans Bardet-Biedl
(BBS10) et on a trouvé 4 de ses interactions.
-Sample13 : On a des SNPs de plus pour notre liste de gènes retenus comparés à
l’exemple 12 mais rien de nouveau. Nous avons donc un meilleur « Models
count » que l’exemple 12.
-Sample14 :Même résultats, mais avec un index d’implication plus grand quand le
gène est présent.
-Sample15 :BBS2 interagit déjà avec ARL6 mais l’interaction apparaît une fois de
plus dans la liste. Si non, les résultats sont les mêmes, mais avec un index
d’implication plus grand quand un des gènes est présent.
-Sample16 : une interaction supplémentaire avec chacun des 2 autres gènes a été
ajoutée pour nos 3 gènes. Si non, les résultats sont les mêmes, mais avec un
index d’implication plus grand quand un des gènes est présent.
-Sample17 :Rien, totalement identique à l’exemple de référence.
Essayé : tenter de faire une recherche par mots clé dans la base de données de
Biofilter pour retrouver les bonnes catégories go correspondant à la notation
actuelle.
Non concluant.
92
Conclusion :
Ce test nous donne les meilleurs résultats. Les interactions connues ressortent
toutes avec de bonnes valeurs d’indices.
-Sample18 :
EDNRB-EDN3
EDN3-ECE1
ECE1-BBS5
ECE1-CEP290
GDNF- NRTN
BBS2-ARL6
BBS2-BBS5
ARL6-BBS5
BBS4 -ECE1
BBS4 -BBS2
BBS4 -ARL6
BBS4 -BBS5
BBS4 -BBS7
BBS4 -CEP290
MKKS-ECE1
MKKS-BBS2
MKKS-ARL6
MKKS-BBS4
MKKS-BBS5
MKKS-BBS7
MKKS-BBS10
MKKS-BBS12
BBS7-ECE1
BBS7-BBS2
BBS7-ARL6
BBS7-BBS5
TTC8-BBS2
93
TTC8-BBS4
TTC8-BBS5
TTC8-BBS7
TTC8-BBS9
BBS9-BBS2
BBS9-BBS4
BBS9-BBS5
BBS9-BBS7
BBS10-ARL6
BBS10-BBS5
BBS12-BBS10
La restriction de champ de recherche avec l’aide des catégories GO n’est
actuellement pas possible en raison de l’âge avancé de la base de données de
Biofilter. Le disease dependant permet de définir des interactions connues et de
leur donner un poids, c’est-à-dire, c’est comme si nous donnions une base de
données supplémentaires à Biofilter. Il permet aussi de donner plus de poids aux
interactions contenant l’un des gènes de notre liste de gènes retenus . Une
solution serait de faire un groupe par gène d’intérêt et de ne mettre dans un même
groupe que des gènes dont on est certain qu’ils interagissent. L’utilisation d’une
population permet d’attraper des gènes non contenus dans notre liste de SNPs.
L’augmentation du « Max gene count » permet d’avoir des pathways plus grands
et donc offre plus de possibilités. Pour le futur, il faudra voir si nous pouvons enfin
utiliser les catégories GO pour restreindre notre champ de recherche avec la
nouvelle version de Biofilter quand elle sera disponible. Sinon, il faudra trouver un
autre moyen pour restreindre notre liste de SNPs. Au final, tout marche très bien
pour Bardet-Biedl, mais pas pour Hirschsprung.
Avec la dernière version de Biofilter (2.0) et une base de données à jour, le logiciel
a été utilisé avec notre meilleure configuration obtenue sur les jeux de données de
94
Bardet-Biedl et Hirschsprung. Pour paramétrer nos analyses, nous avons pris la
valeur de l’indice la plus basse pour une interaction réelle obtenue pour ces
maladies afin de servir de point de coupure (cut off) pour notre jeu de données.
Cet indice a été calculé à 4-156
95
A7 : Détails des tests pour paramétrer GSEA
La commande R par défaut pour lancer GSEA est
system(command = "java -cp gsea2_2.07.jar -Xmx1024m xtools.gsea.GseaPreranked -gmx
C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/brain.gmt -collapse true -mode
Max_probe -norm meandiv -nperm 100 -rnk C:/Documents and
Settings/noes0001/Bureau/GSEA/Projet/Ranked list.rnk -scoring_scheme weighted -
rpt_label reference -chip C:/Documents and
Settings/noes0001/Bureau/GSEA/Projet/Annotation.chip -include_only_symbols true -
make_sets true -plot_top_x 50 -rnd_seed 12345 -set_max 555 -set_min 5 -zip_report false -
out C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/reference -gui false")
java -cp gsea2_2.07 : lancer GSEA
-Xmx1024m : Allouer la mémoire max que supporte GSEA
xtools.gsea.GseaPreranked : On veut utiliser l’outil pour traiter des listes déjà ordonnées
-gmx C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/brain.gmt : On spécifie
notre liste de pathways
-collapse true : On remplace nos id de SNPs par les symboles de gènes selon le fichier
d’annotation
-mode Max_probe : Dans le cas où plusieurs SNPs réfèrent à un même gène, on prend celui
avec le rang le plus élevé dans notre liste
-norm meandiv : la méthode de normalisation qui sera utilisée pour normaliser
l’enrichissement. Voir plus bas pour explications sur les méthodes disponibles.
96
-nperm 100 : le nombre de permutations
-rnk C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/Ranked list.rnk : Notre
liste déjà ordonnée
-scoring_scheme weighted : Poids donné pour la statistique d’enrichissement
-rpt_label reference : La première partie du nom du sous-répertoire où sera déposé le
résultat de l’analyse. Ce nom se complète du type d’analyse et d’un numéro.
-chip C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/Annotation.chip :
L’endroit où trouver notre fichier d’annotation
-include_only_symbols true : On ne considère que les SNPs pour lesquels on a trouvé un
symbole correspondant selon notre fichier d’annotation
-make_sets true : On veut avoir un rapport détaillé
-plot_top_x 50 : Faire les graphiques pour les 50 meilleurs résultats
-rnd_seed 12345 : Valeur initiale de notre racine qui va générer les nombres aléatoires pour
les permutations
-set_max 555 : Le nombre maximum de gènes que peut contenir un pathway
-set_min 5 : Le nombre minimal de gènes que peut contenir un pathway
-zip_report false : Ne pas compresser le rapport final
97
-out C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/reference : Le chemin du
répertoire qui contiendra le sous-répertoire où seront rangés les résultats.
-gui false : Nous ne voulons pas lancer l’interface graphique de GSEA
Clarification de certains paramètres
Nombre de permutations : Le nombre de permutations n’affecte pas le score
d’enrichissement. Il joue son rôle pour le calcul du score d’enrichissement normalisé et
pour le FDR (False Discovery Rate). Le minimum de permutation que GSEA accepte est
1. C’est ainsi, car GSEA a besoin d’au moins une permutation pour calculer son score
d’enrichissement normalisé et que les données sont classées dans le fichier de sortie par
ordre de valeur d’enrichissement normalisé. Le FDR est cependant à 0 quand nous ne
faisons qu’une seule permutation. Comme nous ne nous intéressons qu’au score
d’enrichissement « brut », nous utiliserons donc seulement une seule permutation et nous
ferons par la suite nos propres permutations.
Normalisation : Méthode de normalisation standard de GSEA pour calculer la valeur
d’enrichissement normalisée ou aucune méthode de normalisation. Quand aucune méthode
de normalisation n’est sélectionnée, la valeur d’enrichissement normalisé est égale à la
valeur d’enrichissement.
98
Weight : Le poids affecte directement le score d’enrichissement et les résultats sont très
différents. Il faudra donc se pencher très attentivement sur ce sujet pour choisir le bon
paramètre de poids. En gros, la valeur de 0 est la valeur « classique » et permet de faire un
test statistique standard de Kolmogorov–Smirnov . Nous pouvons aussi la changer pour 1,
1,5 et 2. La formule pour calculer l’enrichissement est :
La valeur d’enrichissement est la déviation maximum de 0 de Phit - Pmiss
S est notre pathway qu’on analyse actuellement, Nh est le nombre de gènes dans S, N est le
nombre de gènes de notre liste ordonnée, i est la position du gène dans notre liste ordonnée,
gi est le gène à la position i dans notre liste ordonnée et P est le poids. Si S est distribué
aléatoirement, alors le score d’enrichissement est petit. Nous pouvons donc lui donner notre
liste avec nos valeurs-p alléliques.
Note supplémentaire : Le test pour 0 permutation et aucune normalisation n’a été faite. Ça
marche. Nous n’avons pas de FDR, mais nous avons notre score d’enrichissement.
Comme noté plus bas, il faut considérer le poids. Pour un poids Classique, la commande à
utiliser est donc :
system(command = "java -cp gsea2_2.07.jar -Xmx1024m xtools.gsea.GseaPreranked -gmx
C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/brain.gmt -collapse true -mode
Max_probe -norm None -nperm 0 -rnk C:/Documents and
Settings/noes0001/Bureau/GSEA/Projet/Ranked list perm.rnk -scoring_scheme classic -
rpt_label perm -chip C:/Documents and
Settings/noes0001/Bureau/GSEA/Projet/Annotation.chip -include_only_symbols true -
make_sets true -plot_top_x 100 -rnd_seed 12345 -set_max 2200 -set_min 5 -zip_report
false -out C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/permutation -gui
false")
99
Petit détail : Le nom du répertoire d’une analyse contient un numéro. Ce numéro est le
timestamp. Il est utilisé pas GSEA comme valeur initiale de notre racine qui va générer les
nombres aléatoires pour les permutations quand la racine n’est pas définie manuellement.
Complément : GSEA commence par le rang 0 alors pour le rang max du score
d’enrichissement, il faut faire +1 pour avoir le rang « réel ».
En mode classique, le saut positif est de 1/nb sondes présentes dans le pathway.
Le paramètre Rj est la valeur numérique du rang donnée en entrée quand on fait une
analyse avec une liste pré ordonnée. Voir colonne Rj du fichier Excel GSEA.xls et voir
test2.gmt pour la définition des pathways
J’ai reçu une confirmation de l’équipe de GSEA pour le paramètre Rj
« In this case, rj corresponds to the values that you have
used to rank order genes in your ranked list.
The interpretation of these values, of cause, will depend on
their meaning. For example, standard GSEA approach uses
signal-to-noise metric, which reflects the degree of
correlation of gene expression with a phenotype class
comparison. Thus, genes on top of the ranked list are up-
regulated in phenotype A compared to phenotype B. »
Tous les tests faits avec un poids de 1,5 donnent de façon illogique des scores
d’enrichissement majoritairement négatif. Après consultation avec Alexandre, il a été
décidé de ne plus utiliser le paramètre de poids de l,5
De façon préliminaire, les 10 meilleurs pathways en mode classic sont :
SMID_BREAST_CANCER_RELAPSE_IN_LIVER_DN
BIOCARTA_EPHA4_PATHWAY
100
REACTOME_CRMPS_IN_SEMA3A_SIGNALING
NIELSEN_MALIGNAT_FIBROUS_HISTIOCYTOMA_UP
SMID_BREAST_CANCER_NORMAL_LIKE_DN
TCGA_GLIOBLASTOMA_MUTATED
WU_ALZHEIMER_DISEASE_DN
WU_ALZHEIMER_DISEASE_UP
TAKADA_GASTRIC_CANCER_COPY_NUMBER_DN
BIOCARTA_TRKA_PATHWAY
Position des 10 premiers pathways du mode classique selon le mode de normalisation
Classic 1 2
1 8 87
2 10 31
3 1 3
4 13 99
5 7 66
6 34 298
7 17 38
8 15 16
9 29 79
10 16 64
Score d’enrichissement(ES) des 10 meilleurs résultats classic selon le mode de
normalisation
Classic 1 2
0,5189054 0,5951473 0,63484037
0,51050895 0,59286904 0,6879782
0,50690776 0,73885065 0,79277444
0,48405036 0,58426297 0,62869895
0,45913818 0,6083488 0,6489707
0,45417812 0,5306511 0,56227285
0,44760314 0,57290554 0,67738986
0,44744188 0,57928526 0,7311483
101
0,42618412 0,5412565 0,64165777
0,41568193 0,57822776 0,6498014
Nombre de gène des 10 premiers pathways Classic
SMID_BREAST_CANCER_RELAPSE_IN_LIVER_DN 7
BIOCARTA_EPHA4_PATHWAY 7
REACTOME_CRMPS_IN_SEMA3A_SIGNALING 13
NIELSEN_MALIGNAT_FIBROUS_HISTIOCYTOMA_UP 6
SMID_BREAST_CANCER_NORMAL_LIKE_DN 5
TCGA_GLIOBLASTOMA_MUTATED 8
WU_ALZHEIMER_DISEASE_DN 10
WU_ALZHEIMER_DISEASE_UP 9
TAKADA_GASTRIC_CANCER_COPY_NUMBER_DN 21
BIOCARTA_TRKA_PATHWAY 10
Les 10 meilleurs pathways en mode P1 sont :
REACTOME_CRMPS_IN_SEMA3A_SIGNALING
BIOCARTA_P35ALZHEIMERS_PATHWAY
KUMAMOTO_RESPONSE_TO_NUTLIN_3A_UP
BEGUM_TARGETS_OF_PAX3_FOXO1_FUSION_AND_PAX3
V$MEF2_04
BIOCARTA_CK1_PATHWAY
SMID_BREAST_CANCER_NORMAL_LIKE_DN
SMID_BREAST_CANCER_RELAPSE_IN_LIVER_DN
V$ALX4_01
BIOCARTA_EPHA4_PATHWAY
Position des 10 premiers pathways du mode P1 selon le mode de normalisation
102
Classic 1 2
3 1 3
48 2 1
35 3 8
418 4 11
23 5 14
24 6 7
5 7 66
1 8 87
26 9 28
2 10 31
Score d’enrichissement(ES) des 10 meilleurs résultats P1 selon le mode de normalisation
Classic 1 2
0,50690776 0,73885065 0,79277444
0,26465407 0,6982224 0,80967903
0,2936697 0,6652875 0,76300794
-0,28701988 0,63920623 0,7495076
0,33949506 0,630241 0,7387719
0,33591905 0,6198382 0,7652375
0,45913818 0,6083488 0,6489707
0,5189054 0,5951473 0,63484037
0,3330338 0,59349 0,69327265
0,51050895 0,59286904 0,6879782
Nombre de gène des 10 premiers pathways P1
REACTOME_CRMPS_IN_SEMA3A_SIGNALING 13
BIOCARTA_P35ALZHEIMERS_PATHWAY 7
KUMAMOTO_RESPONSE_TO_NUTLIN_3A_UP 6
BEGUM_TARGETS_OF_PAX3_FOXO1_FUSION_AND_PAX3 7
V$MEF2_04 17
BIOCARTA_CK1_PATHWAY 11
103
SMID_BREAST_CANCER_NORMAL_LIKE_DN 5
SMID_BREAST_CANCER_RELAPSE_IN_LIVER_DN 7
V$ALX4_01 11
BIOCARTA_EPHA4_PATHWAY 7
Les 10 meilleurs pathways en mode P2 sont :
BIOCARTA_P35ALZHEIMERS_PATHWAY
V$ROAZ_01
REACTOME_CRMPS_IN_SEMA3A_SIGNALING
KORKOLA_SEMINOMA_DN
NEBEN_AML_WITH_FLT3_OR_NRAS_DN
BIOCARTA_PARKIN_PATHWAY
BIOCARTA_CK1_PATHWAY
KUMAMOTO_RESPONSE_TO_NUTLIN_3A_UP
SMID_BREAST_CANCER_RELAPSE_IN_PLEURA_UP
KORKOLA_CHORIOCARCINOMA_DN
Position des 10 premiers pathways du mode P2 selon le mode de normalisation
Classic 1 2
48 2 1
400 26 2
3 1 3
78 40 4
399 19 5
104 85 6
24 6 7
35 3 8
59 12 9
64 24 10
Score d’enrichissement(ES) des 10 meilleurs résultats P2 selon le mode de normalisation
104
Classic 1 2
0,26465407 0,6982224 0,80967903
-0,4426449 0,5513922 0,8032562
0,50690776 0,73885065 0,79277444
0,2193652 0,52480245 0,7896308
-0,5368134 0,56202084 0,787401
0,20182091 0,4753262 0,78647184
0,33591905 0,6198382 0,7652375
0,2936697 0,6652875 0,76300794
0,24996905 0,5848233 0,76029426
0,24440977 0,5536337 0,757106
Nombre de gène des 10 premiers pathways P2
BIOCARTA_P35ALZHEIMERS_PATHWAY 7
V$ROAZ_01 5
REACTOME_CRMPS_IN_SEMA3A_SIGNALING 13
KORKOLA_SEMINOMA_DN 9
NEBEN_AML_WITH_FLT3_OR_NRAS_DN 12
BIOCARTA_PARKIN_PATHWAY 10
BIOCARTA_CK1_PATHWAY 11
KUMAMOTO_RESPONSE_TO_NUTLIN_3A_UP 6
SMID_BREAST_CANCER_RELAPSE_IN_PLEURA_UP 6
KORKOLA_CHORIOCARCINOMA_DN 9
Nous tenterons maintenant de voir s’il y a un biais d’inséré dans le calcul du ES en fonction
de la taille des pathways.
105
106
107
Il semble donc y avoir un biais avec les petits pathways comme le suggère la
documentation de GSEA. Dans la documentation, il est recommandé de ne garder que les
pathways de plus de 15 gènes. Il semblerait cependant que plus la valeur de P est grande,
plus ce biais est atténué.
Refaisons l’exercice précédent, mais avec le 5e, 10
e, 20
e. 40
e, 80
e, 160
e et 320
e meilleurs
pathways
Les 7 pathways en mode Classic sont :
SMID_BREAST_CANCER_NORMAL_LIKE_DN
BIOCARTA_TRKA_PATHWAY
REACTOME_TRAFFICKING_OF_GLUR2_CONTAINING_AMPA_RECEPTORS
V$PPARA_01
POMEROY_MEDULLOBLASTOMA_PROGNOSIS_UP
V$HTF_01
TGANNYRGCA_V$TCF11MAFG_01
Position des 7 pathways du mode Classic selon le mode de normalisation
Classic 1 2
5 7 66
10 16 64
20 66 210
40 36 95
80 61 56
160 187 395
320 365 419
Score d’enrichissement(ES) des 7 résultats Classic selon le mode de normalisation
Classic 1 2
0,45913818 0,6083488 0,6489707
0,41568193 0,57822776 0,6498014
108
0,34560102 0,49588805 0,59011585
0,28798446 0,52996826 0,6299553
0,2193586 0,50066674 0,6587147
0,16372366 0,42719176 0,5308128
0,09282295 0,3690962 0,5208686
Nombre de gène des 7 pathways Classic
SMID_BREAST_CANCER_NORMAL_LIKE_DN 5
BIOCARTA_TRKA_PATHWAY 10
REACTOME_TRAFFICKING_OF_GLUR2_CONTAINING_AMPA_RECEPTOR
S 15
V$PPARA_01 23
POMEROY_MEDULLOBLASTOMA_PROGNOSIS_UP 27
V$HTF_01 39
TGANNYRGCA_V$TCF11MAFG_01 165
Les 7 pathways en mode P1 sont :
V$MEF2_04
BIOCARTA_EPHA4_PATHWAY
PIEPOLI_LGI1_TARGETS_UP
KORKOLA_SEMINOMA_DN
V$HNF6_Q6
REACTOME_P75_NTR_RECEPTOR_MEDIATED_SIGNALLING
V$HNF4_Q6
Position des 7 pathways du mode P1 selon le mode de normalisation
Classic 1 2
23 5 14
2 10 31
15 20 17
78 40 4
83 80 71
81 160 325
109
332 320 308
Score d’enrichissement(ES) des 7 résultats P1 selon le mode de normalisation
Classic 1 2
0,33949506 0,630241 0,7387719
0,51050895 0,59286904 0,6879782
0,38227427 0,56173825 0,7270747
0,2193652 0,52480245 0,7896308
0,21180782 0,48144704 0,64479864
0,21412499 0,4363029 0,55343735
0,08750891 0,38547114 0,5601743
Nombre de gène des 7 pathways P1
V$MEF2_04 17
BIOCARTA_EPHA4_PATHWAY 7
PIEPOLI_LGI1_TARGETS_UP 10
KORKOLA_SEMINOMA_DN 9
V$HNF6_Q6 142
REACTOME_P75_NTR_RECEPTOR_MEDIATED_SIGNALLING 68
V$HNF4_Q6 149
Les 7 pathways en mode P2 sont :
NEBEN_AML_WITH_FLT3_OR_NRAS_DN
KORKOLA_CHORIOCARCINOMA_DN
REACTOME_RECRUITMENT_OF_NUMA_TO_MITOTIC_CENTROSOMES
KEGG_PRION_DISEASES
V$OCT1_07
V$MTF1_Q4
V$ELF1_Q6
Position des 7 pathways du mode P2 selon le mode de normalisation
Classic 1 2
399 19 5
110
64 24 10
97 21 20
120 42 40
118 64 80
278 240 160
243 197 320
Score d’enrichissement(ES) des 7 résultats P2 selon le mode de normalisation
Classic 1 2
0,5368134 0,56202084 0,787401
0,24440977 0,5536337 0,757106
0,20564577 0,558864 0,7198971
0,1898493 0,51849604 0,67481565
0,1908273 0,4962236 0,63997865
0,11010924 0,41193867 0,60161746
0,1234282 0,42350313 0,55625886
Nombre de gène des 7 pathways P2
NEBEN_AML_WITH_FLT3_OR_NRAS_DN 12
KORKOLA_CHORIOCARCINOMA_DN 9
REACTOME_RECRUITMENT_OF_NUMA_TO_MITOTIC_CENTROSOMES 8
KEGG_PRION_DISEASES 26
V$OCT1_07 97
V$MTF1_Q4 145
V$ELF1_Q6 138
Les tableaux ont été faits pour “toutes” les possibilités.
2 types de graphiques ont été aussi faits pour chaque possibilité.
Différents graphiques ont été produits. Voici les résultats intéressants.
111
Dans un premier temps, les valeurs calculées par GSEA d’ES ont été comparées au NES
que nous avons calculé et à la valeur P sur le NES que nous avons aussi calculée pour les
différends poids (Classic, P1 et P2).
112
Nous avons aussi des résultats similaires avec un mapping extended. Le nuage diffus nous
indique qu’ES et NES corrèlent très mal entre eux et nous voyons que Classic diffère
beaucoup plus de P1 ou P2 et que P1 et P2 se ressemblent beaucoup.
113
Si on compare nos valeurs d’ES à la valeur P que nous avons calculées, nous avons :
114
Encore une fois, les résultats sont similaires en Extended. Notons aussi qu’encore une fois,
le comportement de P1 est similaire à celui de P2.
Comparons maintenant NES et P-Value :
115
116
Nous observons ici une très forte corrélation entre notre NES et notre valeur P, ce qui nous
indique que notre NES est quand même très représentatif. Ici la différence entre P1-P2 et
117
Classic est plus subtile, mais nous voyons que nous avons une moins bonne résolution en
Classic.
Comparons maintenant nos différentes valeurs avec la taille de nos pathways.
118
119
120
121
122
Nous pouvons constater que pour l’ES, nous avons un biais avec la taille des pathways et
que ce biais est en partie corrigé en P1 et P2. Le NES continue de suivre la Valeur P et les
2 ont une allure binomiale.
123
Si nous prenons nos 20 pathways avec les meilleures valeurs d’ES et que nous faisons les
boîtes à moustache (box plots) pour soit les scores d’ES, NES ou P-Value de ces pathways,
peu importe le mode Classic, P1 ou P2 et le mapping Extended ou Directe, nous avons le
genre de graphique suivant :
124
Nous voyons donc encore un peu plus que le score de ES ne veut pas dire grand chose car
on en peut comparer les pathways entre eux. En revanche, si nous regardons les mêmes
graphiques, mais en prenant les pathways ayant la meilleure valeur de NSE nous obtenons :
125
126
127
128
Nous voyons encore une fois que le mode Classic donne des résultats totalement différents
que P1 et P2 et que même si P2 a des résultats similaires à P1, il offre quand même une
meilleure résolution.
129
Les graphiques suivants ne sont qu’une série d’exemples parmi tant d’autres démontrant
que les résultats de P1 et P2 sont relativement similaires entre eux, mais quand même très
différents de ceux obtenus en Classic.
130
131
132
133
Nous pouvons donc conclure que la méthode Classic, comme nous oublions un gros
morceau dans la formule, donne des résultats très différents de ceux que l’on peut obtenir
en P1 et P2. Le score ES ne représente pas bien nos résultats, car il est presque impossible
de pouvoir comparer nos pathways entre eux. Le NES qu’on calcule, lui, le permet, car il
suit bien les valeurs –P que nous avons calculés. Molière Nguilé Makao pense qu’une
technique de lissage permettrait de le mettre plus facilement en évidence. Nous n’avons
malheureusement pas eu le temps de valider cette approche.
Comme les résultats de P2 sont très similaires à ceux de P1 et afin de simplifier les calculs,
nous utiliserons Classic et P1 pour faire notre enrichissement.
134
A8 : Vulgarisation - La Schizophrénie : Une maladie multigénique
complexe
La schizophrénie est une maladie très complexe sur laquelle on ne sait que peu de
choses. Cet essai tentera d’illustrer clairement mes recherches sur cette maladie
tout en tentant d’y apporter un éclairage nouveau.
Pour commencer, imaginons que notre cerveau est comme une maison. Tout
comme une maison a plusieurs pièces, notre cerveau a plusieurs régions. Chaque
région de notre cerveau a une série de fonctions très précises, tout comme les
pièces de notre maison. Dans la cuisine nous avons une chaise. La
Schizophrénie est due à un bris dans une des régions du cerveau. Nous pouvons
assimiler ce bris à celui de notre chaise. On décrit souvent la Schizophrénie
comme étant une maladie qui se développe suite à des facteurs environnementaux
extrêmes, comme par exemple la prise de drogue, le manque de sommeil, des
évènements très stressants, etc. Pour notre chaise, ces facteurs
environnementaux pourraient se comparer à sauter sur la chaise, la tirer dans les
murs, s’assoir à 10 personnes dessus, etc. Un autre côté est le type de bris. Est-
ce qu’une patte est cassée? Est-ce que c’est le dossier? De la même manière, il
existe plusieurs sortes de Schizophrénie que nous ne savons pas encore bien
définir. Si le dossier est brisé, oui la chaise est brisée, mais elle tient encore
debout et peut servir comme tabouret par exemple. Un aspect de la Schizophrénie
souvent négligé est le facteur génétique. Dans notre exemple, nous pouvons
comparer ce facteur au modèle de la chaise : Avons-nous une chaise sur roulette?
135
À trois pattes? À quatre pattes? Etc. Nous pouvons aussi considérer le type de
matériaux utilisés : Est-ce que notre chaise est en bois? En métal? En plastique?
Etc. Certaines chaises sont donc plus solides que d’autres et peuvent mieux
supporter des mauvais traitements. Dans notre exemple, nous pouvons dire que
notre ADN, c’est l’usine où l’on fabrique les meubles. Nous connaissons déjà
certaines choses sur cette usine. Nous savons où et comment sont construits
certains meubles par exemple. Pour la Schizophrénie, nous sommes encore loin
de tout savoir. Nous savons par exemple où sont fabriqués les dossiers, mais
nous ne savons pas encore où sont fabriquées les pattes ou encore où
l’assemblage est fait. Nous ne connaissons pas non plus les différents matériaux
employés dans la construction des chaises ainsi que leur solidité. Nous ne savons
pas également quels sont les modèles possibles et quel modèle de chaise est le
plus solide. Mon travail de recherche, c’est de tenter de répondre à ces diverses
questions et de mieux classer les types de Schizophrénie pour éviter de
simplement dire que la chaise est cassée.
Actuellement, nous ne sommes pas en mesure de réparer les chaises quand elles
sont brisées. Nous réussissons à atténuer les effets de la Schizophrénie par la
prise de médicament. Nous ne la guérissons pas. Une meilleure compréhension
de la chaîne de montage pourra nous permettre plus tard de réparer nos chaises.
Comme nous ne connaissons pas bien nos chaises, nous ne pouvons pas dire qui
a une chaise solide et qui en a une fragile. Une meilleure compréhension à ce
niveau permettra avec une simple prise de sang de pouvoir déterminer quelles
sont les personnes les plus susceptibles de développer un jour la maladie et ainsi
136
de leur offrir différentes thérapies pour leur permettre d’éviter de briser leur chaise.
Nous entendons parfois parler de thérapie génique. Une thérapie génique serait
d’apporter directement des changements dans notre usine pour s’assurer de
n’avoir que des chaises très résistantes. Cette approche est cependant encore loin
d’être utilisée, car nous sommes loin de bien comprendre notre usine dans toute
sa complexité. En changeant le bois par de l’acier par exemple, nous pourrions
nous retrouver avec des problèmes pour faire un violoncelle. Mes recherches sont
cependant un pas dans la bonne direction.
Attardons-nous maintenant sur les moyens que j’utilise dans mes recherches pour
tenter d’arriver à ces objectifs. Pour trouver où sont fabriqués les morceaux de la
chaise, je compare plusieurs usines ensemble. Des usines de personnes non
atteintes et des usines de personnes dont les chaises ne sont pas assez solides. Il
en faut plusieurs. Si je ne comparais que 2 usines, je pourrais voir dans l’usine
faisant de bonnes chaises par exemple qu’elle fait aussi des poêles à gaz. Dans
celle faisant les chaises défectueuses, les poêles fabriqués pourraient être
électriques. Comme un poêle n’a aucune influence sur une chaise, je pourrais
faussement conclure à leur implication dans la solidité d’une chaise. En ayant
plusieurs usines, je devrais en trouver faisant des chaises défectueuses, mais
aussi des poêles à gaz. Je n’arriverai donc pas à de fausses conclusions. Pour
éviter d’avoir trop d’éléments différents à comparer, il faut éviter de comparer des
pommes à des oranges. Il faut donc prendre des usines qui sont relativement
semblables. Le meilleur moyen d’y arriver est donc d’étudier une population
relativement homogène, c’est-à-dire des individus avec le moins de différence
137
possible entre eux, comme l’ethnie par exemple. La population choisie pour l’étude
est celle de l’Est du Québec.
Pour faire nos comparaisons, il existe plusieurs méthodes. Avec les grandes
avancées récentes dans le domaine, de nombreuses méthodes ont vu le jour en
un court laps de temps. Certaines peuvent être bonnes, d’autre pas. D’autres sont
bonnes pour certaines situations, mais ne le sont pas dans d’autres. Pour se
démêler dans toutes ces avancées, la première étape de mon projet consiste à
tester ces méthodes sur des parties de l’usine qui sont déjà très bien connues afin
de trouver celle qui donnera le meilleur résultat. C’est la partie sur laquelle je
travaille actuellement. Quand cette méthode sera trouvée, elle sera appliquée sur
les données génétiques de la population d’études. Cette étape constitue aussi la
force de ma recherche. En effet, plusieurs chercheurs proposent leur propre
méthode ou utilisent la méthode de quelqu’un d’autre sans se poser trop de
questions. La comparaison de méthode est une pratique jusqu’à maintenant trop
peu commune. L’explosion des connaissances des dernières années nécessite
une adaptation du milieu scientifique qui n’est pas encore parfaite. Par exemple,
j’ai fait mon baccalauréat en bio-informatique. Dans ce domaine très récent, nous
offrons plusieurs solutions efficaces à des problèmes courants des chercheurs.
Cependant, plusieurs ignorent notre existence ou encore ce que l’on peut leur
apporter.
138
En résumé, la Schizophrénie est une maladie sur laquelle nous nous interrogeons
encore beaucoup. Mon travail de recherche essaie de répondre à ces questions
afin de mieux comprendre la maladie et de pouvoir soit la prévenir, soit la soigner
ou diminuer la susceptibilité de pouvoir la développer. Ma recherche se fait en
comparant l’ADN de personnes de l’Est du Québec qui ont développé la maladie à
celui de personnes ne l’ayant pas développée. Comme travail préalable, les
méthodes de comparaisons sont testées sur une maladie aux causes génétiques
connues afin de trouver la meilleure pour ensuite l’appliquer sur nos données.