enrichissement de paires de gènes dont les interactions ...€¦ · depuis la nuit des temps,...

ENRICHISSEMENT DE PAIRES DE GÈNES DONT LES INTERACTIONS CAUSENT LA SCHIZOPHRÉNIE À L’AIDE DE BASES DE DONNÉES GÉNOMIQUES ET APPLICATION À UNE ÉTUDE D’ASSOCIATION CAS-

TÉMOINS DE L’EST DU QUÉBEC.

Mémoire

Simon Noël

Maîtrise en neurobiologie - Neurobiologie

Maître ès sciences (M. Sc.)

Québec, Canada

© Simon Noël, 2014

iii

Résumé

Nous essayons de trouver de nouvelles interactions géniques pouvant donner une

résistance ou une susceptibilité pour développer la schizophrénie. Nous avons

donc fait l’enrichissement de voies en utilisant GSEA et Biofilter. Nous avons

ensuite cherché de nouvelles interactions avec la méthode JE et la régression

logistique parmi les paires de gènes identifiées. De plus, nous avons obtenu plus

de résultats statistiquement significatifs qu’une sélection se basant sur les valeurs

d’association marginale. Par ailleurs, les résultats pointent certains candidats

intéressants comme le gène NRXN1 qui code pour une protéine d’adhésion

cellulaire du système nerveux et qui aurait une interaction causant une

susceptibilité avec le gène ROBO1, un gène impliqué dans la guidance des

axones, et une autre avec le gène CDH13, un gène jouant le rôle de régulateur

négatif dans la croissance des axones. Ces trois gènes sont déjà liés à la

schizophrénie dans la littérature et pourraient servir de biomarqueurs.

v

Table des matières

RÉSUMÉ ............................................................................................................................................ III

TABLE DES MATIÈRES .................................................................................................................... V

LISTE DES FIGURES ........................................................................................................................ IX

LISTE DES TABLEAUX .................................................................................................................... XI

LISTE D’ABRÉVIATIONS ............................................................................................................... XIII

AVANT-PROPOS ............................................................................................................................. XV

CHAPITRE 1 ....................................................................................................................................... 1

1.1 INTRODUCTION ........................................................................................................................... 2

1.2 OBJECTIFS .................................................................................................................................. 5

1.2.3 Aperçu des étapes ..................................................................................................................................... 5

CHAPITRE 2 ....................................................................................................................................... 7

2.1 MATÉRIEL ET MÉTHODE ........................................................................................................... 8

2.1.1 Population/données .................................................................................................................................. 8

2.1.2 Association marginale .............................................................................................................................. 9

2.1.3 Interaction gène-gène/Épistasie ............................................................................................................ 10

2.1.4 Méthodes de filtrage basées sur les connaissances biologiques .......................................................... 11

2.1.5 Logiciel et base de données .................................................................................................................... 12 2.1.5.1 GO ..................................................................................................................................................13 2.1.5.2 GEA ...............................................................................................................................................13 2.1.5.3 MSigDB .........................................................................................................................................14 2.1.5.4 DAVID ..........................................................................................................................................14 2.1.5.5 BIOFILTER ...................................................................................................................................15 2.1.5.6 GSEA .............................................................................................................................................16 2.1.5.7 JE ...................................................................................................................................................18 2.1.5.8 R .....................................................................................................................................................20 2.1.5.9 Perl .................................................................................................................................................20 2.1.5.10 Osprey ..........................................................................................................................................21

CHAPITRE 3 ..................................................................................................................................... 23

vi

3.1 RÉSULTATS ............................................................................................................................... 24

3.1.1 Résultats de cartographie et filtrage .................................................................................................... 24

3.1.2 Résultats GSEA ...................................................................................................................................... 26

3.1.3 Résultats Biofilter .................................................................................................................................. 27

3.1.4 Résultats Régression logistique ............................................................................................................. 28

3.1.5 Résultats JE ............................................................................................................................................ 28

3.1.6 Résultats retenus .................................................................................................................................... 30

3.1.7 Résultats Osprey .................................................................................................................................... 46

CHAPITRE 4 ..................................................................................................................................... 49

4.1 DISCUSSION .............................................................................................................................. 50

4.1.1 Cartographie et filtrage ......................................................................................................................... 51

4.1.2 GSEA ...................................................................................................................................................... 51

4.1.3 Biofilter ................................................................................................................................................... 52

4.1.4 Régression logistique VS JE .................................................................................................................. 53

4.1.5 Enrichissement ....................................................................................................................................... 53

4.1.6 Résultats retenus .................................................................................................................................... 54

4.1.7 Osprey ..................................................................................................................................................... 55

4.1.8 Comparaison avec Jia ............................................................................................................................ 56

4.1.9 Littérature .............................................................................................................................................. 57

4.1.10 Élagage neuronal .................................................................................................................................. 58

4.1.11 Autre approche essayée ....................................................................................................................... 59

4.2 CONCLUSION ............................................................................................................................ 60

BIBLIOGRAPHIE .............................................................................................................................. 63

ANNEXE ........................................................................................................................................... 73

A1 : Résumé graphique du projet ................................................................................................................. 73

A2 : Liste des gènes ......................................................................................................................................... 74

vii

A3 : Information supplémentaire sur les différentes bases de données ..................................................... 79

A4: Détails sur l’épistasie ............................................................................................................................... 81

A5 : Résumé MSigDB ..................................................................................................................................... 85

A6 : Résumé des tests pour paramétrer Biofilter ......................................................................................... 87

A7 : Détails des tests pour paramétrer GSEA .............................................................................................. 95

A8 : Vulgarisation - La Schizophrénie : Une maladie multigénique complexe ....................................... 134

ix

Liste des figures

FIGURE 1 : FORMULE POUR LE CALCUL DE L’ENRICHISSEMENT DE GSEA ........................ 17

FIGURE 2 : KCNQ1 VS NAV2 ......................................................................................................... 31

FIGURE 3 : RELN VS CTNND2 ....................................................................................................... 32

FIGURE 4 : GRM3 VS GRM7 ........................................................................................................... 33

FIGURE 5 : ADCY8 VS PRDM14 ..................................................................................................... 34

FIGURE 6 : ROBO1 VS NRXN1 ....................................................................................................... 35

FIGURE 7 : CDH13 VS NRXN1 ........................................................................................................ 36

FIGURE 8 : TLK1 VS PDIA6 ............................................................................................................ 37

FIGURE 9 : PLCB1 VS PLCL2 ........................................................................................................ 38

FIGURE 10 : GPC5 VS PKNOX2 ..................................................................................................... 39

FIGURE 11 : FAIM2 VS SHANK2 .................................................................................................... 40

FIGURE 12 : CDH13 VS CYCS ........................................................................................................ 41

FIGURE 13 : DLG2 VS RGS7 .......................................................................................................... 42

FIGURE 14 : CAMK2D VS KCNQ5 .................................................................................................. 43

FIGURE 15 : REPRÉSENTATION DE NOS NOUVELLES INTERACTIONS ................................. 47

xi

Liste des tableaux

TABLEAU 1 : TABLEAU DE FREQUENCE DE GENOTYPE A 2 LOCUS (G ET H) ..................... 10

TABLEAU 2 : EXEMPLE DE NOTRE FICHIER DE DONNÉES...................................................... 19

TABLEAU 3 : RESUME CARTOGRAPHIE ET FILTRE .................................................................. 25

TABLEAU 4 : RESULTATS GSEA .................................................................................................. 26

TABLEAU 5 : RESULTATS BIOFILTER ......................................................................................... 28

TABLEAU 6 : RESUME DES RESULTATS DE JE ......................................................................... 29

TABLEAU 7 : RESUME INTERACTION .......................................................................................... 43

TABLEAU 8 : BIOMARQUEUR POTENTIEL .................................................................................. 48

TABLEAU 9 : COMPARAISON AVEC JIA ...................................................................................... 56

TABLEAU 10 : MODIFICATION POUR CORRESPONDRE A JIA ................................................. 57

TABLEAU 11 : LISTE DES GÈNES ................................................................................................. 78

xiii

Liste d’abréviations

ADN : Acide DésoxyriboNucléique ALIGATOR : Association LIst Go AnnoTatOR BED : Best-Estimate DSM-III-R Diagnosis Ch : Chromosome CRIUSMQ : Centre de Recherche de l’Institut Universitaire en Santé Mentale de Québec CRULRG : Centre de Recherche de l’Université Laval affilié à Robert Giffard DAVID : Database for Annotation, Visualization and Integrated Discovery. DIP : The Database of Interacting Proteins DSM : Diagnostic and Statistical Manual of mental disorders DSM-III : DSM - Troisième révision générale DSM-III-R : Révision du DSM-III publiée en 1987 DSM-IV : DSM - Quatrième révision générale ES : Enrichment Score GEA : Gene Expression Atlas GO : Gene Ontology GSEA : Gene Set Enrichment Analysis IUSMQ : Institut Universitaire en Santé Mentale de Québec JE : Joint Effect KEGG : Kyoto Encyclopedia of Genes and Genomes MAGENTA : Meta-Analysis Gene-set Enrichment of variaNT Associations MSigDB : Molecular Signatures Database NES : Normalised Enrichment Score

xiv

SNP : Single-Nucleotide Polymorphism

xv

Avant-propos

Ce mémoire de Maîtrise est le résultat de plusieurs mois de travail et d’innovations.

La route ne fut pas toujours facile. De nombreuses embûches se sont présentées.

Je dois donc une fière chandelle à une merveilleuse équipe qui m’a supporté tout

au long de mon projet.

J’aimerais dans un premier temps remercier mon directeur, M. Alexandre Bureau.

Sa grande patience est tout à son honneur. Il a su aussi démontré une grande

générosité de son temps et fourni de précieux conseils.

J’aimerais aussi remercier mon codirecteur, M. Simon Hardy. Chacune de nos

rencontres fut très enrichissante. Il a su amener de l’eau au moulin chaque fois

que je pensais être en période de sécheresse.

Je voudrais également remercier du fond du cœur une équipe du tonnerre du

CRIUSMQ. Un merci tout spécial à M. Jordie Croteau, M. Molière Nguilé Makao ,

M. David Dubé St-Hilaire et M. Thomas Paccalet. Vous avez été les meilleurs

alliés que l’on peut espérer avoir pour relever les divers défis que ma Maîtrise a

offerts.

Une Maîtrise ne se fait pas sans un certain financement. J’aimerais donc

remercier l’Institut canadien de recherche en santé (IRSC, subvention MOP-

106448) et le Fonds de recherche du Québec – Santé (FRSQ).

Je dois par ailleurs souligner l’immense contribution du Dr Michel Maziade pour

l’accès aux données de l’échantillon de patients schizophrènes et de témoins.

En terminant, j’aimerais remercier famille et amis. Vous avez été un support moral

essentiel tout au long de ma Maîtrise. Derrière chaque grand homme, il y a une

très grande femme. J’aimerais terminer avec un merci tout spécial à une super

xvi

grande femme. Merci Julie, ma tendre amour(e). Tu as été pour moi tel un phare

dans la nuit. Ta présence, autant dans les bons que dans les mauvais moments, a

été pour moi une source d’inspiration.

1

CHAPITRE 1

2

1.1 Introduction

Depuis la nuit des temps, l’homme a été confronté à la maladie mentale. De par le

passé, l’absence de connaissance scientifique et le désir de l’Homme de tout

comprendre ont amené de fausses croyances comme la sorcellerie, la possession

démoniaque, le vaudou, etc. Par la suite, les connaissances ont évolué et le

surnaturel fut remplacé par la maladie. Face à l’incompréhension, nous utilisions la

lobotomie ou les électrochocs. Avec l’avancement des connaissances, on en est

venu à la médication. Cette méthode n’est malgré tout pas parfaite. La science

continue toujours d’avancer et aujourd’hui, on étudie les mécanismes mêmes des

maladies mentales par diverses techniques telles que le séquençage et

l’identification de variants rares. Une meilleure connaissance des mécanismes

d’une maladie permet l’identification de biomarqueurs pour diagnostiquer plus tôt la

maladie et permet des thérapies pharmaceutiques beaucoup plus ciblées et

efficaces. Certaines maladies comme l’épilepsie sont maintenant considérées

comme étant le symptôme d’autres maladies. La science avance, mais pour la

schizophrénie, la route est encore longue. Le projet de ma maîtrise consiste à

étudier cette maladie au niveau génétique par le biais de l’analyse des interactions

géniques dans le cadre d’une étude d’association. La schizophrénie échappe

encore à notre compréhension, car elle est une maladie très complexe. Nous

pouvons définir la schizophrénie comme étant « une psychose grave survenant

chez l'adulte jeune, habituellement chronique, cliniquement caractérisée par des

signes de dissociation mentale, de discordance affective et d'activité délirante

incohérente, entraînant généralement une rupture de contact avec le monde

extérieur et parfois un repli autistique. Schizophrénie vient du grec skizein : fendre

et de phren : pensée.» [Infirmiers.com, 2010]. Aux facteurs environnementaux

s’ajoute un arrière-plan multigénique très complexe. De plus, les psychiatres de

l’équipe du CRULRG ainsi que ceux un peu partout dans le monde s’accordent à

dire qu’il existe plusieurs types de schizophrénie. Leur désaccord est cependant

très grand quand vient le temps de les définir. Le problème déjà complexe peut

même être empiré par ce manque de classification. C'est comme si nous en étions

3

à comparer des pommes à des oranges tout en tentant de trouver les causes de la

maladie.

Le côté multigénique de la maladie la rend très complexe à analyser, mais cette

tâche n’est pas impossible. En effet, d’autres maladies multigéniques complexes

comme la maladie de Hirschsprung [Cantrell, 2004] [Owens, 2005] [De Pontual,

2009] [Tam, 2009] ou de Bardet-Biedl [Badano, 2005] ont maintenant plusieurs de

leurs interactions qui sont bien caractérisées. L’avancement constamment

grandissant de la bio-informatique met à notre disposition des outils de plus en

plus avancés, nombreux et précis. Nous pouvons parler ici d’outils

d’enrichissement comme ALIGATOR [Holmans, Peter], Biofilter [Ritchie Lab],

GSEA [BROAD Institute] et MAGENTA [BROAD Institute]. Nous pouvons aussi

parler d’outils d’associations comme PLINK [Purcell] et JE [Cordell, Heather J, et

Masao Ueki]. Il y a aussi des bases de données complexes comme DAVID

[National Institute of Allergy and Infectious Diseases], GO [Open Biological and

Biomedical Ontologies] et GEA [European Molecular Biology Laboratory -

European Bioinformatics Institute]. Nous pouvons aussi inclure les logiciels de

représentations graphiques comme Osprey [Tyers]. Il existe aussi plusieurs outils

avancés de Bio-informatique. La communauté qui entoure cette discipline est

aussi très active et dynamique. Nous pouvons parler ici par exemple de la

communauté Bioconductor [Anon] qui développe des modules de bio-informatique

pour le logiciel R [CRAN]. Comme une Maîtrise possède un cadre temporel limité,

nous n‘utiliserons pas toutes ces ressources.

Nous allons travailler sur une population venant de l’Est du Québec, endroit

reconnu pour avoir une population dérivée d’un effet fondateur entraînant une

forte homogénéité génétique, et donc, étant un bon bassin pour la recherche de

variante rare de gènes qui s’y retrouvent en plus grande fréquence que dans les

autres bassins de populations selon [Moreau, 2007]. Nos données sont sous la

forme d’étude cas-témoins telle que rapportée dans l’article de Ripke [Ripke et

coll., 2013]. Il est cependant commun de voir que certaines études se font sur des

4

familles afin de minimiser l’impact négatif de la mauvaise compréhension de la

maladie en minimisant l’hétérogénéité génétique puisque les atteints d’une même

famille ont les même gènes [Maziade, 2005]. Il est aussi commun de voir des

études sur des populations plus vastes [Jia, 2010]. Nous n’avons pas choisi cette

approche en raison de la trop grande hétérogénéité de ce type de bassin

génétique qui pourrait entraîner des faux négatifs. [Ritchie, 2011] adopte une

démarche et une approche très similaire à la démarche de notre projet et des

différentes approches que nous utiliserons. Elle démontre aussi l’importance de

filtrer nos données afin de diminuer le nombre de calculs. De plus, ces nouvelles

interactions que nous tenterons d’identifier pourront servir de biomarqueurs de la

maladie.

5

1.2 Objectifs

La schizophrénie est une grave maladie multi génique complexe. Dans le cadre

de mon projet, nous tenterons de trouver de nouvelles interactions géniques

pouvant expliquer la maladie en complétant les étapes suivantes :

- Filtrer les SNPs du jeu de données pour assurer leur qualité et les gènes que

l’on peut associer à ces SNPs pour garder le plus pertinent à la schizophrénie afin

de diminuer le nombre de calculs.

- Comparer le nombre d’interactions trouvées avec la méthode JE sur un ensemble

de SNPs enrichi par GSEA ou par Biofilter calibré par la maladie de Hirschsprung

ou de Bardet-Biedl avec les résultats de l’ensemble de SNPs sélectionnés par

association marginale.

- Trouver les interactions géniques déjà connues en utilisant Biofilter.

- Identifier des voies qui peuvent être enrichi via GSEA.

- Chercher de nouvelles interactions avec une régression logistique et la méthode

JE parmi les paires de gènes identifiés par GSEA ou Biofilter

-Tracer le graphe des interactions trouvées.

1.2.3 Aperçu des étapes

L’annexe A1 illustre très bien l’ensemble du projet. Nous partirons des résultats

obtenus préalablement par l’équipe du Dr Bureau et qui nous serviront à

classer/trier notre liste de gènes retenus pour, soit faire des tests d’interactions,

soit faire de la prédiction de voies (pathways) pour ensuite faire des tests

6

d’interactions. Pour faire notre prédiction de voies (pathways), nous utiliserons la

méthode d’enrichissement de jeux de gènes telle qu’implantée dans le logiciel

GSEA que nous utiliserons avec une liste de voies (pathways) déjà connues en

faisant 1000 permutations ou Biofilter qui nous donnera la liste des interactions

déjà connues. Afin de limiter nos recherches au cerveau, nous utiliserons une liste

de gènes s’exprimant dans le cerveau et provenant de GEA pour filtrer les

prédictions d’interactions de Biofilter ainsi que nos tests d’interactions afin de

diminuer le nombre de calculs. En parallèle, nous calibrerons Biofilter en nous

basant sur les résultats obtenus en se référant à des maladies multigéniques

complexes mieux comprises comme la maladie de Hirschsprung ou celle de

Bardet-Biedl. Les interactions seront recherchées par des analyses d’association.

Nous ferons aussi de nombreux tests sur nos différents logiciels afin de bien

comprendre la portée de chaque paramètre. Le gène encore inconnu responsable

de l’association du SNP rs1156026 à la schizophrénie trouvée par l’équipe du

CRULRG (d’ailleurs, ce gène, sans nom actuellement, sera appelé ainsi pour mon

projet) sera ajouté systématiquement à chaque analyse. Nous ferons nos

analyses d’association sur les résultats de GSEA et Biofilter avec JE. Nous

comparerons aux résultats d’association marginale directement soumis à JE. Bien

sûr, nous résumerons et interpréterons nos résultats.

7

CHAPITRE 2

8

2.1 Matériel et méthode

Nous présenterons dans cette section les différentes méthodes et logiciels que

nous avons utilisés dans le cadre de ce projet.

2.1.1 Population/données

Pour ce projet de maîtrise, nous avons à notre disposition les données génétiques

de personnes de l’Est du Québec atteintes ou non de schizophrénie recrutées

dans une étude dirigée par Dr M. Maziade [Bureau, 2013]. 247 personnes étaient

atteintes et 250 étaient des contrôles. Un cas était défini comme étant une

personne ayant reçu un diagnostic de schizophrénie. Pour établir ce diagnostic,

une entrevue structurée pour le DSM-III-R ou le DSM-IV couplée aux informations

parentales et aux dossiers médicaux complets a été faite. Par la suite, un panel de

4 psychiatres a fait un BED donnant le diagnostic [Maziade, 2005].

L’hybridation a été faite pour des SNPs sur une puce Illumina HumanHap300

personnalisée avec 57 000 SNPs additionnels. Nous avons donc une liste de

SNPs. Un SNP est une variation d’une seule paire de bases qui peut se retrouver

n’importe où dans le génome. Comme nous voulons travailler avec des gènes,

nous devons trouver quels SNPs se retrouvent dans un gène ou proche d’un gène

et quels SNPs se retrouvent dans une partie non codante de notre ADN. Nous

avons donc rattaché nos SNPs à un ou des gènes. Nous disons « des », car il y a

chevauchement de gènes pour certains SNPs. Pour rattacher un SNP à un gène,

nous avons utilisé 2 approches. Premièrement, nous avons vérifié si le SNP était

à l’intérieur de la partie codante du gène (exon) ou à moins de 50k bases de ce

dernier (exon ou intron) afin de tenir compte du déséquilibre de liaison. Nous

avons aussi refait les mêmes choses, mais pour une cartographie directe, c’est-à-

dire que pour être associé à un gène, un SNP doit directement s’y retrouver

(exon). L’équipe de notre centre de recherche a déjà fait quelques analyses sur

9

les données que nous avons notre disposition comme vérifier l’équilibre de Hardy-

Weinberg par exemple ou encore vérifier les fréquences alléliques, ou bien vérifier

le bon appariement des cas et témoins selon les composantes principales de

variation génique, etc [Quackenbush, 2002]. Elle n’a cependant pas effectué

d’analyse sur les chromosomes X et Y et l’ADN mitochondrial. Comme nous

partons de ces analyses, nous nous retrouvons donc à avoir quelques gènes en

moins. Afin de profiter au maximum des analyses précédentes, les SNPs restants

ont ensuite été filtrés avec des critères définis préalablement par notre équipe,

c’est-à-dire la moyenne de la fréquence de l’allèle mineur chez les cas et les

témoins > 1 %, un taux cible (call rate) minimum de 98 % et une valeur-p au test

de Hardy-Weinberg >= 2,5 x 10-5. Comme nous nous intéressons aux gènes

exprimés dans le cerveau et que notre liste de SNP initiale couvrait le génome

autosomal au complet, un autre filtre a été appliqué sur notre liste de gènes pour

ne conserver que ceux étant exprimés dans le cerveau selon la GEA. Le but de ce

dernier filtre est de minimiser les calculs. Pour nos 2 méthodes, nous avons

ensuite sorti le minimum de SNPs référant à un gène, le maximum et la moyenne.

2.1.2 Association marginale

L’association marginale se trouve à être l’association entre le phénotype et

fréquences génotypiques dans les marges du tableau 1. Elle est un moyen plus

rapide que les modèles multivariés de voir si un gène semble lié à un phénotype

d’intérêt. Une bonne partie du projet de recherche repose sur les associations

marginales qui ont été précédemment calculées. Si la schizophrénie était une

maladie basée sur un seul gène, nous pourrions en rester là, car la solution serait

déjà trouvée avec le signal que notre équipe a obtenu sur le chromosome 13

[Bureau, 2013], mais la maladie est multigénique. Nous devons donc poursuivre

notre investigation en regardant les interactions gènes-gènes. Il existe deux

maladies multigéniques complexes, la maladie de Bardet-Biedl et la maladie de

Hirschsprung, qui sont de bons exemples de maladies impliquant des interactions

10

gènes-gènes. Ces deux maladies ont l’avantage d’être très bien connues, c’est-à-

dire que nous connaissons bien chacun des gènes impliqués dans la maladie et

que les différentes interactions qu’ils ont entre eux sont connues et bien

documentées [Cantrell, 2004] [Owens, 2005] [De Pontual, 2009] [Tam, 2009]

[Badano, 2005]. Elles nous servirons donc de modèles. Les valeurs-p obtenues

suite à l’association marginale servent donc entre autres à ordonner notre liste de

gènes retenus pour GSEA par exemple ou servent de critère de sélection comme

défini dans la section sur Biofilter (2.1.5.5).

Locus G \ Locus H H1H1 H1H2 H2H2

G1G1 q22 q21 q20

G1G2 q12 q11 q10

G2G2 q02 q01 q00

Tableau 1 : Tableau de fréquence de génotype à 2 locus (G et H)

q00 = nombre de cas avec aucun allèle mineur pour le 1er SNP et aucun allèle mineur pour le 2e SNP.

q01 = nombre de cas avec aucun allèle mineur pour le 1er SNP et 1 allèle mineur pour le 2e SNP.

q02 = nombre de cas avec aucun allèle mineur pour le 1er SNP et 2 allèles mineurs pour le 2e SNP.

q10 = nombre de cas avec 1 allèle mineur pour le 1er SNP et aucun allèle mineur pour le 2e SNP.

q11 = nombre de cas avec 1 allèle mineur pour le 1er SNP et 1 allèle mineur pour le 2e SNP.

q12 = nombre de cas avec 1 allèle mineur pour le 1er SNP et 2 allèles mineurs pour le 2e SNP.

q20 = nombre de cas avec 2 allèles mineurs pour le 1er SNP et aucun allèle mineur pour le 2e SNP.

q21 = nombre de cas avec 2 allèles mineurs pour le 1er SNP et 1 allèle mineur pour le 2e SNP.

q22 = nombre de cas avec 2 allèles mineurs pour le 1er SNP et 2 allèles mineurs pour le 2e SNP.

2.1.3 Interaction gène-gène/Épistasie

L’épistasie est définie comme l’interaction entre 2 gènes quand le phénotype

dépend de cette interaction et peut être masqué par l’un des 2 gènes ou les 2 dans

certains cas « symétriques » [Cordell, 2002]. L’étude des interactions gènes-

gènes constitue donc la principale tâche de mon projet. Plusieurs logiciels et

méthodes permettent d’analyser l’épistasie [Cordell, 2009]. Nous ferons une

11

régression logistique sur nos données afin de voir les possibilités d’épistasie ainsi

qu’une analyse selon la méthode JE. [Kooperberg, 2008] définit bien ce que

devrait être une telle régression. Il nous démontre que le test de l’effet

d’interaction sous un modèle logistique est approximativement indépendant du

test de l’effet marginal. Nous pouvons donc grâce à cette indépendance choisir

des gènes en fonction de leur valeur-p d’un test marginal sans craindre d’avoir de

biais de sélection sur le paramètre d’interaction et donc, nous pourrons réduire le

nombre de corrections pour contrôler les erreurs de type1. En effet, plutôt que de

corriger pour les paires entre tous nos SNPs, nous n’aurons qu’à corriger pour les

paires entre les SNPs testés. Pour faire la régression logistique, nous

utiliserons la formule log(/1- ) = B0 + B1X1 + B2X2 + B3X1X2 où est le risque

théorique, B0 est notre ordonnée à l’origine, B1X1 et B2X2 sont nos variables

indépendantes (codage allélique) avec leur coefficient (pente) pour nos 2 gènes et

B3X1X2 est notre terme d’interaction entre nos 2 gènes. [Cordell, Ueki, 2011] nous

allume cependant un feu rouge lors de sa présentation sur certaines des méthodes

existant pour tester l’épistasie, nous démontrant leurs failles comme par exemple

la possibilité de considérer comme résultat positif la présence d’un effet principal

sur un seul locus et non une interaction et proposant des corrections. Elle nous

propose aussi sa propre méthode, la méthode JE. Un élément clé de ce projet

étant la comparaison de méthodes, nous essayerons aussi la méthode JE que

nous suggère le Dr Cordell. Un résumé de notre réflexion se trouve à l’Annexe A4

2.1.4 Méthodes de filtrage basées sur les connaissances

biologiques

Depuis longtemps, diverses données biologiques sont collectées et assemblées

dans de grosses bases de données. Nous allons voir dans cette section comment

tirer parti de ce travail colossal.

12

[Bush, 2009] recommande d’utiliser au préalable le savoir biologique déjà

disponible pour enrichir nos données. L’enrichissement pourrait se définir comme

étant l’utilisation d’information des bases de données pour cibler plus

spécifiquement de l’information comme des gènes ou des paires de gènes. Il nous

parle aussi du logiciel Biofilter [Ritchie Lab] qui permet de faire cet enrichissement

à priori. Ce logiciel a été retenu pour mon projet. Nous en parlerons donc plus

dans la sous-section Biofilter (2.1.5.5). L’un des avantages de cette méthode est

l’utilisation des catégories GO [Open Biological and Biomedical Ontologies] afin de

diminuer le nombre de calculs. [Chasman, 2008] utilise aussi GO comme base de

données principale dans son approche. Nous examinerons la base de données

GO plus tard, dans la sous-section GO (2.1.5.1). [Köhler, 2008] utilise une

approche similaire à celle de Bush en ce sens qu’il utilise des bases de données

pour avoir le savoir biologique comme point de départ, mais son approche repose

sur les réseaux d’interactions. [Wang, 2007] nous présentent une autre approche

en utilisant le logiciel GSEA (BROAD Institute), un logiciel conçu à la base pour de

l’enrichissement d'expression génique, mais qui selon leur article peut être utilisé

aussi pour l’enrichissement de voies (pathways) pour des SNPs par de simples

modifications. Cette solution étant aussi retenue pour mon projet, elle sera, elle

aussi, discutée plus en profondeur dans la section sous-section GSEA (2.1.5.6).

Une autre solution d’enrichissement proposée par la BROAD Institute est le logiciel

MAGENTA qui se spécialise dans l’enrichissement lorsque le génotype n’est pas

connu [Segrè, 2010]. [Holmans, 2009] et [Manning, 2009] utilisent eux aussi le

principe d’enrichissement, mais avec une autre méthode. Cette revue s’arrête

cependant en 2011 par manque de temps.

2.1.5 Logiciel et base de données

Cette section est dédiée à la partie la plus importante du projet : Les différents

logiciels et bases de données que nous avons utilisés.

13

2.1.5.1 GO

GO est une grosse base de données ontologique qui permet de classifier les

différents gènes selon leurs fonctions. Dans un premier temps, les gènes sont

répartis en 3 catégories. Les gènes servant de composante cellulaire, ceux

servant dans des processus biologiques et ceux ayant une fonction moléculaire.

Chacune de ces catégories est ensuite divisée en sous catégories plus spécifiques

qui sont elles-mêmes divisées en sous-catégories, etc. Cette structure

hiérarchisée permet de trouver plus facilement des liens entre différents gènes, car

il est reconnu que des gènes avec des fonctions similaires oeuvrent souvent sur

les mêmes ligands ou dans les mêmes voies (pathways). En termes

d’informaticien, les gènes qui se retrouvent dans chaque feuille de l’arbre sont

réputés pour interagir entre eux ou avoir des fonctions très similaires et donc si un

gène d’intérêt se retrouve dans une feuille, il serait bien d’examiner les autres

gènes de cette même feuille pour voir s’ils pouvaient faire partie de nouvelles

interactions.

2.1.5.2 GEA

GEA est une grosse base de données sémantiquement enrichie de méta-analyse

provenant de statistiques obtenues d’archives de puce à expression. Elle contient

donc des informations sur les expressions des gènes. Les expériences sur

chaque gène y sont référencées et identifient une expression à la hausse ou à la

baisse dans le cadre de leur étude en se basant sur les valeurs des tests

statistiques effectués lors de l’expérience. Nous avons donc utilisé cette base de

données pour y en extraire la liste des gènes qui sont exprimés dans le cerveau

afin de pouvoir ne garder que ces gènes lors de nos analyses et ainsi diminuer le

nombre de calculs. Pour agir ainsi, nous supposons que les gènes impliqués dans

la schizophrénie sont tous exprimés dans le cerveau et donc qu’il n’y a pas de

14

gènes uniquement exprimés dans le cœur ou les poumons qui sont impliqués

dans la maladie par exemple.

2.1.5.3 MSigDB

La MSigDB est une base de données contenant une collection de voies

(pathways) annotées pour différents organismes et dans un format utilisable par

GSEA. Lors de nos analyses, nous nous intéresserons aux voies (pathways) qui

sont présentes dans notre cerveau. Nous avons donc interrogé cette base de

données pour en extraire une sous-base de données de voies (pathways)

retrouvées chez l’homme avec le mot clé Homo Sapiens et nous avons ensuite

extrait une sous-sous-base de données ne contenant que les voies (pathways)

d’intérêt en nous servant de la liste de mots clés : « schizophrenia depressive

bipolar brain neur* cortex spinal cogni* glial astrocytes synap* dendrite axon* nerv*

acetylcholine actin anion cation channel volt* sodium calcium potassium gaba tgf

glutamate vesicle». Un résumé plus complet se retrouve à l’Annexe A5

2.1.5.4 DAVID

Le logiciel DAVID (National Institute of Allergy and Infectious Diseases.) a été

utilisé pour annoter notre liste de SNPs après les avoir cartographiés (mappés)

sur un gène. En gros, il prend une liste de symboles et cherche la description du

gène auquel il réfère lorsque cette dernière est connue. Il retourne ensuite le

résultat dans un format texte que l’on peut greffer facilement avec Perl. Cette

annotation constitue un artifice facilitant la compréhension des résultats en

permettant de rapidement voir ce que fait un gène et ainsi mieux comprendre son

lien avec un autre gène avec lequel il interagirait.

15

2.1.5.5 BIOFILTER

Biofilter est un logiciel développé par le laboratoire du Dr Ritchie. Il prend une liste

de SNPs et cherche dans plusieurs bases de données (GO, KEGG, Net Path,

pfam, Reactome, DIP et BioCarta. Voir Annexe A3) les interactions biologiques

qui sont déjà connues [Turner, 2011]. Nous nous sommes basés sur les résultats

d’association marginale (valeur p marginale < 0.2), ainsi que sur les résultats de

cartographie (mapping) positif pour définir notre liste de SNPs. Pour avoir une

interaction déjà connue, GO par exemple, comme expliqué dans la section sur GO

(2.1.5.1), va donner l’information à Biofilter qu’il y a interaction entre les gènes qui

se retrouvent dans la même feuille. En utilisant sa propre base de données,

Biofilter associe chaque SNP à un gène puis il vérifie pour chaque paire de gènes

la présence d’interaction connue dans les bases de données pour l’une des

sources. Chaque fois qu’une interaction est trouvée dans une base de données

(source), un indice est incrémenté de 1. La recherche se poursuit ainsi pour

chaque source. Un autre indice est incrémenté de 1 pour chaque source différente

où une interaction a été trouvée. Nous avons donc un indice final au format

source-interaction (ex. : 6-78). Nous pouvons aussi fournir nos propres

informations reliées à la maladie qui nous intéresse. La liste ainsi obtenue est un

meilleur point de départ pour nos analyses d’interactions, car elle diminue le

nombre de calculs. En effet, nous utilisons la prémisse que si une paire de gènes

est reconnue pour avoir une interaction, les chances pour que ces gènes de façon

individuelle aient d’autres interactions avec d’autres gènes sont plus élevées que

pour une sélection au hasard et ces interactions pourraient contribuer à causer une

maladie. Afin de paramétrer convenablement Biofilter, nous avons fait les

différents tests présentés à l’Annexe A6. Il est à noter que nous avons demandé à

Biofilter dans ses paramètres de configuration de se limiter aux 50 000 meilleures

paires de gènes car nous avons déterminé dans nos tests que ce serait suffisant

pour englober notre point de coupure. Ce dernier sera fixé en se basant sur les

résultats qu’obtiendra Biofilter sur nos maladies connues de Hirschsprung et de

16

Bardet-Biedl. La version 0.5 de Biofilter fut utilisée pour effectuer ces tests, mais

celle utilisée pour les résultats du projet fut la version 2.0 [Pendergrass, 2013].

2.1.5.6 GSEA

GSEA est un logiciel qui à la base permet de faire de l’enrichissement d’expression

de gènes. Cet enrichissement d’expression de gènes est fait par une méthode de

calcul qui détermine si un groupe de gènes défini à priori montre une différence

d’expression statistiquement significative entre les différents états biologiques

(phénotypes). Il est cependant possible de lui donner notre propre liste de gènes

ordonnée selon notre test statistique préféré. Nous pouvons donc lui donner une

liste avec la valeur-p allélique minimum pour chacun des gènes de notre liste de

gènes retenus [Holden, 2008]. Le gène avec la plus petite valeur se retrouvant

ainsi au début de la liste et celui avec la plus grande à la fin. Pour calculer la

statistique d’enrichissement, GSEA fait en gros une marche dans notre liste de

gènes ordonnée en augmentant un indice quand un gène est présent (hit) dans

une voie (pathway) et en le diminuant lorsqu’il ne l’est pas (miss). Le score

d’enrichissement est calculé à partir de la valeur la plus éloignée de 0 de cette

variable que GSEA a rencontrée lors de cette marche. Lors du calcul de la valeur

d’enrichissement, il est possible d’accorder un poids au calcul de l’indice. La

valeur de 0 est la valeur « classique » et permet de faire un test statistique

standard de Kolmogorov–Smirnov. Nous pouvons aussi la changer pour 1, 1,5 et

2. Rappelons rapidement que le test de Kolmogorov–Smirnov permet de tester si

un échantillon suit une loi donné ou si deux échantillons suivent la même loi. La

formule pour calculer l’enrichissement est :

17

[Subramanian, 2005]

Figure 1 : Formule pour le calcul de l’enrichissement de GSEA

Formule pour le calcul de l’enrichissement de GSEA tel que défini par [Subramanian, 2005]

La valeur d’enrichissement est la déviation maximum de 0 de Phit - Pmiss

S est notre voie (pathway) qu’on analyse actuellement, Nh est le nombre de gènes

dans S, N est le nombre de gènes de notre liste ordonnée, i est la position du gène

dans notre liste ordonnée, gi est le gène à la position i dans notre liste ordonnée et

P est le poids. Le paramètre rj dépendrait du phénotype si nous utilisions cette

possibilité de GSEA. Cependant, dans notre situation, sa valeur est simplement la

valeur numérique du rang donné en entrée quand on fait une analyse avec une

liste pré ordonnée. Si S est distribué aléatoirement, alors le score

d’enrichissement est petit.

GSEA utilise une base de données contenant différentes voies (pathways)

connues (MSigDB). Il vérifie ensuite parmi notre liste de gènes retenus ceux qui

sont dans ces voies (pathways) puis fait son test d’enrichissement. Normalement,

il procède à des permutations des gènes, mais cela ne convient pas à des

données de SNP car sa méthode considère que nous sommes dans une situation

d’enrichissement d’expression de gènes. Comme il est important de faire des

permutations pour contrer la dépendance créée lors de tests multiples, nous les

ferons manuellement comme nous le suggère [Holmans, 2009]. Nous allons pour

chaque SNP tirer une valeur-p aléatoire d’une loi uniforme. Nous prenons ensuite

pour chaque gène le SNP avec la valeur-p minimum. Cette valeur p est ensuite

transformée en –log base 10 pour avoir la plus grande valeur possible pour la plus

petite valeur-p. GSEA a besoin de cette transformation pour ordonner

convenablement notre liste. Pour finir, nous resoumettons nos données à GSEA.

18

Nous referons le tirage ainsi que les étapes qui le suivent un total de 1000 fois

pour avoir nos 1000 permutations. Bien entendu, il faut aussi en plus des 1000

permutations soumettre notre liste originale. La méthode de Holmans est

cependant différente de la nôtre. Nous, nous regardons la valeur d’enrichissement

maximale. Lui il la regarde à différents points de coupure (cutoff). Il est aussi

possible de soumettre à GSEA notre propre liste de voies (pathways) alors nous

pourrons rester proches de la littérature récente et donc comparer notre approche

avec celle de [Jia, 2010] ou aller chercher des informations dans d’autres bases de

données. Afin de paramétrer convenablement GSEA, nous avons fait les

différents tests présentés à l’Annexe A7.

2.1.5.7 JE

JE est une méthode inventée par les Dr Cordell et Ueki [Ueki, 2012]. Comme cette

méthode était nouvelle lors de ma Maîtrise, nous l’avons programmée dans R.

Cependant, elle fut implantée depuis peu dans la suite logicielle CASSI [Cordell,

et Ueki, 2013]. À cause du phénomène de bruit dans les échantillons qui tire son

origine dans la trop grande hétérogénéité génétique de la schizophrénie, du côté

multigénique complexe de la maladie, de l’effet très faible sur le phénotype que

peut avoir une interaction génique, des erreurs de manipulation de la biopuce qui

nuisent à la qualité de l’échantillon, etc., les méthodes statistiques traditionnelles

pour détecter les possibles interactions ne donnent pas toujours de bons résultats.

En effet, il arrive que la simple présence d’un effet principal pour l’un des 2 locus

amène les tests traditionnels à détecter une interaction alors que dans les faits il

n’en existe aucune, donnant un faux positif. Une très faible interaction peut aussi

se perdre dans le bruit et passer inaperçue en donnant un faux négatif. La

méthode JE vient pallier ces problèmes. Cette méthode n’est sensible qu’aux

véritables effets d’interactions, c’est-à-dire aux effets qui sont détectés sur les 2

locus et qui sont statistiquement significatifs pour décrire une interaction génique,

ou, lorsque la maladie n’est pas suffisamment rare, à un effet principal aux 2 locus.

19

Le fonctionnement et l’implantation du JE ne sont pas si complexes. Nos données

sont sous la forme d’un tableau (tableau 2).

SUBID groupe rs1642 rs7323 rs1816 rs2884 …

17 000 1 2 1 0 1 …

17 001 1 0 1 1 2 …

17 002 1 1 1 0 0 …

18 000 0 2 0 0 0 …

18 001 0 1 0 0 2 …

… … … … … … …

Tableau 2 : Exemple de notre fichier de données

SUGID est le numéro unique attribué à chaque sujet et permettant d’assurer la confidentialité. Groupe permet

d’identifier nos cas et nos témoins. Cas = 1 et témoins = 0. Viens ensuite nos différents SNPs et leurs

valeurs. 0 = aucun allèle mineur. 1 = présence de l’allèle mineur sur l’un des deux chromosomes. 2 =

présence de l’allèle mineur sur chaque chromosome.

Par la suite, nous prenons une paire de SNPs qui ne sont pas situés dans le même

gène. Pour les cas, nous faisons les sommes pour chaque situation possible afin

d’obtenir les qij tels que définis au tableau 1.

Nous définissons ensuite les rapports marginaux suivants :

i22 = q22q00 / q20q02

i21 = q21q00 / q20q01

i12 = q12q00 / q10q02

i11 = q11q00 / q10q01

Posons Y(Ø) qui est défini comme étant le log du rapport de cotes des allèles tel

qu’estimé par la méthode de [Wu, 2010].

20

Y(Ø) = log(P11P22/P12P21)

Où Pjk est la probabilité de l’haplotype Gj -- Hk

Nous pouvons maintenant définir l’estimateur de Y(Ø) suivant :

Ycas = w22 (log i22) / 2 + w21 log i21 + w12 log i12 + w11 log(2 * i11 − 1)

Où les poids wij somment à 1 et sont choisis pour minimiser la variance Ycas.

En suivant les mêmes étapes pour les témoins, nous pouvons calculer Ytémoins.

JE = [Ycas - Ytémoins]2 / (Vcas + Vtémoins)

Où V représente la variance estimée de Y

2.1.5.8 R

R est un environnement de programmation en langage S développé par le Projet R

(CRAN). Fonctionnant sous le principe des modules, il est virtuellement possible

de lui faire faire n’importe quel type de tâche en lui fournissant les librairies

appropriées. Très utilisé par les Statisticiens, les Actuaires et les Physiciens, il

l’est aussi par les bio-informaticiens. L’essentiel de ce projet repose sur cette

architecture. La cartographie de nos SNPs, les différents filtres que nous avons

appliqués aux données, l’adaptation aux SNPs et son implantation, l’utilisation de

la régression logistique, les appels à Biofilter, l’implantation de JE et la production

des graphiques ont tous été faits dans R.

2.1.5.9 Perl

Perl (Perl) est un langage spécialisé dans la manipulation de chaîne de caractères

que nous avons utilisé afin de jumeler les annotations de DAVID à la cartographie

que nous avons faite des SNPs à notre disposition.

21

2.1.5.10 Osprey

Osprey (Tyers) est un logiciel spécialisé permettant de créer des représentations

graphiques des réseaux d’interactions protéine-protéine. Nous avons utilisé ce

logiciel pour représenter nos nouvelles interactions et tenté de déceler un réseau

d’interaction qui pourrait suggérer la présence d’une nouvelle voie (pathway) que

nous ne connaissons pas encore impliquée dans la schizophrénie. Il nous permet

entre autre de faire une sélection en éliminant automatiquement toutes les paires

de gènes qui ne possèdent aucune autre interaction et donc qui ne semblent

rattachés à aucun réseau. Par la suite, nous pouvons éliminer facilement

manuellement tous les réseaux qui sont composés de 3 gènes ou plus et qui ne

sont pas rattachés au réseau principal, soit le plus grand réseau d’interaction que

nous pouvons trouver.

23

CHAPITRE 3

24

3.1 Résultats

Nous présenterons dans cette section divers résultats dont nous discuterons plus

tard dans la section Discussion (4.1).

3.1.1 Résultats de cartographie et filtrage

Nous sommes partis d’une liste de 348 411 SNPs répartis partout dans le génome,

à l’exception des chromosomes X et Y et de l’ADN mitochondrial qui n’ont pas été

considérés. Certains sont dans des régions codantes, d’autres non. Comme nous

nous intéressons aux gènes, une première étape fut d’éliminer tous les SNPs

n’étant pas directement dans un gène ou à proximité d’un gène tel que défini dans

la section méthode (2.1.1). Comme certains SNPs ont eu des problèmes

d’hybridation et pour s’assurer de la qualité générale des données, un filtre a été

appliqué tel que défini dans la section Population/Donnée. Notre liste de SNPs

avant cartographie est donc passée à 327 729 SNPs. Dans la cartographie

Directe, nous avons réduit notre liste de SNPs à 153 110 localisés dans 15 559

gènes différents. Pour la cartographie Étendue, notre liste de SNPs fut réduite à

232 380 localisés dans ou proche de 21 397 gènes différents. Nous avons déjà

établi que nous nous intéressions aux gènes exprimés dans le cerveau. Afin de

tenir compte de cette réalité, un autre filtre a été appliqué à partir de la liste des

SNP exprimés au cerveau de GEA. La cartographie a ensuite de nouveau été

appliquée pour nous donner une cartographie Directe de 132 657 SNPs

directement localisés dans 13 472 gènes différents ayant une expression au

cerveau. La cartographie Étendue a donné 205 162 SNPs directement localisés

ou à proximité de 16 856 gènes différents ayant une expression au cerveau.

Certains gènes sont très petits et ne possèdent qu’un seul SNP. D’autres sont

énormes et vont contenir jusqu’à 751 SNP. Nous avons donc une moyenne de

25

9.92028 SNPs par gène avec une cartographie Directe et de 19.58003 avec une

cartographie Étendue. Le tableau 3 résume ces différents résultats.

Méthode de cartographie (mapping) Directe Étendue (50 kb de

chaque côté)

Nombre de SNPs au départ 348 411 348 411

Nombre de SNPs après cartographie (mapping) 153 110 232 380

Nombre de gènes pointé par un ou des SNPs 15 559 21 397

Nombre de SNPs total après filtre pour contrôle

de qualité

327 729 327 729

Nombre de gènes après filtre pour contrôle de

qualité

14 960 20 460

Nombre de SNPs après filtre pour garder gènes

exprimés au cerveau

132 657 205 162

Nombre de gènes après filtre pour garder gènes

exprimés au cerveau

13 472 16 856

Nombre de SNPs minimum par gène 1 1

Nombre de SNPs maximum par gène 721 751

Nombre de SNPs moyen par gène 9.92 19.58

Tableau 3 : Résumé cartographie et filtre

Tableau résumé des résultats pour une cartographie directe (Le SNP se retrouve directement dans le gène) et

une cartographie étendue (Le SNP se retrouve directement dans le gène ou jusqu’à une distance de 50 000

paires de bases de ce dernier). Il contient aussi les résultats du filtrage.

26

3.1.2 Résultats GSEA

L’enrichissement de notre jeu de données par la méthode GSEA a permis de faire

ressortir différentes voies (pathways) dont les gènes semblaient intéressants pour

la suite, c’est-à-dire pour nos tests pour trouver de nouvelles interactions.

Cartogr

aphie

Poids Nom Size ES NES Valeur-P Valeur-P NES Bonferroni

Direct Classique DEBIASI_APOPTO

SIS_BY_REOVIRUS

_INFECTION_UP 196 0.097 5.9067 0.0099 2.3765e-05 0.0129

Direct P1 BENPORATH_PRC

2_TARGETS

425 0.5136 5.2721 0.0099 1.8281e-06 0.0009

Direct P1 BENPORATH_EED

_TARGETS

694 0.4631 4.1803 0.0099 1.2797e-05 0.0069

Direct P1 KEGG_AMYOTROP

HIC_LATERAL_SCL

EROSIS_ALS

45 0.5542 3.9225 0.0099 4.2047e-05 0.0229

Étendue P1 BLALOCK_ALZHEI

MERS_DISEASE_D

N

1118 0.2514 4.0212 0.0099 2.1314e-05 0.0119

Étendue P1 KOYAMA_SEMA3B

_TARGETS_UP

197 0.3258 3.9174 0.0099 3.7300e-05 0.0209

Tableau 4 : Résultats GSEA

Tableau des résultats concluant de GSEA. Une voie (pathway) a été retenue lorsqu’elle présentait un résultat

au test de Bonferroni inférieur à 0.05. Nous y retrouvons la cartographie pour identifier nos gènes, le

paramètre de poids utilisé dans GSEA, le nom de la voie (pathway) identifiée, le nombre de gènes qui la

composent, la valeur obtenue pour le score d’enrichissement (ES), la valeur normalisée du score

d’enrichissement (NES), la valeur-p du ES, la valeur-p du NES et la valeur corrigée selon Bonferroni du NES

qui a servi à discriminer nos résultats.

La voie DEBIASI_APOPTOSIS_BY_REOVIRUS_INFECTION_UP contient la liste

des gènes liés à l’apoptose dont l’expression est modifiée suite à une infection par

rétrovirus. La voie BENPORATH_PRC2_TARGETS contient la liste des gènes qui

possèdent la marque de tri-méthylation H3K27 dans leur région promotrice et qui

sont capable de se lier au gène PRC2. La voie BENPORATH_EED_TARGETS

contient la liste des gènes capable de se lier au gène EED. La voie

KEGG_AMYOTROPHIC_LATERAL_SCLEROSIS_ALS contient la liste des gènes

27

impliqués dans la maladie de la Sclérose latérale amyotrophique. La voie

BLALOCK_ALZHEIMERS_DISEASE_DN contient la liste des gènes présentant

une baisse d’expression dans la maladie d’Alzheimer. Pour finir, la voie

KOYAMA_SEMA3B_TARGETS_UP contient la liste des gènes dont l’expression

est augmentée lorsque le gène SEMA3B est exprimé.

3.1.3 Résultats Biofilter

La méthode Biofilter a permis de faire ressortir différentes paires de gènes

reconnus pour avoir des interactions et donc qui ont un fort potentiel pour avoir

d’autres interactions que nous ne connaissons pas encore. Ces paires de gènes

sont donc intéressantes pour la suite, c’est-à-dire pour nos tests pour trouver de

nouvelles interactions. Le logiciel a été paramétré pour identifier les 50 000

meilleures paires de gènes parmi celles qu’il a cartographiées avec notre liste de

SNPs afin de s’assurer de trouver toutes les paires avec un indice égal ou

supérieur à notre seuil. Il est à noter que les résultats pour la cartographie Directe

et Étendue furent identiques (tableau 5). Ces résultats s’expliquent par le fait que

Biofilter fait lui-même sa propre cartographie et considère le déséquilibre de liaison

avec son paramètre de population qui permet de faire une cartographie étendue.

Sa cartographie de nos deux listes de SNPs fut donc pratiquement identique. Il y a

eu cependant quelques petites différences mais elles ne sont pas ressorties dans

les résultats. Ces différences mineures viennent du fait que nous avons appliqué

une distance de 50 KB de chaque côté d’un SNP pour notre cartographie étendue

alors que dans les faits, le déséquilibre de liaison n’est pas toujours identique

d’une région chromosomique à une autre. Biofilter est donc beaucoup plus

rigoureux que nous à ce sujet, même si cela n’a pas présenté de différence sur les

résultats.

28

Cartographie Nombre

de SNPs

soumis

Nombre de

paires de gènes

identifiés avant

coupure

Point de

coupure

Nombre de

paires de gènes

identifiés après

coupure

Nombre

de gènes

différents

Directe 25 799 50 000 4-156 6105 373

Étendue 64 511 50 000 4-156 6105 373

Tableau 5 : Résultats Biofilter

Tableau résumé des résultats concluants de Biofilter. Nous y retrouvons le type de cartographie pour

déterminer les SNPs soumis, le nombre de SNP que nous avons soumis, le nombre de paires de gènes que

Biofilter a identifiées comme étant reconnues pour avoir des interactions tel que nous l’avons défini dans le

fichier de configuration, le seuil qui représente l’index minimal que pouvait avoir une paire de gènes pour être

retenue, le nombre de paires de gènes retenues après coupure et le nombre total de gènes différents qui se

retrouvent dans les paires retenues.

3.1.4 Résultats Régression logistique

Aucun résultat statistiquement significatif n’a été identifié par les tests

d’interactions, que nous utilisions ou non un enrichissement par GSEA. Au vu de

ces résultats, il a été décidé de ne pas faire ce test avec l’enrichissement par

Biofilter afin de minimiser les temps de calculs.

3.1.5 Résultats JE

Nous avons voulu comparer les résultats des tests avec enrichissement à ceux

faits avec l’association marginale. Pour ce faire, nous avons fixé un point de

coupure comparatif permettant de choisir les Y meilleurs SNPs de l’association

marginale afin d’avoir un nombre de tests à peu près égal à ceux faits lors des

tests avec enrichissement. Le point de coupure comparatif sans enrichissement a

été défini comme étant

29

Y = ceiling ( (-1/2) + sqrt( (1/4) + (2 * nbTest) ) )

où ceiling : ceiling (plafond) prend un argument numérique simple x et retourne un

vecteur numérique contenant le plus petit entier qui n’est pas inférieur à l’élément

correspondant x

sqrt : Fonction racine carré

nbTest : Nombre de tests total faits pour lequel on veut trouver le nombre de SNPs

nécessaire afin de faire un nombre de test similaire.

Avec enrichissement

GSEA

Sans

enrichissement

GSEA

Avec

enrichissement

Biofilter

Sans

enrichissement

Biofilter

JE Directe 536 502 79 83

JE Étendu 855 372 79 33

Nb test JE

Directe

5 581 022 5 582 811 503 507 490 546

Nb test JE

Étendu

11 884 695 11 885 250 503 507 490 546

Tableau 6 : Résumé des résultats de JE

Tableau qui résume nos résultats pour JE avec enrichissement par GSEA, sans enrichissement pour un

nombre de test équivalent à GSEA, avec enrichissement par Biofilter et sans enrichissement pour un nombre

de test équivalent à Biofilter. Nous y retrouvons le nombre de résultats statistiquement significatif de tests

d’interactions suite à une correction de Bonferroni pour chacune de nos 2 cartographies ainsi que le nombre de

tests totaux effectués.

30

3.1.6 Résultats retenus

Après avoir passé une batterie de contrôles de qualité, de critères de sélections et

de validations de concepts (section 2.1.1, 2.1.2, 2.1.3, 2.1.4, 2.1.5.5, 2.1.5.6,

2.1.5.7 et 2.1.5.10) depuis le début de notre projet, une petite liste de paires de

gènes a su sortir du lot. Voici les différentes paires de marqueurs que nous avons

retenues. Chacun des graphiques 2 à 14 est un graphique des rapports de cotes

pour les paires de marqueurs dont les interactions ont une valeur p sous un seuil

de Bonferroni de 0.05 pour le test de JE et qui visuellement parlant démontrent

bien un effet d’interaction. Les graphiques 2 à 14 comportent aussi la particularité

d’être sous un seuil de 0.006 pour le test de la régression logistique. Chacun de

ces graphiques est accompagné d’une courte interprétation de l’interaction qu’on y

retrouve. À l’annexe A2 se trouve une table avec quelques informations

supplémentaires sur les différents gènes présentés dont les annotations. Chacune

de ces paires de gènes semble présenter une interaction statistiquement

significative non connue jusqu’à présent. Certaines de ces interactions donnent

une susceptibilité pour développer la maladie. D’autres donnent une résistance.

Dans certains cas, la présence de l’allèle mineur pour un seul des deux gènes

entraîne une plus forte susceptibilité pour développer la maladie, mais la présence

de l’allèle mineur de l’autre gène crée une interaction qui corrige le phénotype

introduit par l’allèle du premier gène pour ramener le risque de la maladie à celui

du génotype de référence. Nous qualifions ce phénomène de retour à la normale.

Le tableau 7 résume les interactions selon cette classification.

Légende pour les figures 2 à 14 :

Y : Rapport de cotes par rapport au génotype homozygote pour l’allèle majeur aux

deux marqueurs.

X : qij

Où i = nombre d’allèles mineurs pour le SNP1

Où j = nombre d’allèles mineurs pour le SNP2

Les figures comportent un intervalle de confiance à 95 %

31

Figure 2 : KCNQ1 VS NAV2

Voie BENPORATH_EED_TARGETS, cartographie Directe avec poids configuré à 1 dans GSEA. Ici, nous voyons que

quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une susceptibilité pour développer la

schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène NAV2 sont très rares.

32

Figure 3 : RELN VS CTNND2


quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une susceptibilité pour développer la

schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène CTNND2 sont rares.

33

Figure 4 : GRM3 VS GRM7


quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une résistance pour développer la schizophrénie.

Cependant, l’absence de l’allèle mineur pour un des 2 gènes en présence d’un homozygote de l’allèle mineur de l’autre gène

entraine une susceptibilité pour développer la schizophrénie. Il faut aussi noter que les homozygotes pour l’allèle mineur du

gène GRM3 sont rares.

34

Figure 5 : ADCY8 VS PRDM14


quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une résistance pour développer la schizophrénie.

Cependant, l’absence de l’allèle mineur pour un des 2 gènes en présence d’un homozygote de l’allèle mineur de l’autre gène

entraine une susceptibilité pour développer la schizophrénie. Il faut aussi noter que les homozygotes pour l’allèle mineur du

gène PRDM14 sont rares.

35

Figure 6 : ROBO1 VS NRXN1

Voie BLALOCK_ALZHEIMERS_DISEASE_DN, cartographie Étendue avec poids configuré à 1 dans GSEA. Ici, nous

voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une forte susceptibilité pour

développer la schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène ROBO1 sont rares.

36

Figure 7 : CDH13 VS NRXN1



développer la schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène CDH13 sont rares.

37

Figure 8 : TLK1 VS PDIA6


voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une très forte susceptibilité pour

développer la schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène TLK1 sont rares.

Notons que le rapport de cotes de q12 sort du cadre du graphique, car sa valeur est 15

38

Figure 9 : PLCB1 VS PLCL2



développer la schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène PLCL2 sont rares.

39

Figure 10 : GPC5 VS PKNOX2


voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une très forte susceptibilité pour

développer la schizophrénie.

40

Figure 11 : FAIM2 VS SHANK2


voyons que quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a une résistance à développer la

schizophrénie. Il faut cependant noter que les homozygotes pour l’allèle mineur du gène FAIM2 sont rares.

41

Figure 12 : CDH13 VS CYCS



schizophrénie. Il faut aussi noter que les homozygotes pour l’allèle mineur du gène CYCS sont rares.

42

Figure 13 : DLG2 VS RGS7



schizophrénie.

43

Figure 14 : CAMK2D VS KCNQ5

Enrichissement fait par Biofilter. CAMK2D provient de la paire CAMK2B VS CAMK2D et possède un indice de 5-

56. KCNQ5 provient de la paire KCNQ3 VS KCNQ5 et possède un indice de 5-12. Ici, nous voyons que

quand les sujets ont au moins un allèle mineur dans les deux gènes, il y a un retour à la normale du phénotype

qui a tendance autrement en présence d’allèle mineur pour un seul des deux gènes à entraîner une

susceptibilité pour développer la schizophrénie.

Catégorie Paires de gènes

Susceptibilité KCNQ1- NAV2, RELN- CTNND2, NRXN1- ROBO1, NRXN1- CDH13,

TLK1- PDIA6, PLCB1- PLCL2, GPC5- PKNOX2

Résistance GRM3- GRM7, FAIM2- SHANK2, CDH13- CYCS, DLG2- RGS7

Normale ADCY8- PRDM14, CAMK2D- KCNQ5

Tableau 7 : Résumé interaction

Tableau résumé qui liste les paires de gènes selon leur catégorie d’interaction. Une définition plus précise des

gènes est disponible au tableau 11.

44

Dans la première catégorie, nous avons retenu plusieurs paires de gènes dont la

présence de l’allèle mineure dans les 2 gènes pourrait créer une susceptibilité pour

développer la schizophrénie. Le gène KCNQ1 code pour une protéine de sous

unité de canal potassium contrôlé par le voltage. L’allèle mineur du SNP de ce

gène semblerait avoir une interaction causant une susceptibilité pour développer la

schizophrénie avec l’allèle mineur du SNP du gène NAV2, un gène qui code pour

une protéine qui est impliquée dans la croissance et migration des neurones (figure

2). Le gène RELN code pour une protéine de matrice extracellulaire qui contrôle

les interactions cellule-cellule critiques du positionnement et de la migration

neuronale. L’allèle mineur du SNP de ce gène semblerait avoir une interaction

causant une susceptibilité pour développer la schizophrénie avec l’allèle mineur du

SNP du gène CTNND2, un gène qui code pour une protéine de jonction adhésive

impliquée dans le développement du cerveau (figure 3). Le gène NRXN1 code

pour une protéine d’adhésion cellulaire du système nerveux. L’allèle mineur du

SNP de ce gène semblerait avoir une interaction causant une susceptibilité pour

développer la schizophrénie avec l’allèle mineur du SNP du gène ROBO1, un gène

qui code pour une protéine qui est impliquée dans la guidance des axones (figure

6), et une autre avec l’allèle mineur du SNP du gène CDH13, un gène qui code

pour une protéine qui sert de régulateur négatif de la croissance de l’axone

pendant la différenciation neurale et de protection contre l’apoptose dû à un stress

oxydatif (figure 7). Le gène TLK1 code pour une protéine de régulation de

l’assemblage de la chromatine. L’allèle mineur du SNP de ce gène semblerait

avoir une interaction causant une susceptibilité pour développer la schizophrénie

avec l’allèle mineur du SNP du gène PDIA6, un gène qui code pour une protéine

qui catalyse la formation, la réduction et l’isomérisation de ponts disulfure (figure

8). Le gène PLCB1 code pour une protéine de Phospholipase C. L’allèle mineur

du SNP de ce gène semblerait avoir une interaction causant une susceptibilité pour

développer la schizophrénie avec l’allèle mineur du SNP du gène PLCL2, un gène

qui code pour une protéine de Phospholipase C (figure 9). Le gène GPC5 code

pour une protéine qui joue un rôle important dans la division cellulaire. L’allèle

mineur du SNP de ce gène semblerait avoir une interaction causant une

45

susceptibilité pour développer la schizophrénie avec l’allèle mineur du SNP du

gène PKNOX2, un gène qui code pour une protéine qui joue un rôle important

dans la mort cellulaire (figure 10).

Dans la seconde catégorie, nous avons retenu quelques paires de gènes dont la

présence de l’allèle mineure dans les 2 gènes pourrait créer une résistance à

développer la schizophrénie. Le gène GRM3 code pour une protéine de récepteur

de glutamate métabotropique. L’allèle mineur du SNP de ce gène semblerait avoir

une interaction causant une résistance à développer la schizophrénie avec l’allèle

mineur du SNP du gène GRM7, un gène qui code pour une protéine de récepteur

de glutamate métabotropique (figure 4). Le gène FAIM2 code pour une protéine

qui a un rôle d’inhibiteur de l’apoptose. L’allèle mineur du SNP de ce gène

semblerait avoir une interaction causant une résistance à développer la

schizophrénie avec l’allèle mineur du SNP du gène SHANK2, un gène qui code

pour une protéine qui fait partie de l’échafaudage de la densité post synaptique et

attache les mGluRs aux récepteurs NMDA lors de la synaptogénèse (figure 11).

Le gène CDH13 code pour une protéine qui sert de régulateur négatif de la

croissance de l’axone pendant la différenciation neurale et de protection contre

l’apoptose dû à un stress oxydatif. L’allèle mineur du SNP de ce gène semblerait

avoir une interaction causant une résistance à développer la schizophrénie avec

l’allèle mineur du SNP du gène CYCS, un gène qui code pour une protéine qui sert

à l’initiation de l’apoptose (figure 12). Le gène DLG2 code pour une protéine qui

est impliquée dans la clustérisation des récepteurs et canaux ioniques

postsynaptiques. L’allèle mineur du SNP de ce gène semblerait avoir une

interaction causant une résistance à développer la schizophrénie avec l’allèle

mineur du SNP du gène RGS7, un gène qui code pour une protéine qui a le rôle de

régulateur des protéines-G postsynaptiques (figure 13).

Dans la troisième catégorie, nous avons retenu quelques paires de gènes dont la

présence de l’allèle mineure dans les 2 gènes pourrait ramener à la normale le

phénotype de développer la schizophrénie alors que la présence de l’allèle mineur

46

sur un seul des 2 gènes semble entraîner une susceptibilité. Le gène ADCY8 code

pour une protéine qui catalyse la formation de l’AMP à partir de l’ATP. L’allèle

mineur du SNP de ce gène semblerait avoir une interaction causant un retour à la

normale du phénotype pour la schizophrénie avec l’allèle mineur du SNP du gène

PRDM14, un gène qui code pour une protéine qui joue un rôle clé dans la

pluripotence en supprimant les marqueurs de différenciations, alors que la

présence de l’allèle mineur sur un seul des 2 gènes semble augmenter la

susceptibilité de développer la maladie (figure 5). Le gène CAMK2D code pour

une protéine qui joue un rôle important dans la plasticité synaptique. L’allèle

mineur du SNP de ce gène semblerait avoir une interaction causant un retour à la

normale du phénotype pour la schizophrénie avec l’allèle mineur du SNP du gène

KCNQ5, un gène qui code pour une protéine de sous unité de canal potassium

contrôlé par le voltage qui joue un rôle critique dans la régulation de l’excitabilité

neuronale, alors que la présence de l’allèle mineur sur un seul des 2 gènes semble

augmenter la susceptibilité de développer la maladie (figure 14).

3.1.7 Résultats Osprey

Voici le réseau des interactions que nous avons trouvées avec la méthode JE

combiné avec un enrichissement GSEA ou Biofilter et qui sont statistiquement

significatives. Il constitue un bon résumé graphique des principaux résultats. Pour

faire ce réseau, nous avons représenté dans Osprey chaque interaction que nous

avons obtenue et qui était statistiquement significative. Nous avons ensuite retiré

chaque groupe d’interaction qui n’était pas rattaché à ce qui ressemblait à un

noyau central. Nous avons ensuite réarrangé ce noyau central pour découvrir le

réseau d’interaction de la figure 15. Il est à noter que nous avons aussi obtenu

d’autres noyaux qui sont de moins grande importance. De ce réseau, nous

pouvons faire ressortir certains gènes qui sont impliqués dans un grand nombre

d’interactions potentielles, c’est-à-dire qu’ils ont 5 interactions différentes ou plus.

(tableau 8).

47

Figure 15 : Représentation de nos nouvelles interactions

Noeud : Bleu = Voie métabolique Benporath EED

Mauve = Voie métabolique de l’Alzheimer

Orange = Biofilter

Cyan = Gène présent dans les 2 voies

Fuchsia = Voie métabolique de l’Alzheimer et Biofilter

Lime = Voie métabolique Benporath EED et Biofilter

10 = Homozygotes allèle mineur extrêmement rare

48

15 = Homozygotes allèle mineur très rare

20 = Homozygotes allèle mineur rare

25 = Homozygotes allèle mineur commun

Arête : - Jaune pâle = normal - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE

- Jaune foncé = normal - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE et sous un seuil de 0.006

pour le test de la régression logistique

- Rouge pâle = susceptible - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE

- Rouge foncé= susceptible - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE et sous un seuil de

0.006 pour le test de la régression logistique

- Vert pâle = résistance - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE

- Vert foncé= résistance - Valeur p sous un seuil de Bonferroni de 0.05 pour le test de JE et sous un seuil de 0.006

pour le test de la régression logistique

Gène Interaction statistiquement

significative

ABCC4 5

ERBB4 5

FBLN5 5

FHIT 5

NELL1 5

PKNOX2 5

SOX5 5

TLK1 5

CDH13 7

NCOR2 7

COL4A1 9

CSMD1 9

PLCB1 9

PTPRT 9

Tableau 8 : Biomarqueur potentiel

Tableau qui liste les gènes qui pourraient être de potentiels biomarqueurs à cause de leurs nombres

importants d’interactions statistiquement significatives liées à la maladie. Nous avons en premier le symbole

du gène et en second son nombre d’interactions statistiquement significatives détectées lors de nos analyses.

Une définition plus précise des gènes est disponible au tableau 11.

49

CHAPITRE 4

50

4.1 Discussion

Bien que la Schizophrénie soit une maladie aussi vieille que l’humanité et que nous

l’étudions depuis de très nombreuses années, elle est très loin d’être bien connue

et comprise. Son côté multigénique complexe jette un voile de mystère sur ses

origines et ses mécanismes de fonctionnement. La Bio-informatique est une

approche relativement nouvelle dans l’étude de cette maladie car on a maintenant

les moyens technologiques pour générer de grands ensembles de données avec

les puces de SNPs et les nouveaux séquenceurs. Beaucoup d’espérances sont

mises sur cette science pour qu’elle réussisse là où les sciences plus

traditionnelles ont échoué jusqu’à présent.

L’objectif de ce projet était de trouver de nouvelles interactions géniques

impliquées dans la schizophrénie chez la population de l’Est du Québec pouvant

aider à expliquer la maladie et d’identifier de possibles biomarqueurs de la maladie

à l’aide d’une étude Cas-Témoins sur laquelle nous avons appliqué des méthodes

de Bio-informatique à la fine pointe.

Notre projet présente ses forces et ses faiblesses. Du côté des forces, nous

pouvons énoncer l’homogénéité génétique de notre population d’étude, la

comparaison de différentes méthodes, ou encore la minutie que nous avons

employés pour bien comprendre chaque logiciel afin de bien les paramétrer et

définir des points de coupure le plus appropriés possible. En ce qui concerne

l’autre côté de la médaille, les faiblesses, nous pouvons noter l’avancement rapide

des bases de données qui occasionne une difficulté à les maintenir à jour pour le

projet. En effet, bien que nos bases de données aient été à jour au moment de

faire nos calculs, leur contenu très dynamique a déjà beaucoup évolué au moment

d’écrire ces lignes. La MSigDB par exemple est passée de 5 collections lors de

nos calculs à maintenant 7. Bien que notre choix de population puisse présenter

certains avantages, il constitue aussi une faiblesse. En effet, le bassin de

population étant très petit, nous n’avons que peu de cas pour notre étude, limitant

51

ainsi notre puissance statistique. Un échantillon possédant une bonne taille pour

ne pas nuire à la puissance est composé d’au minimum 1000 cas et 1000 témoins

[Moore, 2011].

4.1.1 Cartographie et filtrage

Les méthodes de cartographie et de filtrage sont relativement standard. Plusieurs

des résultats que nous avons obtenus pourraient être qualifiés de triviaux, c’est-à-

dire qu’ils confirment ce à quoi nous nous attendions. Par exemple, les résultats

de la cartographie ont, comme nous le pensions, donné moins de gènes que le

nombre de SNPs fournis pour la cartographie Directe, car certains SNPs n’ont pu

être cartographiés et que plusieurs gènes contiennent plus d’un SNPs. Ces

conclusions s’appliquent aussi à la cartographie étendue, mais le nombre de gènes

est plus grand que la cartographie Directe. Normal, car nous visons les gènes

environnant un SNP en plus de ceux dont un SNP est directement à l’intérieur.

Les résultats du filtrage biologique furent aussi attendus. Le nombre de gènes fut

réduit, car certains gènes ne sont pas exprimés au cerveau.

4.1.2 GSEA

GSEA est un logiciel développé pour l’étude de puce à expression génique et est

très efficace dans ce contexte. Nous avons donc dû l’adapter pour une étude sur

des SNPs (section 2.1.5.6) et nous assurer de son efficacité dans ce nouveau

contexte tel que l’ont fait [Wang, 2007], [Holden, 2008] et [Jia, 2010]. Nos tests ont

révélé que les voies trop petites ou trop grosses apportaient un certain biais aux

résultats. En effet, l’ES était gonflé pour les petites voies et trop petite pour les

grosses voies. Ce problème est connu et sommairement documenté dans le

manuel du logiciel. Pour corriger ce biais, nous avons exclu les voies contenant

moins de 6 gènes ou plus de 2200 suite à nos tests préliminaires présentés à

l’Annexe 7 qui démontrent que pour ces tailles, le biais est négligeable, bien que

52

dans la documentation il soit recommandé de ne prendre que les voies de 15

gènes ou plus. Jia [Jia, 2010], dont nous discuterons à la section 4.1.8, a décidé

de prendre les voies entre 10 et 250 gènes. Les premiers résultats obtenus furent

intéressants. Pour ne pas prendre de chance et être conservateur, nous avons

appliqué à la valeur NES une correction de Bonferroni (une méthode statistique

très conservatrice pour corriger le seuil de significativité lors de comparaisons

multiples) et malgré ce haut niveau de restriction, plusieurs voies sont ressorties.

Le nombre de gènes de ces voies est très variable (Tableau 4), indiquant que nous

avons correctement corrigé le biais qu’une taille trop petite ou trop grande pouvait

apporter car il n’y a pas de surreprésentation. La cartographie Étendue avec un

poids Classique n’a cependant donné aucune voie dont l’enrichissement était

statistiquement significatif suite à la correction de Bonferroni.

4.1.3 Biofilter

Biofilter fut l’approche la plus compliquée de notre projet. Le logiciel est encore en

développement par l’équipe du Dr Ritchie. Tout au long du projet, nous avons eu

accès à différentes versions du logiciel de type Beta. Débutant par la 0.5, nous

avons ensuite travaillé avec la 1.0 et la 1.5 avant de finir par la première version

stable, la version 2.0. Ce logiciel est très complet, car il inclut la cartographie des

gènes pour les SNPs en tenant compte du déséquilibre de liaison. Nous avons

cependant eu de la difficulté à correctement interpréter son indice afin de trouver

un point de coupure approprié en l’absence de test statistique approprié. Nous

nous sommes donc repliés sur nos 2 maladies connues : Hirschsprung et Bardet-

Biedl. En fixant comme point de coupure le plus bas indice obtenu pour les paires

de gènes qui interagissent pour causer ces maladies, nous avons choisi un point

de coupure très restrictif mais qui assure une meilleure qualité des résultats.

Notre point de coupure conservateur fixé à l’indice 4-1561 a permis de conserver

12,21 % des paires de gènes identifiés et nous a permis d’avoir 373 gènes

différents. Ce nombre de gènes est très inférieur à celui obtenu par GSEA. Pour

1 Voir section 2.1.5.5 pour explication de l’indice

53

expliquer cette grande différence, il existe une explication toute simple. Notre point

de coupure défini en analysant les résultats obtenus avec d’autres maladies

multigéniques aurait pu être plus flexible avec un critère statistique qui

maximiserait la capacité de discrimination. En quoi par exemple un indice de 5-17

serait meilleur qu’un indice de 3-158? Même si nous n’avons que 3 sources

différentes dans ce second cas, le fait d’avoir 158 références différentes donne

quand-même un poids non négligeable à la paire en question. Cependant, notre

point de coupure de 4-156 n’accepte pas de résultat à 3-158.

4.1.4 Régression logistique VS JE

Nous nous attendions à peu de résultats de la régression logistique. Cette

méthode est en effet peu adaptée aux types d’analyses nécessaires à notre projet

car elle démontre un manque de puissance dans les tests de termes d’interaction

[Gauderman, 2002]. Il ne fut donc pas surprenant de ne trouver aucun résultat

statistiquement significatif avec cette méthode pour les données enrichies avec

GSEA. Les résultats obtenus furent légèrement décevants, mais quand même

attendus. Nous n’avons donc pas procédé à cette analyse sur les résultats

enrichis avec Biofilter. Cependant, les valeurs-p calculées dans le cadre la

régression logistique, même si elles n’étaient pas statistiquement significatives,

n’étaient pas si mauvaises dans certains cas et concordaient avec JE. Elles ont

donc servi comme critère de sélection des figures 2 à 13. La méthode JE, elle,

nous a donné des résultats concluants, c’est-à-dire statistiquement significatifs.

Elle fut à la hauteur de nos attentes. Étant très bien adaptée pour le type de calcul

que nous avions à faire, elle est devenue un pilier du projet.

4.1.5 Enrichissement

Afin de valider l’utilité d’utiliser un enrichissement, nous avons comparé les

résultats obtenus avec et sans enrichissement pour chacune de nos deux

méthodes d’enrichissement. Dans les deux cas, nous pouvons constater que pour

54

un nombre de tests similaire, les méthodes JE combinées à un enrichissement

donnent de meilleurs résultats que sans enrichissement, en utilisant simplement

les valeurs d’association marginale comme critère pour définir la liste des SNPs à

tester. Encore pire, sans enrichissement, la cartographie Étendue ne permet de

produire que très peu de résultats. Cela veut donc dire que l’étendue du

déséquilibre de liaison est surestimée et que sans une méthode d’enrichissement

venant sélectionner les gènes qui seront utilisés, un gros biais de sélection

s’installe avec notre méthode de cartographie. Le déséquilibre de liaison étant

différent de région chromosomique en région chromosomique, une prochaine

approche pour le futur serait de ne pas prendre une distance de 50 kb de chaque

côté du SNP de façon systématique mais plus tôt d’adapter ce nombre au

déséquilibre de liaison par région chromosomique.

4.1.6 Résultats retenus

Dans les éléments importants à retenir, parmi les 35 gènes identifiés (figures 2 à

15 et tableau 8) dont nous avons discutés, nous en faisons ressortir 4. Il y a le

gène CSMD1. Ce gène a encore une fonction inconnue. Nous savons qu’il est

très fortement exprimé dans le cerveau. Nous savons qu’il semble lié à plusieurs

maladies mentales. Dans notre projet, il est très fortement ressorti dans plusieurs

interactions avec d’excellents résultats (tableau 8). Un autre gène à surveiller

serait le gène ABBC4. Aucun article publié dans Pubmed ne traite de ce gène.

C’est un peu un petit oublié de la recherche. Même si l’homozygotie de l’allèle

mineur est extrêmement rare (figure 15), ce gène a plusieurs interactions

statistiquement significatives qui sont intéressantes. À l’opposé, nous avons notre

« grosse vedette ». En effet, le gène ERBB4, en plus de posséder plusieurs

interactions statistiquement significatives dans notre projet (tableau 8), est très

reconnu en recherche comme étant un gène important de la schizophrénie car 133

articles dans Pubmed le lient à la maladie. Nous pouvons aussi noter l’absence

du gène CRULRG dans nos résultats. Même si le SNP de ce gène fut

systématiquement ajouté à chaque analyse, aucun résultat statistiquement

55

significatif n’est ressorti. Cela ne veut cependant pas indiquer qu’il n’est pas

important dans la maladie. L’absence d’interaction potentielle indiquerait

simplement que la simple présence de l’allèle mineur de ce gène aurait un impact

important vu sont fort taux d’association à la maladie. De plus, cette absence

d’interaction n’exclut pas l’existence d’interactions non-détectées car plusieurs

critères sévères pour filtrer nos SNPs et nos résultats ont été appliquées afin de

s’assurer d’avoir de bons résultats en minimisant les faux positifs et les faux

négatifs. Cette technique élimine aussi malheureusement certains vrais positifs.

4.1.7 Osprey

Osprey est un logiciel de représentation de réseaux d’interactions protéine-protéine

qui nous a permis de produire la figure 15. Bien que nous ayons pu observer la

présence de plusieurs petits réseaux d’interactions, nous avons décidé de ne

présenter que le principal que le logiciel a permis de mettre au jour. Cette figure

nous présente un très vaste réseau d’interaction où nous retrouvons des

chevauchements entre les résultats de nos différentes méthodes. De ce réseau,

nous pouvons faire ressortir certains gènes qui pourraient être d’excellents

biomarqueurs de la maladie de par leur grand nombre d’interactions potentielles,

semblant liées avec la maladie, avec d’autres gènes. Bien que cet élément ne

constitue pas en lui seul la définition d’un biomarqueur, il en est quand même un

élément important. En effet, l’une des caractéristiques d’un bon biomarqueur c’est

qu’il permet d’identifier efficacement un risque pour développer une maladie. Un

grand nombre d’interactions au tour d’un même gène permet donc de concorder

avec ce critère, car si aucun allèle mineur n’est présent sur ce gène, aucune des

interactions détectées n’aura d’incidence. Cependant, si l’allèle mineur est

présent, beaucoup de possibilités s’ouvrent quant aux possibles interactions ayant

une incidence sur la maladie. La liste de ces gènes est au tableau 8.

56

4.1.8 Comparaison avec Jia

Le Dr Jia [Jia et coll., 2010] a fait une étude similaire à la nôtre sur la schizophrénie

avec le logiciel GSEA modifié de façon similaire à la nôtre. Nous avons donc

essayé de comparer nos méthodes et nos résultats. Le tableau 9 résume les

principales différences entre sa méthode et la nôtre.

Nous Jia

Population Est du Québec Gain

Cas / Témoins 247/250 1158/1378

Nombre de SNPs / sujet ~350 000 ~700 000

Cartographie 0 (Directe) ou 50 kb 20 kb

BD pour la cartographie RefSeq 2012 RefSeq 2009

Origine des Voies MSigDB 2012 MSigDB 2009, BioCarta 2009

Sélection des Voies Mots Clés C2 et C5 C2

Nombre gènes par Voies Entre 5 et 2200 Entre 10 et 250

Nombre de permutations 1000 10 000

Tableau 9 : Comparaison avec Jia

Tableau comparatif entre notre méthode et nos paramètres et ceux de Jia pour GSEA

Notre prochaine étape a donc été d’essayer de reproduire au mieux ce qu’il avait

fait afin de pouvoir comparer nos résultats. Le tableau 10 résume les modifications

que nous avons apportées.

Modifications apportées Jia

Population Est du Québec Gain

Cas / Témoins 247/250 1158/1378

Nombre de SNPs / sujet ~350 000 ~700 000

Cartographie 0 (Directe) ou 50 kb 20 kb

BD pour la cartographie RefSeq 2012 RefSeq 2009

Origine des Voies MSigDB 2012 MSigDB 2009, BioCarta 2009

Sélection des Voies C2 C2

Nombre gènes par Voies Entre 10 et 250 Entre 10 et 250

Nombre de permutations 10 000 10 000

57

Tableau 10 : Modification pour correspondre à Jia

Tableau comparatif entre notre méthode et nos paramètres modifiés pour correspondre le plus possible à ceux

de Jia et ceux de Jia pour GSEA

Comme les bases de données étaient très différentes, car 3 années les

séparaient, les résultats ne furent pas identiques. Cependant, les voies que nous

avons obtenues avec les meilleurs résultats, même si elles sont différentes,

tournent autour des meilleurs qu’il a obtenus et vice versa. Le meilleur résultat de

concordance fut pour la voie NEURON_APOPTOSIS qui est sortie en 6e position

alors qu’elle était 2e dans l’étude de Jia et le moins bon fut la voie

CARM_ER_PATHWAY qui est ressortie en 123e position alors que dans son

étude, elle était ressortie en 5e position, ce qui n’est quand même pas si mal

considérant le nombre de voies dans la base de données qui est de 6483.

4.1.9 Littérature

Nous avons fait ressortir jusqu’à présent plusieurs gènes qui, soit avaient une

possible interaction statistiquement significative en lien avec la schizophrénie, soit

pouvaient être de bons candidats pour devenir biomarqueurs de la maladie. Nous

ne sommes pas le seul groupe de recherche à travailler sur cette maladie. Est-ce

que d’autres chercheurs auraient pu pointer ces mêmes gènes?

Aucune des interactions que nous avons présentées dans les figures 2 à 14 n’a été

relevée jusqu’à présent dans un autre article. La méthode JE étant très récente,

peu de chercheurs l’ont appliquée dans leurs recherches. Cependant, les gènes

suivants ont déjà été associés à la schizophrénie dans d’autres articles :

CDH13 [Børglum, 2013] : 3 articles,

CSMD1 [Steen, 2013] : 12 articles,

CTNND2 [Nivard, 2013] : 2 articles,

DLG2 [MacLaren, 2011] : 2 articles,

ERBB4 [Marballi, 2014] : 133 articles,

FHIT [Saul, 2012] : 1 article,

GPC5 [Maheshwari, 2002] : 1 article,

58

GRM3 [Lane, 2013] : 51 articles,

GRM7 [Saus, 2010] : 6 articles,

KCNQ5 [Kendler, 2011] : 2 articles,

NRXN1 [McLysaght, 2013] : 61 articles,

PKNOX2 [Wang, 2012] : 1 article,

PLCB1 [Lo Vasco, 2013] : 8 articles,

RELN [Fabi, 2013] : 56 articles,

ROBO1 [Potkin, 2010] : 2 articles,

SHANK2 [Guilmatre, 2013] : 4 articles,

SOX5 [Sellmann, 2013] : 3 articles.

4.1.10 Élagage neuronal

Tout au long de notre projet, nous avons accumulé une grande quantité de

résultats. Certains ont été présentés dans ce mémoire, d’autre pas afin d’en

simplifier la lecture. En regardant tous ces résultats, une conclusion s’impose. Il

semblerait que la schizophrénie chez la population de l’Est du Québec puisse se

relier à la présence de connexions aberrantes entre les neurones. Nos résultats

de recherches semblent majoritairement aller en ce sens, puisque nous avons

identifié des couples de gènes impliqués dans les phénomènes de neurogénèse

(ADCY8, CAMK2D, CDH13, COL4A1, FBLN5, GPC5, NAV2, NCOR2, NELL1,

PRDM14, SHANK2, SOX5, TLK1), d’apoptose (ABBC4, CDH13, CYCS, FAIM2,

PKNOX2), de guidance des cônes de croissance (ADCY8, CAMK2D, CDH13,

COL4A1, CTNND2, FBLN5, NAV2, NRXN1, PTPRT, RELN, ROBO1), etc. Nos

résultats sont compatibles avec l’hypothèse neurodéveloppementale de la

schizophrénie, ainsi qu’avec les théories d’élagage neuronal anormal (« pruning »

en anglais) émises par plusieurs chercheurs dans le passé [Boksa, 2012],

[Hayashi-Takagi, 2011], [Paus, 2008], [Pickard, 2011], [Rapoport, 2012],

[Rosenthal, 2011].

Voici un exemple bien connu d’élagage [Guertin, 2012]. Pendant le

développement du fœtus et de l’enfant, les neurones du cerveau font de très

59

nombreuses connexions afin de s’assurer de tout connecter. Ainsi, une fibre

musculaire qui ne doit posséder qu’une seule connexion à l’âge adulte peut en

posséder plus d’une dizaine pendant l’enfance. À l’adolescence, le cerveau

enclenche plusieurs mécanismes d’élagage afin de retirer toutes les connexions

superflues. La théorie d’élagage neuronal anormal dit que cet élagage peut mal se

dérouler, laissant ainsi à l’âge adulte la présence de plusieurs connexions

aberrantes. Plus ce nombre de connexions est élevé, plus les risques de

développer la maladie sont grands et donc moins le stress environnemental

déclencheur doit être grand pour faire apparaître le phénotype.

4.1.11 Autre approche essayée

Nous avons déjà essayé le logiciel ALIGATOR qui n’a pas fait le travail attendu

mais comme il est encore en développement, il pourrait être intéressant de lui

laisser une autre chance quand il ne sera plus en version Beta. Par exemple, sa

base de données dans sa version actuelle est internalisée et donc impossible de

mettre à jour. Dans une version ultérieure elle pourrait être externalisée rendant

ainsi le logiciel plus flexible et fonctionnel. Il y a aussi beaucoup de fonctions qui

sont prévues mais pas encore implantés. D’après la description de ces fonctions,

certaines pourraient être très utiles. Pour finir, parmi les fonctions actuellement

implantées, certaines ont encore quelques bugs. ALIGATOR, bien que

prometteur, a donc dû être exclu de notre projet car il est à un stade trop

préliminaire.

60

4.2 Conclusion

Tel que prévu, la méthode JE a permis de ressortir du bruit des informations

permettant d’identifier de nouveaux biomarqueurs de diagnostic de la

schizophrénie à l’aide de méthodes d’enrichissement. Ces résultats sont

compatibles avec les théories d’élagage neuronal anormal. De son côté, la

régression logistique n’a pas été assez adaptée pour avoir la puissance nécessaire

à avoir des résultats statistiquement significatifs. Les méthodes d’enrichissement

ont permis d’obtenir plus de résultats statistiquement significatifs qu’une sélection

se basant simplement sur les valeurs d’associations marginales. De par leur

fonctionnement fondamentalement différent, les méthodes d’enrichissement

Biofilter et GSEA ont donné des résultats différents mais complémentaires.

Au début de ma maîtrise, j’ai fait l’exercice de vulgarisation que l’on retrouve à

l’Annexe A8 dans le cadre d’un concours de bourse de vulgarisation. J’y compare

la schizophrénie à une chaise brisée. Aujourd’hui, au vu des résultats du projet,

nous pourrions vulgariser la schizophrénie comme étant un problème électrique

dans la boîte électrique principale de la maison. L’électricien qui a fait l’installation

initialement avait passé beaucoup de filage dans les murs, plus que nécessaire

afin de ne pas devoir recommencer. Cependant, quand fut le temps d’effectuer

tous les bons branchements et de retirer les fils superflus, il est arrivé quelques

problèmes. Certains fils ont été endommagés et d’autres connectés à la mauvaise

place, créant ainsi des courts-circuits. Tant que la consommation en électricité

reste faible, ces problèmes peuvent passer inaperçus. Cependant, quand la

consommation est plus grande, comme par exemple l’hiver quand il fait très froid,

qu’on fait le lavage pendant que le souper cuit et que plusieurs lumières de la

maison sont ouvertes, ces courts-circuits prennent une plus grande importance.

La boite électrique peut donc commencer à boucaner, premier signe de la maladie

qu’on appelle prodrome. Si la situation perdure, le feu va tout simplement prendre

dans la boîte électrique et donc la maladie va se développer. La médecine

actuelle ne permet pas de corriger le problème. Les différentes molécules que

61

nous avons ne font que couper le courant principal de la boîte électrique. Notre

projet va donc apporter un éclairage nouveau sur le fonctionnement de la boîte

électrique afin de pouvoir prévenir et dans le futur, guérir la maladie.

Pour le futur, plusieurs avenues pourraient servir de suite au projet. Nous avons

regardé les paires de gènes. Il pourrait être intéressant de regarder les triplets.

Les scripts qui ont été produits sont facilement modifiables pour ajouter ce niveau

de complexité. Par contre, le temps de calcul risque de ne pas être raisonnable. Il

y aurait cependant la possibilité de faire un travail d’optimisation algorithmique qui

réduirait légèrement ce temps de calcul. D’autres méthodes d’enrichissement

comme ALIGATOR et MAGENTA pourraient être étudiées et utilisées. Une étude

en protéomique pourrait être faite sur les paires identifiées afin de voir et

comprendre les mécanismes exacts que ces interactions pourraient avoir. Nous

pourrions aussi faire une sorte de carte de chaleur (heat map) afin de tenter de

regrouper nos différents cas dans un dendrogramme qui pourrait nous permettre

de faire ressortir un classement représentant des types de schizophrénie en se

basant sur les résultats de notre projet. Pour ce faire, nous pourrions attribuer un

score sur l’allèle en se basant sur le nombre de copies de l’allèle afin de pouvoir

définir un score de proximité. Nous avons bien sûr les potentiels biomarqueurs et

les interactions multigéniques que nous avons identifiés sur lesquels une

investigation plus poussée pourrait être faite afin d’en venir au développement d’un

test de diagnostic précoce des risques de susceptibilité ou l’identification de

nouveaux candidats comme cibles thérapeutiques.

63

Bibliographie

Anon. [s d]. Bioconductor [En ligne]. Fred Hutchinson Cancer Research Center, Disponible sur : < http://www.bioconductor.org/ >

CRAN. [s d]. R [En ligne]. CRAN, Disponible sur : < http://www.r-project.org/ >

Arnaudus, Ediacara, Loveless, Pierrot Lunaire, Poulos, TED, et Vincnet. [s d]. Épistasie [En ligne]. Wikipedia. Disponible sur : < http://fr.wikipedia.org/w/index.php?oldid=64471565 >

Badano, Jose L., Carmen C. Leitch, Stephen J. Ansley, Helen May-Simera, Shaneka Lawson, Richard Alan Lewis, Philip L. Beales, Harry C. Dietz, Shannon Fisher, et Nicholas Katsanis. 2005. « Dissection of epistasis in oligogenic Bardet–

Biedl syndrome ». Nature. Vol. 439, n°7074, p. 326‑ 330.

Bochdanovits, Zoltán, David Sondervan, Sophie Perillous, Toos van Beijsterveldt, Dorret Boomsma, et Peter Heutink. 2008. « Genome-Wide Prediction of Functional Gene-Gene Interactions Inferred from Patterns of Genetic Differentiation in Mice and Men ». PLoS ONE. Vol. 3, n°2, p. e1593.

Boksa, Patricia. 2012. « Abnormal synaptic pruning in schizophrenia: Urban myth

or reality? » J. Psychiatry Neurosci. JPN. Vol. 37, n°2, p. 75‑ 77.

Børglum, A D, D Demontis, J Grove, J Pallesen, M V Hollegaard, C B Pedersen, A Hedemand, M Mattheisen, A Uitterlinden, M Nyegaard, T Ørntoft, C Wiuf, M Didriksen, M Nordentoft, M M Nöthen, M Rietschel, R A Ophoff, S Cichon, R H Yolken, D M Hougaard, P B Mortensen, et O Mors. 2013. « Genome-wide study of association and interaction with maternal cytomegalovirus infection suggests new schizophrenia loci ». Mol. Psychiatry [En ligne]. Disponible sur : < http://www.nature.com/doifinder/10.1038/mp.2013.2 >

Boulesteix, Anne-Laure, Carolin Strobl, Stefan Weidinger, H.-Erich Wichmann, et Stefan Wagenpfeil. 2007. « Multiple Testing for SNP-SNP Interactions ». Stat. Appl. Genet. Mol. Biol. [En ligne]. Vol. 6, n°1,. Disponible sur : < http://www.bepress.com/sagmb/vol6/iss1/art37 > (Consulté le 17 janvier 2012).

BROAD Institute. [s d]. GSEA [En ligne]. BROAD Institute, Disponible sur : < http://www.broadinstitute.org/gsea/index.jsp >

BROAD Institute. [s d]. MAGENTA [En ligne]. BROAD Institute, Disponible sur : < http://www.broadinstitute.org/mpg/magenta>

BROAD Institute. [s d]. MSigDB [En ligne]. BROAD Institute, Disponible sur : < http://www.broadinstitute.org/gsea/msigdb/index.jsp >

64

Bureau, Alexandre. 2005. Les haplotypes: un ingrédient clé des études d’association génétique.

Bureau, Alexandre, Yvon C. Chagnon, Jordie Croteau, Alain Fournier, Marc-André Roy, Thomas Paccalet, Chantal Mérette, et Michel Maziade. 2013. « Follow-up of a Major Psychosis Linkage Site in 13q13-q14 Reveals Significant Association in Both

Case-Control and Family Samples ». Biol. Psychiatry. Vol. 74, n°6, p. 444‑ 450.

Bush, W S, J L McCauley, P L DeJager, S M Dudek, D A Hafler, R A Gibson, P M Matthews, L Kappos, Y Naegelin, C H Polman, S L Hauser, J Oksenberg, J L Haines, et M D Ritchie. 2011. « A knowledge-driven interaction analysis reveals potential neurodegenerative mechanism of multiple sclerosis susceptibility ».

Genes Immun. Vol. 12, n°5, p. 335‑ 340.

Bush, William S, Scott M Dudek, et Marylyn D Ritchie. 2009. « Biofilter: a knowledge-integration system for the multi-locus analysis of genome-wide association studies ». Pac. Symp. Biocomput. Pac. Symp. Biocomput.

p. 368‑ 379.

C. Glahn, David. 2010. Quantitative Imaging Genomics. Cours à l'Université de Yale le 22 juilet 2010.

Cantrell, V. A. 2004. « Interactions between Sox10 and EdnrB modulate penetrance and severity of aganglionosis in the Sox10Dom mouse model of

Hirschsprung disease ». Hum. Mol. Genet. Vol. 13, n°19, p. 2289‑ 2301.

Chasman, Daniel I. 2008. « On the utility of gene set methods in genomewide association studies of quantitative traits ». Genet. Epidemiol. Vol. 32, n°7,

p. 658‑ 668.

Cordell, Heather J, et Masao Ueki. [s d]. JE [En ligne]. 2013. CASSI: Genome-Wide Interaction Analysis Software, Disponible sur : < http://www.staff.ncl.ac.uk/richard.howey/cassi/introduction.html >.

Cordell, Heather J. 2009. « Detecting gene–gene interactions that underlie human

diseases ». Nat. Rev. Genet. Vol. 10, n°6, p. 392‑ 404.

Cordell , Heather J. 2002. « Epistasis: what it means, what it doesn’t mean, and statistical methods to detect it in humans ». Hum. Mol. Genet. Vol. 11, n°20,

p. 2463‑ 2468.

Cordell, Heather J., et Masao Ueki. 2011. Improved statistics for genome-wide interaction analysis. Présentation orale dans le cadre de la 6e réunion annuelle canadienne sur l'épidémiologie génétique et la génétique statistique, Toronto, 11-13 mai 2011.

European Molecular Biology Laboratory - European Bioinformatics Institute. [s d]. GEA [En ligne]. European Molecular Biology Laboratory - European Bioinformatics Institute, Disponible sur : < http://www.ebi.ac.uk/gxa/ >

65

Fabi, E, A Fusco, M Valiante, et R Celli. 2013. « [Genetics and epigenetics of

schizophrenia] ». Clin. Ter. Vol. 164, n°4, p. e319‑ 324.

Flint, J., et T. F.C. Mackay. 2009. « Genetic architecture of quantitative traits in

mice, flies, and humans ». Genome Res. Vol. 19, n°5, p. 723‑ 733.

Gauderman, W. J. 2002. « Sample Size Requirements for Association Studies of

Gene-Gene Interaction ». Am. J. Epidemiol. Vol. 155, n°5, p. 478‑ 484.

Grady, Benjamin J, Eric S Torstenson, Paul J McLaren, Paul I W DE Bakker, David W Haas, Gregory K Robbins, Roy M Gulick, Richard Haubrich, Heather Ribaudo, et Marylyn D Ritchie. 2011. « Use of biological knowledge to inform the analysis of gene-gene interactions involved in modulating virologic failure with efavirenz-containing treatment regimens in art-naïve actg clinical trials participants ». Pac.

Symp. Biocomput. Pac. Symp. Biocomput. p. 253‑ 264.

Guertin, Pierre. 2012. Neuroscience II - Organisation et contrôle du mouvement. Cours à l'Université Laval le 16 mars 2012.

Guilmatre, Audrey, Guillaume Huguet, Richard Delorme, et Thomas Bourgeron. 2013. « The emerging role of SHANK genes in neuropsychiatric disorders ». Dev. Neurobiol.

Hayashi-Takagi, Akiko, Peter B Barker, et Akira Sawa. 2011. « Readdressing synaptic pruning theory for schizophrenia: Combination of brain imaging and cell

biology ». Commun. Integr. Biol. Vol. 4, n°2, p. 211‑ 212.

Herold, Christine, Michael Steffens, Felix F Brockschmidt, Max P Baur, et Tim Becker. 2009. « INTERSNP: genome-wide interaction analysis guided by a priori

information ». Bioinforma. Oxf. Engl. Vol. 25, n°24, p. 3275‑ 3281.

Holden, M., S. Deng, L. Wojnowski, et B. Kulle. 2008. « GSEA-SNP: applying gene set enrichment analysis to SNP data from genome-wide association studies ».

Bioinformatics. Vol. 24, n°23, p. 2784‑ 2785.

Holmans, Peter. [s d]. ALIGATOR [En ligne]. Cardiff University, Disponible sur : < http://x004.psycm.uwcm.ac.uk/~peter/ >.

Holmans, Peter, Elaine K Green, Jaspreet Singh Pahwa, Manuel A R Ferreira, Shaun M Purcell, Pamela Sklar, Michael J Owen, Michael C O’Donovan, et Nick Craddock. 2009. « Gene ontology analysis of GWA study data sets provides insights into the biology of bipolar disorder ». Am. J. Hum. Genet. Vol. 85, n°1,

p. 13‑ 24.

Infirmiers.com. 2010. « Cours - Psychiatrie - La schizophrénie ». p. 12 [En ligne]. Infirmiers.com. Disponible sur : < http://www.infirmiers.com/etudiants-en-ifsi/cours/cours-psychiatrie-la-schizophrenie.html >.

66

Iossifov, I., T. Zheng, M. Baron, T. C. Gilliam, et A. Rzhetsky. 2008. « Genetic-linkage mapping of complex hereditary disorders to a whole-genome molecular-

interaction network ». Genome Res. Vol. 18, n°7, p. 1150‑ 1162.

Jberthet, Lexor, Malcolma, et Rettetast. [s d]. Epistasis and functional genomics [En ligne]. Wikipedia. Disponible sur : < http://en.wikipedia.org/w/index.php?oldid=398490459 >

Jia, Peilin, Lily Wang, Herbert Y. Meltzer, et Zhongming Zhao. 2010. « Common variants conferring risk of schizophrenia: A pathway analysis of GWAS data ».

Schizophr. Res. Vol. 122, n°1-3, p. 38‑ 42.

Kendler, Kenneth S, Gursharan Kalsi, Peter A Holmans, Alan R Sanders, Steven H Aggen, Danielle M Dick, Fazil Aliev, Jianxin Shi, Douglas F Levinson, et Pablo V Gejman. 2011. « Genomewide association analysis of symptoms of alcohol dependence in the molecular genetics of schizophrenia (MGS2) control sample ».

Alcohol. Clin. Exp. Res. Vol. 35, n°5, p. 963‑ 975.

Keshavan, Matcheri S, Henry A Nasrallah, et Rajiv Tandon. 2011. « Schizophrenia, “Just the Facts” 6. Moving ahead with the schizophrenia concept: from the

elephant to the mouse ». Schizophr. Res. Vol. 127, n°1-3, p. 3‑ 13.

Köhler, Sebastian, Sebastian Bauer, Denise Horn, et Peter N Robinson. 2008. « Walking the interactome for prioritization of candidate disease genes ». Am. J.

Hum. Genet. Vol. 82, n°4, p. 949‑ 958.

Kooperberg, Charles, et Michael LeBlanc. 2008. « Increasing the power of identifying gene × gene interactions in genome-wide association studies ». Genet.

Epidemiol. Vol. 32, n°3, p. 255‑ 263.

Lane, Tracy A, Thomas Boerner, David M Bannerman, James N C Kew, Elizabeth M Tunbridge, Trevor Sharp, et Paul J Harrison. 2013. « Decreased striatal dopamine in group II metabotropic glutamate receptor (mGlu2/mGlu3) double knockout mice ». BMC Neurosci. Vol. 14, p. 102.

Lee, I., B. Lehner, T. Vavouri, J. Shin, A. G. Fraser, et E. M. Marcotte. 2010. « Predicting genetic modifier loci using functional gene networks ». Genome Res.

Vol. 20, n°8, p. 1143‑ 1153.

Lo Vasco, Vincenza Rita, Lucia Longo, et Patrizia Polonia. 2013. « Phosphoinositide-specific Phospholipase C β1 gene deletion in bipolar disorder

affected patient ». J. Cell Commun. Signal. Vol. 7, n°1, p. 25‑ 29.

Mackay, Trudy F C, Eric A Stone, et Julien F Ayroles. 2009. « The genetics of quantitative traits: challenges and prospects ». Nat. Rev. Genet. Vol. 10, n°8,

p. 565‑ 577.

67

MacLaren, Erik J., Paul Charlesworth, Marcelo P. Coba, et Seth G.N. Grant. 2011. « Knockdown of mental disorder susceptibility genes disrupts neuronal network

physiology in vitro ». Mol. Cell. Neurosci. Vol. 47, n°2, p. 93‑ 99.

Maheshwari, Manjula, S L Christian, C Liu, J A Badner, S Detera-Wadleigh, E S Gershon, et Richard A Gibbs. 2002. « Mutation screening of two candidate genes from 13q32 in families affected with Bipolar disorder: human peptide transporter (SLC15A1) and human glypican5 (GPC5) ». BMC Genomics. Vol. 3, n°1, p. 30.

Manning, Alisa K, Julius Ngwa, Audrey E Hendricks, Ching-Ti Liu, Andrew D Johnson, Josée Dupuis, et L Adrienne Cupples. 2009. « Incorporating biological knowledge in the search for gene × gene interaction in genome-wide association studies ». BMC Proc. Vol. 3, n°Suppl 7, p. S81.

Marballi, Ketan K., Robert E. McCullumsmith, Stefani Yates, Michael A. Escamilla, Robin J. Leach, Henriette Raventos, et Consuelo Walss-Bass. 2014. « Global signaling effects of a schizophrenia-associated missense mutation in neuregulin 1: an exploratory study using whole genome and novel kinome approaches ». J. Neural Transm. [En ligne]. Disponible sur : < http://link.springer.com/10.1007/s00702-013-1142-6 >

Maziade, M, M-A Roy, Y C Chagnon, D Cliche, J-P Fournier, N Montgrain, C Dion, J-C Lavallée, Y Garneau, N Gingras, L Nicole, A Pirès, A-M Ponton, A Potvin, H Wallot, et C Mérette. 2005. « Shared and specific susceptibility loci for schizophrenia and bipolar disorder: a dense genome scan in Eastern Quebec

families ». Mol. Psychiatry. Vol. 10, n°5, p. 486‑ 499.

McLysaght, Aoife, Takashi Makino, Hannah M Grayton, Maria Tropeano, Kevin J Mitchell, Evangelos Vassos, et David A Collier. 2013. « Ohnologs are overrepresented in pathogenic copy number mutations ». Proc. Natl. Acad. Sci. U. S. A.

Moore, Jason H, et Scott M Williams. 2009. « Epistasis and its implications for

personal genetics ». Am. J. Hum. Genet. Vol. 85, n°3, p. 309‑ 320.

Moore, Lynne. 2011. Modélisation statistique en épidémiologie. Cours à l'Université Laval à l'hiver 2011.

Moreau, Claudia, Hélène Vézina, et Damian Labuda. 2007. « Effets fondateurs et variabilité génétique au Québec ». médecine/sciences. Vol. 23, n°11,

p. 1008‑ 1013.

National Institute of Allergy and Infectious Diseases. [s d]. DAVID [En ligne]. National Institute of Allergy and Infectious Diseases, Disponible sur : < http://david.abcc.ncifcrf.gov/ >

Nivard, M. G., H. Mbarek, J. J. Hottenga, J. H. Smit, R. Jansen, B. W. Penninx, C. M. Middeldorp, et D. I. Boomsma. 2013. « Further confirmation of the association

68

between anxiety and CTNND2 : replication in humans: Association between

anxiety and CTNND2 ». Genes Brain Behav. p. n/a‑ n/a.

Open Biological and Biomedical Ontologies. [s d]. GO [En ligne]. Open Biological and Biomedical Ontologies, Disponible sur : < http://www.geneontology.org/ >

Owens, S. E. 2005. « Genome-wide linkage identifies novel modifier loci of aganglionosis in the Sox10Dom model of Hirschsprung disease ». Hum. Mol.

Genet. Vol. 14, n°11, p. 1549‑ 1558.

Paus, Tomás, Matcheri Keshavan, et Jay N Giedd. 2008. « Why do many psychiatric disorders emerge during adolescence? » Nat. Rev. Neurosci. Vol. 9,

n°12, p. 947‑ 957.

Pendergrass, Sarah A, Alex Frase, John Wallace, Daniel Wolfe, Neerja Katiyar, Carrie Moore, et Marylyn D Ritchie. 2013. « Genomic analyses with biofilter 2.0: knowledge driven filtering, annotation, and model development ». BioData Min. Vol. 6, n°1, p. 25.

Perl. [s d]. The Perl Programming Language - www.perl.org [En ligne]. Perl, Disponible sur : < http://www.perl.org/ >

Pickard, Benjamin. 2011. « Progress in defining the biological causes of schizophrenia ». Expert Rev. Mol. Med. Vol. 13, p. e25.

De Pontual, Loïc, Norann A Zaghloul, Sophie Thomas, Erica E Davis, David M McGaughey, Hélène Dollfus, Clarisse Baumann, Seneca L Bessling, Candice Babarit, Anna Pelet, Cecilia Gascue, Philip Beales, Arnold Munnich, Stanislas Lyonnet, Heather Etchevers, Tania Attie-Bitach, Jose L Badano, Andrew S McCallion, Nicholas Katsanis, et Jeanne Amiel. 2009. « Epistasis between RET and BBS mutations modulates enteric innervation and causes syndromic Hirschsprung disease ». Proc. Natl. Acad. Sci. U. S. A. Vol. 106, n°33,

p. 13921‑ 13926.

Potkin, Steven G, Fabio Macciardi, Guia Guffanti, James H Fallon, Qi Wang, Jessica A Turner, Anita Lakatos, Michael F Miles, Arthur Lander, Marquis P Vawter, et Xiaohui Xie. 2010. « Identifying gene regulatory networks in

schizophrenia ». NeuroImage. Vol. 53, n°3, p. 839‑ 847.

Powell, Larkin A. 2007. « APPROXIMATING VARIANCE OF DEMOGRAPHIC PARAMETERS USING THE DELTA METHOD: A REFERENCE FOR AVIAN BIOLOGISTS ». The Condor. Vol. 109, n°4, p. 949.

Purcell, Shaun. [s d]. PLINK [En ligne]. Center for Human Genetic Research, Disponible sur : < http://pngu.mgh.harvard.edu/~purcell/plink/ >

Quackenbush, John. 2002. « Microarray data normalization and transformation ».

Nat. Genet. Vol. 32, n°Supp, p. 496‑ 501.

69

Rapoport, J L, J N Giedd, et N Gogtay. 2012. « Neurodevelopmental model of schizophrenia: update 2012 ». Mol. Psychiatry.

Rebbeck, Timothy R, Margaret Spitz, et Xifeng Wu. 2004. « Assessing the function of genetic variants in candidate gene association studies ». Nat. Rev. Genet. Vol.

5, n°8, p. 589‑ 597.

Ripke, Stephan, Colm O’Dushlaine, Kimberly Chambert, Jennifer L Moran, Anna K Kähler, Susanne Akterin, Sarah E Bergen, Ann L Collins, James J Crowley, Menachem Fromer, Yunjung Kim, Sang Hong Lee, Patrik K E Magnusson, Nick Sanchez, Eli A Stahl, Stephanie Williams, Naomi R Wray, Kai Xia, Francesco Bettella, Anders D Borglum, Brendan K Bulik-Sullivan, Paul Cormican, Nick Craddock, Christiaan de Leeuw, Naser Durmishi, Michael Gill, Vera Golimbet, Marian L Hamshere, Peter Holmans, David M Hougaard, Kenneth S Kendler, Kuang Lin, Derek W Morris, Ole Mors, Preben B Mortensen, Benjamin M Neale, Francis A O’Neill, Michael J Owen, Milica Pejovic Milovancevic, Danielle Posthuma, John Powell, Alexander L Richards, Brien P Riley, Douglas Ruderfer, Dan Rujescu, Engilbert Sigurdsson, Teimuraz Silagadze, August B Smit, Hreinn Stefansson, Stacy Steinberg, Jaana Suvisaari, Sarah Tosato, Matthijs Verhage, James T Walters, Douglas F Levinson, Pablo V Gejman, Kenneth S Kendler, Claudine Laurent, Bryan J Mowry, Michael C O’Donovan, Michael J Owen, Ann E Pulver, Brien P Riley, Sibylle G Schwab, Dieter B Wildenauer, Frank Dudbridge, Peter Holmans, Jianxin Shi, Margot Albus, Madeline Alexander, Dominique Campion, David Cohen, Dimitris Dikeos, Jubao Duan, Peter Eichhammer, Stephanie Godard, Mark Hansen, F Bernard Lerer, Kung-Yee Liang, Wolfgang Maier, Jacques Mallet, Deborah A Nertney, Gerald Nestadt, Nadine Norton, Francis A O’Neill, George N Papadimitriou, Robert Ribble, Alan R Sanders, Jeremy M Silverman, Dermot Walsh, Nigel M Williams, Brandon Wormley, Maria J Arranz, Steven Bakker, Stephan Bender, Elvira Bramon, David Collier, Benedicto Crespo-Facorro, Jeremy Hall, Conrad Iyegbe, Assen Jablensky, Rene S Kahn, Luba Kalaydjieva, Stephen Lawrie, Cathryn M Lewis, Kuang Lin, Don H Linszen, Ignacio Mata, Andrew McIntosh, Robin M Murray, Roel A Ophoff, John Powell, Dan Rujescu, Jim Van Os, Muriel Walshe, Matthias Weisbrod, Durk Wiersma, Peter Donnelly, Ines Barroso, Jenefer M Blackwell, Elvira Bramon, Matthew A Brown, Juan P Casas, Aiden P Corvin, Panos Deloukas, Audrey Duncanson, Janusz Jankowski, Hugh S Markus, Christopher G Mathew, Colin N A Palmer, Robert Plomin, Anna Rautanen, Stephen J Sawcer, Richard C Trembath, Ananth C Viswanathan, Nicholas W Wood, Chris C A Spencer, Gavin Band, Céline Bellenguez, Colin Freeman, Garrett Hellenthal, Eleni Giannoulatou, Matti Pirinen, Richard D Pearson, Amy Strange, Zhan Su, Damjan Vukcevic, Peter Donnelly, Cordelia Langford, Sarah E Hunt, Sarah Edkins, Rhian Gwilliam, Hannah Blackburn, Suzannah J Bumpstead, Serge Dronov, Matthew Gillman, Emma Gray, Naomi Hammond, Alagurevathi Jayakumar, Owen T McCann, Jennifer Liddle, Simon C Potter, Radhi Ravindrarajah, Michelle Ricketts, Avazeh Tashakkori-Ghanbaria, Matthew J Waller, Paul Weston, Sara Widaa, Pamela Whittaker, Ines Barroso, Panos Deloukas, Christopher G Mathew, Jenefer M Blackwell, Matthew A Brown, Aiden P Corvin, Mark I McCarthy, Chris C A Spencer, Elvira Bramon, Aiden

70

P Corvin, Michael C O’Donovan, Kari Stefansson, Edward Scolnick, Shaun Purcell, Steven A McCarroll, Pamela Sklar, Christina M Hultman, et Patrick F Sullivan. 2013. « Genome-wide association analysis identifies 13 new risk loci for

schizophrenia ». Nat. Genet. Vol. 45, n°10, p. 1150‑ 1159.

Ritchie Lab. [s d]. Biofilter [En ligne]. Ritchie Lab, Disponible sur : < http://chgr.mc.vanderbilt.edu/ritchielab/method.php?method=biofilter >

Ritchie, Marylyn D. 2011. « Using biological knowledge to uncover the mystery in the search for epistasis in genome-wide association studies ». Ann. Hum. Genet.

Vol. 75, n°1, p. 172‑ 182.

Rosenthal, Randall. 2011. « Of schizophrenia, pruning, and epigenetics: a

hypothesis and suggestion ». Med. Hypotheses. Vol. 77, n°1, p. 106‑ 108.

Saul, Michael C., Griffin M. Gessay, et Stephen C. Gammie. 2012. « A New Mouse Model for Mania Shares Genetic Correlates with Human Bipolar Disorder ». PLoS ONE. Vol. 7, n°6, p. e38128.

Saus, Ester, Anna Brunet, Lluís Armengol, Pino Alonso, José M Crespo, Fernando Fernández-Aranda, Miriam Guitart, Rocío Martín-Santos, José Manuel Menchón, Ricard Navinés, Virginia Soria, Marta Torrens, Mikel Urretavizcaya, Vicenç Vallès, Mònica Gratacòs, et Xavier Estivill. 2010. « Comprehensive copy number variant (CNV) analysis of neuronal pathways genes in psychiatric disorders identifies rare

variants within patients ». J. Psychiatr. Res. Vol. 44, n°14, p. 971‑ 978.

Schwarz, D. F., I. R. Konig, et A. Ziegler. 2010. « On safari to Random Jungle: a fast implementation of Random Forests for high-dimensional data ».

Bioinformatics. Vol. 26, n°14, p. 1752‑ 1758.

Segrè, Ayellet V, Leif Groop, Vamsi K Mootha, Mark J Daly, et David Altshuler. 2010. « Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits ». PLoS Genet. Vol. 6, n°8, p. 19.

Sellmann, C, L Villarín Pildaín, A Schmitt, F Leonardi-Essmann, P F Durrenberger, R Spanagel, T Arzberger, H Kretzschmar, M Zink, O Gruber, M Herrera-Marschitz, R Reynolds, P Falkai, P J Gebicke-Haerter, et F Matthäus. 2013. « Gene expression in superior temporal cortex of schizophrenia patients ». Eur. Arch. Psychiatry Clin. Neurosci.

Steen, Vidar M., Chirag Nepal, Kari M. Ersland, Rita Holdhus, Marianne Nævdal, Siri M. Ratvik, Silje Skrede, et Bjarte Håvik. 2013. « Neuropsychological Deficits in Mice Depleted of the Schizophrenia Susceptibility Gene CSMD1 ». PLoS ONE. Vol. 8, n°11, p. e79501.

Subramanian, Aravind, Pablo Tamayo, Vamsi K Mootha, Sayan Mukherjee, Benjamin L Ebert, Michael A Gillette, Amanda Paulovich, Scott L Pomeroy, Todd R Golub, Eric S Lander, et Jill P Mesirov. 2005. « Gene set enrichment analysis: a

71

knowledge-based approach for interpreting genome-wide expression profiles ».

Proc. Natl. Acad. Sci. U. S. A. Vol. 102, n°43, p. 15545‑ 15550.

Sun, Lei, Radu V Craiu, Andrew D Paterson, et Shelley B Bull. 2006. « Stratified false discovery control for large-scale hypothesis testing with application to

genome-wide association studies ». Genet. Epidemiol. Vol. 30, n°6, p. 519‑ 530.

Tam, Paul K. H., et Mercè Garcia-Barceló. 2009. « Genetic basis of Hirschsprung’s

disease ». Pediatr. Surg. Int. Vol. 25, n°7, p. 543‑ 558.

Thomas, Duncan. 2010. « Gene–environment-wide association studies: emerging

approaches ». Nat. Rev. Genet. Vol. 11, n°4, p. 259‑ 272.

Turner, Stephen D, Scott M Dudek, et Marylyn D Ritchie. 2011. « Incorporating Domain Knowledge into Evolutionary Computing for Discovering Gene-Gene

Interaction ». Lect. Notes Comput. Sci. Vol. 6238, n°2011, p. 394‑ 403.

Tyers, Mike. [s d]. Osprey [En ligne]. Tyers Lab, Disponible sur : < http://biodata.mshri.on.ca/osprey/OspreyHelp/index.html >

Ueki, et Cordell, Heather J. 2012. « Improved Statistics for Genome-Wide Interaction Analysis ». PLoS Genet. Vol. 8, n°4, p. e1002625.

Wang, Kai, Mingyao Li, et Maja Bucan. 2007. « Pathway-based approaches for analysis of genomewide association studies ». Am. J. Hum. Genet. Vol. 81, n°6,

p. 1278‑ 1283.

Wang, Kai, Mingyao Li, et Hakon Hakonarson. 2010. « Analysing biological pathways in genome-wide association studies ». Nat. Rev. Genet. Vol. 11, n°12,

p. 843‑ 854.

Wang, Ke-Sheng, Qunyuan Zhang, Xuefeng Liu, Longyang Wu, et Min Zeng. 2012. « PKNOX2 is associated with formal thought disorder in schizophrenia: a meta-analysis of two genome-wide association studies ». J. Mol. Neurosci. MN.

Vol. 48, n°1, p. 265‑ 272.

Wu, Xuesen, Hua Dong, Li Luo, Yun Zhu, Gang Peng, John D. Reveille, et Momiao Xiong. 2010. « A Novel Statistic for Genome-Wide Interaction Analysis ». PLoS Genet. Vol. 6, n°9, p. e1001131.

73

Annexe

Liste des différents documents en Annexe.

A1 : Résumé graphique du projet

A2 : Liste des gènes

A3 : Informations supplémentaires sur les différentes bases de données

A4 : Détails sur l’épistasie

A5 : Résumé MSigDB

A6 : Résumé des tests pour paramétrer Biofilter

A7 : Détails des tests pour paramétrer GSEA

A8 : Vulgarisation - La Schizophrénie : Une maladie multigénique complexe

A1 : Résumé graphique du projet

74

A2 : Liste des gènes

Gène Nom Ch Position Début Fin Annotation

ABBC4 ATP-binding

cassette,

sub-family C

(CFTR/MRP)

, member 4

13 13q32 95,672,083 95,953,705 Joue le rôle de

pompe lors de la

détoxification

cellulaire

ADCY8 adenylate

cyclase 8

8 8q24 131,064,350 133,025,889 Catalyse la

formation de

l’AMP à partir de

l’ATP

CAMK2D calcium/calm

odulin-

dependent

protein

kinase II

delta

4 4q26 114,372,188 114,683,669 Joue un rôle

important dans la

plasticité

synaptique

CDH13 cadherin 13 16 16q23.3 82,181,767 83,949,787 Régulateur négatif

de la croissance

de l’axone

pendant la

différenciation

neurale et

protection contre

l’apoptose dû à un

stress oxydatif

COL4A1 collagen,

type IV,

alpha 1

13 13q34 110,801,310 110,959,496 Joue un rôle

primordial dans la

structure cellulaire

CRULRG ND ND ND ND ND ND

CSMD1 CUB and

Sushi

multiple

domains 1

8 8p23.2 2,792,875 4,852,328 Fonction inconnue

CTNND2 catenin delta

2

5 5p15.2 10,664,224 12,805,295 Protéine de

jonction adhésive

impliquée dans le

développement du

cerveau

75

CYCS cytochrome c 7 7p15.3 24,737,974 25,252,604 Initiation de

l’apoptose

DLG2 discs large

homolog 2

11 11q14.1 82,972,506 85,367,597 Clustérisations

des récepteurs et

canaux ioniques

postsynaptiques

EED embryonic

ectoderm

development

11 11q14.2-q22.3 85,955,586 85,989,785 Participe à la

répression de

l’activité génique

par la

désacétylation des

histones

ERBB4 v-erb-b2

avian

erythroblastic

leukemia

viral

oncogene

homolog 4

2 2q33.3-q34 212,240,442 213,403,879 Impliquée dans

l’induction de la

mitogénèse et la

différenciation

cellulaire

FAIM2 Fas apoptotic

inhibitory

12 12q13 50,222,326 50,352,664 Inhibiteur de

l’apoptose

FBLN5 fibulin 5 14 14q32.1 92,335,755 92,414,046 Joue un rôle dans

le développement

et le remodelage

vasculaire

FHIT fragile

histidine triad

3 3p14.2 59,735,036 61,237,133 Joue un rôle dans

le métabolisme

des purines

GPC5 glypican 5 13 13q32 92,000,074 95,060,274 Joue un rôle

important dans la

division cellulaire

GRM3 glutamate

receptor 3

7 7q21.1-q21.2 85,104,543 86,781,656 Récepteur de

glutamate

métabotropique

GRM7 glutamate

receptor 7

3 3p26.1-p25.1 5,488,662 8,609,806 Récepteur de

glutamate

métabotropique

KCNQ1 potassium

voltage-

gated

channel

11 11p15.5 2,423,523 2,906,995 Sous unité de

canal potassium

contrôlé par le

voltage

76

KCNQ5 potassium

voltage-

gated

channel

6 6q14 73,331,571 73,908,574 Sous unité de

canal potassium

contrôlé par le

voltage qui joue

un rôle critique

dans la régulation

de l’excitabilité

neuronale

NAV2 neuron

navigator 2

11 11p15.1 19,245,610 20,405,329 Croissance et

migration des

neurones

NCOR2 nuclear

receptor

corepressor

2

12 12q24 124,808,957 125,052,079 Joue un rôle dans

la modification de

la structure de la

chromatide afin de

permettre /

empêcher la

transcription de

certains gènes

NELL1 NEL-like 1

(chicken)


la régulation de la

croissance et la

différenciation

cellulaire

NRXN1 neurexin 1 2 2p16.3 49,189,296 52,002,852 Une protéine

d’adhésion

cellulaire du

système nerveux

PDIA6 protein

disulfide

isomerase

2 2p25.1 10,590,207 11,272,302 Catalyse la

formation, la

réduction et

l’isomérisation de

ponts disulfure

PKNOX2 PBX/knotted

1 homeobox

2

11 11q24.2 124,964,266 125,454,575 Joue un rôle

important dans la

mort cellulaire

PLCB1 phospholipas

e C, beta 1

20 20p12 7,961,713 9,511,171 Phospholipase C

PLCL2 phospholipas

e C-like 2

3 3p24.3 16,628,299 17,784,240 Phospholipase C

77

PRDM14 PR domain

containing 14

8 8q13.3 70,846,744 71,316,020 Joue un rôle clé

dans la

pluripotence en

supprimant les

marqueurs de

différenciations

PTPRT protein

tyrosine

phosphatase,

receptor

type, T

20 20q12-q13 40,701,392 41,818,557 Joue un rôle de

traducteur de

signaux et

d’adhésion

cellulaire dans le

système nerveux

central

RELN Reelin 7 7q22 102,987,971 104,549,005 Protéine de

matrice

extracellulaire qui

contrôle les

interactions

cellule-cellule

critiques du

positionnement et

de la migration

neuronale

RGS7 regulator of

G-protein

signaling 7

1 1q43; 1q23.1 240,902,442 241,803,701 Régulateur des

protéines-G

postsynaptiques

ROBO1 roundabout

axon

guidance

3 3p12 75,955,845 80,214,118 Gène impliqué

dans la guidance

des axones

SEMA3B sema

domain,

immunoglobu

lin domain

(Ig), short

basic

domain,

secreted,

(semaphorin)

3B

3 3p21.3 50,305,040 50,314,573 Guidance du cône

de croissance des

axones pendant le

développement

78

SHANK2 SH3 and

multiple

ankyrin

repeat

11 11q13.2 70,116,806 71,159,477 Fait partie de

l’échafaudage de

la densité

postsynaptique et

attache les

mGluRs aux

récepteurs NMDA

lors de la

synaptogénèse

SOX5 SRY (sex

determining

region Y)-box

5


la régulation du

développement

embryonnaire et

participe à

déterminer le

destin des cellules

TLK1 tousled-like

kinase 1

2 2q31.1 171,673,200 172,341,562 Régulation de

l’assemblage de la

chromatine

Tableau 11 : Liste des gènes

Liste des différents gènes que nous retrouverons dans le mémoire avec, pour chaque gène, son symbole

officiel, son nom complet, le chromosome sur lequel il se retrouve, sa position chromosomique, le numéro de

sa première et de sa dernière paire de bases ainsi qu’un résumé de son annotation selon DAVID.

79

A3 : Information supplémentaire sur les différentes bases de

données

Base de données de Biofilter :

-GO : “The Gene Ontology project is a major bioinformatics initiative with the aim of

standardizing the representation of gene and gene product attributes across

species and databases. The project provides a controlled vocabulary of terms for

describing gene product characteristics and gene product annotation data from GO

Consortium members, as well as tools to access and process this data.”

-KEGG : “KEGG (Kyoto Encyclopedia of Genes and Genomes) is a database

resource that integrates genomic, chemical, and systemic functional information. In

particular, gene catalogs in the completely sequenced genomes are linked to

higher-level systemic functions of the cell, the organism, and the ecosystem.”

-NetPath : “'NetPath' is a curated resource of signal transduction pathways in

humans.”

-pfam : “The Pfam database is a large collection of protein families, each

represented by multiple sequence alignments and hidden Markov models

(HMMs).”

-Reactome : “REACTOME is an open-source, open access, manually curated and

peer-reviewed pathway database. Pathway annotations are authored by expert

biologists, in collaboration with Reactome editorial staff and cross-referenced to

many bioinformatics databases. These include NCBI Entrez Gene, Ensembl

and UniProt databases, the UCSC and HapMap Genome Browsers, the

KEGG Compound and ChEBI small molecule databases, PubMed, and Gene

Ontology.”

-DIP : “The Database of Interacting Proteins (DIP) catalogs experimentally

determined interactions between proteins. It combines information from a variety of

80

sources to create a single, consistent set of protein–protein interactions. The data

stored within DIP have been curated, both manually, by expert curators, and

automatically, using computational approaches that utilize the knowledge about the

protein–protein interaction networks extracted from the most reliable, core subset

of the DIP data. DIP is curated by the research group of David Eisenberg at

UCLA.”

-BioCarta : “Broadly, this information falls into four categories – gene function,

proteomic pathways, ePosters, and research reagents.”

81

A4: Détails sur l’épistasie

L’épistasie est définie comme l’interaction entre 2 gènes quand le phénotype

dépend de cette interaction et peut être masqué par l’un des 2 gènes ou les 2 dans

certains cas « symétriques ». Le Dr Cordell explique la problématique pour vérifier

l’Épistasie sous plusieurs angles lors de sa présentation à Toronto [Cordell, 2011].

Elle expose différentes approches comme celle de Wu [Wu et coll., 2010] qui

considère les haplotypes à 2 locus et détecte les interactions avec le log du rapport

de cote, contrairement à PLINK qui considère 4 allèles indépendants. Elle identifie

les problématiques de ces méthodes, comme par exemple la méthode de Wu qui

augmente les erreurs de type 1 ou encore de PLINK qui estime mal la variance.

Elle finit par nous proposer sa propre méthode. Le « joint effects » ou JE

Dans son article en 2002 [Cordell, 2002], elle expose aussi une problématique.

Les interactions détectées lors d’une régression logistique (échelle multiplicative)

ne sont pas les mêmes que celles détectées lors d’une régression linéaire (échelle

additive). Considérant la nature de notre jeu de donnée et les commentaires de

Cordell, la régression logistique est la plus appropriée pour nous.

Un autre des angles qu’elle explore cette fois-ci dans son article de 2009 [Cordell,

2009] est le temps de calcul. Plus une méthode est efficace et plus elle demande

en effet de temps de calcul. Elle recommande donc d’utiliser une méthode moins

efficace pour obtenir des résultats préliminaires et ensuite d’utiliser les méthodes

plus poussées sur ces résultats. Ce qu’elle recommande de faire, c’est d’utiliser

dans un premier temps PLINK avec son test semi-exhaustif pour une recherche

d’interaction entre 2 locus et de compléter avec un test aléatoire de forêt comme

implantée dans Randon Jungle [Schwarz, 2010]. Pour la première partie, la

documentation de PLINK sur l’épistasie apporte certains éclairages.

82

PLINK propose une méthode pour le test d’épistasie dite rapide. Ce test est basé

sur le score Z pour la différence du rapport de cote entre le SNP1 et le SNP2 entre

les cas et les contrôles.

Dans une régression logistique (Y = α + βX), le rapport de cote se trouve à être eβ

Où Y = variable dépendante, α = intercepte (ordonnée à l’origine) , β = pente et X =

variable indépendante.

Dans un premier temps, PLINK construit un test allélique pour un simple locus. Il

fusionne 2 fois 3 catégories génotypiques en 2 catégories alléliques. En gros, il

compte les 4N allèles indépendants observés à 2 locus d’un échantillon de N

individu dans un tableau 2X2. Donc, l’unité de l’analyse se trouve à être les allèles

et non les individus ou les haplotypes.

BB Bb bb

AA a b c

Aa d e f

aa g h I

Les allèles sont comptés à un locus, par exemple le locus B, de façon

conditionnelle au locus A. Nous avons donc une table 3x2

B b

AA 2a+b 2c+b

Aa 2d+e 2f+e

aa 2g+h 2i+h

83

La table est ensuite réduite à une table 2x2 qui ressemble à :

B b

A 4a+2b+2d+e 4c+2b+2f+e

a 4g+2h+2d+e 4i+2h+2f+e

À partir de ce tableau, le rapport de cote entre le locus A et B est calculé ainsi que

l’erreur standard. La valeur du test Z est Z = ( log(R) - log(S) ) / ( SE(R) + SE(S)

)

Où R et S sont respectivement les rapports de cotes pour les cas et les contrôles.

SE (Standard error) représente l’erreur type de R et S Notons ici que cette formule

est tirée de la documentation de PLINK et contient une erreur. Nous devrions

plutôt parler de variance à la place d’erreur type.

Ce rapport de cote est estimé par ab/cd avec une variance de 1/a+1/b+1/c+1/d

Où abcd sont les 4 cadrans du tableau 2x2 précédent. Ce test suit une distribution

normale standard dans le cadre d’une régression logistique sous le modèle

multiplicatif sans interaction. Il assume aussi que nous avons les conditions

définies par Hardy-Weinberg et que nous avons l’équilibre de liaison entre les 2

locus testés. Nous ne souhaitons cependant pas ces conditions alors il nous est

impossible d’utiliser PLINK directement. Une régression logistique devra donc être

programmée manuellement dans R.

Le Dr Cordell nous indique cependant une erreur dans cette façon de procéder lors

de sa présentation à Toronto [Cordell, 2011]. En effet, selon elle, l’estimation de

la variance n’est pas appropriée et diminue la puissance statistique. L’estimation

faite dans PLINK n’est cependant pas très loin de la réalité. PLINK suppose que

nous avons 3 fréquences d’haplotypes indépendantes. Ceci est restrictif. Elle

propose donc d’utiliser la méthode Delta pour évaluer la variance. Je ne sais pas

cependant ce qu’est cette méthode et/ou ce qu’elle implique. Il faudra donc aller

voir plus en détail ce qu’elle est et implanter dans R le calcul de Z. Selon Powell

84

dans son article de 2007 [Powell, 2007], l’estimation de la variance par la méthode

delta serait :

n

var(G) = var(Xi) (/Xi)2

i=1

où /Xi est la dérivée partielle de G qui respecte Xi.

Pour conclure, l’approche de PLINK ne sera pas utilisée. Premièrement, elle

suppose l’indépendance, ce que nous ne souhaitons pas, deuxièmement, elle

suppose l’équilibre de liaison, une autre chose non souhaitée. Pour finir, la

variance y est mal estimée. Comme nous l’avons vu, la méthode delta aurait

dû être utilisée pour estimer la variance. La méthode JE pourrait cependant être

une piste à explorer et être comparé avec une régression logistique faite

manuellement.

85

A5 : Résumé MSigDB

La MSigDB contient un total de 6769 ensembles de gènes (gene sets). De ces

gene sets, 6483 sont chez l’humain. La base de données est divisée en 5

catégories (C1 à C5).

La C1 contient les « gene sets » positionnels chez l’humain pour chaque

chromosome.

La C2 contient après une vérification manuelle pour éviter la redondance les

« gene sets » provenant de BioCarta, Gene arrays, KEGG, Reactome, Sigma-

Aldrich pathways, Signal traduction knowledge environment et signaling gateway

La C3 contient des « gene sets » de motifs basés sur les motifs de régulation

conservés provenant d’une étude comparative sur le génome du chien, de la

souris et de l’humain.

La C4 contient les « gene sets » « computationnels » qui sont définis par une

analyse de « expression neighborhoods » sur 380 gènes associés au cancer. Ces

gènes viennent de Human tissue compendium, Global Cancer Map, NCI-60 cell

lines et Novartis carcinoma compendium.

La C5 contient les « gene sets » que l’on peut retrouver dans GO sous le même

terme.

Légende pour la MSigDB :

Tout ce qui est du format chrXqY où X est un chromosome et Y une localisation

vient de la collection 1.

86

Tout ce qui contient CLUSTER ou fini par _UP ou DN ou TARGETS ou CANCER

ou qui commence par ST_ ou SA_ ou SIG_ ou WNT_ ou REACTOME_ ou

BIOCARTA_ ou KEGG_ viennent de la collection 2. Ceux commençant par

REACTOME_ ou BIOCARTA_ ou KEGG_ viennent respectivement de Reactome,

Biocarta et KEGG. Une petite quantité de pathways appartiennent aussi à cette

collection, mais elles n’ont rien de distinctif dans leurs noms.

Tout ce qui commence par V$ ou par une séquence d’Acide Nucléiques qui tient

compte de la redondance du genre GCGSCMNTTT vient de la collection 3

Tout ce qui débute par MORF, GCM, CAR, GNF2 ou module_X où X est un

nombre entre 1 et 576 vient de la collection 4.

La collection 5 vient de GO et chacun des pathways qu’elle contient ne possède

aucun signe distinctif sinon qu’ils n’ont pas les critères des collections 1, 3 et 4 et

que les critères identifiés pour la collection 2 ne s’appliquent pas à eux non plus.

La collection 3 créée beaucoup de chevauchement entre les pathways. Comme la

collection 1 regroupe les gènes par chromosomes et que la collection 4 ne

concerne que le cancer, ce qui n’est pas utile pour le projet, nous utiliserons donc

seulement la collection 2 et la collection 5

87

A6 : Résumé des tests pour paramétrer Biofilter

Note : Ces tests ont été faits avec une vieille version de Biofilter et leurs résultats

ont servi à paramétrer notre analyse avec la version 2 de Biofilter. Ici, dépendant

de la maladie « disease dependant » réfère à la possibilité d’ajouter notre propre

liste de gènes à la base de données de Biofilter et contient les gènes pour la

maladie de Hirschsprung [Cantrell, 2004] [Owens, 2005] [De Pontual, 2009] [Tam,

2009] et de Bardet-Biedl [Badano, 2005].

Sample : Référence. Paramètres de bases avec notre de liste de SNPs

Sample1 : augmentation de max gene count avec notre de liste de SNPs

Sample2 : diminution de max gene count avec notre de liste de SNPs

Sample3 : avec disease dependant complet avec notre de liste de SNPs

Sample4 : avec disease dependant complet et catégorie GO avec notre de liste de

SNPs

Sample5 : avec catégorie GO avec notre de liste de SNPs

Sample6 : avec population CEU_DP0.80 avec notre de liste de SNPs

Sample7 : avec catégorie GO et population avec notre de liste de SNPs

Sample8 : avec disease dependant complet, catégorie GO et population avec

notre de liste de SNPs



Sample11 : avec population CEU_RS1.00 avec notre de liste de SNPs



Sample14 : avec disease dependant contenant juste 1 gène(BBS2) avec notre de

liste de SNPs

Sample15 : avec disease dependant contenant juste 2 gènes(BBS2 et ARL6) avec

notre de liste de SNPs

88

Sample16 : avec disease dependant contenant juste 3 gènes(BBS2, ARL6 et

BBS4) avec notre de liste de SNPs

Sample17 : avec disease dependant contenant juste 2 gènes fictifs(MAISON et

BATEAU) avec notre de liste de SNPs

Sample18 : Meilleurs paramètres : Max gene count a été augmenté, population

fixée à CEU_RS0.80 avec notre de liste de SNPs. P.S.. Le disease dependant

n’est pas utilisé, car il ne permet pas de gagner de nouveaux résultats, juste de

leur donner du poids.

Problème détecté : à cause des isoformes, plusieurs id réfèrent au même symbole

et donc on ne peut savoir quel symbole réfère à quel ID quand on a des doublons

parmi les symboles.

Commande utilisée : Biofilter sample.config -W 2.0 1 000 000 > report_sample.txt

-Sample :

Hirschsprung :

Gène manquant :

EDNRB : Gène important et aucun SNPs. PHOX2B : aucun SNPs.

SNP manquant

SOX10 : Aucun SNPs -> sur chr Y.

Interaction trouvée :

EDN3 interagirait avec ECE1 : Pas selon la littérature examinée…

GDNF interagit avec NRTN : Pas selon la littérature examinée…

Pourtant il ressort avec le meilleur index…

ECE1 interagit avec CEP290 : Pas selon la littérature examinée…

Bardet-Biedl :

SNP manquant :

BBS1 : aucun SNPs. BBS10 aucun SNPs. BBS12 aucun SNPs.

WDPCP aucun SNPs.

89

Interaction trouvée :

BBS2 BBS4 ok

BBS4 MKKS ok

BBS2 BBS5 ok

BBS2 BBS7 ok

BBS2 ARL6 ok

ARL6 BBS7 ok

ARL6 MKKS ok

ARL6 BBS5 ok

ARL6 BBS4 ok

BBS4 BBS7 ok

BBS4 CEP290 ok

BBS4 MKKS ok

BBS4 BBS5 ok

BBS4 BBS9 ok

BBS5 TTC8 ok

BBS5 BBS9 ok

BBS5 BBS7 ok

BBS5 TTC8 ok

BBS5 MKKS ok

Etc.

Mais MKS1 et TRIM32 aucune interaction de trouvée. Toutes les

autres interactions attendues ont été trouvées.

-Sample1 : plus d’associations totales trouvées, mais rien de nouveau pour nos

maladies qui se retrouvent dans la littérature.

-Sample2 : moins d’associations trouvées et perte de quelques associations

recherchées.

90

-Sample3 : non fonctionnel. Disease dependant mal défini. Disease dependant

n’égale pas tous les gènes de la maladie comme je le pensais, mais plutôt gènes

interagissant entre eux. En gros, chaque élément d’un groupe disease dependant

interagit avec tous les autres éléments du même groupe disease dependant.

Chaque élément d‘un groupe disease dependant fait aussi augmenter l’index

d’implication de chaque combinaison avec d’autres gènes où il apparaît.

-Sample4 : catégorie GO mal définie, car catégorie GO actuelle utilisée pour

définition n’égale pas ceux de Biofilter datant de 2008. Disease dependant mal

défini aussi alors rien de concluant.


définition n’égale pas ceux de Biofilter datant de 2008.

-Sample6 : on a attrapé des gènes qui étaient manquants, mais nous n’avons pas

de nouvelle interaction valide selon la littérature.

Hirschsprung :

Interaction supplémentaire trouvée :

EDN3 interagirait avec EDNRB? Pas selon la littérature examinée


définition n’égale pas ceux de Biofilter datant de 2008.

-Sample8: catégorie GO mal définie, car catégorie GO actuelle utilisée pour

définition n’égale pas ceux de Biofilter datant de 2008. Disease dependant mal

défini aussi alors rien de concluant.

-Sample9 : Perte de certains SNPs comparé à l’exemple 6, mais aucune perte de

gènes ou d’interaction. Seul le models count est affecté.

-Sample10 : Identique à l’exemple 6.

91

-Sample11 : On a des SNPs de plus pour notre liste de gènes retenus comparés à

l’exemple 6 mais rien de nouveau. Nous avons donc un meilleur « Models count »

que l’exemple 6.

-Sample12 : On a attrapé un gène qui était manquant dans Bardet-Biedl

(BBS10) et on a trouvé 4 de ses interactions.

-Sample13 : On a des SNPs de plus pour notre liste de gènes retenus comparés à

l’exemple 12 mais rien de nouveau. Nous avons donc un meilleur « Models

count » que l’exemple 12.

-Sample14 :Même résultats, mais avec un index d’implication plus grand quand le

gène est présent.

-Sample15 :BBS2 interagit déjà avec ARL6 mais l’interaction apparaît une fois de

plus dans la liste. Si non, les résultats sont les mêmes, mais avec un index

d’implication plus grand quand un des gènes est présent.

-Sample16 : une interaction supplémentaire avec chacun des 2 autres gènes a été

ajoutée pour nos 3 gènes. Si non, les résultats sont les mêmes, mais avec un

index d’implication plus grand quand un des gènes est présent.

-Sample17 :Rien, totalement identique à l’exemple de référence.

Essayé : tenter de faire une recherche par mots clé dans la base de données de

Biofilter pour retrouver les bonnes catégories go correspondant à la notation

actuelle.

Non concluant.

92

Conclusion :

Ce test nous donne les meilleurs résultats. Les interactions connues ressortent

toutes avec de bonnes valeurs d’indices.

-Sample18 :

EDNRB-EDN3

EDN3-ECE1

ECE1-BBS5

ECE1-CEP290

GDNF- NRTN

BBS2-ARL6

BBS2-BBS5

ARL6-BBS5

BBS4 -ECE1

BBS4 -BBS2

BBS4 -ARL6

BBS4 -BBS5

BBS4 -BBS7

BBS4 -CEP290

MKKS-ECE1

MKKS-BBS2

MKKS-ARL6

MKKS-BBS4

MKKS-BBS5

MKKS-BBS7

MKKS-BBS10

MKKS-BBS12

BBS7-ECE1

BBS7-BBS2

BBS7-ARL6

BBS7-BBS5

TTC8-BBS2

93

TTC8-BBS4

TTC8-BBS5

TTC8-BBS7

TTC8-BBS9

BBS9-BBS2

BBS9-BBS4

BBS9-BBS5

BBS9-BBS7

BBS10-ARL6

BBS10-BBS5

BBS12-BBS10

La restriction de champ de recherche avec l’aide des catégories GO n’est

actuellement pas possible en raison de l’âge avancé de la base de données de

Biofilter. Le disease dependant permet de définir des interactions connues et de

leur donner un poids, c’est-à-dire, c’est comme si nous donnions une base de

données supplémentaires à Biofilter. Il permet aussi de donner plus de poids aux

interactions contenant l’un des gènes de notre liste de gènes retenus . Une

solution serait de faire un groupe par gène d’intérêt et de ne mettre dans un même

groupe que des gènes dont on est certain qu’ils interagissent. L’utilisation d’une

population permet d’attraper des gènes non contenus dans notre liste de SNPs.

L’augmentation du « Max gene count » permet d’avoir des pathways plus grands

et donc offre plus de possibilités. Pour le futur, il faudra voir si nous pouvons enfin

utiliser les catégories GO pour restreindre notre champ de recherche avec la

nouvelle version de Biofilter quand elle sera disponible. Sinon, il faudra trouver un

autre moyen pour restreindre notre liste de SNPs. Au final, tout marche très bien

pour Bardet-Biedl, mais pas pour Hirschsprung.

Avec la dernière version de Biofilter (2.0) et une base de données à jour, le logiciel

a été utilisé avec notre meilleure configuration obtenue sur les jeux de données de

94

Bardet-Biedl et Hirschsprung. Pour paramétrer nos analyses, nous avons pris la

valeur de l’indice la plus basse pour une interaction réelle obtenue pour ces

maladies afin de servir de point de coupure (cut off) pour notre jeu de données.

Cet indice a été calculé à 4-156

95

A7 : Détails des tests pour paramétrer GSEA

La commande R par défaut pour lancer GSEA est

system(command = "java -cp gsea2_2.07.jar -Xmx1024m xtools.gsea.GseaPreranked -gmx

C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/brain.gmt -collapse true -mode

Max_probe -norm meandiv -nperm 100 -rnk C:/Documents and

Settings/noes0001/Bureau/GSEA/Projet/Ranked list.rnk -scoring_scheme weighted -

rpt_label reference -chip C:/Documents and

Settings/noes0001/Bureau/GSEA/Projet/Annotation.chip -include_only_symbols true -

make_sets true -plot_top_x 50 -rnd_seed 12345 -set_max 555 -set_min 5 -zip_report false -

out C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/reference -gui false")

java -cp gsea2_2.07 : lancer GSEA

-Xmx1024m : Allouer la mémoire max que supporte GSEA

xtools.gsea.GseaPreranked : On veut utiliser l’outil pour traiter des listes déjà ordonnées

-gmx C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/brain.gmt : On spécifie

notre liste de pathways

-collapse true : On remplace nos id de SNPs par les symboles de gènes selon le fichier

d’annotation

-mode Max_probe : Dans le cas où plusieurs SNPs réfèrent à un même gène, on prend celui

avec le rang le plus élevé dans notre liste

-norm meandiv : la méthode de normalisation qui sera utilisée pour normaliser

l’enrichissement. Voir plus bas pour explications sur les méthodes disponibles.

96

-nperm 100 : le nombre de permutations

-rnk C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/Ranked list.rnk : Notre

liste déjà ordonnée

-scoring_scheme weighted : Poids donné pour la statistique d’enrichissement

-rpt_label reference : La première partie du nom du sous-répertoire où sera déposé le

résultat de l’analyse. Ce nom se complète du type d’analyse et d’un numéro.

-chip C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/Annotation.chip :

L’endroit où trouver notre fichier d’annotation

-include_only_symbols true : On ne considère que les SNPs pour lesquels on a trouvé un

symbole correspondant selon notre fichier d’annotation

-make_sets true : On veut avoir un rapport détaillé

-plot_top_x 50 : Faire les graphiques pour les 50 meilleurs résultats

-rnd_seed 12345 : Valeur initiale de notre racine qui va générer les nombres aléatoires pour

les permutations

-set_max 555 : Le nombre maximum de gènes que peut contenir un pathway

-set_min 5 : Le nombre minimal de gènes que peut contenir un pathway

-zip_report false : Ne pas compresser le rapport final

97

-out C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/reference : Le chemin du

répertoire qui contiendra le sous-répertoire où seront rangés les résultats.

-gui false : Nous ne voulons pas lancer l’interface graphique de GSEA

Clarification de certains paramètres

Nombre de permutations : Le nombre de permutations n’affecte pas le score

d’enrichissement. Il joue son rôle pour le calcul du score d’enrichissement normalisé et

pour le FDR (False Discovery Rate). Le minimum de permutation que GSEA accepte est

1. C’est ainsi, car GSEA a besoin d’au moins une permutation pour calculer son score

d’enrichissement normalisé et que les données sont classées dans le fichier de sortie par

ordre de valeur d’enrichissement normalisé. Le FDR est cependant à 0 quand nous ne

faisons qu’une seule permutation. Comme nous ne nous intéressons qu’au score

d’enrichissement « brut », nous utiliserons donc seulement une seule permutation et nous

ferons par la suite nos propres permutations.

Normalisation : Méthode de normalisation standard de GSEA pour calculer la valeur

d’enrichissement normalisée ou aucune méthode de normalisation. Quand aucune méthode

de normalisation n’est sélectionnée, la valeur d’enrichissement normalisé est égale à la

valeur d’enrichissement.

98

Weight : Le poids affecte directement le score d’enrichissement et les résultats sont très

différents. Il faudra donc se pencher très attentivement sur ce sujet pour choisir le bon

paramètre de poids. En gros, la valeur de 0 est la valeur « classique » et permet de faire un

test statistique standard de Kolmogorov–Smirnov . Nous pouvons aussi la changer pour 1,

1,5 et 2. La formule pour calculer l’enrichissement est :

La valeur d’enrichissement est la déviation maximum de 0 de Phit - Pmiss

S est notre pathway qu’on analyse actuellement, Nh est le nombre de gènes dans S, N est le

nombre de gènes de notre liste ordonnée, i est la position du gène dans notre liste ordonnée,

gi est le gène à la position i dans notre liste ordonnée et P est le poids. Si S est distribué

aléatoirement, alors le score d’enrichissement est petit. Nous pouvons donc lui donner notre

liste avec nos valeurs-p alléliques.

Note supplémentaire : Le test pour 0 permutation et aucune normalisation n’a été faite. Ça

marche. Nous n’avons pas de FDR, mais nous avons notre score d’enrichissement.

Comme noté plus bas, il faut considérer le poids. Pour un poids Classique, la commande à

utiliser est donc :

system(command = "java -cp gsea2_2.07.jar -Xmx1024m xtools.gsea.GseaPreranked -gmx

C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/brain.gmt -collapse true -mode

Max_probe -norm None -nperm 0 -rnk C:/Documents and

Settings/noes0001/Bureau/GSEA/Projet/Ranked list perm.rnk -scoring_scheme classic -

rpt_label perm -chip C:/Documents and

Settings/noes0001/Bureau/GSEA/Projet/Annotation.chip -include_only_symbols true -

make_sets true -plot_top_x 100 -rnd_seed 12345 -set_max 2200 -set_min 5 -zip_report

false -out C:/Documents and Settings/noes0001/Bureau/GSEA/Projet/permutation -gui

false")

99

Petit détail : Le nom du répertoire d’une analyse contient un numéro. Ce numéro est le

timestamp. Il est utilisé pas GSEA comme valeur initiale de notre racine qui va générer les

nombres aléatoires pour les permutations quand la racine n’est pas définie manuellement.

Complément : GSEA commence par le rang 0 alors pour le rang max du score

d’enrichissement, il faut faire +1 pour avoir le rang « réel ».

En mode classique, le saut positif est de 1/nb sondes présentes dans le pathway.

Le paramètre Rj est la valeur numérique du rang donnée en entrée quand on fait une

analyse avec une liste pré ordonnée. Voir colonne Rj du fichier Excel GSEA.xls et voir

test2.gmt pour la définition des pathways

J’ai reçu une confirmation de l’équipe de GSEA pour le paramètre Rj

« In this case, rj corresponds to the values that you have

used to rank order genes in your ranked list.

The interpretation of these values, of cause, will depend on

their meaning. For example, standard GSEA approach uses

signal-to-noise metric, which reflects the degree of

correlation of gene expression with a phenotype class

comparison. Thus, genes on top of the ranked list are up-

regulated in phenotype A compared to phenotype B. »

Tous les tests faits avec un poids de 1,5 donnent de façon illogique des scores

d’enrichissement majoritairement négatif. Après consultation avec Alexandre, il a été

décidé de ne plus utiliser le paramètre de poids de l,5

De façon préliminaire, les 10 meilleurs pathways en mode classic sont :

SMID_BREAST_CANCER_RELAPSE_IN_LIVER_DN

BIOCARTA_EPHA4_PATHWAY

100

REACTOME_CRMPS_IN_SEMA3A_SIGNALING

NIELSEN_MALIGNAT_FIBROUS_HISTIOCYTOMA_UP

SMID_BREAST_CANCER_NORMAL_LIKE_DN

TCGA_GLIOBLASTOMA_MUTATED

WU_ALZHEIMER_DISEASE_DN

WU_ALZHEIMER_DISEASE_UP

TAKADA_GASTRIC_CANCER_COPY_NUMBER_DN

BIOCARTA_TRKA_PATHWAY

Position des 10 premiers pathways du mode classique selon le mode de normalisation

Classic 1 2

1 8 87

2 10 31

3 1 3

4 13 99

5 7 66

6 34 298

7 17 38

8 15 16

9 29 79

10 16 64

Score d’enrichissement(ES) des 10 meilleurs résultats classic selon le mode de

normalisation

Classic 1 2

0,5189054 0,5951473 0,63484037

0,51050895 0,59286904 0,6879782

0,50690776 0,73885065 0,79277444

0,48405036 0,58426297 0,62869895

0,45913818 0,6083488 0,6489707

0,45417812 0,5306511 0,56227285

0,44760314 0,57290554 0,67738986

0,44744188 0,57928526 0,7311483

101

0,42618412 0,5412565 0,64165777

0,41568193 0,57822776 0,6498014

Nombre de gène des 10 premiers pathways Classic

SMID_BREAST_CANCER_RELAPSE_IN_LIVER_DN 7

BIOCARTA_EPHA4_PATHWAY 7

REACTOME_CRMPS_IN_SEMA3A_SIGNALING 13

NIELSEN_MALIGNAT_FIBROUS_HISTIOCYTOMA_UP 6

SMID_BREAST_CANCER_NORMAL_LIKE_DN 5

TCGA_GLIOBLASTOMA_MUTATED 8

WU_ALZHEIMER_DISEASE_DN 10

WU_ALZHEIMER_DISEASE_UP 9

TAKADA_GASTRIC_CANCER_COPY_NUMBER_DN 21

BIOCARTA_TRKA_PATHWAY 10

Les 10 meilleurs pathways en mode P1 sont :


BIOCARTA_P35ALZHEIMERS_PATHWAY

KUMAMOTO_RESPONSE_TO_NUTLIN_3A_UP

BEGUM_TARGETS_OF_PAX3_FOXO1_FUSION_AND_PAX3

V$MEF2_04

BIOCARTA_CK1_PATHWAY


SMID_BREAST_CANCER_RELAPSE_IN_LIVER_DN

V$ALX4_01


Position des 10 premiers pathways du mode P1 selon le mode de normalisation

102

Classic 1 2

3 1 3

48 2 1

35 3 8

418 4 11

23 5 14

24 6 7

5 7 66

1 8 87

26 9 28

2 10 31

Score d’enrichissement(ES) des 10 meilleurs résultats P1 selon le mode de normalisation

Classic 1 2

0,50690776 0,73885065 0,79277444

0,26465407 0,6982224 0,80967903

0,2936697 0,6652875 0,76300794

-0,28701988 0,63920623 0,7495076

0,33949506 0,630241 0,7387719

0,33591905 0,6198382 0,7652375

0,45913818 0,6083488 0,6489707

0,5189054 0,5951473 0,63484037

0,3330338 0,59349 0,69327265

0,51050895 0,59286904 0,6879782

Nombre de gène des 10 premiers pathways P1


BIOCARTA_P35ALZHEIMERS_PATHWAY 7

KUMAMOTO_RESPONSE_TO_NUTLIN_3A_UP 6

BEGUM_TARGETS_OF_PAX3_FOXO1_FUSION_AND_PAX3 7

V$MEF2_04 17

BIOCARTA_CK1_PATHWAY 11

103


SMID_BREAST_CANCER_RELAPSE_IN_LIVER_DN 7

V$ALX4_01 11


Les 10 meilleurs pathways en mode P2 sont :

BIOCARTA_P35ALZHEIMERS_PATHWAY

V$ROAZ_01


KORKOLA_SEMINOMA_DN

NEBEN_AML_WITH_FLT3_OR_NRAS_DN

BIOCARTA_PARKIN_PATHWAY

BIOCARTA_CK1_PATHWAY

KUMAMOTO_RESPONSE_TO_NUTLIN_3A_UP

SMID_BREAST_CANCER_RELAPSE_IN_PLEURA_UP

KORKOLA_CHORIOCARCINOMA_DN

Position des 10 premiers pathways du mode P2 selon le mode de normalisation

Classic 1 2

48 2 1

400 26 2

3 1 3

78 40 4

399 19 5

104 85 6

24 6 7

35 3 8

59 12 9

64 24 10

Score d’enrichissement(ES) des 10 meilleurs résultats P2 selon le mode de normalisation

104

Classic 1 2

0,26465407 0,6982224 0,80967903

-0,4426449 0,5513922 0,8032562

0,50690776 0,73885065 0,79277444

0,2193652 0,52480245 0,7896308

-0,5368134 0,56202084 0,787401

0,20182091 0,4753262 0,78647184

0,33591905 0,6198382 0,7652375

0,2936697 0,6652875 0,76300794

0,24996905 0,5848233 0,76029426

0,24440977 0,5536337 0,757106

Nombre de gène des 10 premiers pathways P2

BIOCARTA_P35ALZHEIMERS_PATHWAY 7

V$ROAZ_01 5


KORKOLA_SEMINOMA_DN 9

NEBEN_AML_WITH_FLT3_OR_NRAS_DN 12

BIOCARTA_PARKIN_PATHWAY 10

BIOCARTA_CK1_PATHWAY 11

KUMAMOTO_RESPONSE_TO_NUTLIN_3A_UP 6

SMID_BREAST_CANCER_RELAPSE_IN_PLEURA_UP 6

KORKOLA_CHORIOCARCINOMA_DN 9

Nous tenterons maintenant de voir s’il y a un biais d’inséré dans le calcul du ES en fonction

de la taille des pathways.

107

Il semble donc y avoir un biais avec les petits pathways comme le suggère la

documentation de GSEA. Dans la documentation, il est recommandé de ne garder que les

pathways de plus de 15 gènes. Il semblerait cependant que plus la valeur de P est grande,

plus ce biais est atténué.

Refaisons l’exercice précédent, mais avec le 5e, 10

e, 20

e. 40

e, 80

e, 160

e et 320

e meilleurs

pathways

Les 7 pathways en mode Classic sont :


BIOCARTA_TRKA_PATHWAY

REACTOME_TRAFFICKING_OF_GLUR2_CONTAINING_AMPA_RECEPTORS

V$PPARA_01

POMEROY_MEDULLOBLASTOMA_PROGNOSIS_UP

V$HTF_01

TGANNYRGCA_V$TCF11MAFG_01

Position des 7 pathways du mode Classic selon le mode de normalisation

Classic 1 2

5 7 66

10 16 64

20 66 210

40 36 95

80 61 56

160 187 395

320 365 419

Score d’enrichissement(ES) des 7 résultats Classic selon le mode de normalisation

Classic 1 2

0,45913818 0,6083488 0,6489707

0,41568193 0,57822776 0,6498014

108

0,34560102 0,49588805 0,59011585

0,28798446 0,52996826 0,6299553

0,2193586 0,50066674 0,6587147

0,16372366 0,42719176 0,5308128

0,09282295 0,3690962 0,5208686

Nombre de gène des 7 pathways Classic


BIOCARTA_TRKA_PATHWAY 10

REACTOME_TRAFFICKING_OF_GLUR2_CONTAINING_AMPA_RECEPTOR

S 15

V$PPARA_01 23

POMEROY_MEDULLOBLASTOMA_PROGNOSIS_UP 27

V$HTF_01 39

TGANNYRGCA_V$TCF11MAFG_01 165

Les 7 pathways en mode P1 sont :

V$MEF2_04


PIEPOLI_LGI1_TARGETS_UP

KORKOLA_SEMINOMA_DN

V$HNF6_Q6

REACTOME_P75_NTR_RECEPTOR_MEDIATED_SIGNALLING

V$HNF4_Q6

Position des 7 pathways du mode P1 selon le mode de normalisation

Classic 1 2

23 5 14

2 10 31

15 20 17

78 40 4

83 80 71

81 160 325

109

332 320 308

Score d’enrichissement(ES) des 7 résultats P1 selon le mode de normalisation

Classic 1 2

0,33949506 0,630241 0,7387719

0,51050895 0,59286904 0,6879782

0,38227427 0,56173825 0,7270747

0,2193652 0,52480245 0,7896308

0,21180782 0,48144704 0,64479864

0,21412499 0,4363029 0,55343735

0,08750891 0,38547114 0,5601743

Nombre de gène des 7 pathways P1

V$MEF2_04 17


PIEPOLI_LGI1_TARGETS_UP 10

KORKOLA_SEMINOMA_DN 9

V$HNF6_Q6 142

REACTOME_P75_NTR_RECEPTOR_MEDIATED_SIGNALLING 68

V$HNF4_Q6 149

Les 7 pathways en mode P2 sont :

NEBEN_AML_WITH_FLT3_OR_NRAS_DN

KORKOLA_CHORIOCARCINOMA_DN

REACTOME_RECRUITMENT_OF_NUMA_TO_MITOTIC_CENTROSOMES

KEGG_PRION_DISEASES

V$OCT1_07

V$MTF1_Q4

V$ELF1_Q6

Position des 7 pathways du mode P2 selon le mode de normalisation

Classic 1 2

399 19 5

110

64 24 10

97 21 20

120 42 40

118 64 80

278 240 160

243 197 320

Score d’enrichissement(ES) des 7 résultats P2 selon le mode de normalisation

Classic 1 2

0,5368134 0,56202084 0,787401

0,24440977 0,5536337 0,757106

0,20564577 0,558864 0,7198971

0,1898493 0,51849604 0,67481565

0,1908273 0,4962236 0,63997865

0,11010924 0,41193867 0,60161746

0,1234282 0,42350313 0,55625886

Nombre de gène des 7 pathways P2

NEBEN_AML_WITH_FLT3_OR_NRAS_DN 12

KORKOLA_CHORIOCARCINOMA_DN 9

REACTOME_RECRUITMENT_OF_NUMA_TO_MITOTIC_CENTROSOMES 8

KEGG_PRION_DISEASES 26

V$OCT1_07 97

V$MTF1_Q4 145

V$ELF1_Q6 138

Les tableaux ont été faits pour “toutes” les possibilités.

2 types de graphiques ont été aussi faits pour chaque possibilité.

Différents graphiques ont été produits. Voici les résultats intéressants.

111

Dans un premier temps, les valeurs calculées par GSEA d’ES ont été comparées au NES

que nous avons calculé et à la valeur P sur le NES que nous avons aussi calculée pour les

différends poids (Classic, P1 et P2).

112

Nous avons aussi des résultats similaires avec un mapping extended. Le nuage diffus nous

indique qu’ES et NES corrèlent très mal entre eux et nous voyons que Classic diffère

beaucoup plus de P1 ou P2 et que P1 et P2 se ressemblent beaucoup.

113

Si on compare nos valeurs d’ES à la valeur P que nous avons calculées, nous avons :

114

Encore une fois, les résultats sont similaires en Extended. Notons aussi qu’encore une fois,

le comportement de P1 est similaire à celui de P2.

Comparons maintenant NES et P-Value :

116

Nous observons ici une très forte corrélation entre notre NES et notre valeur P, ce qui nous

indique que notre NES est quand même très représentatif. Ici la différence entre P1-P2 et

117

Classic est plus subtile, mais nous voyons que nous avons une moins bonne résolution en

Classic.

Comparons maintenant nos différentes valeurs avec la taille de nos pathways.

122

Nous pouvons constater que pour l’ES, nous avons un biais avec la taille des pathways et

que ce biais est en partie corrigé en P1 et P2. Le NES continue de suivre la Valeur P et les

2 ont une allure binomiale.

123

Si nous prenons nos 20 pathways avec les meilleures valeurs d’ES et que nous faisons les

boîtes à moustache (box plots) pour soit les scores d’ES, NES ou P-Value de ces pathways,

peu importe le mode Classic, P1 ou P2 et le mapping Extended ou Directe, nous avons le

genre de graphique suivant :

124

Nous voyons donc encore un peu plus que le score de ES ne veut pas dire grand chose car

on en peut comparer les pathways entre eux. En revanche, si nous regardons les mêmes

graphiques, mais en prenant les pathways ayant la meilleure valeur de NSE nous obtenons :

128

Nous voyons encore une fois que le mode Classic donne des résultats totalement différents

que P1 et P2 et que même si P2 a des résultats similaires à P1, il offre quand même une

meilleure résolution.

129

Les graphiques suivants ne sont qu’une série d’exemples parmi tant d’autres démontrant

que les résultats de P1 et P2 sont relativement similaires entre eux, mais quand même très

différents de ceux obtenus en Classic.

133

Nous pouvons donc conclure que la méthode Classic, comme nous oublions un gros

morceau dans la formule, donne des résultats très différents de ceux que l’on peut obtenir

en P1 et P2. Le score ES ne représente pas bien nos résultats, car il est presque impossible

de pouvoir comparer nos pathways entre eux. Le NES qu’on calcule, lui, le permet, car il

suit bien les valeurs –P que nous avons calculés. Molière Nguilé Makao pense qu’une

technique de lissage permettrait de le mettre plus facilement en évidence. Nous n’avons

malheureusement pas eu le temps de valider cette approche.

Comme les résultats de P2 sont très similaires à ceux de P1 et afin de simplifier les calculs,

nous utiliserons Classic et P1 pour faire notre enrichissement.

134

A8 : Vulgarisation - La Schizophrénie : Une maladie multigénique

complexe

La schizophrénie est une maladie très complexe sur laquelle on ne sait que peu de

choses. Cet essai tentera d’illustrer clairement mes recherches sur cette maladie

tout en tentant d’y apporter un éclairage nouveau.

Pour commencer, imaginons que notre cerveau est comme une maison. Tout

comme une maison a plusieurs pièces, notre cerveau a plusieurs régions. Chaque

région de notre cerveau a une série de fonctions très précises, tout comme les

pièces de notre maison. Dans la cuisine nous avons une chaise. La

Schizophrénie est due à un bris dans une des régions du cerveau. Nous pouvons

assimiler ce bris à celui de notre chaise. On décrit souvent la Schizophrénie

comme étant une maladie qui se développe suite à des facteurs environnementaux

extrêmes, comme par exemple la prise de drogue, le manque de sommeil, des

évènements très stressants, etc. Pour notre chaise, ces facteurs

environnementaux pourraient se comparer à sauter sur la chaise, la tirer dans les

murs, s’assoir à 10 personnes dessus, etc. Un autre côté est le type de bris. Est-

ce qu’une patte est cassée? Est-ce que c’est le dossier? De la même manière, il

existe plusieurs sortes de Schizophrénie que nous ne savons pas encore bien

définir. Si le dossier est brisé, oui la chaise est brisée, mais elle tient encore

debout et peut servir comme tabouret par exemple. Un aspect de la Schizophrénie

souvent négligé est le facteur génétique. Dans notre exemple, nous pouvons

comparer ce facteur au modèle de la chaise : Avons-nous une chaise sur roulette?

135

À trois pattes? À quatre pattes? Etc. Nous pouvons aussi considérer le type de

matériaux utilisés : Est-ce que notre chaise est en bois? En métal? En plastique?

Etc. Certaines chaises sont donc plus solides que d’autres et peuvent mieux

supporter des mauvais traitements. Dans notre exemple, nous pouvons dire que

notre ADN, c’est l’usine où l’on fabrique les meubles. Nous connaissons déjà

certaines choses sur cette usine. Nous savons où et comment sont construits

certains meubles par exemple. Pour la Schizophrénie, nous sommes encore loin

de tout savoir. Nous savons par exemple où sont fabriqués les dossiers, mais

nous ne savons pas encore où sont fabriquées les pattes ou encore où

l’assemblage est fait. Nous ne connaissons pas non plus les différents matériaux

employés dans la construction des chaises ainsi que leur solidité. Nous ne savons

pas également quels sont les modèles possibles et quel modèle de chaise est le

plus solide. Mon travail de recherche, c’est de tenter de répondre à ces diverses

questions et de mieux classer les types de Schizophrénie pour éviter de

simplement dire que la chaise est cassée.

Actuellement, nous ne sommes pas en mesure de réparer les chaises quand elles

sont brisées. Nous réussissons à atténuer les effets de la Schizophrénie par la

prise de médicament. Nous ne la guérissons pas. Une meilleure compréhension

de la chaîne de montage pourra nous permettre plus tard de réparer nos chaises.

Comme nous ne connaissons pas bien nos chaises, nous ne pouvons pas dire qui

a une chaise solide et qui en a une fragile. Une meilleure compréhension à ce

niveau permettra avec une simple prise de sang de pouvoir déterminer quelles

sont les personnes les plus susceptibles de développer un jour la maladie et ainsi

136

de leur offrir différentes thérapies pour leur permettre d’éviter de briser leur chaise.

Nous entendons parfois parler de thérapie génique. Une thérapie génique serait

d’apporter directement des changements dans notre usine pour s’assurer de

n’avoir que des chaises très résistantes. Cette approche est cependant encore loin

d’être utilisée, car nous sommes loin de bien comprendre notre usine dans toute

sa complexité. En changeant le bois par de l’acier par exemple, nous pourrions

nous retrouver avec des problèmes pour faire un violoncelle. Mes recherches sont

cependant un pas dans la bonne direction.

Attardons-nous maintenant sur les moyens que j’utilise dans mes recherches pour

tenter d’arriver à ces objectifs. Pour trouver où sont fabriqués les morceaux de la

chaise, je compare plusieurs usines ensemble. Des usines de personnes non

atteintes et des usines de personnes dont les chaises ne sont pas assez solides. Il

en faut plusieurs. Si je ne comparais que 2 usines, je pourrais voir dans l’usine

faisant de bonnes chaises par exemple qu’elle fait aussi des poêles à gaz. Dans

celle faisant les chaises défectueuses, les poêles fabriqués pourraient être

électriques. Comme un poêle n’a aucune influence sur une chaise, je pourrais

faussement conclure à leur implication dans la solidité d’une chaise. En ayant

plusieurs usines, je devrais en trouver faisant des chaises défectueuses, mais

aussi des poêles à gaz. Je n’arriverai donc pas à de fausses conclusions. Pour

éviter d’avoir trop d’éléments différents à comparer, il faut éviter de comparer des

pommes à des oranges. Il faut donc prendre des usines qui sont relativement

semblables. Le meilleur moyen d’y arriver est donc d’étudier une population

relativement homogène, c’est-à-dire des individus avec le moins de différence

137

possible entre eux, comme l’ethnie par exemple. La population choisie pour l’étude

est celle de l’Est du Québec.

Pour faire nos comparaisons, il existe plusieurs méthodes. Avec les grandes

avancées récentes dans le domaine, de nombreuses méthodes ont vu le jour en

un court laps de temps. Certaines peuvent être bonnes, d’autre pas. D’autres sont

bonnes pour certaines situations, mais ne le sont pas dans d’autres. Pour se

démêler dans toutes ces avancées, la première étape de mon projet consiste à

tester ces méthodes sur des parties de l’usine qui sont déjà très bien connues afin

de trouver celle qui donnera le meilleur résultat. C’est la partie sur laquelle je

travaille actuellement. Quand cette méthode sera trouvée, elle sera appliquée sur

les données génétiques de la population d’études. Cette étape constitue aussi la

force de ma recherche. En effet, plusieurs chercheurs proposent leur propre

méthode ou utilisent la méthode de quelqu’un d’autre sans se poser trop de

questions. La comparaison de méthode est une pratique jusqu’à maintenant trop

peu commune. L’explosion des connaissances des dernières années nécessite

une adaptation du milieu scientifique qui n’est pas encore parfaite. Par exemple,

j’ai fait mon baccalauréat en bio-informatique. Dans ce domaine très récent, nous

offrons plusieurs solutions efficaces à des problèmes courants des chercheurs.

Cependant, plusieurs ignorent notre existence ou encore ce que l’on peut leur

apporter.

138

En résumé, la Schizophrénie est une maladie sur laquelle nous nous interrogeons

encore beaucoup. Mon travail de recherche essaie de répondre à ces questions

afin de mieux comprendre la maladie et de pouvoir soit la prévenir, soit la soigner

ou diminuer la susceptibilité de pouvoir la développer. Ma recherche se fait en

comparant l’ADN de personnes de l’Est du Québec qui ont développé la maladie à

celui de personnes ne l’ayant pas développée. Comme travail préalable, les

méthodes de comparaisons sont testées sur une maladie aux causes génétiques

connues afin de trouver la meilleure pour ensuite l’appliquer sur nos données.