thèse de magister - univ oran 1

181
DEPARTEMENT D’INFORMATIQUE MEMOIRE Présenté par M elle Fyad Houda En vue de l’obtention du DIPLÔME DE MAGISTER Spécialité Informatique Option : Informatique et Automatique Intitulé Technique de Bio-Mining pour la représentation, la gestion et l’extraction des informations associées aux séquences d’ADN Soutenu le / / devant le jury composé de : 2010-2011 Président : Mr Beldjilali. B Professeur Université d’Oran Examinateur : Mr Belalem. G Maître de Conférences Université d’Oran Examinateur : Mr .Senouci .M Maître de Conférences Université d’Oran Rapporteur : Mr. Bouamrane. K Maître de Conférences Université d’Oran Rapporteur : Mr. Atmani. B Maître de Conférences Université d’Oran

Upload: others

Post on 24-Oct-2021

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Thèse de magister - Univ Oran 1

DEPARTEMENT D’INFORMATIQUE

MEMOIRE

Présenté par

Melle Fyad Houda

En vue de l’obtention du

DIPLÔME DE MAGISTER

Spécialité Informatique

Option : Informatique et Automatique

Intitulé

Technique de Bio-Mining pour la représentation, la gestion et l’extraction des

informations associées aux séquences d’ADN

Soutenu le / / devant le jury composé de :

2010-2011

Président : Mr Beldjilali. B Professeur Université d’Oran

Examinateur : Mr Belalem. G Maître de Conférences Université d’Oran

Examinateur : Mr .Senouci .M Maître de Conférences Université d’Oran

Rapporteur : Mr. Bouamrane. K Maître de Conférences Université d’Oran

Rapporteur : Mr. Atmani. B Maître de Conférences Université d’Oran

Page 2: Thèse de magister - Univ Oran 1

Dédicaces

mes très chers parents qui ont toujours été là pour moi, et qui

m'ont donné un magnifique modèle de labeur et de

persévérance. J'espère qu'ils trouveront dans ce travail toute ma

reconnaissance et tout mon amour.

mon cher frère Samir Mounir.

tous mes ami(e)s je les remercie pour leur dévouement et leur

amitié sans faille.

Page 3: Thèse de magister - Univ Oran 1

Remerciements

Au terme de ce travail, qu’il me soit permis d’exprimer mes plus vifs remerciements à :

Mr Bouamrane K. Maître de Conférences et Chef du Département d’Informatique à

l’Université d’Oran pour avoir accepté de diriger ce travail et avoir bien voulu y consacrer son

temps. Ses conseils, sa disponibilité et sa précieuse aide qui m’ont guidé tout le long de la

conduite de cette étude.

Mr Atmani B. Maître de Conférences à l’Université d’Oran pour avoir accepté également de

m’encadrer. Ses orientations, ses précieux conseils m’ont permis d’avancer dans mes

recherches.

Mr Beldjilali B. Professeur à l’Université d’Oran pour m’avoir accueilli dans son équipe

Informatique & Automatique et pour m’avoir fait l’honneur de présider ce jury. Qu’il trouve

ici l’expression de mon profond respect.

Mr Belalem G. Maître de Conférences à l’Université d’Oran pour avoir accepté d’examiner ce

travail, qu’il trouve ici l’expression de ma reconnaissance.

Mr Senouci M. Maître de Conférences à l’Université d’Oran pour avoir accepté de juger ce

travail, qu’il trouve ici le témoignage de ma reconnaissance.

Je tiens à remercier aussi toutes les personnes qui ont contribué de près ou de loin à la

réalisation de ce travail.

Page 4: Thèse de magister - Univ Oran 1

Liste des figures Figure 1.1 Architecture type d’un système d’E.C.D 10

Figure 1.2 Chaîne de traitement dans un processus E.C.T

11

Figure 2.1 Composants des ontologies

28

Figure 2.2 Classification des ontologies selon l’objet à modéliser 30

Figure 2.3 Typologie des ontologies selon le type de connaissances à modéliser

31

Figure 3.1 Cycle de vie des ontologies

55

Figure 4.1 Schématisation de l’approche

58

Figure 4.2 Exemple d’une entrée de fiche d’ESTs

61

Figure 4.3 Processus d’apprentissage et d’extraction de K.E.A 68

Figure 4.4 Extrait du résultat obtenu pour 100 fiches d’ESTs (Phase de test). 77

Figure 4.5 Format des données manipulées 81

Figure 4.6 Importation du fichier CH.arff sous TANAGRA 82

Figure 4.7 Chargement des données sous TANAGRA 82

Figure 4.8 Définition des données sous TANAGRA 83

Figure 4.9 Définition de la méthode du Clustering sous TANAGRA 84

Figure 4.10 Nombres de clusters construits par la méthode du Clustering 84

Figure 4.11 Résultat du Clustering 85

Figure 4.12 Résultat des corrélations du Clustering 86

Figure 4.13 Résultat de la variation des clusters 87

Figure 4.14 Résultat du dendrogramme 88

Figure 4.15 Ontologie « Etapes du cycle cellulaire des champignons » 95

Figure 4.16 Ontologie « Tissus cellulaire des champignons » 98

Figure 4.17 Ontologie « Caractéristiques des souches des champignons » 100

Figure 4.18 Ontologie « Conditions de culture des champignons » 103

Figure 4.19 Architecture générale de l’application 108

Page 5: Thèse de magister - Univ Oran 1

Figure 4.20 Cas d’utilisation de tous les utilisateurs 110

Figure 4.21 Cas d’utilisation de l’expert du domaine 110

Figure 4.22 Cas d’utilisation de l’administrateur 111

Figure 4.23 Architecture du module consultation 112

Figure 4.25 Architecture du module exploitation 113

Figure 4.26 Architecture du module enrichissement 113

Figure 4.24 Diagramme de séquence de la recherche d’information par mots-clés 114

Figure 4.27 Diagramme de séquence de la mise à jour de l’ontologie via la BDD 114

Figure 5.1 Interface principale de l’application 120

Figure 5.2 Menu Fichier 121

Figure 5.3 Menu Recherche 121

Figure 5.4 Menu Mise à jour 122

Figure 5.5 Interface de l’ontologie biologique du domaine 123

Figure 5.6 Interface de la recherche par mots-clés 124

Figure 5.7 Prétraitement des fiches d’ESTs 125

Figure 5.8 Calcul de TF*IDF des termes des fiches d’ESTs 126

Figure 5.9 Résultat du clustering des termes des fiches d’ESTs 126

Figure 5.10 Connexion à la base de données 127

Figure 5.11 Mise à jour dite « locale » de l’ontologie biologique du domaine 128

Figure 5.12 Ajout d’un concept de l’ontologie « Cellular cycle steps.OBO » 129

Figure 5.13 La table ontologie avant la mise à jour 129

Figure 5.14 La table ontologie avant et après la mise à jour (au niveau d’EasyPHP) 130

Figure 5.15 La table ontologie après la mise à jour 130

Figure A.1 Cycle de vie de N.crassa 146

Figure A.2 Cycle de vie de P.anserina 147

Figure B.1 Procédé d’obtention des ESTs 151

Figure D.1 Résultats de l’extraction automatique des deux métriques pour un échantillon

d’apprentissage =500 fiches d’ESTs (Neurospora crassa)

157

Page 6: Thèse de magister - Univ Oran 1

Figure D.2 Résultats de l’extraction automatique des deux métriques pour un échantillon

d’apprentissage =1 000 fiches d’ESTs (Neurospora crassa)

158

Figure D.3 Résultats de l’extraction automatique des deux métriques pour un échantillon

d’apprentissage =5 000 fiches d’ESTs (Neurospora crassa)

159

Figure D.4 Résultats de l’extraction automatique des deux métriques pour un échantillon

d’apprentissage =10 000 fiches d’ESTs (Neurospora crassa)

160

Figure D.5 Résultats de l’extraction automatique des deux métriques pour un échantillon

d’apprentissage =50 000 fiches d’ESTs (Neurospora crassa)

161

Figure D.6 Résultats de l’extraction automatique des deux métriques pour un échantillon

d’apprentissage =100 000 fiches d’ESTs (Neurospora crassa)

162

Page 7: Thèse de magister - Univ Oran 1

Liste des tableaux

Tableau 3.1 Méthodes et Méthodologies de l’ingénierie ontologique 43

Tableau 4.1 Détail des informations expérimentales de P.anserina

63

Tableau 4.2 Détail des informations expérimentales de N.crassa (1/4)

64

Tableau 4.3 Détail des informations expérimentales de N.crassa (2/4) 65

Tableau 4.4 Détail des informations expérimentales de N.crassa (3/4) 66

Tableau 4.5 Détail des informations expérimentales de N.crassa (4/4) 67

Tableau 4.6 Résultats de l’extraction manuelle des termes (aspect morphologique) 70

Tableau 4.7 Résultats de l’extraction manuelle des termes (aspect expérimental) 71

Tableau 4.8 Résultat de la construction du modèle pour la métrique TF*IDF

75

Tableau 4.9 Résultat de la construction du modèle pour la métrique

Première occurrence

76

Tableau 4.10 L’effet de la taille de l’échantillon test sur le corpus global

78

Tableau 4.11 Trois exemples d'extraction de termes avec l'outil KEA pour trois expériences

(colonne 2) complétée par le biologiste (colonne 3)

79

Tableau 4.12 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des

champignons ». (1/3)

92

Tableau 4.13 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des

champignons ». (2/3)

93

Tableau 4.14 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des

champignons ». (3/3)

94

Tableau 4.15 Classes et hiérarchie des classes de l’ontologie « Types cellulaire des

champignons ». (1/2)

96

Tableau 4.16 Classes et hiérarchie des classes de l’ontologie « Types cellulaire des

champignons ». (2/2)

97

Page 8: Thèse de magister - Univ Oran 1

Tableau 4.17 Classes et hiérarchie des classes de l’ontologie « Caractéristiques des souches des

champignons »

99

Tableau 4.18 Classes et hiérarchie des classes de l’ontologie « conditions de culture des

champignons » (1/2)

101

Tableau 4.19 Classes et hiérarchie des classes de l’ontologie « conditions de culture des

champignons » (1/2)

102

Tableau 4.20 Propriétés des classes de l’ontologie 104

Tableau 4.21 Relations des classes de l’ontologie 104

Tableau 4.22 Instances des classes de l’ontologie 105

Tableau A.1 Comparaison entre N.crassa et P.anserina 149

Tableau B.1 dbEST - Nombre d'EST par organisme 154

Page 9: Thèse de magister - Univ Oran 1

Résumé

Un des problèmes majeurs rencontré par les biologistes, est l’extraction et

l’exploitation des données qui les intéressent à travers les multiples ressources disponibles sur

le Web. Ce problème n’est pas simple en raison de la multiplicité des ressources,

l’hétérogénéité et la variabilité des formats, les mises à jour inégales, la redondance des

nomenclatures, etc. Par conséquent, un recours à la fouille de données pour l’extraction de

données particulières apporterait une solution à ce problème.

Ainsi, la fouille de données ou plus particulièrement la fouille de textes dans notre cas

d’application, est un domaine de recherche qui vise à résoudre les problèmes de surcharge

d’informations et à faciliter la découverte de connaissances cachées dans les documents. En

effet, la plupart des informations exploitées par les biologistes sont sous forme textuelle et

écrites en langage naturel à partir desquelles il s’agit d’extraire les éléments susceptibles de

constituer des connaissances pertinentes de telle sorte qu'un biologiste puisse obtenir des

réponses claires à une requête spécifique. Traditionnellement, deux approches permettent une

telle extraction :

w L’approche linguistique basée sur la définition de patrons lexico-syntaxiques.

w L’approche statistique basée sur la découverte des termes-clés.

Dans le contexte de notre application qui vise à exploiter les informations en langage

naturel associées à des données biologiques de séquences biologiques, les ESTs (Expressed

Sequence Tags), nous avons utilisé un extracteur de termes-clés, basé sur des principes

statistiques appelé Automatic Keyphrase Extraction (K.E.A). Ensuite, nous avons construit

quatre ontologies à partir de termes extraits afin de représenter les connaissances associées

aux séquences issues des deux champignons modèles Neurospora crassa et Podospora

anserina. Enfin, avec l’utilisation du clustering, nous montrons comment les termes des

ontologies obtenues peuvent être exploités pour l’évaluation du niveau d’expression des

gènes.

Mots clés : fouilles de textes, ontologie, corpus de textes, extraction

terminologique, champignons modèles, Neurospora crassa, Podospora anserina,

Expressed Sequence Tags (EST), clustering.

Page 10: Thèse de magister - Univ Oran 1

Abstract

A major problem faced by biologists, is the extraction and exploitation of data of

interest across multiple resources available on the Web. This problem is not simple because of

the multiplicity of resources, heterogeneity and variability of formats, unequal updates and

redundancy of classifications, etc. Therefore, we consider that use of data mining to extract

specific data would provide a solution to this problem.

Thus, data mining, or more specifically the text mining application in our case, is an

area research that aims to solve problems of information overload and facilitate the discovery

of hidden knowledge in documents. Indeed, most information used by biologists are written in

text form and natural language from which it is to extract information that may be relevant

knowledge so that a biologist can get clear answers to a specific request. Traditionally, two

approaches allow such extraction:

w The linguistic approach based on the definition of lexico-syntactic patterns.

w The statistical approach based on the discovery of key terms.

In the context of our application that aims to exploit the information in natural

language associated with biological data of biological sequences, the ESTs (Expressed

Sequence Tags), we used an extractor key terms based on statistical principles called

Automatic Keyphrase Extraction (KEA). Next, we constructed four ontologies from terms

extracted to represent the knowledge associated with sequences from the two fungi models

Neurospora crassa and Podospora anserina. Finally, with the use of clustering, we show how

the terms of ontologies obtained can be used to evaluate the level of gene expression.

Keywords: text mining, ontology, texts, terminology extraction, fungi models,

Neurospora crassa, Podospora anserina, Expressed Sequence Tags (EST) clustering.

Page 11: Thèse de magister - Univ Oran 1

Sommaire

Introduction générale

1

Partie 1. Etat de l’art

Chapitre 1. L’Extraction de Connaissances à partir de Textes

1. Introduction 8

2. Extraction de Connaissances à partir de Données (ECD) 8 2.1. Généralités 8 2.2. Architecture d’un système type d’ECD 9 2.3. Fouille de données (FDD) 10 3. De la fouille de données à la fouille de textes 11 3.1. Processus d’Extraction de Connaissances à partir de Textes (ECT) 11 3.2. Acquisition itérative et incrémentale des connaissances 12 3.3. Fouille de textes (FDT). 13 4. Domaine d’application : La biologie 16 4.1. Difficultés récurrentes des textes en biologie 16 4.2. Méthodes de FDT pour la biologie. 20 4.3. Quelques outils de FDT pour la biologie 23 5. Conclusion 24 Chapitre 2. Les ontologies

1. Introduction 26 2. Définitions des ontologies 26 2.1. Du point de vue de la Métaphysique 26 2.2. Du point de vue de l’ingénierie des connaissances 27 3. Composants de l’ontologie 28 4. Typologies d’ontologie 29 4.1. Typologie selon le degré de formalisme 29 4.2. Typologie selon l’objet à modéliser 30 4.3. Typologie selon le degré de granularité 31 4.4. Typologie selon le type de connaissances à modéliser 31 5. Représentation des ontologies 33 6. Utilité des ontologies en ingénierie des connaissances 34 7. Exemples de ressources ontologiques dans le domaine de la biologie 36 7.1. Ontologies biologiques et bio-informatiques 36 7.2. Ontologies des champignons 37 7.3. Ontologies associées aux expérimentations 38 8. Conclusion 39

Page 12: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de

textes

1. Introduction 42 2. Méthodes et méthodologie de construction des ontologies 42 2.1. Construction d’Ontologie à partir de zéro 43 2.2. Construction d’Ontologie par réutilisation 44 2.3. Construction collaborative 44 3. Construction d’ontologies à partir de corpus de textes 44 3.1. Constitution d'un corpus 45 3.2. Extraction de termes 46 3.3. Extraction de relations 47 3.4. Nécessité de l’intervention humaine pour la construction d’ontologie 48 4. Rôle des statistiques textuelles pour la construction d’ontologie 49 5. Rôle des grammaires rationnelles pour la construction d’ontologie 50 6. Editeurs d’ontologies 53 6.1. Les outils orientés ontologisation 53 6.2. Les outils orientés conceptualisation 54 7. Cycle de vie des ontologies 55 8. Conclusion 56

Partie 2. Conception et mise en œuvre

Chapitre 4. La conception

1. Introduction 0 59 2. Expérimentation 59 2.1. Collecte des données 59 2.2. Structure des données d’expression : Les ESTs 60 2.3. Extraction des termes candidats 61 2.4. Résultats de l’extraction des termes 69 2.5. Exploitation des termes de l’ontologie pour le clustering 80 3. Conception 89 3.1. Choix de la méthode de construction de l’ontologie 89 3.2. Architecture du système 107 3.3. Le module consultation 112 3.4. Le module exploitation 112 3.5. Le module enrichissement 113 4. Conclusion 115

Page 13: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

1. Introduction 117 2. Environnement de développement 117 2.1. Choix du langage de développement 118 2.2. Choix de l’éditeur de l’ontologie 118 2.3. Choix du S.G.B.D 119 3. Description du système 120 3.1. Interface principale 120 3.2. Description de la barre de menu 121 3.3. Cas d’utilisation du système 122 4. Conclusion 130 Conclusion générale et perspectives

131

Références bibliographiques

133

Annexes

143

Page 14: Thèse de magister - Univ Oran 1

Introduction générale

1

Introduction générale

Les programmes de séquençage de génomes engendrent en masse de nouvelles

données. Ces données sont stockées dans des banques de données qui se sont diversifiées et

développées notamment dans le cadre de projets de recherche internationaux. Ainsi, les

banques de biomolécule ou de génomes comme EMBL (European Molecular Biology

Laboratory) et NCBI (National Center for Biotechnology Information), sont devenues des

sources de données indispensables pour la recherche en biologie. Elles constituent la mémoire

des données biologiques issues des séquençages, rassemblant les résultats publiés dans la

littérature scientifique pour en permettre la diffusion.

Ces quantités de données diversifiées, produites par le séquençage complet ou partiel

des génomes et aussi par les multiples approches expérimentales associées, conduit le

biologiste à faire face à une masse de données, et l’oblige à recourir à des outils informatiques

adéquats pour une recherche pertinente et une exploitation optimale des données concernant

son domaine. Or, les données de la biologie se caractérisent par leur hétérogénéité car elles

sont exprimées généralement en langage naturel (utilisées dans les publications ou dans les

descriptions des données d’expérimentation par exemple), elles constituent donc un support

de communication dont il est difficile d’extraire automatiquement de l’information.

Pour répondre à ce besoin de standardisation, de récentes recherches se sont orientées

vers l’utilisation d’une représentation avancée des connaissances : les ontologies. L’utilisation

des ontologies est une des solutions envisagées pour fournir un vocabulaire commun pour la

description d'un aspect de la biologie, à travers la construction d’ontologies accompagnant des

tâches de bioinformatique et de biologie moléculaire. Ceci afin d’offrir aux utilisateurs un

accès transparent à ces ressources.

Page 15: Thèse de magister - Univ Oran 1

Introduction générale

2

Les ontologies ont été largement acceptées par la communauté des biologistes comme

moyen de standardisation des termes et des concepts biologiques, mais aussi pour permettre la

facilitation de l’échange de ces données entre les bases de données de séquences. Par

exemple, les termes de la « Gene Ontology » enrichissent les bases de données moléculaires

et permettent la description de fonctions moléculaires, des processus biologiques et des

composants cellulaires associées aux séquences nucléiques et protéiques [Fro, 04].

Dès lors, l'accès à ces informations est un enjeu central pour les chercheurs qui

peuvent valider leurs hypothèses, voire définir de nouveaux plans d'expérience. Cependant,

les résultats renvoyés ne sont pas directement exploitables et nécessitent un important travail

d'analyse des documents sélectionnés pour extraire l'information pertinente. Ainsi, la

recherche d'information à l'aide de mots-clés offre des performances intéressantes en termes

de rapidité de traitement.

Ainsi, l’objectif est de fouiller les données d'expression à la lumière des protocoles

expérimentaux mis en œuvre. Pour prendre en charge le contexte d'une expérimentation

biologique, différentes caractéristiques ont été prises en considération. La première concerne

l’échantillon biologique. En effet, les espèces doivent être précisées, mais aussi leur stade de

développement et, si besoin, l'organe ou le tissu étudié. Comme les variations spécifiques des

conditions de culture agissent sur la morphologie ou le développement spatio-temporel des

organismes, ces aspects « conditions de culture » doivent également être pris en charge. Enfin,

un dernier biais pourrait provenir des étapes spécifiques du protocole expérimental suivi lors

de l'extraction des molécules à séquencer ; la spécificité de cette partie technique a donc

également été enregistrée.

Dans cette optique, notre travail concerne les données relatives à des champignons

microscopiques filamenteux, en particulier, Neurospora crassa et Podospora anserina. Il

s’agit d’en exploiter les données associées aux ESTs (Expressed Sequences Tag) qui sont

disponibles dans les bases de séquences publiques.

Page 16: Thèse de magister - Univ Oran 1

Introduction générale

3

Notre contribution porte sur deux volets :

1. La proposition d’un système basé sur une ontologie permettant de faciliter

l’exploitation des données relatives aux expériences réalisées sur les deux

champignons filamenteux. L’ensemble des termes de l’ontologie du domaine ont été

extraits grâce à l’extracteur de termes Automatic Keyphrase Extraction (K.E.A). En

s’inspirant des quatre vocabulaires eVoc réalisés pour l’homme et la souris [Kel, 03]

et en vue d'exploiter les données d'ESTs associées à plusieurs champignons, nous

souhaitons prendre en compte les aspects expérimentaux associés à leur acquisition.

Une étude d'expression constitue une mesure de l'expression de l'ensemble des gènes à

un temps donné de la vie du champignon. Il est alors nécessaire de décrire le

champignon étudié et les spécificités associées s'il s'agit d'un mutant (ontologie

« caractéristiques des souches »). Comme les conditions de culture du champignon

avant la mesure influencent cette dernière, il est nécessaire de décrire, d'une part le

protocole expérimental de la culture (ontologie « conditions de cultures ») et d'autre

part, l'étape de croissance atteinte par le champignon au moment de la mesure. Pour

spécifier cette étape de croissance, nous avons conçu deux ontologies, l'une décrivant

l'aspect temporel (ontologie « étapes du cycle cellulaire ») et l'autre l'aspect spatial

(ontologie « types cellulaires »). Pour décrire une donnée d'EST, nous avons alors

recours à 4 ontologies parallèles et complémentaires et la liaison entre elles se fera à

l'usage, lors de la caractérisation d'un EST par la liste des termes issus de chacune des

ontologies.

2. L’utilisation d’une méthode d’apprentissage non supervisé : le clustering dont

l’objectif est de procéder à une classification du type regroupement par similitude, est

effectué en se basant sur la valeur de la métrique TF×IDF des termes contenus dans

les fiches d’EST. Ainsi, les expériences regroupées ensemble correspondent à des

termes de valeurs proches ou identiques impliquant des conditions d’expériences

quasi-similaires et pouvant être liée à une « activité » biologique de ces expériences.

Page 17: Thèse de magister - Univ Oran 1

Introduction générale

4

Ce mémoire est organisé en cinq chapitres organisés en deux parties :

v La première partie présente l’état de l’art relatif aux domaines en lien avec nos

travaux. Elle comprend trois chapitres :

Ø Le chapitre 1 : L’Extraction de Connaissances à partir de Textes (E.C.T)

Définit les concepts d’extraction de connaissances, de fouille de textes, puis

expose les difficultés d’extraction d’information dans les textes biologiques et

enfin, décrit quelques unes des méthodes et outils proposés dans la littérature

pour tenter de résoudre ces problèmes d’extraction.

Ø Le chapitre 2 : Les Ontologies

Aborde la notion d’ontologie : son origine, divers définitions d’auteurs, ses

composants, ses typologies, ainsi que de l’utilité des ontologies en ingénierie

des connaissances et quelques exemples d’ontologies biologiques et

bioinformatiques.

Ø Le chapitre 3 : La conception d’Ontologies à partir de corpus de textes

Donne un aperçu des différents travaux de la littérature en lien avec la

construction d’ontologies. Il précise notamment les travaux relatifs à leur

construction à partir de textes, ensuite éditeurs d’ontologie et cycle de vie sont

présentés.

v La deuxième partie décrit la conception et la mise en œuvre de notre application. Elle

comprend les deux chapitres suivants :

Ø Le chapitre 4 : La conception

Détaille d’abord l’expérimentation dans le cadre de notre mémoire à savoir

l’effectif manipulé, ainsi que les cirières pris en compte pour les deux types

d’extraction manuelle et automatique et commente les résultats obtenus par

l’extraction manuelle, l’extraction automatique grâce au logiciel K.E.A et de la

nécessité de l’intervention humaine dans ce cas de figure. Ce chapitre

Page 18: Thèse de magister - Univ Oran 1

Introduction générale

5

comprend aussi la phase de construction de l’ontologie biologique du domaine,

en spécifiant la méthode choisie à cet effet. Aussi, la présentation de

l’architecture qui exploite cette ontologie en détaillant les différents modules

de ce système.

Ø Le chapitre 5 : L’implémentation

Présente l’environnement de développement de notre application en expliquant le

choix des outils utilisés, et la description du système développé par des captures

d’écran de ses différentes interfaces.

Enfin, les résultats obtenus ont été repris dans une conclusion générale, où quelques

orientations et perspectives de continuité des travaux ont été également mentionnées.

Les quatre annexes ont été organisées de la façon suivante :

Ø Annexe A : Expose des généralités sur les organismes biologiques modèles, en

particulier de Neurospora crassa et Podospora anserina, choisis dans le cadre

de cette étude en présentant une description de ces derniers, notamment à

travers leurs cycles de vie, ainsi qu’une comparaison des deux organismes.

Ø Annexe B : Donne une définition des données biologiques manipulées

(Expressed Sequence Tags (EST), la procédure d’obtention de ces derniers,

présente un aperçu des différentes banques de données existantes.

Ø Annexe C : Décrit le détail de la méthode choisie de la construction de

l’ontologie (la méthode de l’Université de STANDFORD).

Ø Annexe D : Donne les résultats sous formes de graphes de l’extraction

automatique des termes-clés pour les deux métriques TF×IDF et Première

occurrence pour différentes tailles d’échantillon d’apprentissage.

Page 19: Thèse de magister - Univ Oran 1

5

Première Partie

Etat de l’Art

Page 20: Thèse de magister - Univ Oran 1

Chapitre 1

Plan

1. Introduction

2. Extraction de Connaissances à partir de Données (ECD)

2.1. Généralités

2.2. Architecture d’un système type d’ECD

2.3. Fouille de données (FDD)

3. De la fouille de données à la fouille de textes

3.1. Processus d’Extraction de Connaissances à partir de Textes (ECT)

3.2. Acquisition itérative et incrémentale des connaissances

3.3. Fouille de textes (FDT)

4. Domaine d’application : La biologie

4.1. Difficultés récurrentes des textes en biologie

4.2. Méthodes de FDT pour la biologie

4.3. Quelques outils de FDT pour la biologie

5. Conclusion

L’Extraction de Connaissances à

partir de Textes

Page 21: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

8

1. Introduction

Les principes de l’extraction de connaissances à partir de textes ont été introduits

afin d'aider les décideurs dans l'analyse des informations issues des sources

électroniques. Aussi, différentes techniques automatiques sont proposées pour inférer

de nouvelles connaissances, potentiellement utiles, à partir de gros volumes de

données textuelles. Ces connaissances correspondent à des modèles ou des relations à

priori inconnues mais qui existent de façon implicite dans les textes. L’intérêt des

connaissances extraites est validé en fonction du but de l’application.

Ainsi, du fait de l'importance croissante du contenu électronique et des médias

électroniques pour le stockage et l’échange de documents textuels, un intérêt est

apparu de plus en plus croissant, pour des méthodes et des outils qui peuvent aider à

retrouver l'information enfouie dans les textes de documents. En effet, le volume des

informations disponibles croit de plus en plus vite notamment sur Internet (plus de

80% est sous forme textuelle) [Cha, 04]. Ces informations, sont nombreuses et se

présentent sous différentes formes (langages naturels et HTML) et elles ont différents

supports (sites Web et bibliothèques numériques). Il devient de plus en plus difficile

de trouver des informations correspondant au besoin d’un utilisateur et d’en extraire

des connaissances utiles et cachées dans les documents d’où le recours à la fouille de

textes.

Ce chapitre définit les concepts d’extraction de connaissances et de fouille de

textes ainsi que la description de quelques méthodes et outils utilisés pour permettre

une meilleure facilitation d’exploitation des connaissances implicites contenues dans

les corpus textuels qui dans notre cas concernent le domaine de la biologie.

2. Extraction de Connaissances à partir de Données (E.C.D)

2.1. Généralités

L'Extraction de Connaissances à partir de Données (E.C.D), est définie par

[Fay, 96] comme : « un processus non trivial d’identification de structures

inconnues, valides et potentiellement exploitables dans les bases de données ».

Page 22: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

9

L’ECD est un processus d’extraction de connaissances à partir de données. Il

consiste à analyser des données brutes pour en extraire des connaissances exploitables.

Ces dernières vont permettre à un expert d’avoir une vision synthétique d’un domaine

donné.

Le processus est dirigé par un analyste qui selon ses objectifs va appliquer

des méthodes de fouille de données (FDD) sur des données préalablement

sélectionnées pour déduire des modèles du domaine.

D’après Fayyad [Fay, 96], le processus d’ECD peut être divisé en plusieurs étapes :

o La sélection, permet de créer un ensemble de données à étudier,

o Le prétraitement, vise à enlever le bruit et à définir une stratégie pour

traiter les données manquantes,

o La transformation, où l’on recherche les meilleures structures pour

représenter les données en fonction de la tâche,

o La fouille de données, la fouille proprement dite est la définition de la

tâche : classification, recherche de modèles,… et la définition des

paramètres appropriés,

o L’interprétation et l’évaluation, pendant lesquelles les patrons extraits

sont analysés. La connaissance qui en est ainsi déduite est alors stockée dans

la base de connaissances.

2.2. Architecture d’un système type d’ECD

Selon Ghalamallah [Gha, 09], un système d’ECD s’articule autour des

composantes suivantes :

o Une ou plusieurs bases de données et leurs systèmes de gestion, pour le

traitement des masses de données volumineuses.

o Une base de connaissances qui permet à la fois la gestion des

connaissances et la résolution des problèmes liés au domaine des données.

Page 23: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

10

Le système utilise une base de connaissances (par exemple une ontologie du

domaine) qui est enrichie grâce aux nouvelles connaissances inférées par le

système.

o Un système FDD pouvant s’appuyer sur des techniques symboliques

comme l’extraction des règles d’association, la classification par treillis de

Galois, ou l’induction par des arbres de décision.

o Et une interface se chargeant des interactions avec l’analyste et de la

visualisation des résultats. L’analyste et l’expert sont chargés de guider les

recherches et de valider les connaissances extraites.

Figure 1.1 Architecture type d’un système d’E.C.D.

2.3. Fouille de données

Il existe souvent une confusion entre les concepts Fouille de Données

(FDD) et l’ECD, certains auteurs les considèrent comme synonymes. Or, la FDD (ou

le Data Mining en anglais) n’est qu’une des étapes du processus d’ECD. Elle se réfère

souvent à l’ensemble des outils et méthodes permettant d’accéder aux donnés et de les

analyser afin d’en extraire des modèles implicites, en prévision d’une utilisation

future.

La fouille de données ou le Data Mining, (DM) est l’ensemble des

méthodes et techniques destinées à l’exploration et l’analyse de bases de données

informatiques, de façon automatique ou semi-automatique, en vue de détecter dans ces

Page 24: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

11

données des règles, des associations, des tendances inconnues ou cachées, des

structures particulières restituant l’essentiel de l’information utile [Tru, 05].

3. De la fouille de données à la fouille de textes

Par analogie avec l’extraction de connaissances à partir de données (ECD), la

« découverte de connaissances à partir de bases de données textuelles » (DCT)

[Had, 02] ou « l’extraction de connaissances à partir de textes » (ECT) [Che, 04] ou

encore en anglais le « Knowledge Discovery in Textual Databases » (KDT)

[Fel, 95], est un domaine qui vise à analyser de grandes collections de documents non

structurés dans le but d'extraire des modèles (ou connaissances) intéressants, non

triviaux et potentiellement utiles.

3.1. Processus d’Extraction de Connaissances à partir de Textes

Figure 1.2 Chaîne de traitement dans un processus d’E.C.T.

Un texte est considéré comme une entité porteuse d’une information qu’il

faut préparer, représenter et organiser pour utiliser des outils de fouille de données et

valider les résultats de la fouille. La transformation des données textuelles en

connaissances se compose donc de trois principales étapes [Bou, 08]:

(1) La modélisation du contenu des textes ;

(2) Les outils de fouille de données proprement dits ;

(3) Le module d’analyse des résultats et leur validation.

Page 25: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

12

Durant l’étape de modélisation du contenu, le texte est sélectionné et

prétraité. La phase de prétraitement peut être plus ou moins élaborée : elle peut inclure

l’élimination de mots vides (mots grammaticaux) ou une normalisation plus poussée

des textes dans le cas d’un corpus plus technique. Ainsi, le choix des unités d’analyse

peut faire appel aux connaissances linguistiques (extraction des termes, des relations

sémantiques entre eux) ou simplement statistique, avec la recherche des n-grammes

dans les textes (séquences de mots adjacents qui se répètent dans le corpus). Les deux

techniques peuvent être combinées lorsqu’il s’agit de choisir, parmi les unités

extraites, celles qui ont un poids discriminant (indexation automatique). Cette

modélisation permet l’extraction de données à partir des textes sous une forme de

représentation de type : un texte = {un ensemble de mots-clés}. C’est une

représentation communément utilisée en recherche d’information car cette

représentation permet d’utiliser, par la suite, des outils de FDT. [Bou, 08]

De la même façon que pour un processus d’ECD, les outils de FDT

constituent le module calculatoire d’un système d’ECT. Les algorithmes de fouille de

données ont démontré par le passé leurs capacités à traiter de grandes masses de

données, ce qui permet d’envisager de les réutiliser et de les adapter pour traiter les

données très volumineuses extraites des textes. Par conséquent, l’utilisation des

techniques existantes en fouille de données semble intéressante dans un processus de

fouille de textes. [Bou, 08]

La contribution de l’analyste est indispensable pour les étapes d’analyse et

de validation des connaissances potentielles extraites car ces deux étapes ne peuvent

pas se faire de façon automatique. Le processus d’ECT est semi-automatique. Ce n’est

qu’une fois les résultats validés qu’ils prennent le statut de connaissances. Ces

connaissances peuvent alimenter une base de connaissances ou être exploitées à

nouveau par le processus de ECT afin d’affiner la modélisation des textes. Nous

appelons, par la suite, cette base de connaissances l’ontologie du domaine. [Bou, 08]

3.2. Acquisition itérative et incrémentale des connaissances

Le processus d’ECT n’est pas linéaire comme le suggère à première vue la

figure 1.2. Il est possible d’effectuer un retour entre deux ou plusieurs étapes

Page 26: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

13

successives de la chaîne de traitement afin d’améliorer le résultat de chaque étape et

d’affiner, au final, le résultat du processus. Cet aspect indique le caractère itératif du

processus d’ECT [Che, 04].

L’ECT est aussi un processus alimentant un système à base de

connaissances : les connaissances extraites sont stockées dans la base pour être

réutilisées dans d’autres applications et mises à jour le cas échéant. Chaque étape du

processus de fouille de textes s’appuie sur l’étape qui la précède. La chaîne de

traitement pour le processus de FDT est incrémentale. Les éléments d’information

identifiés dans une étape servent à enrichir l’étape suivante et ainsi de suite [Che, 04].

La chaîne de traitement pour le processus d’ECT décrite rend le travail de

l’analyste efficace en lui donnant accès prioritairement à des connaissances rares et/ou

potentiellement nouvelles. L’analyste doit avoir le rôle de prise de décision finale pour

valider ou pas les connaissances extraites, filtrées et jugées pertinentes par rapport au

domaine des textes fouillés. En cela, le processus de ECT se démarque du processus

classique de ECD qui place l’analyste au centre du processus pour effectuer toutes les

opérations de prétraitement des données, d’interprétation et de validation de

connaissances extraites à partir de données [Che, 04].

3.3. Fouille de textes

Tout comme la fouille de données (FDD) une confusion subsiste entre

l’expression : extraction de connaissances à partir de textes (ECT) et la fouille de

textes (FDT) ou « Text Mining » (TM) qui en est une étape centrale. La FDT suggère

qu’il s’agit de l’exploration de textes dans le but de retrouver l’information utile

enfouie dans le texte. Quelques définitions citées ci-après explicitent le concept :

o « La fouille de textes (ou text mining) peut être définie comme

l’application de méthodes calculatoires et de techniques sur des données textuelles

dans le but de retrouver l’information pertinente, intrinsèque et la connaissance

précédemment inconnue » [Dop, 07].

o « Le texte mining est définit comme étant le Data Mining sur des

données textuelles » [Nas, 01].

Page 27: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

14

o « La fouille de textes doit prospecter des pépites de nouvelles

connaissances dans les montagnes de textes qui sont devenues accessibles aux

recherches sur ordinateur grâce à la révolution de l'information et à l'interconnexion

des réseaux » [Luc, 00].

Il ressort de ces définitions que la fouille de textes ou le text mining peut

être vu comme un champ d’application du « Data Mining » (DM) aux textes ou du

« Knowledge Discovery in Databases » (KDD) aux textes. Le text mining réfère ainsi

à l’ensemble des techniques et méthodes du Data Mining, en vue de retrouver, dans les

textes de documents de grandes bases de données textuelles, l’information pertinente,

utile et précédemment inconnue.

La FDT fait appel principalement à deux disciplines à savoir la statistique et

la linguistique. Ces deux disciplines s’intéressent à l’analyse de texte à différents

niveaux qui sont les suivants :

o Approche linguistique

Au plan linguistique, plusieurs niveaux d’analyse sont considérés :

w L’analyse syntaxique qui permet de définir les unités textuelles

de base et qui s’intéresse à la place relative de chaque mot. Certaines

mesures utiles en sont issues : placé avant, placé après, tant de mots

maximum, etc. [Khe, 06]

w L’analyse lexicale s’intéresse à la terminologie (origines des

mots, relations, inclusions, synonymies, etc.). [Khe, 06]

w L’analyse morphologique s’occupe des variations dans la forme

des mots (orthographes, radicaux, suffixes, préfixes, troncatures,

inflexions, etc.). Elle manipule les morphèmes (mots simples, radicaux,

dérivations, racines anciennes : grec, latin). [Khe, 06]

Page 28: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

15

w L’analyse sémantique s’intéresse à la notion de contenu donc au

sens, aux concepts véhiculés par les textes et aux réseaux qui les

unissent. [Khe, 06]

o Approche statistique

Coté statistique plusieurs décompositions sont proposées en

fonction de la nature des méthodes :

w Les méthodes quantitatives basées essentiellement sur les

dénombrements, corrélations, distributions, associations.

[Jou, 03]

w Les méthodes exploratoires et notamment l’analyse de données

avec une approche plus qualitative. [Jou, 03]

w Les méthodes relationnelles avec la théorie de graphes, les

réseaux de neurones, les réseaux bayésiens. [Jou, 03]

Vis à vis des fonctionnalités recherchées, la découverte de modèles

endogènes, a priori inconnus, s’appuie sur quatre types d’approches complémentaires :

w Une approche descriptive issue de la statistique descriptive, de

l’analyse des données et des représentations graphiques.

w Une approche structurante se basant sur les méthodes de

classification automatique supervisées (classes prédéfinies,

représentants de classes) ou non supervisées (hiérarchies,

regroupements), sur la reconnaissance des formes et

l’apprentissage automatique [Jou, 03].

w Une approche explicative qui permet de faire le lien entre faits à

expliquer et variables explicatives (analyses

multidimensionnelles [Jou, 03]) et permet aussi de catégoriser

de nouveaux éléments en fonction de classes prédéfinies.

Page 29: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

16

w Une approche prédictive qui est tournée vers l’avenir, le

composant temps y jouant parfois un rôle important. Elle

conduit à la recherche de séquences (évolutions absolue ou

relative, trajectoires, stratégies, …) par l’analyse factorielle

multiple (AFM) et à la prédiction de certains comportements

(achat, panne, développement, rupture, …) par la recherche

d’associations [Jou, 03].

4. Domaine d’application : La biologie

L'importance de la FDT pour la biologie s'est accélérée en réponse à

l'avènement des expérimentations biologiques à haut, voire à très haut débit. Des

exemples d'application de FDT aux données biologiques incluent la recherche

automatisée dans un ensemble de gènes impliqués dans une expérimentation,

l'annotation de listes de gènes avec des concepts issus de la « Gene Ontology »,

l'amélioration de la recherche d'homologie, la gestion des résultats de recherche dans

la littérature, l'aide à l'entretien de bases de données et le peuplement de bases de

données [Lor, 09].

En effet, la FDT s'insère dans l'analyse des données bioinformatiques de deux

manières, ou plutôt à deux moments distincts. D'une part au début de la chaîne, en

aidant à l'analyse des résultats générés par les expériences, assistant ainsi les

chercheurs à conduire un projet de l'expérimentation à la publication, et d'autre part, à

la fin de la chaîne, en aidant le scientifique à exploiter le flux de publications issues de

Medline1 par exemple (une moyenne de 1875 nouvelles entrées par jour en 2005)

[Lor, 09].

4.1. Difficultés récurrentes des textes en biologie

Un des principaux problèmes qui fait de l’extraction d’information en

biologie une tâche complexe est l'absence de nomenclatures et de conventions

d'écriture claire. Pour de très nombreux phénomènes en biologie, il n'existe aucun

1 MEDLINE est une base de données bibliographique qui couvre tous les domaines médicaux

Page 30: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

17

standard commun à l'appellation d'entités nouvellement élucidées et différentes

communautés peuvent utiliser la même dénomination pour représenter deux entités

distinctes.

Plusieurs niveaux de complexité s'additionnent. D'une part, les conventions

adoptées diffèrent entre les différents domaines d'expertise et les communautés qui

composent la biologie. D'autre part, les nomenclatures établies pour certains types de

concepts biologiques (par exemple, les allèles, les gènes et les protéines) sont

différenciées selon l'organisme biologique étudié [Oli, 02].

Il est à noter qu'il existe des tentatives d'harmonisation de la nomenclature

dans des niches restreintes telles que les bases de données terminologiques « HUGO »

et « Flybase2 » qui définissent respectivement les standards des noms de gènes

humains et de la drosophile. Néanmoins, ceci ne reste que des recommandations à

l'intention des scientifiques et aucune obligation d'adoption de ces standards n'est à ce

jour imposée.

La validation du respect d'une nomenclature spécifique lors de la demande de

parution d'un article s'effectue à la discrétion du journal scientifique concerné.

Finalement, le nombre d'entités biologiques est très grand. Par exemple, et dans le

cadre très restreint des gènes humains, « HUGO » recense au premier trimestre 2007

environ 24700 noms officiels de gènes, 29300 alias et 2970 dénominations obsolètes.

En théorie, les termes et les concepts manipulés devraient être mono-référentiels,

chaque terme ne devant correspondance qu'à un seul concept et vice-versa. En

pratique, les documents regorgent d'ambigüités.

o Homonymie

Un même nom peut se référer à différentes entités. Ce problème est

fréquemment observé dans la dénomination d'objets biologiques non

fonctionnellement liés entre différentes espèces animales ou entre différentes

communautés scientifiques. Un autre exemple d'homonymie en biologie est le nom

2 http ://flybase.bio.indiana.edu/

Page 31: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

18

partagé à la fois par les gènes et les protéines. Il est parfois complexe de savoir si le

nom est celui d'un gène ou d'un produit du gène. Il est à noter que la tâche de

désambigüisation des homonymes est ardue, même pour un lecteur humain. D'après

une étude menée par [Hat, 01], trois annotateurs spécialistes du domaine de la

biologie moléculaire ne se sont accordés que 78% de fois sur la forme effective

protéique, ARN ou gène des entités nommées à partir d'un corpus conséquent d'articles

du domaine.

Quelques conventions typographiques existent afin de distinguer

certaines formes classiques d'homonymie et reposent sur la différenciation

majuscule/minuscule et la mise en italique. Néanmoins peu de journaux en ligne

respectent ces conventions typographiques et préfèrent réserver l'utilisation des

italiques et des majuscules à d'autres fins, et notamment à la mise en relief du texte. De

plus, les styles souligné, gras et italique sont très souvent perdus lors du formatage des

publications dans les bases de données bibliographiques. [Tua, 04] ont quantifié ces

ambigüités pour les gènes au sein des ressources lexicales Mouse Genome

Informatics, spécialisée dans la terminologie relative à la souris, FlyBase, pour la

drosophile, WormBase, pour le vers, et Saccharomyces Genome Database, pour la

levure. Les résultats montrent qu'entre 0 et 10% des noms au sein de chaque

terminologie présentent des ambigüités. Le nombre d'ambiguïtés par nom allant de 2 à

10 et la plupart étant due à la présence de synonymes et autres alias et non à cause des

noms officiels.

o Synonymie

Il est courant qu'une molécule biologique soit nommée en fonction

de sa fonction biologique particulière, à différents niveaux hiérarchiques (exemple:

une « ATP dependent RNA helicase » est un sous type de « RNA helicase »), de sa

similarité de séquence ou de la présence de motifs de séquence particuliers (exemple :

« DEAD/H Box-5 »), sa masse moléculaire (exemple: « protein p68 »), ou encore de

la combinaison de toutes ces situations (exemple : « RNA helicase p68 »). Néanmoins

ces différentes nomenclatures ne sont pas exclusives et très généralement cohabitent

afin de donner plusieurs noms synonymes à une molécule.

Page 32: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

19

Dans le cas des protéines, il est d'usage de leur donner le nom des

gènes qui les codent. Les noms de protéines basés sur les gènes d'origine sont

spécifiques à un organisme. En revanche, les noms de molécules contenant des

références à des fonctions biologiques ou à des masses moléculaires sont généralement

utilisés indépendamment de la taxonomie. Par exemple : « DRH1 » et « DBP2 » sont

les noms d'une même protéine mais produite soit par A. Thaliana soit par S. Cerevisiae

respectivement [Lor, 09].

o Acronymie

Une variation de termes banale et partagée par l'ensemble des

documents à caractère technique est l'utilisation d'acronymes. Il est toutefois important

de signaler qu'il n'existe aucune règle stricte pour définir un acronyme en biologie à la

différence d'autres domaines scientifiques. La définition d'un acronyme peut entrainer

différents problèmes précédemment relevés : tout d'abord la variabilité des formes

synonymes d'acronymes. Par exemple : « NFKB » et « NF Kappa B » sont deux

formes acronymiques concurrentes de la protéine « Nuclear Factor-Kappa B » et

retrouvées de manière indifférentes dans les textes. D'autre part la génération d'un

acronyme peut créer une ambigüité homographique. Par exemple : l'acronyme « GR »

sert à définir deux protéines distinctes, le « Glucocorticoid Receptor » et la

« Glutathione Reductase ».

o Evolution des nomenclatures

De nouvelles entités biologiques sont constamment découvertes et

nommées. A un instant donné le contenu des banques de données terminologiques ne

peut correspondre aux dernières évolutions de la nomenclature en cours. De nombreux

noms d'entités biologiques sont aussi supprimés de la nomenclature officielle lorsque

ceux-ci sont jugés obsolètes. Ceci est particulièrement vrai lorsque la dénomination

d'une entité repose sur des propriétés fonctionnelles qui par la suite ont été jugées

erronées ou pas assez précises. Ces anciennes dénominations peuvent aussi être

réutilisées pour nommer de nouvelles entités distinctes.

Page 33: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

20

4.2. Méthodes de FDT pour la biologie

Dans cette section, seront détaillées les méthodes de la FDT utilisées dans le

domaine de la biologie pour l’identification des termes et des interactions entre eux, et

seront présentés par la suite quelques outils basés sur ces techniques.

o Identification des termes

· Méthodes basées sur les dictionnaires

Ces méthodes utilisent des ressources terminologiques

existantes (dictionnaire, lexique, thésaurus…) dans le but de localiser les occurrences

des termes dans les textes. L’application de la version simple de ces méthodes, c'est-à-

dire faire la correspondance directe entre les entrées du dictionnaire et les entités

textuelles ne donne pas de résultats satisfaisants du point de vue précision et rappel.

Ces mauvais résultats sont dus essentiellement à des problèmes d’homonymie (en

anglais par exemple, des mots communs comme ‘and’, ‘by’ ou ‘for’ sont détectés

comme noms de gènes) et des problèmes de variations linguistiques liés à (i) la

ponctuation (mdm-2 et mdm2), (ii) l’utilisation de l’alphabet grec (p53alpha et p53a),

et (iii) l’ordre des mots (integrin alpha4 et alpha4 integrin) [Khe, 06].

Afin de remédier à ces problèmes, beaucoup

d’améliorations ont été ajoutées à ces méthodes telles que l’utilisation de dictionnaire

de synonymes, le filtrage des mots vides et le traitement des variations. [Kra, 00]

proposent de coder les dictionnaires et les textes avec le code nucléique (l’alphabet

formé de 4 lettres {A, C, G, T}) et d’utiliser l’algorithme BLAST utilisé pour

l’alignement des séquences ADN pour identifier les termes qui ont une similarité forte.

L’expérience menée sur un corpus de test et la base GenBank a donné de bons

résultats.

· Méthodes basées sur les règles

Ces méthodes reposent sur la création (manuelle) de règles

d’extraction basées sur les particularités spécifiques à une classe de termes. Ces

particularités peuvent être (i) morphologiques : les mots se terminant par –ase et –in

Page 34: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

21

peuvent être considérés comme des enzymes ou des protéines et (ii) orthographiques :

les termes vérifiant l’expression régulière [az] + [0-9] peuvent être considérés comme

des gènes (une séquence de lettres suivi d’une séquence de chiffres).

[Fuk, 98] propose une méthode pour la reconnaissance automatique

des noms de protéines : Ils exploitent le fait que les noms des protéines sont souvent

en majuscules et comportent des caractères spéciaux et des chiffres. Quant à [Hob,

00], il a adapté un outil de reconnaissance automatique d’entités nommées standard

(FASTUS [Hob, 97]) pour la reconnaissance des noms de gènes et de protéines. Cet

outil est basé sur une cascade de transducteurs à états finis qui permettent de

reconnaître des unités complexes (par exemple : « 3,4-dehydroproline »).

D’autres utilisent des règles d’associations qui permettent de mettre

en évidence des corrélations entre des éléments textuels. Un corpus prétraité est utilisé

pour l’extraction de ces règles qui sont ensuite présentées à un expert du domaine pour

les valider. Une fois validées, les règles d’associations sont classifiées selon des

mesures probabilistes et appliquées sur les textes afin d’extraire des termes du

domaine. [Che, 05] présentent une méthodologie de fouille de textes biologiques en

utilisant les règles d’associations.

· Méthodes basées sur les techniques d’apprentissage

Comme pour toutes les méthodes basées sur les algorithmes

d’apprentissage, ces méthodes ont pour principe de détecter des particularités

caractérisant une classe de termes à partir de données d’apprentissage (corpus déjà

traité manuellement en affectant les termes à des classes prédéfinies).

A chaque classe, l’algorithme affecte des caractéristiques

souvent orthographiques (c’est-à-dire une combinaison de lettres et de chiffres, terme

commençant par une lettre majuscule) ou morphosyntaxiques (les patrons

d’extraction). Ces informations sont ensuite utilisées par des algorithmes de

classification standard qui classent les termes dans leurs catégories adéquates.

Plusieurs expériences ont été réalisées en utilisant différents algorithmes de

classification, par exemple [Col, 00] se sont basés sur les chaînes cachées de Markov

Page 35: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

22

(HMM) alors que [Kaz, 02] ont utilisé les machines à vecteurs de support (SVM). Ces

méthodes sont gourmandes en temps et en ressources; en outre, elles sont confrontées

à un autre problème qui est le manque de corpus déjà traité pour effectuer leur

apprentissage. En effet, la majorité des expériences sont réalisées sur le même corpus

GENIA [Kim, 03].

Le projet pluridisciplinaire CADERIGE [Néd, 01] fait

intervenir plusieurs équipes françaises de compétences différentes (biologie,

apprentissage et TALN) dans le but de concevoir des outils d’analyse de données

biologiques à partir des textes et en se basant sur les techniques d’apprentissage. Un

éditeur d’annotation a été développé et une méthode d’apprentissage de patrons

d’extraction a été mise au point.

o Identification des interactions

L’explication de phénomènes biologiques, se base généralement sur

la détection d’une interaction entre gènes, protéines ou molécules. Bien qu’une partie

de ces interactions soit stockée dans des bases de données, une grande partie d’entre

elles est exprimée en langue naturelle et donc stockée dans les publications du

domaine. Plusieurs méthodes de fouille de textes biomédicaux pour l’extraction de ces

interactions ont été proposées.

Pour la détection d’interaction de types gène-gène ou gène-

protéine, [Néd, 04] propose une méthode composée de trois étapes : (1) la sélection

d’un ensemble de fragments de textes contenant ce genre d’interactions, (2)

l’utilisation d’algorithmes d’apprentissage sur ces fragments pour définir des règles

d’extraction et (3) l’application des règles sur les documents pour extraire les

interactions.

[Sha, 02] propose une méthode d’extraction de relations

fonctionnelles entre les gènes. L’hypothèse consiste à dire que si deux gènes

apparaissent régulièrement dans des documents traitant le même phénomène (même

séparément), alors une relation pourrait exister entre ces deux gènes. Ils font appel à

des modèles statistiques qui décrivent la fréquence des mots dans les documents afin

Page 36: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

23

de les classifier selon des thèmes pour déduire ensuite les fonctions des gènes qui

apparaissent dans ces documents.

[Rin, 00] propose un système d’extraction d’informations sur les

relations qu’entretiennent gènes, médicaments et cellules. Il s’agit de trouver des

relations du type : ‘Dans les cellules de type C, l’expression du gène G est inhibée (ou

activée) par le médicament M’, ou du type : ‘Les cellules du type C acquièrent une

résistance (ou une sensibilité) au médicament M quand le gène G s’exprime’. Le

système est basé sur la reconnaissance de la cooccurrence dans une même phrase d’un

gène, d’un type cellulaire et d’un médicament.

D’autres travaux sur le même thème sont présentés dans [Sta, 02] et

[Sha, 03]. Les résultats de ces systèmes permettent de créer des réseaux d’interaction

entre gènes et protéines qui peuvent jouer un rôle important dans l’interprétation des

résultats d’une expérience.

4.3. Quelques outils de FDT pour la biologie

o Medminer : est un système qui a été conçu spécialement pour

les biologistes travaillant sur l’expression des gènes. Il permet d’effectuer des

recherches sur plusieurs gènes à la fois dans la base documentaire PubMed afin de

trouver les corrélations entre eux. Les résultats renvoyés par le moteur de recherche de

PubMed sont ainsi filtrés, classifiés dans des catégories prédéfinies par le biologiste.

Le filtrage est fait, soit par le calcul des fréquences des termes dans les documents,

soit par le calcul des co-occurrences entre les termes.

o PubMiner : combine des techniques d’apprentissage (HMM et

SVM) avec des techniques de TALN pour traiter les résumés de la base PubMed afin

d’en extraire des entités nommées (gène, protéine) et de possibles interactions entre

elles [Eom, 04]. Ce système permet la visualisation des résultats sous la forme d’un

graphe, où les nœuds représentent les noms des gènes et des protéines et les arcs

représentent les interactions possibles ; l’utilisateur garde toujours un lien entre le

graphe et les documents textes traités.

Page 37: Thèse de magister - Univ Oran 1

Chapitre 1. L’Extraction de Connaissances à partir de Textes

24

o Textpresso : [Mul, 04] propose un système d’extraction et de

recherche d’informations pour les articles du domaine biomédical. TextPresso se base

sur une ontologie définie pour décrire les connaissances présentes dans les textes. Il

identifie les termes (instances des concepts de l’ontologie) en utilisant des expressions

régulières et les encadre avec des balises XML directement dans le texte. Il offre aussi

un ensemble d’interfaces dédiées pour interroger efficacement les annotations en se

basant sur l’ontologie. Notons que Textpresso (i) intègre les annotations (XML)

directement dans le texte ce qui rend leur utilisation par un autre système très difficile

et (ii) nécessite la définition d’un nombre très grand d’expressions régulières (des

milliers) pour pouvoir extraire les termes pertinents.

5. Conclusion

Dans ce chapitre, nous avons introduit de façon générale les notions relatives à

l’extraction de connaissances et la fouille de données textuelles. Puis nous avons

essayé de décrire les principales difficultés dans les textes biologiques et les

différentes solutions (méthodes et outils) proposées par la littérature afin de les

résoudre.

Cette quantité importante et hétérogène d’informations contenue dans les textes

biologiques écrites généralement en langage naturel à fait « naître » un besoin de

standardisation à travers l’établissement de terminologies et de vocabulaires communs

pour capturer les concepts biologiques. Cette description des données et des

hiérarchies pour classifier les concepts est appelée « ontologie ».

Page 38: Thèse de magister - Univ Oran 1

Chapitre 2

Plan

1. Introduction

2. Définitions des ontologies

2.1. Du point de vue de la Métaphysique

2.2. Du point de vue de l’ingénierie des connaissances

3. Composants de l’ontologie

4. Typologies d’ontologie

4.1. Typologie selon le degré de formalisme

4.2. Typologie selon l’objet à modéliser

4.3. Typologie selon le degré de granularité

4.4. Typologie selon le type de connaissances à modéliser

5. Représentation des ontologies

6. Utilité des ontologies en ingénierie des connaissances

7. Exemples de ressources ontologiques dans le domaine de la biologie

7.1. Ontologies biologiques et bio-informatiques

7.2. Ontologies des champignons

7.3. Ontologies associées aux expérimentations

8. Conclusion

Les Ontologies

Page 39: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

26

1. Introduction

Les années 80 ont vu le développement de nombreux Systèmes Experts (SE)

réalisant des tâches variées (ex : diagnostic, conception, planification, maintenance) dans

des domaines également variés (ex : médecine, ingénieries mécanique et électronique,

robotique, finance). L’expérience de leur développement a toutefois montré que la

construction d’une Base de Connaissances (BC) était un processus complexe et

nécessitant un temps considérable. Le souhait des développeurs est dès lors de pouvoir

réutiliser et partager des BCs ou, tout le moins, des parties de la BC.

Cette question de la réutilisation et du partage de BCs est donc difficile et

implique plusieurs dimensions. C’est ainsi, qu’au début des années 90, des chercheurs

réunis au sein du projet américain « Knowledge Sharing Effort », soutenus notamment

par la DARPA (Defense Advanced Research Projects Agency), décident de s’attaquer au

problème en privilégiant la représentation explicite du sens. Ils nomment « ontologie »

une telle représentation.

La définition explicite et la délimitation précise du concept ontologie soulève un

questionnement qui est tout à la fois d’ordre philosophique, épistémologique, cognitif et

technique.

2. Définitions des ontologies

2.1. Du point de vue de la Métaphysique

Ontologie est un terme qui est tout d'abord apparu en Philosophie comme

une branche de la Métaphysique qui s'intéresse à l'existence, à l'être en tant qu'être et aux

catégories fondamentales de l'existant. En effet, ce terme est construit à partir des racines

grecques ontos qui veut dire ce qui existe, l’Etre, l’existant, et logos qui veut dire l’étude,

le discours, d’où sa traduction par l’étude de l’Etre et par extension de l’existence

[Bah, 06]. L'origine de la notion d'ontologie remonte donc à Aristote (384-322.BC), bien

que le terme lui-même soit plus récent. Dans la Métaphysique, il est expliqué que la

réalité se présente sous la forme d'individualités uniques et particulières (Platon, Socrate)

qu'il faut aborder à partir de concepts généraux (philosophe, homme, être vivant)

[Dia, 06]. Pour penser un être existant, il faut définir des propriétés (substance, qualité,

Page 40: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

27

quantité, lieu, temps, situation ?), regroupées par Aristote en dix catégories qui, selon lui,

appartiennent à la réalité et ne sont pas de simples constructions mentales. Les propriétés

ainsi utilisées pour caractériser les concepts ne sont pas sans évoquer les attributs utilisés

aujourd'hui dans différents modèles de représentations de connaissances. Le travail sur

l'ontologie consiste donc à déterminer ce qui est universel d'un être, par delà ses

représentations particulières. Après Aristote, c'est Porphyre, philosophe grec du troisième

siècle de notre ère, qui a attaché son nom à l'étude de l'ontologie, à la fois sur un plan

religieux et sur un plan « scientifique », en insistant, pour la catégorisation des êtres, sur

les traits qui les opposent (catégorisation par identité et différence). On peut y voir

l'origine de l'organisation taxinomique en usage dans différents domaines scientifiques.

Cette approche des ontologies est reprise par Roche [Roc, 03] dans le système Ontologos

ainsi que Bachimont [Bac, 00]. Depuis, différents philosophes et mathématiciens ont

travaillé sur la notion d'ontologie et sur le travail de catégorisation, qui lui est connexe.

Le courant philosophique reste très présent, et connaît aujourd'hui un regain d'activité.

2.2. Du point de vue de l’ingénierie des connaissances

Plusieurs définitions du concept ontologie ont été proposées dans le

domaine de l’Intelligence Artificielle. Ces définitions sont souvent des raffinements de

définitions déjà proposées et/ou sont complémentaires avec elles. Neeches et ses

collègues [Nee, 91] furent les premiers à proposer une définition à savoir : «Une

ontologie définit les termes et les relations de base du vocabulaire d’un domaine ainsi

que les règles qui indiquent comment combiner les termes et les relations de façon à

pouvoir étendre le vocabulaire». En 1993, Gruber [Gru, 93] donne la définition

suivante : «Une ontologie est spécification explicite d’une conceptualisation» qui est

jusqu’à présent la définition la plus citée dans la littérature en intelligence artificielle.

Cette définition a subit des raffinements par l’auteur Borst [Bor, 97] qui définit

l’ontologie comme une «Spécification formelle d’une conceptualisation partagée». Ces

deux définitions sont regroupées dans celle de Studer [Stu, 98] comme «Spécification

formelle et explicite d’une conceptualisation partagée». Pour Guarino & Giaretta

[Gua, 95] «Une ontologie est une spécification rendant partiellement compte d’une

conceptualisation». Swartout et ses collègues [Swa, 97] la définissent comme suit : «Une

ontologie est un ensemble de termes structurés de façon hiérarchique, conçue afin de

Page 41: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

28

décrire un domaine et qui peut servir de charpente à une base de connaissances». La

même notion est également développée par Gomez [Gom, 04] « Les ontologies visent à

capturer les connaissances consensuelles de façon générique afin de faciliter leur

réutilisation et leur partage d’une application à une autre et d’un groupe de chercheurs

à un autre. Les ontologies sont généralement construites de façon coopérative par des

gens localisés à différents endroits ».

3. Composants de l’ontologie

Toutes les définitions précédemment citées s’accordent sur le fait que les

ontologies fournissent un vocabulaire commun d’un domaine et définissent la

signification des termes et les relations entre ces derniers. La formalisation des

connaissances de ces ontologies est mis en place grâce à différents types de composants

à savoir : concepts (ou classes), propriétés (ou attributs), instances (ou individus),

relations et axiomes (ou règles) :

Figure 2.1 Composants des ontologies.

o Concepts : Sont des notions (ou objets) permettant la description d’une tâche,

d’une fonction, d’une action, d’une stratégie ou d’un processus de raisonnement,

etc. ils peuvent être abstraits ou concrets, élémentaires ou composés, réels ou

fictifs. Habituellement, les concepts sont organisés en taxonomie [Bah, 06].

o Propriétés : Sont les attributs, les caractéristiques des concepts ou des relations.

o Instances : Constituent la définition extensionnelle de l’ontologie, elles sont

utilisées pour représenter des éléments dans un domaine [Bah, 06].

o Relations : Sont les liens organisant les concepts de façon à représenter un type

d’interaction entre les concepts d’un domaine. Elles sont formellement définies

Page 42: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

29

comme tout sous ensemble d’un produit de n ensembles, c’est-à-dire R :

C1*C2*…….*Cn.

o Axiomes : Permettent de définir la sémantique des termes (classes relations),

leurs propriétés et toutes contraintes quant à leur interprétation. Ils sont définis à

l’aide de formules bien formées de la logique du premier ordre en utilisant les

prédicats de l’ontologie [Bah, 06].

4. Typologies d’ontologie

Après avoir défini les différents composants de l’ontologie, la section suivante

décrit les différents types d’ontologies les plus courants dans la littérature. Cette

classification est en fonction (1) du niveau de formalisme du modèle, (2) des objets

qu’elles modélisent, (3) du degré de granularité des connaissances et (4) du type de

connaissances à modéliser.

4.1. Typologie selon le degré de formalisme

Pour Guarino [Gua, 97] les ontologies peuvent être de natures variables,

suivant le type de langage utilisé et donc allant d’un degré de formalisation zéro à une

formalisation totale. Quatre distinctions sont mises au jour :

o Ontologies informelles : elles sont exprimées en langue naturelle.

o Ontologies semi-informelles : elles sont exprimées dans une forme de langue

naturelle structurée et limitée. Cela permet d’augmenter la clarté de l’ontologie

tout en réduisant l’ambiguïté [Psy, 07].

o Ontologies semi-formelles : elles sont exprimées dans un langage artificiel et

défini formellement.

o Ontologies formelles : elles sont exprimées dans un langage artificiel disposant

d’une sémantique formelle, permettant de prouver des propriétés de cette

ontologie. L’intérêt de ces ontologies est la possibilité d’effectuer des

vérifications sur l’ontologie : complétude, non-redondance, cohérence, etc.

[Psy, 07].

Page 43: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

30

4.2. Typologie selon l’objet à modéliser

Psychés [Psy, 07] propose que la classification peut également se faire en

fonction des objets que modélisent les ontologies pour répondre à un objectif précis:

Figure 2.2 Classification des ontologies selon l’objet à modéliser.

o Ontologies de représentation de connaissances : modélisent les représentations

primitives utilisées pour la formalisation des connaissances sous un paradigme

donné.

o Ontologies de domaine : modélisent les connaissances réutilisables dans des

domaines précis. Ces ontologies fournissent les concepts et les relations

permettant de couvrir les vocabulaires, activités et théories de ces domaines

[Cho, 09]. Les concepts des ontologies de domaine sont souvent des

spécialisations de concepts définis dans des ontologies de niveau supérieur.

o Ontologies de niveau supérieur (ou générique): modélisent les concepts très

généraux auxquels les racines des ontologies de plus bas niveaux devraient être

liées. Cependant, il existe plusieurs ontologies de niveau supérieur et qui sont

divergentes. Afin de résoudre ce problème, l’organisation de standardisation IEEE

tente de développer une ontologie de niveau supérieur qui soit standard.

o Ontologies d’applications : modélisent les connaissances requises pour des

applications spécifiques. Les ontologies d’applications spécialisent souvent le

vocabulaire des ontologies de domaine et des ontologies de tâches [Cho, 09].

o Ontologies de tâches : modélisent les vocabulaires relatifs à une tâche ou une

activité générique en spécialisant certains termes des ontologies de niveau

supérieur [Cho, 09].

Page 44: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

31

4.3. Typologie selon le degré de granularité

Cette classification des ontologies selon Guarino [Gua, 97] est en

fonction du niveau de granularité, c'est-à-dire du niveau de détail des objets de la

conceptualisation. Ainsi, selon l’objectif opérationnel de l’ontologie, une connaissance

plus ou moins fine du domaine est nécessaire et des propriétés considérées comme

accessoires dans certains contextes peuvent se révéler indispensables pour d’autres

applications. On peut relever alors deux types de granularités.

o Granularité fine : cela correspond à des ontologies très détaillées, possédant un

vocabulaire riche capable d’assurer une description détaillée des concepts

pertinents d’un domaine [Psy, 07].

o Granularité large : cela correspond à un vocabulaire moins détaillé. Les

ontologies de haut niveau ont par exemple une granularité large, car les notions

sur lesquelles elles portent peuvent être raffinées par des notions plus spécifiques

[Psy, 07].

4.4. Typologie selon le type de connaissances à modéliser

Les ontologies sont classifiées dans la figure 2.3. [Lor, 02] sur la base de

leur force d’expression, c’est à dire sur la base de l’information que l’ontologie doit

exprimer :

Figure 2.3 Typologie des ontologies selon le type de connaissances à modéliser.

Page 45: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

32

o Vocabulaires contrôlés : C’est une liste finie de termes, un ensemble de sens

lexicaux associés à des traits syntaxiques, morphologiques et sémantiques.

o Glossaires : Ce sont des listes de termes avec leurs significations. Les

significations sont le plus souvent exprimées par des énoncés en langue naturelle

qui sont principalement destinés à des agents humains.

o Thesauri : Ils ajoutent aux glossaires la sémantique ressortant des définitions des

relations entre les termes (comme la relation de synonymie). Généralement, ils ne

fournissent pas la structure hiérarchique explicite, bien que celle-ci puisse être

déduite des spécifications de termes plus larges ou plus proches.

o Hiérarchies Is-a informelles : Cette catégorie inclut la plupart des ontologies du

web. Ce sont des ontologies où une notion vague de généralisation et de

spécialisation est fournie bien que ce ne soit pas une hiérarchie stricte de sous-

classe (ex : Yahoo !).

o Hiérarchies Is-a formelles : Ce sont des ontologies où les concepts sont organisés

selon une hiérarchie de sous-classe stricte. Le concept d’héritage est toujours

applicable dans ce type d’ontologie. Cette ontologie peut inclure uniquement des

noms de classe.

o Instances formelles : Les ontologies incluant des relations d’instances formelles

sont une extension naturelle des ontologies appliquant une structure de hiérarchie

stricte.

o Cadres : Ce sont des ontologies dont les concepts sont décrits en terme de

propriétés caractéristiques. Le fait d’inclure des propriétés dans la description du

concept devient intéressante dans la mesure où l’on peut appliquer le principe

d’héritage sur ces propriétés.

o Restriction de valeur : Ces ontologies permettent d’appliquer des restrictions aux

valeurs associées aux propriétés (ex : nombre maximum de noms pour décrire le

concept).

Page 46: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

33

o Contraintes de logique générale : Ces ontologies sont celles qui ont la plus

grande force d’expression. Par exemple, ces ontologies peuvent être basées sur

des équations mathématiques qui utilisent des valeurs d’autres propriétés ou les

propriétés peuvent être exprimées comme des énoncés logiques.

5. Représentation des ontologies

Penser une ontologie ne peut se faire sans un formalisme pour la représenter afin

de décrire les termes d'une ontologie. Il existe divers langages dont les plus connus sont :

o XML1 (Extensible Markup Language): est un langage permettant de générer

des balises pour la structuration de données et de documents. Il permet la

représentation et l’échange de documents semi-structurés.

o XML-Schéma : permet de définir la structure, les contraintes, et la sémantique de

documents XML. Ce langage n’est pas vu comme un langage d’ontologies car il a

été créé pour vérifier la structure de documents XML. Les primitives qu’il met en

place sont plutôt orientées application que concept. En effet, la sémantique définie

dans le document est interprétable dans le contexte de l’opération faite sur le

document mais ne permet pas d’établir des inférences en dehors de ce contexte.

XML et XML-schéma sont considérés comme des langages définissant le format

de « message » alors qu’un langage d’ontologies a pour but de « représenter » la

connaissance.

o RDF 2 (Resource Description Framework): permet d’encoder, d’échanger et de

réutiliser des métadonnées structurées. Il a été créé pour gérer les métadonnées de

documents XML mais peut également être utilisé pour des ontologies. Il permet

de définir des ressources avec des propriétés et des états.

o RDF-Schéma : définit les relations entre ces ressources. Le pouvoir sémantique

de ces deux langages est limité car les axiomes ne peuvent pas être directement

décrits. Le type des relations (symétrique, transitive, …etc.) ne peut être spécifié.

1 www.w3.org/XML

2 www.w3.org/RDF/

Page 47: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

34

o OWL3 (Web Ontology Language) : doit permettre de représenter des ontologies,

en particulier sur le Web. Il est fondé sur la syntaxe RDF/XML et est dédié

totalement à la représentation des ontologies. OWL est destiné à être utilisé

lorsque les informations contenues dans les documents doivent être traitées par

des applications logicielles, c'est-à-dire lorsqu’elles ne sont pas simplement

montrées à l’utilisateur. Il existe trois sous-langages d’OWL offrant des capacités

d’expression croissantes : OWL Lite, OWL DL et OWL Full.

o Le langage du projet OBO (Open Biomedical Ontologies) : Le projet OBO est

une initiative d'un groupe de développeurs d'ontologies dans le domaine

biomédical, qui s'est mis d'accord sur un nombre de principes spécifiant les

bonnes pratiques pour le développement d'ontologies biomédicales. Les principes

édictés reposent sur l'objectif d'interopérabilité entre les différentes ontologies

développées. Un langage formel commun est fourni pour la représentation des

ontologies. Il est conçu pour permettre la prise en compte de plusieurs méta-

données, et comprend un mécanisme d'historisation. Parmi les principes édictés

par le projet OBO citons :

1. Chaque ontologie doit avoir un identifiant unique au sein de OBO;

2. Chaque ontologie doit inclure des définitions textuelles pour chacun de ses

termes ;

3. Les ontologies au sein d’OBO doivent être développées de façon

collaborative.

6. Utilité des ontologies en ingénierie des connaissances

Plusieurs chercheurs se sont intéressés à la finalité des exploitations des

ontologies. Dans ce qui suit est présentée l’utilité des ontologies au sein des systèmes à

base de connaissances (SBC) et du Web Sémantique :

o Les connaissances du domaine d’un SBC : Les ontologies servent à représenter

les connaissances du domaine d’un SBC. En particulier, elles servent de squelette

à la représentation des connaissances du domaine dans la mesure où elles

3 www.w3.org/OWL/

Page 48: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

35

décrivent les objets, leurs propriétés et la façon dont ils peuvent se combiner pour

constituer des connaissances du domaine complètes.

o La communication : Les ontologies peuvent intervenir dans la communication

entre personnes, organisations et logiciels [Usg, 96]. En effet, les ontologies

servent par exemple, à créer au sein d’un groupe ou d’une organisation un

« vocabulaire conceptuel commun ». Dans ce cas, on est plutôt dans le cadre

d’une ontologie informelle. Dans le cas de la communication entre personnes et

systèmes, l’ontologie est formelle et sert en général une tâche précise dans le SBC

ou le système d’information. L’ontologie est un puissant moyen pour lever les

ambiguïtés dans les échanges.

o L’interopérabilité : le développement et l’implantation d’une représentation

explicite d’une compréhension partagée dans un domaine donné, peut améliorer la

communication, qui à son tour permet une plus grande réutilisation, un partage

plus large et une interopérabilité plus étendue [Usg, 96]. L’interopérabilité est

donc une spécialisation de la communication qui permet de répertorier les

concepts que des applications peuvent s’échanger même si elles sont distantes et

développées sur des bases différentes.

o L’aide à la spécification de systèmes : La plupart des logiciels conventionnels

sont construits avec une conceptualisation implicite et que la nouvelle génération

des systèmes utilisant les travaux en intelligence artificielle devrait être basée sur

une conceptualisation explicitement représentée [Miz, 96]. En effet, l’ontologie

fournit une classification des objets que doit manipuler le système.

o L’indexation et la recherche d’information : Dans le Web Sémantique, les

ontologies y sont utilisées pour déterminer les index conceptuels décrivant les

ressources sur le Web.

o Le partage des connaissances : En annotant les ressources du Web ou d’une

organisation sur la base d’un vocabulaire commun s’adossant à une ontologie, il

est possible de rendre l’accès au Web plus performant et mieux adapté aux

besoins des usagers.

Page 49: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

36

7. Exemples de ressources ontologiques dans le domaine de la biologie

Le recours à des vocabulaires contrôlés ou à des ontologies s’est fait

rapidement sentir pour capturer les concepts biologiques présents en vue du

traitement automatique des annotations généralement écrites en langage naturel.

La construction, la fusion, l'utilisation et la réutilisation des ontologies constituent

quelques-uns des défis actuels en bioinformatique :

7.1. Ontologies biologiques et bio-informatiques

o Le projet GO (Gene Ontology) : vise à fournir un vocabulaire structuré pour des

domaines spécifiques biologiques permettant de décrire les produits des gènes

(protéines ou ARNm) des organismes. Il comprend trois ontologies parallèles qui

sont de plus en plus utilisés par la communauté bioinformatique: fonctions

moléculaires, processus biologiques et composants cellulaires.

o Le vocabulaire contrôlé eVoc : offre un système qui associe des données

d'expression (issues de puces à ADN, expériences SAGE ou ESTs) à un ensemble

de vocabulaires hiérarchiques [Kel, 03]. eVoc se compose de quatre vocabulaires

contrôlés orthogonaux appropriés pour décrire et comparer l'expression des gènes

chez l'homme et la souris.

o Le consortium HUGO (Gene Nomenclature Committee) : est né d'une volonté

d'uniformiser la désignation des gènes, propose une terminologie uniforme pour

29 000 gènes humains [Wai, 02].

o TAMBIS : est une plate-forme basée sur une ontologie globale, la Tao (TAMBIS

Ontologie) décrivant les ressources associées aux données génomiques et à leur

manipulation, caractérisant ainsi les logiciels et les bases de donné [Ste, 00].

o Le projet européen HKIS : vise à concevoir une architecture d'intégration qui

tienne compte à la fois des bases de données publiques (GenBank) et de données

biologiques privées (données du transcriptome, comme les informations

médicales ou cliniques des patients). Basé sur une ontologie de concepts

disponibles dans les bases moléculaires et combiné à une formalisation des

Page 50: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

37

scénarios de traitements des données de l'utilisateur, HKIS propose un chemin de

navigation dans des bases de données successives et permettant de répondre à la

requête de l'utilisateur [Coh, 04].

o Le projet OBO (Open Biomedical Ontology) : est une collaboration des

développeurs d'ontologies scientifiques dont le but est de créer des ontologies de

référence dans le domaine biologique et biomédical.

o La plate-forme NCBO (National Center for Biomedical Ontology) : développe

et maintient une application Web appelée BioPortail qui permet aux chercheurs

d'accéder et d'utiliser des ontologies biomédicales. Il recense 194 ontologies

telles que GO, National Cancer Institute Thesaurus, International Classification of

Diseases, Foundational Model of Anatomy [Jon, 09].

o La plate-forme OLS (Ontology Lookup Service) : quant à elle, a été créée pour

intégrer des ontologies biomédicales et les mettre à la disposition du public à

travers une base de données unique. Elle contient plus de 80 ontologies.

7.2. Ontologies des champignons

Les deux champignons modèles d’intérêt sont des organismes à cycle de

reproduction court, faciles à gérer dans les laboratoires et accessibles aux méthodologies

de la génétique classique et de la biologie moléculaire. Ils sont pluricellulaires et

filamenteux, mais différents du champignon unicellulaire le plus étudié, Saccharomyces

cerevisiae. Plusieurs ontologies décrivant les champignons existent, mais les objectifs, la

spécificité de l’espèce, ou le spectre diffèrent de nos besoins.

o La FAO (Fungal Anatomy Ontology) : est un vocabulaire contrôlé décrivant

l'anatomie des trois grands phylums de champignons, ascomycètes,

basidiomycètes et zygomycètes. Son large spectre, en contrepartie, ne la rend pas

assez détaillée pour notre usage.

o L’APO (Ascomycete Phenotype Ontology) : décrit les observations

phénotypiques des ascomycètes, mais elle est principalement enrichie par les

Page 51: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

38

phénotypes mutants de S. cerevisiae qui ne sont pas partagés par nos

champignons.

o La FWO (Fungal Web Ontology) : est une ontologie développée pour l'analyse à

grande échelle des relations génétiques entre les enzymes et les connaissances

disponibles sur les champignons [Sha, 05]. La FWO réutilise et intègre différentes

ressources: la base de données de littérature et de taxonomie du NCBI, une autre

base de données taxonomique appelée NEWT, la base de données des enzymes,

BRENDA, la base de données dédiée à la levure, Saccharomyces Genome

Database, et la base de données dédiée au champignon N. crassa. La FWO

associe gènes et produits des gènes mais elle manque de données d'expression.

o Le projet AFTOL-2 (Assembling the Fungal Tree of Life) : vise à recenser

certaines séquences de gènes. Les quelques gènes d'intérêt sont choisis pour être

partagés entre tous les champignons dans le but d'améliorer leur taxonomie.

o La CCO (Cell Cycle Ontology) : est encore une autre ontologie qui intègre et

gère la connaissance sur les composants du cycle cellulaire et de ses aspects

régulateurs pour différentes espèces. Elle est espèce spécifique, et concerne

seulement deux champignons unicellulaires, S. cerevisiae et S. pombe.

7.3. Ontologies associées aux expérimentations

L’annotation efficace, la récupération et le partage des résultats

expérimentaux sont des problèmes de la biologie moderne. Les ontologies peuvent aider

dans ces tâches, car elles incarnent la connaissance abstraite nécessaire à l'intégration de

données et d'analyses. Ainsi, une description formelle des expériences est extrêmement

importante pour l'organisation et l'exécution des expériences en biologie.

Par exemple, les bio-puces du projet MGED (Micro-array Gene

Expression) prévoient des termes pour annoter tous les aspects d'une expérience de puces

à ADN de sa conception avec la définition des hybridations, à la préparation de

l'échantillon biologique et des protocoles utilisés pour hybrider l'ARN sur la puce et

analyser les données. Les termes MGED sont fournis sous la forme d'une ontologie : ils

sont organisés en classes avec des propriétés, et sont bien définis. Ils permettent des

Page 52: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

39

requêtes structurées concernant les éléments des expériences. Les descriptions du

comment et du pourquoi chaque expérience a été réalisée sont nécessaires et pour les

descriptions du matériel biologique (biomatériaux) et de certains traitements utilisés dans

l'expérience, les termes peuvent provenir de ressources externes qui sont spécifiées dans

l'ontologie. Les logiciels utilisant l'ontologie proposent des formulaires pour l'annotation,

remplissent directement les bases de données, ou éditent des fichiers dans le format

établit MAGE-ML.

Ainsi, l'ontologie sera utilisée directement par les utilisateurs pour annoter

leurs expériences sur bio-puces ainsi que par les développeurs de logiciels et de bases de

données [Gue, 05]. Comme les ESTs, les expériences de microarray concernent des

données d'expression, mais d'une manière très différente. Les données d’ESTs sont les

premières données d'expression (le premier EST date du 26/05/1992), tandis que, des

données de bio-puces, plus récentes ont pu bénéficier des réflexions concernant les

ontologies qui se sont déroulées à la même époque. L'ontologie MGED, mise au point

avec les applications pratiques des bio-puces ne peut être utilisée pour la description des

ESTs.

8. Conclusion

Les ontologies sont définies pour un objectif donné et expriment un point de vue

partagé par une communauté. Conçues pour répondre aux problèmes posés par

l’intégration des connaissances au sein des systèmes informatiques, les ontologies

apparaissent désormais comme une solution pour la manipulation de l’information au

niveau sémantique. La diversité et la puissance des applications potentielles des

ontologies laissent à penser que leur place au sein des systèmes d’information ne peut que

croître. Si les principaux projets utilisant des ontologies ne visent pour le moment que la

gestion de connaissances au niveau sémantique, les ontologies pourraient permettre à

terme la création de systèmes capables non seulement de gérer des connaissances mais

aussi de raisonner sur ces connaissances et, pourquoi pas, d’en produire de nouvelles.

Dans ce chapitre, les premières notions liées aux ontologies ont été présentée à

savoir leurs définitions, leurs composants, leurs typologies, leurs utilités et quelques

applications domaines de la biologie. Cette revue, bien que n'étant pas exhaustive car ce

Page 53: Thèse de magister - Univ Oran 1

Chapitre 2. Les Ontologies

40

domaine est assez vaste aujourd'hui, mais introduit les éléments nécessaires qui

permettent d'aborder le chapitre suivant à savoir les méthodes et outils de construction

des ontologies.

Page 54: Thèse de magister - Univ Oran 1

Chapitre 3

Plan

1. Introduction

2. Méthodes et méthodologie de construction des ontologies

2.1. Construction d’Ontologie à partir de zéro

2.2. Construction d’Ontologie par réutilisation

2.3. Construction collaborative

3. Construction d’ontologies à partir de corpus de textes

3.1. Constitution d'un corpus

3.2. Extraction de termes

3.3. Extraction de relations

3.4. Nécessité de l’intervention humaine pour la construction d’ontologie

4. Rôle des statistiques textuelles pour la construction d’ontologie

5. Rôle des grammaires rationnelles pour la construction d’ontologie

6. Editeurs d’ontologies

6.1. Les outils orientés ontologisation

6.2. Les outils orientés conceptualisation

7. Cycle de vie des ontologies

8. Conclusion

La construction d’ontologies à

partir de corpus de textes

Page 55: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

42

1. Introduction

La conception d’ontologies est une tâche difficile qui nécessite la mise en place de

procédés élaborés afin d’extraire la connaissance d’un domaine, manipulable par les systèmes

informatiques et interprétable par les êtres humains. Deux types de conception existent : la

conception entièrement manuelle et la conception reposant sur des apprentissages. Plusieurs

principes et méthodologies ont été définis pour faciliter la génération manuelle. Ces principes

se basent sur des fondements philosophiques et suivent des procédés de modélisation

collaboratifs. Cependant, ce procédé de génération est très coûteux en temps et pose surtout

des problèmes de maintenance et de mise à jour. La conception automatique d’ontologies

commence à émerger comme un sous-domaine de l’ingénierie des connaissances. Face à la

masse croissante de documents présents sur le Web et aux avancées technologiques dans le

domaine de la recherche d’information, de l’apprentissage automatique et du traitement

automatique des langues, de nouveaux travaux portent sur la recherche d’un procédé plus

automatique de génération d’ontologies. Ce mécanisme mène généralement à la conception

d’ontologies dites légères.

Dans les travaux de Gargouri [Gar, 03], différents types d’approches sont distingués

en fonction du support sur lequel elles se basent : à partir de textes, de dictionnaires, de bases

de connaissance, de schémas semi-structurés et de schémas relationnels.

Dans ce chapitre, quelques unes des méthodes de construction d’ontologie seront

exposées. Par la suite, la méthodologie de construction d’ontologies à partir de corpus de

textes sera expliquée en détail, car elle est d'un intérêt particulier dans le cadre de notre étude

pour l’acquisition des informations expérimentales des deux champignons filamenteux. Enfin,

quelques outils et le cycle de vie des ontologies seront décrits.

2. Méthodes et méthodologie de construction des ontologies

Les travaux sur la construction des ontologies ont débuté dans les années 1990

[Gub, 95], [Grü, 95], [Bla, 98], [Usc, 95], [Fer, 97], [Gua, 98], [Cor, 03], [Jar, 02] et [Aus,

00]. Il existe plus de 33 méthodes décrites dans la littérature. Le tableau ci-dessous donne un

aperçu de ces méthodes et méthodologies.

Page 56: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

43

Tableau 3.1 Méthodes et Méthodologies de l’ingénierie ontologique. [Cho, 09]

Ces méthodes peuvent être classées comme suit :

1. Les méthodes et méthodologies pour la construction d'ontologies en partant de zéro ;

2. Les méthodes pour la réingénierie d'ontologies ;

3. Les méthodes de construction coopérative d'ontologies.

2.1. Construction d’Ontologie à partir de zéro

Elle est basée majoritairement sur l’extraction d’ontologies à partir de textes.

La méthode TERMINAE est un exemple de cette approche. Elle se base sur les étapes de

Méthodes et méthodologies de construction des ontologies

Approche

collaborative

[Hol, 02]

Méthode de l’université de

STANDFORD

[Nat, 02]

Methontology

[Flg, 02]

Onions- Ontologic Integation of

Naive Sources

[Gan, 02]

FCA-merge

[Stu, 01]

Modèle en V

[Ste, 01]

On-To-Knowledge

[Sta, 01]

KRAFT

[Jfs, 00]

PROMPT

[Nom, 00]

Infosleuth

[Hwa, 99]

(KA) 2

[Dec, 99]

Method for Reengineering

[Gpb, 99]

Méthodologie

[Ngu, 97]

Ontobroker

[Ash, 97]

SENSUS

[Swa, 97]

SISM

[Are, 97]

Mikrokosmos

[Mah, 96]

PhysSys

[Bor, 96]

Approche unifiée

[Umk, 95]

Enterprise

[Umk, 95]

Ontolingua

[Far, 95]

TOVE - Toronto Virtual

Enterprise

[Grf, 95]

Common KADS &

KACTUS

[Mar, 94], [Wie, 94]

Menelas

[Bou, 94]

Plinius

[Mar, 94]

Projet KACTUS

[Sch, 92]

Cyc

[Lea, 90]

Page 57: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

44

Constitution d’un corpus (documents techniques, comptes rendus, livres de cours, etc.), à

partir d’une analyse des besoins de l’application visée, Etude linguistique, pour identifier des

termes et des relations lexicales, en utilisant des outils de traitement de la langue naturelle

comme LEXER, Normalisation sémantique, conduisant à des concepts et des relations

sémantiques définis dans un langage semi-formel, et Formalisation et intégration des

concepts au sein d’une Base de Connaissance formelle. [Dia, 06]

2.2. Construction d’Ontologie par réutilisation

Elle est basée sur l’intégration ou fusion avec d’autres ontologies. Ceci

nécessite très souvent une étape d’alignement, qui identifie les concepts et les relations que

ces ontologies ont en commun. Des exemples de propositions méthodologiques ou techniques

concernant cette approche sont trouvables dans ONIONS ou PROMPT. [Dia, 06]

2.3. Construction collaborative

Ces travaux cherchent davantage à mettre en valeur et assister la nécessaire

collaboration entre les concepteurs des ontologies, en mettant à leur disposition des dispositifs

de discussion et de gestion de versions différentes des ressources en cours de construction.

[Dia, 06]

3. Construction d’ontologies à partir de corpus de textes

Dans cette section, nous allons expliquer la méthodologie de construction d’ontologies

à partir de corpus de textes, car elle est d'un intérêt particulier dans le cadre de notre travail

pour l’acquisition des informations expérimentales des champignons d’étude (voir chapitre 4).

La construction d’ontologies à partir de textes vise à la mise en œuvre à partir

d’éléments qui peuvent être extraits de ces textes. Cette construction fait intervenir différents

domaines (Recherche d’information, Ingénierie des Connaissances, Traitement Automatique

des Langues) qui peuvent être associées aux différentes phases de cette méthodologie.

Page 58: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

45

3.1. Constitution d'un corpus

Afin de mettre en place la construction d’ontologies à partir de textes, il est

tout d’abord nécessaire de constituer l’ensemble des documents sur lequel reposera cette

élaboration. Cette tâche de constitution du corpus est à la fois primordiale et délicate. Puisque,

d’une part, le corpus est la source d’information essentielle pour tout le processus de

construction et d’autre part, il restera, une fois le processus achevé, l’élément de

documentation de la ressource construite, il doit être composé avec un maximum de

précautions méthodologiques. Dans ce domaine, il n’est hélas pas encore possible de définir a

priori des instructions méthodologiques très précises pour encadrer la tâche de sélection des

sources textuelles qui viendront constituer le corpus. Au-delà des problèmes techniques ou

politiques de disponibilité des textes, cette collecte doit se faire avec l’aide des spécialistes et

en fonction de l’application cible visée. Il convient en effet de s’assurer auprès des

spécialistes que les textes choisis ont un statut suffisamment consensuel pour éviter toute

remise en cause ultérieure de la part d’utilisateurs ou de leur part. Par ailleurs, il convient de

prévoir d’emblée une boucle de rétroaction au cours de laquelle une première version du

corpus sera modifiée et enrichie en fonction d’une première phase d’analyse des résultats

fournis par les outils de Traitement Automatique du Langage Naturel (TALN) sur cette

version initiale. [Her, 06]

Le critère de la taille est évidemment important, même s’il est impossible de

donner un chiffre idéal. Le choix est ici encore un compromis. Le corpus doit être

suffisamment « gros » pour justifier que des outils de traitement de la langue soient

nécessaires pour le dépouiller de façon efficace. Mais il doit être suffisamment petit et/ou

redondant pour pouvoir être appréhendé de façon globale par l’analyste, même à l’aide

d’outils de TALN. Une fourchette entre 50 000 et 200 000 mots semble raisonnable. Les

projets prenant le Web comme source de textes font rapidement exploser ces chiffres, posant

par la même des problèmes spécifiques, comme celui de la définition d’un « échantillon »

pertinent pour l’étude. [Her, 06]

Enfin, dans la majorité des cas, le corpus sera hétérogène dans le sens où il aura

été constitué en rassemblant des textes d’origine variée. Il est alors absolument nécessaire de

procéder à un balisage du corpus qui permettra aux outils d’analyse, et ainsi qu’à l’analyste,

Page 59: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

46

de repérer les différents sous-corpus pour procéder éventuellement à des analyses

contrastives. [Her, 06]

3.2. Extraction de termes

Cette tâche consiste à extraire un ensemble de termes candidats pour

représenter les concepts d’une ontologie. Ces termes peuvent être extraits selon deux

approches : syntaxique ou statistique. L’approche syntaxique analyse le rôle grammatical des

mots dans ces textes, alors que l’approche statistique repose sur la fréquence d’apparition des

mots dans les textes.

w Approche syntaxique

Ces approches utilisent certaines informations syntaxiques dans le choix des

termes et supposent que le document a déjà subi une analyse morphologique et une analyse

syntaxique. Parmi ces approches, nous citons deux familles : les approches basées sur patrons

morpho-syntaxiques et les approches basées sur règles de transformation [Khe, 06].

o Utilisation de patrons morpho-syntaxiques

C’est l’une des techniques les plus utilisées pour l’extraction de termes. Les

systèmes basés sur cette technique supposent que les termes à extraire obéissent à des

régularités syntaxiques stables. Ces systèmes prennent en entrée un ensemble de patrons

constitués d’une suite de catégories grammaticales et qui peuvent être par exemple : NOM

NOM / ADJQ NOM / NOM PREP NOM...Toutes les occurrences de mots correspondant à

ces patrons sont extraites comme des candidats termes potentiels.

o Utilisation des règles de transformation

Ces méthodes permettent d’extraire des termes complexes à partir de

connaissances extérieures servant de référence. Généralement, elles identifient des variantes

de termes fournis par un thésaurus ou un vocabulaire contrôlé.

Page 60: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

47

w Approche statistique

Ces approches utilisent seulement les co-occurrences de mots. Le principe est

que si deux mots co-occurrent souvent dans un certain type de contexte, alors ils peuvent être

regroupés dans un terme. Le calcul de co-occurrences varie selon le contexte et selon les

besoins. Il peut se faire dans le même document, le même paragraphe, la même phrase, ou

dans une certaine distance [Khe, 06].

w Approche mixte

Ces approches combinent des méthodes à orientation statistique et des

méthodes à orientation syntaxique. Elles utilisent généralement des calculs statistiques afin

d’affiner leurs méthodes d’extraction linguistique [Khe, 06].

3.3. Extraction de relations

Après avoir présenté quelques approches d’extraction de candidats-termes,

nous allons voir les différentes approches proposées pour extraire des relations sémantiques

entre ces termes. Nous présentons trois grandes familles à savoir : l’étude statistique,

l’exploitation des contextes syntaxiques et l’utilisation de marqueurs.

w Extraction des relations par étude statistique

Ces approches reposent sur le principe que les termes qui co-occurrent

ensemble ont de fortes chances d’être liés par des relations sémantiques. Elles exploitent donc

la distribution des termes dans le document/corpus en utilisant des techniques de fouille

basées sur des méthodes statistiques. Ces méthodes n’extraient pas vraiment des relations

mais proposent un nuage de termes, à partir duquel un expert pourrait déduire des relations ou

des classes conceptuelles [Khe, 06].

w Extraction des relations par exploitation des contextes syntaxiques

Comme pour les premières, ces approches exploitent le principe de

co-occurrence des termes pour la détection des relations. Par contre, elles utilisent la

distribution syntaxique des termes à la place des calculs statistiques pour extraire les relations.

Page 61: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

48

w Extraction des relations par l’utilisation des marqueurs

Ces approches se basent sur les traces linguistiques qui signalent les

relations sémantiques dans le texte (ces traces peuvent être liées, soit à la langue, soit au

domaine) pour construire des marqueurs permettant la détection de ces relations. Un marqueur

peut être considéré comme une formule linguistique que les mots désignant une relation dans

le texte doivent vérifier [Khe, 06].

3.4. Nécessité de l’intervention humaine pour la construction d’ontologie

Aucun outil ou méthode ne permet aujourd’hui de créer de façon totalement

non supervisée des ressources sémantiques de bonne qualité [Bie, 05]. Il faut sous-entendre ici

des ressources suffisamment profondes, dont la couverture soit suffisamment large et dont les

erreurs dans les analyses soient suffisamment négligeables.

La plupart des outils disponibles pour la construction d’ontologie à partir de

textes [Gom, 03] sont décrits comme nécessitant l’intervention humaine à différents niveaux :

o Procurer des données ou connaissances initiales : plusieurs méthodes et outils de

construction d’ontologie requièrent que des experts fournissent des données ou

connaissances pour initialiser la construction semi-automatique. Par exemple,

certaines méthodes de construction d’ontologie [Gom, 03] recommandent que des

experts de domaine choisissent les documents utilisés pour la construction d’ontologie

de domaine afin de s’assurer que toutes les notions pertinentes au domaine soient

couvertes par ces documents.

w Raffiner les informations extraites : beaucoup de méthodes et outils ne permettent

d’extraire que des ontologies superficielles qui peuvent souvent nécessiter des

raffinements. Par exemple, la plupart des méthodes d’extraction pour la construction

d’ontologie ne portent que sur l’extraction de concepts à partir de noms communs

[Bie, 05]. Dans ce cas, des raffinements peuvent être nécessaires afin d’ajouter des

relations non taxonomiques aux ontologies par exemple. Un autre exemple OntoDL

[Bui, 04] dont les règles d’extraction et les résultats d’extraction peuvent être raffinés

par le développeur.

Page 62: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

49

w Valider les informations extraites : les taux d’erreurs pour les informations extraites à

partir de corpus sont parfois élevés et/ou peuvent nécessiter des validations par des

experts. Par exemple le système On-to-Knowledge [Gom et al, 03] extrait des

relations d’hyponymie mais avec un fort taux d’erreurs.

4. Rôle des statistiques textuelles pour la construction d’ontologie

o La fréquence de terme est proportionnelle au nombre de fois qu’un terme apparaît

dans un document. Ce nombre est généralement normalisé par le nombre de tous les

termes dans un document afin d’éviter les biais pour de longs documents. La

fréquence de terme est parfois utilisée pour (i) l’identification de termes pertinents

d’un corpus ou (ii) directement pour l’identification de candidats de concepts (ou

d’instances de concepts) et de relations [Gom, 03]; les termes et couplages de termes

dont les fréquences relatives sont plus grandes dans un corpus de domaine que dans un

corpus général sont parfois proposés à l’expert respectivement comme candidats de

concepts et comme candidats de relations.

o TF-IDF (Term Frequency - Inverse Document Frequency) [Lav, 07] est une mesure

statistique utilisée pour évaluer l’importance (le poids) d’un mot dans un document

d’un corpus. L’importance croit proportionnellement avec le nombre d’occurrences du

mot dans le document mais est contrebalancée par la fréquence du mot dans le corpus.

La fréquence inverse du document (IDF) pour un terme donné est une mesure de

l’importance générale de ce terme (c’est le logarithme du nombre de tous les

documents divisé par le nombre de documents contenant ce terme): pour un terme ti ,

TF-IDF = TF x IDF où IDF = log (nombre de documents / nombre de documents

contenant le terme ti). Un haut poids TF-IDF est atteint avec une haute fréquence d’un

terme dans un document donné et une faible occurrence de ce terme dans les

documents du corpus. TF-IDF tend à filtrer les termes communs. TF-IDF est parfois

utilisé comme métrique de similarité pour mesurer la distance entre termes [Gom, 03]:

la métrique permet ainsi de regrouper les termes similaires en concepts communs. TF-

IDF est également utilisé pour détecter les termes pertinents à un domaine donné

[Gom, 03].

Page 63: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

50

o L’analyse sémantique latente [Lav, 07] est une technique d’extraction et de

représentation de la signification contextuelle des mots par calculs statistiques sur un

large corpus textuel. L’idée de base est que l’agrégation des contextes où les mots

apparaissent et n’apparaissent pas fournit un ensemble de contraintes déterminant la

signification des mots et la similarité avec les autres mots. L’analyse sémantique

latente utilise une matrice de termes de documents décrivant les occurrences des

termes dans les documents. La matrice est creuse avec les rangées correspondant à des

documents et les colonnes correspondant aux termes. La métrique TF-IDF est souvent

utilisée afin de pondérer les occurrences des termes (le poids d’une entrée donnée dans

la matrice est proportionnel au nombre de fois qu’un terme apparaît dans un

document). Les poids des termes rares sont ajustés de façon à refléter leurs

importances relatives. L’analyse sémantique latente transforme la matrice de termes de

documents en un espace de concepts latents (agrégation de contextes d’apparition des

termes) permettant de mettre en relations termes et concepts, ainsi que documents et

concepts. La notion de concept issue de l’analyse sémantique latente est supportée par

l’hypothèse distributionnelle de Richard Harris [Lav, 07] selon laquelle les mots qui

tendent à apparaître dans des contextes similaires ont des sens similaires. Dans les

deux cas, la co-occurrence de termes est interprétée comme un indicateur de proximité

sémantique. De façon générale, l’extraction de connaissances ontologiques à partir de

textes non structurés repose sur l’hypothèse distributionnelle des mots dans les textes.

5. Rôle des grammaires rationnelles pour la construction d’ontologie

Une grammaire rationnelle est un ensemble d’expressions (couples, triplets, schémas,

patrons, etc.) ordonnées définissant un langage [Lav, 07]. Dans le contexte de l’analyse de

texte, la grammaire spécifie la composition des phrases d’un langage naturel.

o Les modèles N-grams [Lav, 07] sont considérés par certains comme des grammaires

rationnelles stochastiques; c’est-à-dire des modèles hybrides représentant les

propriétés statistiques et compositionnelles des textes. Les modèles N-grams

modélisent des séquences de termes (mots, lettres, etc.) avec des N-grams qui sont des

sous-séquences de N termes. Ils permettent de déterminer la probabilité d’un mot étant

donné les N-1 mots précédents. Les séquences à fortes probabilités permettent de

déterminer les séquences de mots fortement associés, telles les collocations (e.g.

Page 64: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

51

“cordon bleu”), où chaque séquence de mots pourra être mise en correspondance avec

un concept. Les N-grams permettent également de comparer les contextes

d’occurrences.

o Les patrons d’expressions contiennent des termes et des variables auxquelles peuvent

être associées des contraintes. Les patrons d’expressions sont unifiés avec des textes

de façon à instancier les patrons avec des fragments de textes satisfaisant aux

structures et aux contraintes des patrons. Les patrons d’expressions permettent de

spécifier des relations et/ou des arguments de ces relations afin d’extraire des mots

correspondant aux relations ou aux arguments. Par exemple, ils sont parfois utilisés

pour l’extraction des relations d’hyponymie (relation sémantique de subordination ou

d’appartenance à une classe de plus bas niveau) [Gom, 03]: sachant que Shakespeare

est un hyponyme de poète, à partir du patron correspondant à la séquence “poète …

Shakespeare” on peut trouver dans un texte l’expression “poète tel que Shakespeare”

et faire l’hypothèse que “X tel que Y “ indique une relation d’hyponymie entre X et Y.

Inversement, à partir du patron “X tel que Y“ on peut trouver dans un corpus les

couples de mots X et Y qui sont possiblement en relations d’hyponymie. La même

approche peut être appliquée avec d’autres types de relations lexicales: relations de

hypernymie (inverse de l’hyponymie), synonymie, antonymie, méronymie (relation

entre la partie et le tout), etc. Les patrons de mots sont souvent utilisés pour raffiner

des ontologies existantes. Cependant, les taux d’erreurs sont parfois élevés et des

vérifications par des experts sont souvent nécessaires [Gom, 03].

o Les grammaires morphologiques modélisent les constituants morphologiques des

mots (morphèmes lexicaux et morphèmes grammaticaux). Elles permettent de

déterminer la similarité des termes au niveau des morphèmes lexicaux et de faire

abstraction des différences grammaticales (e.g. “cheval” et “chevaux” sont des termes

dont les morphèmes lexicaux sont similaires). Les grammaires morphologiques sont

souvent implémentées avec des automates à états finis. Dans le contexte de la

construction d’ontologie à partir de textes, les grammaires morphologiques sont

utilisées pour le prétraitement des textes afin d’obtenir des morphèmes lexicaux à

partir desquels d’autres traitements sont effectués. Par exemple, les matrices de termes

utilisées pour l’analyse sémantique latente peuvent contenir des morphèmes lexicaux

obtenus après prétraitement des textes.

Page 65: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

52

o Les grammaires syntaxiques modélisent les structures syntaxiques des phrases. Ces

grammaires permettent de distinguer les relations de dépendances syntaxiques entre

les mots qui sont généralement spécifiés par leurs propriétés morpho-syntaxiques: e.g.

l’expression “les poules couvent” peut être analysée comme étant composée d’un

syntagme verbal (le verbe couver à l’indicatif présent) ayant pour sujet syntaxique un

syntagme nominal (les poules, où poule est un nom commun pluriel défini). Dans le

contexte de construction d’ontologie à partir de textes, les grammaires syntaxiques

permettent de regrouper les termes selon les similarités syntaxiques. Par exemple, dans

l’outil SVETLAN [Gom, 03], les termes nominaux qui dans le corpus ont des relations

syntaxiques similaires avec les mêmes termes verbaux sont agrégués sous le même

concept: l’hypothèse est que les verbes et leurs relations syntaxiques permettent de

catégoriser les noms. Cependant les analyseurs syntaxiques sont relativement peu

employés pour la création d’ontologie; les grammaires syntaxiques sont souvent peu

accessibles pour la plupart des langues et leurs couvertures sont souvent insuffisantes

pour de grand corpus de textes.

o Les grammaires sémantiques modélisent les informations sémantiques associées aux

phrases. Au niveau sémantique, les termes sont généralement classifiés comme des

objets, des événements ou des états. Les informations sémantiques portent sur les

propriétés de ceux-ci (e.g. objet animé) et sur leurs relations (e.g. relation causale entre

un objet et un évènement). Les grammaires sémantiques sont parfois intégrées aux

grammaires syntaxiques puisque ces premières dépendent souvent de ces dernières.

Dans le contexte de construction d’ontologie à partir de textes, les grammaires

sémantiques permettent de regrouper les termes selon leurs similarités sémantiques.

Par exemple, OntoExtract [Gom, 03] génère des taxonomies (ontologies légères) à

partir d’analyse basée sur des grammaires sémantiques. Cependant, comme pour le cas

des analyseurs syntaxiques, les analyseurs basés sur des grammaires sémantiques sont

encore relativement peu employés pour la création d’ontologie à cause des ressources

insuffisantes pour la plupart des langues ou pour couvrir de grands corpus de textes.

Page 66: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

53

6. Editeurs d’ontologies

Il existe de nombreux outils permettant de construire des ontologies. Une classification

selon [Fur, 04] distingue : les outils orientés ontologisation et ceux orientés

conceptualisation.

6.1. Les outils orientés ontologisation

Parmi ces outils nous avons choisi de décrire Protégé 2000, OntoEdit et

WebOnto et dans ce qui suit car ce sont les outils les plus utilisés.

o Protégé 2000 [Mar, 08]: Protégé 2000 est une interface modulaire permettant

l'édition, la visualisation, le contrôle (vérification des contraintes) d'ontologies,

l'extraction d'ontologies à partir de sources textuelles, et la fusion semi-automatique

d'ontologies. Le modèle de connaissances sous-jacent à Protégé 2000 est issu du

modèle des frames et contient des classes (concepts), des instances des classes et des

propriétés, ainsi que des facettes (valeurs des propriétés et contraintes). Protégé est un

éditeur d’ontologies pour les différents langages : XML, RDF et OWL.

o OntoEdit [Mar, 08]: OntoEdit (Ontology Editor) est un environnement de

construction d'ontologies qui permet l'édition des hiérarchies de concepts et de

relations et l'expression d'axiomes algébriques portant sur les relations, et de propriétés

telles que la généricité d'un concept. Des outils graphiques dédiés à la visualisation

d'ontologies sont inclus dans l'environnement. OntoEdit intègre un serveur destiné à

l'édition d'une ontologie par plusieurs utilisateurs. Un contrôle de la cohérence de

l'ontologie est assuré à travers la gestion des ordres d'édition. Enfin, un plug-in nommé

ONTOKICK offre la possibilité de générer les spécifications de l'ontologie par

l'intermédiaire de questions de compétences.

o WebOnto [Mar, 08]: WebOnto du Knowledge Media Institute de l’Open University,

est une application Web pour naviguer et développer collaborativement les ontologies.

Il supporte la navigation collaborative, la création et l’édition d’ontologies sur le Web.

Les ontologies WebOnto sont implémentées dans le langage OCML. Le langage

OCML est une combinaison des frames et de la logique de premier ordre et permet de

Page 67: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

54

représenter les concepts, la taxinomie des concepts, les relations, les fonctions, les

axiomes et les instances. WebOnto distingue quatre types d’ontologies : ontologie de

domaine, ontologie de tâche, ontologie de méthode, et ontologie d’application. Il

supporte l’inclusion d’ontologie au moyen des interfaces graphiques. En ce qui

concerne l’édition collaborative d’ontologie, WebOnto est le seul outil qui procure

cette fonctionnalité, il permet aux ingénieurs des connaissances de tenir des

discussions sur les changements et les mises à jour des ontologies lors d’édition ou de

navigation, en mode synchrone et asynchrone.

6.2. Les outils orientés conceptualisation

Les outils les plus fréquemment utilisés pour la conceptualisation sont

TERMINAE, OntoBuilder et Text-To-Onto :

o TERMINAE [Bie, 99] : Cet outil a été développé au LIPN de l’Université Paris-

Nord, permet à travers l’outil d’ingénierie linguistique LEXTER, d’extraire d’un

corpus textuel les candidats termes d’un domaine. TERMINAE utilise des techniques

d’analyse syntaxique de texte pour proposer à l’utilisateur des termes candidats pour

les concepts du domaine et les différents sens des concepts donnés par les usages qui

en sont faits dans le corpus. Le modèle de représentation de TERMINAE est celui des

Logiques de Description, un export des ontologies dans le langage OIL est même

possible pour la validation de l’ontologie.

o Text-To-Onto : Cet outil a été développé à l’institut AIFB de l’Université de

Karlsruhe3, offre les mêmes fonctionnalités d’extraction d’ontologie à partir de corpus

ou de documents Web, mais en utilisant des ontologies existantes [Mae, 01]. Il est

intégré à la plateforme logicielle KAON (KArlsruhe ONtology and Semantic Web

Infrastructure) d’édition et de maintenance d’ontologie [Boz, 02]. KAON utilise le

modèle de connaissance de RDFS et est orienté vers l’utilisation des ontologies sur le

Web, l’application KAON Portal permettant la recherche et le parcours d’ontologie

via un navigateur Web.

Page 68: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

55

7. Cycle de vie des ontologies

Étant donné que les ontologies sont destinées à être utilisées comme des composants

logiciels dans des systèmes informatiques répondant à des objectifs opérationnels différents,

leur développement doit s’appuyer sur les mêmes principes que ceux appliqués en génie

logiciel. En particulier, elles doivent être considérées comme des objets techniques évolutifs

et posséder un cycle de vie spécifique. Les activités liées à une ontologie peuvent être

regroupées en trois catégories [Bla, 98] :

o Des activités de gestion de projet : planification, contrôle, assurance qualité.

o Des activités de développement : spécification, conceptualisation, formalisation.

o Des activités de support : évaluation, documentation, gestion de la configuration.

Figure 3.1 Cycle de vie des ontologies.

La figure 3.1 représente les différentes activités qui expliquent que le cycle de vie

préconisé est un cycle par prototypes : la vie d’une ontologie passe par les états suivants :

spécification des besoins, conception (normalisation, formalisation et opérationnalisation)

déploiement et diffusion, utilisation, évaluation et enfin évolution et maintenance. Le cycle de

vie par évolution de prototypes permet à l’ontologiste de retourner de n’importe quel état à

n’importe quel autre si une certaine définition manque ou est erronée. Ainsi, ce cycle de vie

permet l’inclusion, le déplacement ou la modification de définitions n’importe quand durant le

cycle de vie de l’ontologie. L’acquisition, la documentation et l’évaluation de connaissances

sont des activités de support qui sont effectuées pendant la majorité de ces états.

Page 69: Thèse de magister - Univ Oran 1

Chapitre 3. La conception d’ontologies à partir de corpus de textes

56

Fernandez et ses collègues [Fer, 97] insistent sur le fait que les activités de

documentation et d’évaluation sont nécessaires à l’étape du processus de construction

d’ontologie, l’évaluation précoce permettant de limiter la propagation d’erreurs.

8. Conclusion

La capture de la connaissance nécessaire pour l’élaboration d’une ontologie peut être

réalisée à partir de plusieurs principes et méthodologies. Les différentes méthodologies

proposées dans la littérature insistent sur l’importance de spécifier la tâche pour laquelle

l’ontologie est construite. Cette tâche conditionne les éléments de connaissance qui devront

être collectés ainsi que le niveau de formalisation nécessaire pour que l’ontologie soit

manipulée par le système.

Aussi, l’élaboration d’ontologies à partir de textes permet de faciliter la conception

d’ontologies légères. Elle peut reposer soit sur une analyse statistique des termes apparaissant

dans les documents, soit sur une analyse syntaxique qui consiste à analyser le rôle

grammatical des mots qui les composent. Ces deux approches permettent d’aider à extraire les

termes qui définiront le lexique de l’ontologie du domaine.

Nous proposons de construire une ontologie à partir d’un corpus de textes biologiques

permettant de capturer la sémantique associée au contexte expérimental d'expression

associées aux séquences d’ESTs de deux champignons filamenteux dont les termes-clés sont

extraits par une approche statistique.

Page 70: Thèse de magister - Univ Oran 1

Deuxième Partie

Conception & Mise en œuvre

Page 71: Thèse de magister - Univ Oran 1

Chapitre 4

Plan

1. Introduction

2. Expérimentation

2.1. Collecte des données

2.2. Structure des données d’expression : Les ESTs

2.3. Extraction des termes candidats

2.4. Résultats de l’extraction des termes

2.5. Exploitation des termes de l’ontologie pour le clustering

3. Conception

3.1. Choix de la méthode de construction de l’ontologie

3.2. Architecture du système

3.3. Le module consultation

3.4. Le module exploitation

3.5. Le module enrichissement

4. Conclusion

La Conception

Page 72: Thèse de magister - Univ Oran 1

58

Fig

ure

4.1

Sch

ém

ati

sati

on

de l

’ap

pro

ch

e.

Page 73: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

59

1. Introduction

Ce chapitre présente d’abord l’expérimentation effectuée à travers la définition

du corpus à partir duquel la ressource terminologique est établie, l’extraction manuelle

et statistique automatique des termes-clés (ou termes-candidats) grâce à l’outil K.E.A

et les critères choisis pour la construction de l’ontologie biologique pour ces deux

champignons. Ensuite, la conception de l’ontologie biologique à partir des termes

précédemment extraits en spécifiant la méthode choisie à cet effet, leur exploitation

par le logiciel TANAGRA pour le clustering, y est expliquée. Enfin, la présentation de

l’architecture qui exploite cette ontologie en détaillant les différents modules de ce

système, est décrite.

2. Expérimentation

Une entrée d’une fiche d’ESTs dans une base de données de séquences

biologiques est définie par au moins deux entités : les informations relatives à la

description de l'entrée, et sa séquence. Ainsi, l'utilisation de ses données est possible

selon de deux moyens : le premier, appelé recherche par similarité, utilise

uniquement la séquence d’entrée pour déterminer la ou les séquences les plus proches

de la séquence utilisée. Le deuxième moyen recherche des termes-clés directement

dans les champs des entrées renseignées dans bases de données de séquences.

Dans cette étude, la deuxième méthode a été adoptée : utiliser des termes-clés

afin d’identifier les informations associées au contexte des expériences qui ont conduit

à une certaine catégorie de séquences d’ADN : Les ESTs (Expressed Sequence Tags)

(Annexe B), depuis l'extraction des molécules jusqu’à leur séquençage. Ainsi, deux

modèles de champignons multicellulaires Neurospora crassa et Podospora anserina

(Annexe A) ont été choisis car ils sont enrichis par des données d'expression.

2.1. Collecte des données

Un corpus (de terminologie anglo-saxonne) a été constitué des données

provenant de la base de séquences générale, Genbank (au NCBI), et concerne

Neurospora crassa, avec 277147 fiches d’EST provenant de 22 expériences et

Podospora anserina avec 51286 fiches d’EST issues de 07 expériences. Pour une

Page 74: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

60

meilleure «couverture» du domaine, ces informations ont été complétées par plusieurs

articles et thèses qui traitent du cycle de développement des champignons d'intérêt.

Une approche bottom-up a été suivie pour l'extraction de termes issus des

données afin de construire l’ontologie biologique du domaine. La figure 4.1 illustre les

différentes étapes de l’expérimentation afin d’aboutir à l’ontologie biologique des

deux organismes.

2.2. Structure des données d’expression : Les ESTs

La partie "EST" de la base de données de séquences NCBI est constituée

d’entrées, chaque entrée correspondant à une séquence d’EST (Expressed Sequence

Tag) d’un organisme donné. Un exemple d’une entrée (fiche) d’EST est présenté en

figure. Chaque fiche d’EST est composée de quatre parties :

· La première partie regroupe toutes les données générales d’une

séquence d’EST tel que son identifiant, son numéro d’accession,

identifiant de son clone, les primer utilisés, etc.

· La deuxième partie correspond à la séquence d’EST proprement dite

obtenue après expérimentation. Dans notre exemple la séquence d’EST

à une de {A, T, G, C} qui pendant l’expérience 4 heure de croissance

végétative a donné ce résultat, la date de création et de mise à jour de la

séquence sont aussi spécifiés. Un commentaire est parfois rajouté en

complément d’information dans cette partie.

· La troisième partie les détails de l’expérimentation effectués sur un

organisme donné tels que : nom de la souche, type de tissus, les

différents milieux utilisés, la durée de l’expérimentation, etc. (Partie

encadrée en rouge qu’on voudrait exploiter).

· La quatrième partie donne le nom de(s) soumetteurs(s), le laboratoire

et son adresse qui ont obtenu la séquence ainsi que le(s) des différents

auteurs qui ont cités ces travaux dans leurs articles.

Page 75: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

61

Figure 4.2 Exemple d’une entrée de fiche d’EST.

2.3. Extraction des termes candidats

Un terme candidat est un mot ou une séquence de mots susceptibles d'être retenus

comme terme par un terminologue [Des, 08] ou par un analyste et de fournir les étiquettes

des concepts [Des, 08]. Ces termes représentent les concepts d’une ontologie qui peuvent être

extraits selon deux approches : syntaxique ou statistique. L’approche syntaxique analyse le

GenBank: GH279783.1 G688P583FB6.T0 Neurospora crassa cDNA - 4 hours Vegetative Growth in constant light Neurospora crassa cDNA, mRNA sequence IDENTIFIERS

dbEST Id: 63312709 EST name: G688P583FB6.T0 GenBank Acc: GH279783 GenBank gi: 218211571 CLONE INFO DNA type: cDNA PRIMERS PolyA Tail: Unknown SEQUENCE

ACGCCTTCGCTAGCTACACCTGAGGCCCTCATCGATCATCCACACGATACTCTCATCTGGAACTGAGTCGAAAAAGACATCAAGATTACGAGCCTCTTCTTTCCACCAAAACCCAATGGTTGTGCAACGAGATCCCAGACTATGAAGCCAAGCTTGGTTGCCCTCCGCCATTCGCAAAGACAACCCCGTCCCACCAATCAAGCCTTGATCCCAAGGGGCAAGCGGTGGAAGCCACCGCAGAAGCCACATTCTTCTGGAGCTCAACCATTCTCTTCTGGTCGCCAGTAGGGTCACTGGATTCGGGCTGCAGAGCCCAGTCAAGAAACTCGTTGGTGTAGTTGGGGGTGAAGTCTGGAACGCCGAGACGTTGACCATATTTGGTGACCTTGGACCAGTCGCGCTCGACGTTCTTGAGGTCCTCGGAGAAGTATGCGTAGCTGCGCTCAAAGATCTTTCTGTTGAGCTCAGTGCCCATGACAGGCTTGAAGTCGACATACTCCTTCCACGCAGCGTCCGGGTTGGCCAGGACAAAGTCAGTGGCCTTCTTGACGGCGCGCATAAAGGCCCGAACCTTGTCTGGGTTCTGCGAGATGAAGGTCTCGTTGCCAATGTAGAGAATCGAGCAGAAGCAGCAGCATCAGAGTTCCGCGAGCTCGTCGATGCGAAGCATCTGAACGTCGGCCTTGTCCCGGCCCTGGGAAGCAGCACTCTCAGCTCATCATCTGCACGTTCTCGAGCGATACGCGTCATCTCCTCCTGATATGACTTGAGACGTCATGCGCAGCGGACGGCGTGTAATCGGCAGGAGTCAGGCCGTAGT Entry Created: Dec 17 2008 Last Updated: Dec 17 2008 COMMENTS Sequenced under the project name G688 at the Broad Institute (www.broad.mit.edu) LIBRARY

Lib Name: Neurospora crassa cDNA - 4 hours Vegetative Growth in constant light Organism: Neurospora crassa Strain: Mauriceville Sex: A Vector: pBluescriptSK- R. Site 1: XhoI R. Site 2: EcoRI Description: Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225) using the PolyAttract SYSI kit from Promega. Cells were grown in 1X Vogel's medium/0.5% arginine/50(ng/ml) biotin/2% glucose for 4 h at 30 degree C with orbital shaking at 125 rpm. First-strand cDNA containing methyl-C was synthesized using an oligo-dT primer bearing a XhoI site to enable directional cloning. After second-strand synthesis, cDNA was subjected to fractionation using a CL-2B Sepharose size fractionation column. After addition of EcoRI adapters, digestion with XhoI, cDNA with size above 1 kb was ligated to XhoI/EcoRI-digested UNIZAP XR Lambda arms and the ligation products packaged into Lambda particles. The Lambda cDNA library was amplified. Mass-excision of the amplified library was accomplished to produce pBluescript phagemid for cDNA sequencing. SUBMITTER

Name: Matthew S. Sachs Lab: Department of Biology Institution: Texas A&M University Address: College Station, TX 77843-3258, USA Tel: 979 845 5930 Fax: 979 845 2891 E-mail: [email protected] CITATIONS Title: Neurospora crassa EST Sequencing Authors: Basturkmen,M., Xu,J., Shi,M., Loros,J., Nelson,M., Henn,M., Kodira,C., Lennon,N., Green,L., Galagan,J., Birren,B., Dunlap,J., Sachs,M.S. Year: 2008 Status: Unpublished

Page 76: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

62

rôle grammatical des mots dans ces textes, alors que l’approche statistique repose sur la

fréquence d’apparition des mots dans les textes.

o Extraction manuelle des termes

Dans un premier temps, nous avons extraits manuellement les termes en choisissant

une fiche d’EST par expérience pour les deux champignons d’étude. Les tableaux (de 4.1 à

4.5) décrivent les détails des informations expérimentales de Neurospora crassa et Podospora

anserina.

Page 77: Thèse de magister - Univ Oran 1

63

LIB

RA

RY

L

ib N

ame

(Nom

de

la li

brar

y)

Org

anis

m

(Org

anis

me)

St

rain

(S

ouch

e)

Sex

(Sex

e)

Org

an

(Org

ane)

T

issu

e ty

pe

(Typ

e de

tis

sus)

D

evel

op. s

tage

(S

tade

de

deve

lp)

Vec

tor

(Vec

teur

) R

. Sit

e 1

R. S

ite

2

Cel

l typ

e

(Typ

e ce

llul

aire

)

Lab

hos

t (L

ab h

ôte)

EX

P.1

M

ycel

ium

gro

wn

for

48h

Podo

spor

a an

seri

na

s

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

EX

P.2

A

scos

por

es

20h

afte

r ge

rmin

atio

n tr

igge

r

Podo

spor

a an

seri

na

S m

at+

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

EX

P.3

Y

oung

per

ithe

cia

of le

ss t

han

48h

Podo

spor

a an

seri

na

S m

at+

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

EX

P.4

P

erit

heci

a ol

der

than

48h

Podo

spor

a an

seri

na

S m

at+

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

EX

P.5

R

apam

ycin

ind

uced

myc

eliu

m

Podo

spor

a an

seri

na

S m

at+

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

EX

P.6

he

tR/h

etV

inco

mp

atib

le m

ycel

ium

Podo

spor

a an

seri

na

S m

at+

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

EX

P.7

Se

nesc

ent

myc

eliu

m

Podo

spor

a an

seri

na

S m

at+

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

RIE

N

Tab

leau

4.1

Dét

ail d

es in

form

atio

ns e

xpér

imen

tale

s de

P.a

nse

rina

.

Page 78: Thèse de magister - Univ Oran 1

64

LIB

RA

RY

L

ib N

ame

(Nom

de

la li

brar

y)

Org

anis

m

(Org

anis

me)

St

rain

(S

ouch

e)

Sex

(Sex

e)

Org

an

(Org

ane)

Tis

sue

type

(T

ype

de

tiss

us)

EX

P.1

N

euro

spor

a cr

assa

cD

NA

- 4

hou

rs V

eget

ativ

e G

row

th in

con

stan

t li

ght

Neu

rosp

ora

cras

sa

Mau

rice

ville

A

R

IEN

R

IEN

EX

P.2

N

euro

spor

a cr

assa

SSH

Lib

rary

AR

01

Neu

rosp

ora

cras

sa

RIE

N

RIE

N

RIE

N

RIE

N

EX

P.3

N

euro

spor

a cr

assa

cD

NA

- 1

hou

r N

itro

gen

Dep

riva

tion

Aft

er 9

hou

rs V

eget

ativ

e G

row

th

Neu

rosp

ora

cras

sa

Mau

rice

ville

FG

SC 2

225

(M

c1 A

) A

R

IEN

R

IEN

EX

P.4

N

euro

spor

a cr

assa

cD

NA

- 1

hou

r G

luco

se D

epri

vati

on A

fter

9 h

ours

Veg

etat

ive

Gro

wth

N

euro

spor

a cr

assa

M

auri

cevi

lle

FGSC

222

5 (

Mc1

A)

RIE

N

RIE

N

RIE

N

EX

P.5

N

euro

spor

a cr

assa

cD

NA

- 1

hou

r H

eat

Sho

ck A

fter

9 h

our

Veg

etat

ive

Gro

wth

N

euro

spor

a cr

assa

M

auri

cevi

lle

A

RIE

N

RIE

N

EX

P.6

N

euro

spor

a cr

assa

cD

NA

- 2

4 ho

urs

Veg

etat

ive

Gro

wth

N

euro

spor

a cr

assa

M

auri

cevi

lle

FGSC

222

5 (M

c1 A

) A

R

IEN

R

IEN

EX

P.7

N

euro

spor

a cr

assa

cD

NA

- 7

hou

rs V

eget

ativ

e G

row

th

Neu

rosp

ora

cras

sa

Mau

rice

ville

FG

SC 2

225

(Mc1

A)

A

RIE

N

RIE

N

EX

P.8

N

euro

spor

a cr

assa

cD

NA

- 1

hou

r O

smot

ic S

tres

s A

fter

9 h

ours

Veg

etat

ive

Gro

wth

N

euro

spor

a cr

assa

M

auri

cevi

lle

FGSC

222

5

(Mc1

A)

A

RIE

N

RIE

N

EX

P.9

N

euro

spor

a cr

assa

cD

NA

- 7

Day

s P

ost-

Cro

ss S

exua

l Gro

wth

N

euro

spor

a cr

assa

M

auri

cevi

lle-1

c m

at A

(FG

SC 2

225)

and

OR

S

mat

a (

FGSC

249

0)

A

RIE

N

RIE

N

EX

P.1

0 N

euro

spor

a cr

assa

cD

NA

- 1

hou

r O

xida

tive

Str

ess

Aft

er 9

hou

rs V

eget

ativ

e G

row

th

N

euro

spor

a cr

assa

M

auri

cevi

lle

A

RIE

N

RIE

N

Tab

leau

4.2

Dét

ail d

es in

form

atio

ns e

xpér

imen

tale

s de

N.c

rass

a.(

1/4)

Page 79: Thèse de magister - Univ Oran 1

65

LIB

RA

RY

L

ib N

ame

(Nom

de

la li

brar

y)

Org

anis

m

(Org

anis

me)

St

rain

(S

ouch

e)

Sex

(Sex

e)

Org

an

(Org

ane)

Tis

sue

type

(T

ype

de t

issu

s)

EX

P.1

1 N

euro

spor

a cr

assa

cD

NA

- 4

8 ho

urs

Unf

erti

lize

d G

row

th in

Cro

ssin

g M

ediu

m

Neu

rosp

ora

cras

sa

Mau

rice

ville

R

IEN

R

IEN

R

IEN

EX

P.1

2 N

euro

spor

a cr

assa

eve

ning

cD

NA

libr

ary

Neu

rosp

ora

cras

sa

Stra

in 3

0-7

(bd;

A

) R

IEN

R

IEN

ti

ssue

har

vest

ed f

ollo

win

g 22

hr g

row

th in

da

rk

EX

P.1

3 N

euro

spor

a cr

assa

mor

ning

cD

NA

libr

ary

Neu

rosp

ora

cras

sa

bd, f

rq7

A

RIE

N

RIE

N

tiss

ue h

arve

sted

fol

low

ing

22hr

gro

wth

in

dark

EX

P.1

4 N

euro

spor

a cr

assa

sex

ual c

DN

A li

brar

y, U

ni-z

ap v

ecto

r sy

stem

N

euro

spor

a cr

assa

w

ild ty

pe

RIE

N

RIE

N

peri

thec

ia (

frui

ting

bod

ies)

EX

P.1

5 M

ycel

ial

Neu

rosp

ora

cras

sa

74-O

R23

-IV

A

(FG

SC 2

489)

Mat

ing

type

A

RIE

N

Myc

eliu

m

EX

P.1

6 S

ubtr

acte

d M

ycel

ial

Neu

rosp

ora

cras

sa

74-O

R23

-IV

A

(FG

SC 2

489)

M

atin

g ty

pe A

RIE

N

M

ycel

ium

EX

P.1

7 P

erit

heci

al

Neu

rosp

ora

cras

sa

fl a

Mat

ing

type

a (

fluf

fy),

fe

rtili

zed

RIE

N

Peri

thec

ia (

frui

ting

bod

ies)

EX

P.1

8 S

ubtr

acte

d P

erit

heci

al

Neu

rosp

ora

cras

sa

fl a

(F

GSC

434

7)

Mat

ing

type

a (

fluf

fy),

fe

rtili

zed

RIE

N

Peri

thec

ia

EX

P.1

9 C

onid

ial

Neu

rosp

ora

cras

sa

74-O

R23

-IV

A

M

atin

g ty

pe A

RIE

N

C

onid

ia

EX

P.2

0 S

ubtr

acte

d C

onid

ial

Neu

rosp

ora

cras

sa

74-O

R23

-IV

A

(FG

SC 2

489)

M

atin

g T

ype

A

R

IEN

Con

idia

EX

P.2

1 W

este

rgaa

rds

Neu

rosp

ora

cras

sa

74-O

R23

-IV

A

(FG

SC 2

489)

Mat

ing

Typ

e A

RIE

N

Unf

erti

lized

sex

ual t

issu

e

EX

P.2

2 N

elso

n et

al.

(199

7) c

onid

ial l

ibra

ry

Neu

rosp

ora

cras

sa

74-O

R23

-IV

A

M

atin

g T

ype

A

R

IEN

Con

idia

Tab

leau

4.3

Dét

ail d

es in

form

atio

ns e

xpér

imen

tale

s de

N.c

rass

a.(

2/4)

Page 80: Thèse de magister - Univ Oran 1

66

LIB

RA

RY

D

evel

op. s

tage

(S

tade

de

deve

lp)

Vec

tor

(Vec

teur

) R

. Sit

e 1

R. S

ite

2

Cel

l typ

e

(Typ

e ce

llul

aire

) L

ab h

ost

(L

ab h

ôte)

D

ESC

RIP

TIO

N

EX

P.1

R

IEN

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

RIE

N

Poly

(A

) m

RN

A w

as p

urif

ied

from

the

Mau

rice

ville

-1c

mat

A s

trai

n (F

GSC

222

5) u

sing

the

Pol

yAtt

ract

SY

SI k

it fr

om

Prom

ega.

Cel

ls w

ere

grow

n in

1X

Vog

el's

med

ium

/0.5

% a

rgin

ine/

50(n

g/m

l) b

ioti

n/2%

glu

cose

for

4 h

at

30 d

egre

e C

wit

h or

bita

l sha

king

at 1

25 r

pm.

EX

P.2

R

IEN

pG

EM

-T

RIE

N

RIE

N

RIE

N

E. c

oli M

os-

Blu

e T

rans

crip

ts d

own-

regu

late

d in

N. c

rass

a nu

c-2A

mut

ant s

trai

n gr

own

unde

r P

i sho

rtag

e at

aci

d pH

.

EX

P.3

R

IEN

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

RIE

N

Poly

(A

) m

RN

A w

as p

urif

ied

from

the

Mau

rice

ville

-1c

mat

A s

trai

n (F

GSC

222

5).

Cel

ls w

ere

grow

n in

1X

Vog

el's

m

ediu

m/2

% s

ucro

se f

or 9

h a

t 30

deg

rees

C w

ith o

rbita

l sh

akin

g at

200

rpm

, an

d th

en f

or 1

h i

n 1X

Vog

el's

med

ium

lac

king

am

mon

ium

nitr

ate.

EX

P.4

R

IEN

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

RIE

N

Poly

(A

) m

RN

A w

as p

urif

ied

from

the

Mau

rice

ville

-1c

mat

A s

trai

n (F

GSC

222

5).

Cel

ls w

ere

grow

n in

1X

Vog

el's

m

ediu

m/2

% g

luco

se f

or 9

h a

t 30

deg

rees

C w

ith

orbi

tal

shak

ing

at 2

00 r

pm,

and

then

for

1 h

in

1X V

ogel

's m

ediu

m l

acki

ng

gluc

ose.

EX

P.5

R

IEN

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

RIE

N

Poly

(A

) m

RN

A w

as p

urif

ied

from

the

Mau

rice

ville

-1c

mat

A s

trai

n (F

GSC

222

5).

Cel

ls w

ere

grow

n in

1X

Vog

el's

m

ediu

m/2

% s

ucro

se f

or 9

h a

t 30

degr

ees

C a

nd th

en f

or 1

h a

t 45

degr

ees

C w

ith o

rbit

al s

haki

ng a

t 200

rpm

.

EX

P.6

R

IEN

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

RIE

N

Poly

(A

) m

RN

A w

as p

urif

ied

from

the

Mau

rice

ville

-1c

mat

A s

trai

n (F

GSC

222

5).

Cel

ls w

ere

grow

n in

1X

Vog

el's

m

ediu

m/2

% s

ucro

se f

or 2

4 h

at 3

0 de

gree

s C

with

orb

ital s

haki

ng a

t 200

rpm

.

EX

P.7

R

IEN

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

RIE

N

Poly

(A)

mR

NA

was

pur

ifie

d fr

om t

he

Mau

rice

ville

-1c

mat

A

str

ain

(FG

SC

22

25).

Cel

ls

wer

e gr

own

in 1

X V

ogel

's

med

ium

/2%

suc

rose

for

7 h

at 3

4 de

gree

s C

with

orb

ital s

haki

ng a

t 125

rpm

.

EX

P.8

R

IEN

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

RIE

N

Poly

(A

) m

RN

A w

as p

urif

ied

from

the

Mau

rice

ville

-1c

mat

A s

trai

n (F

GSC

222

5).

Cel

ls w

ere

grow

n in

1X

Vog

el's

m

ediu

m/2

% s

ucro

se f

or 9

h a

t 30

deg

rees

C w

ith o

rbita

l sh

akin

g at

200

rpm

; so

dium

chl

orid

e w

as a

dded

to

a fi

nal

conc

entr

atio

n of

0.6

8M a

nd in

cuba

tion

con

tinue

d fo

r 1

h.

EX

P.9

R

IEN

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

RIE

N

Poly

(A)

mR

NA

was

pur

ifie

d fr

om a

7 d

ay c

ross

ing-

cultu

re o

f M

auri

cevi

lle-1

c m

at A

(FG

SC

222

5)cr

osse

d w

ith O

RS

mat

a

(FG

SC 2

490)

. Cel

ls w

ere

grow

n in

Wes

terg

aard

's m

ediu

m f

or 5

day

s pr

ior

to in

itia

ting

cro

ssin

g.

EX

P.1

0 R

IEN

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

RIE

N

Poly

(A

) m

RN

A w

as p

urif

ied

from

the

Mau

rice

ville

-1c

mat

A s

trai

n (F

GSC

222

5).

Four

sep

arat

e cu

lture

s w

ere

incu

bate

d in

1X

Vog

el's/

1% s

orbo

se/0

.1%

suc

rose

for

9 h

at 3

0 de

gree

s C

with

orb

ital s

haki

ng a

t 200

rpm

, and

then

to e

ach

was

add

ed (

fina

l co

ncen

trat

ions

ind

icat

ed)

eith

er (

1) 1

0 m

M h

ydro

gen

pe

roxi

de (

2) 7

50 m

icro

mol

ar s

odiu

m a

rsen

ite (

3) 2

.0 m

M d

ithio

thre

itol

and

(4)

50 m

icro

mol

ar c

adm

ium

chl

orid

e an

d in

cuba

tion

was

con

tinu

ed f

or 1

h.

Tab

leau

4.4

Dét

ail d

es in

form

atio

ns e

xpér

imen

tale

s de

N.c

rass

a. (

3/4)

Page 81: Thèse de magister - Univ Oran 1

67

LIB

RA

RY

D

evel

op. s

tage

(S

tade

de

deve

lp)

Vec

tor

(Vec

teur

) R

. Sit

e 1

R. S

ite

2

Cel

l typ

e

(Typ

e ce

llul

aire

)

Lab

hos

t

(Lab

hôt

e)

DE

SCR

IPT

ION

EX

P.1

1 R

IEN

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

RIE

N

Poly

(A

) m

RN

A w

as p

urif

ied

from

the

Mau

rice

ville

-1c

mat

A s

trai

n (F

GS

C 2

225)

. Tw

o cu

lture

s w

ere

grow

n in

W

este

rgaa

rd's

med

ium

(sy

nthe

tic c

ross

med

ium

) fo

r 48

h a

t 25

degr

ees

C, o

ne w

ith

orbi

tal s

haki

ng a

t 200

rpm

, an

d on

e w

ithou

t sha

king

..

EX

P.1

2 R

IEN

pB

lues

crip

tSK

- X

baI

Eco

RI

RIE

N

RIE

N

See:

Bel

l-Pe

rder

sen,

D.,

et a

l. PN

AS

93:1

3096

,199

6. 5

' end

of

cDN

A c

lone

d in

to X

baI

site

of

pBlu

escr

ipt;

3'

end

of c

DN

A c

lone

d in

to E

coR

I si

te o

f pB

lues

crip

t.

EX

P.1

3 R

IEN

pB

lues

crip

tSK

- X

baI

Eco

RI

RIE

N

RIE

N

See:

Bel

l-Pe

rder

sen,

D.,

et a

l. PN

AS

93:1

3096

,199

6. 5

' end

of

cDN

A c

lone

d in

to X

baI

site

of

pBlu

escr

ipt;

3'

end

of c

DN

A c

lone

d in

to E

coR

I si

te o

f pB

lues

crip

t.

EX

P.1

4 se

xual

pB

lues

crip

tSK

- X

hoI

Eco

RI

RIE

N

E. c

oli s

trai

n SO

LR

5'

end

of

cDN

A c

lone

d in

to E

coR

I si

te o

f pB

lues

crip

t; 3'

end

of

cDN

A c

lone

d in

to X

hoI

site

of

pBlu

escr

ipt.

EX

P.1

5 M

ycel

ium

pBlu

eScr

ipt

SK

(-)

E

coR

I

Xho

I

RIE

N

E

. col

i

2% s

ucro

se f

or 2

4 ho

urs.

EX

P.1

6 M

ycel

ium

pBlu

eScr

ipt

SK

(-)

E

coR

I

Xho

I

RIE

N

E

. col

i

2% s

ucro

se f

or 2

4 ho

urs.

EX

P.1

7 Pe

rith

ecia

pBlu

eScr

ipt

SK

(-)

RIE

N

RIE

N

RIE

N

RIE

N

mR

NA

iso

late

d fr

om 5

day

old

per

ithec

ia (

frui

ting

bod

ies)

of

the

fluf

fy s

trai

n fl

a (

Mat

ing

type

a),

fer

tiliz

ed

wit

h co

nidi

a fr

om 7

4-O

R23

-IV

A (

Mat

ing

type

A).

EX

P.1

8 Fr

uiti

ng B

ody

pBlu

eScr

ipt S

K (

-)

Eco

RI

Xho

I

RIE

N

E. c

oli

mR

NA

iso

late

d fr

om 5

day

old

per

ithec

ia (

frui

ting

bod

ies)

of

the

fluf

fy s

trai

n fl

a (

Mat

ing

type

a),

fer

tiliz

ed

wit

h co

nidi

a fr

om 7

4-O

R23

-IV

A (

Mat

ing

type

A).

EX

P.1

9 ge

rmin

atin

g co

nidi

a

pBlu

eScr

ipt S

K (

-)

R

IEN

RIE

N

R

IEN

RIE

N

m

RN

A is

olat

ed f

rom

ger

min

atin

g co

nidi

a, g

row

n in

1x

Vog

el's,

2%

suc

rose

for

4.5

hou

rs.

EX

P.2

0 G

erm

inat

ing

coni

dia

pB

lueS

crip

t SK

(-)

Eco

RI

X

hoI

R

IEN

E. c

oli

m

RN

A is

olat

ed f

rom

ger

min

atin

g co

nidi

a, g

row

n in

1x

Vog

el's,

2%

suc

rose

for

4.5

hou

rs.

EX

P.2

1 U

nfer

tiliz

ed s

exua

l st

age

pBlu

escr

iptS

K-

Eco

RI

Xho

I

RIE

N

E. c

oli

W

este

rgaa

rd's

med

ium

(N

itrog

en li

mit

ing)

. Flo

atin

g m

ycel

ial m

ats

grow

n at

25C

for

36

hour

s.

EX

P.2

2 ge

rmin

atin

g co

nidi

a

RIE

N

R

IEN

RIE

N

R

IEN

RIE

N

m

RN

A is

olat

ed f

rom

ger

min

atin

g co

nidi

a, g

row

n in

1x

Vog

el's,

2%

suc

rose

for

4.5

hou

rs.

Tab

leau

4.5

Dét

ail d

es in

form

atio

ns e

xpér

imen

tale

s de

N.c

rass

a. (

4/4)

Page 82: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

68

o Extraction automatique des termes

Dans un deuxième temps, nous avons utilisé l’approche statistique associée à

un outil d’extraction automatique : Automatic Keyphrase Extractor (K.E.A) [Jon, 02] qui

identifie les termes-clés (termes candidats) par le calcule de valeurs deux métriques : TF×IDF

et Première occurrence pour chaque terme-candidat.

· Outil d’extraction des termes-clés : K.E.A (Automatic Keyphrase

Extraction)

K.E.A extrait automatiquement les termes-clés à partir de textes intégraux des

documents. L'ensemble de tous termes-candidats dans un document sont identifiés à l'aide du

traitement lexical, des métriques sont calculées pour chaque terme, et un apprentissage

automatique est utilisé pour générer un classificateur qui détermine les termes qui devraient

être assignés comme étant des termes clés.

Un modèle de prédiction est construit à partir de documents d’apprentissage

avec les termes-clés connue, puis utilise le modèle de trouver termes-clés dans les nouveaux

documents. Deux métriques sont calculées dans l'algorithme : TF×IDF et Première

occurrence.

Figure 4.3 Processus d’apprentissage et d’extraction de K.E.A.

Page 83: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

69

Le processus d’extraction K.E.A est décrit dans la figure 4.3 comporte deux phases :

1. Apprentissage : un modèle est créé pour l'identification des termes-clés en utilisant

des documents d’apprentissage où les termes-clés de l’auteur sont connus.

2. Extraction : les termes-clés sont choisis à partir d'un nouveau document, en

utilisant le modèle ci-dessus.

2.4. Résultats de l’extraction des termes

o Résultats de l’extraction manuelle des termes

Le tableau 4.6 donne le résultat de l’extraction manuelle des termes pour

l’aspect morphologique et le tableau 4.7 donne le résultat de l’extraction manuelle des termes

pour l’aspect expérimentale à partir d’une fiche d’EST par expérience pour les deux

champignons d’étude.

Page 84: Thèse de magister - Univ Oran 1

70

Cri

tère

s V

aleu

rs

Stra

in (

Sou

ches

) {M

auri

cevi

lle-1

c (F

GSC

_222

5), N

uc-2

, 74-

OR

23-

IV (

FGSC

_248

9), b

d_fr

q7, b

d_30

-7, f

l (FG

SC_4

347)

, OR

S (F

GSC

_249

0)}

Sex

(Sex

e)

{Mat

ing

type

A, M

atin

g ty

pe a

, S m

at+

, s}

Org

an (

Org

ane)

R

IEN

Tis

sus

type

(T

ypes

de

tiss

us)

{Per

ithec

ia (

frui

ting

bod

ies)

, Myc

eliu

m, C

onid

ia}

Dev

elop

. sta

ge

(Sta

des

de d

ével

oppe

men

t)

{ M

ycel

ium

, Per

ithe

cia,

Fru

iting

Bod

y, G

erm

inat

ing

coni

dia,

Sex

ual s

tage

,Unf

erti

lized

sex

ual s

tage

}

Vec

tor

(V

ecte

ur)

{p

Blu

escr

iptS

K(-

), p

GE

M-T

}

R. S

ite

1

{Xho

I, E

coR

I}

R

. Sit

e 2

{Xho

I, E

coR

I}

C

ell t

ype

(Typ

e ce

llul

aire

)

RIE

N

Lab

hos

t

(Lab

orat

oire

hôt

e)

{E. c

oli,

Mos

-Blu

e, E

. col

i str

ain

SO

LR

}

Tab

leau

4.6

Résult

ats

de l

’extr

acti

on m

anue

lle

des

term

es (

aspe

ct m

orph

olog

ique

).

Page 85: Thèse de magister - Univ Oran 1

71

Cri

tère

s V

aleu

rs

Med

ium

(M

ilieu

x de

cul

ture

)

{Vog

el's

med

ium

, Vog

el's

med

ium

lack

ing

gluc

ose,

Vog

el's

med

ium

lack

ing

amm

oniu

m n

itrat

e., W

este

rgaa

rd's

med

ium

, Wes

terg

aard

's m

ediu

m (

Nitr

ogen

lim

itin

g) }

Dur

atio

n

(Dur

ée)

{1h,

4h,

4 h

et ½

, 7h,

9h,

22h

, 24h

, 36h

, 48h

, 2da

ys, 5

days

, 7da

ys}

Sup

plem

ents

(S

uppl

émen

ts)

{Am

ino-

acid

(A

rgin

ine)

, Sug

ar (

Glu

cose

, Suc

rose

), V

itam

ines

(B

ioti

n)}

Inss

ufic

ienc

es

(Ins

uffi

sanc

es)

{Pi s

hort

age}

PH

med

ium

(P

H d

u m

ilie

u)

{Aci

d}

Rel

even

t m

omen

t (M

omen

t de

pré

lève

men

t)

{M

orni

ng, E

veni

ng}

Stre

ss (

Stre

ss)

{O

smos

tic s

tres

s, O

xida

tive

str

ess,

Hea

t sho

ck s

tres

s}

L

ight

(L

umiè

re)

{C

onst

ant l

ight

, Dar

k}

Orb

ital

Sta

king

(A

gita

tion

) {

Spee

d--0

rpm

, Spe

ed--

125

rpm

, Spe

ed--

200

rpm

}

Tab

leau

4.7

Résult

ats

de l

’extr

acti

on m

anuell

e d

es t

erm

es (

asp

ect

exp

éri

menta

l).

Page 86: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

72

o Résultats de l’extraction automatique des termes

· Phase d’apprentissage : Durant cette phase le corpus de textes passe par trois

étapes principales :

- Etape 1 : Prétraitement des documents

Chaque fiche d’EST est traitée séparément ; tout format ou

structuration du document est supprimé, le but étant de normaliser le texte c’est-à-dire de

diminuer « le bruit » et améliorer la qualité du processus global. Voici le résultat de la fiche

après normalisation:

{Poly (A) mRNA was purified from the Mauriceville 1c mat A strain (FGSC 2225)

using the PolyAttract SYSI kit from Promega Cells were grown in 1X Vogel's

medium 0.5% arginine 50(ng/ml) biotin 2% glucose for 4 h at 30 degree C with orbital

shaking at 125 rpm}.

Ensuite, un Tokenzieur est appliqué pour le découpage du texte en

token (mots et ponctuation) et pour étiqueter les mots du texte c’est-à-dire, chaque mot est

identifié comme étant un nom, un verbe ou un complément, etc. Voici un exemple pour la

première phrase de texte :

{Poly(A /NP, ) ) ), mRNA /NN, was /VBD, purified/VVN, from/IN, the DT,

Mauriceville-1c/NP, mat_A/NN, strain/NN, ( ( (, FGSC_2225/NP, ) ) ), using/VVG,

the/ DT, PolyAttract/NP, SYSI/NP, kit/NN, from /IN, Promega NP }.

Enfin, un Lemmatiseur (chaque mot devient masculin singulier) est

aussi employé ainsi qu’un radicaliseur (chaque mot est rendu à sa forme racine) exemple :

{were devient be, grown devient grow et shaking devient shak}.

- Etape 2 : Génération des termes-candidats

Chaque mot du corpus de textes est considéré par l’outil K.E.A dont la

stratégie de sélection des termes fait appel à la méthode de Naïve Bayes détermine si oui ou

non ce mot est un terme-candidat ou pas.

Page 87: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

73

- Etape 3 : Construction du modèle

D’abord, deux métriques sont calculées pour chaque termes-candidats

TFXIDF, une mesure de la fréquence d’une phrase dans un document par rapport à sa rareté

dans l’utilisation générale, et la First occurrence, qui est la distance dans le document de la

première phrase apparente.

w TFXIDF : Cette métrique compare la fréquence d'utilisation d’une phrase dans un

document particulier avec la fréquence de cette expression dans l'usage général. La

formule de TFXIDF pour P phrase dans le document D est:

1. freq (P, D) est le nombre de fois où P se produit dans D

2. seize : taille (D) est le nombre de mots dans D

3. df (P) est le nombre de documents contenant P dans le corpus global

4. N est la taille du corpus global

- Le deuxième terme de l'équation est le log de la probabilité que cette phrase apparaît dans

tout document du corpus (annulé parce que la probabilité est inférieure à un). Si le document

n’ai t pas une partie du corpus global, df (P) et N sont tout les deux incrémentés à un avant

que le terme soit évalué, afin de simuler son apparition dans le corpus.

w Première occurrence : La deuxième fonction, la première occurrence, est calculée

selon le nombre de mots qui précèdent la première apparition de la phrase, divisé par

le nombre de mots dans le document. Le résultat est un nombre entre 0 et 1 qui

représente la façon dont une grande partie du document précède la première apparence

de la phrase.

Ensuite, une table de discrétisation pour chaque métrique est générée à partir des

données d'apprentissage. Un tableau est donné avec une série de plages de valeurs de chaque

métrique. Cette discrétisation est réalisée en utilisant la méthode de discrétisation supervisée

décrite dans les travaux de [Med, 05].

Page 88: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

74

Les tableaux (de 4.8 à 4.9) montrent un du résultat de la construction du modèle

d’apprentissage obtenu par l’extraction automatique des termes effectué pour un échantillon

de 500 fiches d’ESTs en fonction de la métrique TF*IDF et Première occurrence. Des

graphes qui spécifient les résultats de ces métriques sur notre corpus biologique en fonction

de la taille de l’échantillon d’apprentissage sont donnés en Annexe D.

Page 89: Thèse de magister - Univ Oran 1

75

Ca

rac

téri

sti

qu

e :

TF

*ID

F

Ran

g d

e d

isc

réti

sa

tio

n

1

2

3

4

[-in

f-0

.000

885

] [0

.0008

85

-0.0

01

001

] [0

.0010

01

-0.0

01

114

] [0

.0011

14

-0.0

01

381

]

P [

TF

*ID

F | no

]

0.1

413

612

6

0.0

670

157

1

0.2

691

099

5

0.1

308

900

5

P [

TF

*ID

F | yes

]

0.0

325

203

3

0.0

607

364

9

0.0

616

929

7

0.1

539

933

5

6

7

8

[0

.0013

81

-0.0

02

511

] [0

.0025

11

-0.0

02

828

] [0

.0028

28

-0.0

02

877

] [0

.0028

77

-0.0

03

702

]

P [

TF

*ID

F | no

]

0.0

743

455

5

0.0

062

827

2

0.0

219

895

3

0.0

010

471

2

P [

TF

*ID

F | yes

]

0.0

004

782

4

0.0

631

276

9

0.0

100

430

4

0.0

846

484

9

9

10

11

12

[0

.0037

02

-0.0

06

038

] [0

.0060

38

-0.0

09

388

] [0

.0093

88

-0.0

15

174

] [0

.0151

74

-0.0

62

838

]

P [

TF

*ID

F | no

]

0.0

691

099

5

0.0

010

471

2

0.1

350

785

3

0.0

010

471

2

P [

TF

*ID

F | yes

]

0.0

004

782

4

0.2

147

297

9

0.0

616

929

7

0.1

300

813

1

3

14

15

[0

.0628

38

-0.0

71

499

]

[0.0

714

99

-0.1

58

25

] [0

.1582

5-i

nf]

P [

TF

*ID

F | no

]

0.0

670

157

1

0.0

031

413

6

0.0

115

183

2

P [

TF

*ID

F | yes

]

0.0

306

073

6

0.0

712

577

7

0.0

239

12

Tab

leau

4.8

Rés

ulta

t de

la c

onst

ruct

ion

du m

odèl

e po

ur la

mét

riqu

e T

F*ID

F.

Page 90: Thèse de magister - Univ Oran 1

76

Ca

rac

téri

sti

qu

e :

Pre

miè

re o

ccu

rre

nc

e

Ra

ng

de

dis

cré

tis

ati

on

1

2

3

4

[-

inf-

0.0

5]

[0.0

5-0

.051

28

2]

[0.0

51

28

2-0

.054

54

5]

[0.0

54

54

5-0

.057

97

1]

P [

pre

miè

re o

ccu

rre

nc

e | no

]

0.0

01

04

27

5

0.0

70

90

71

9

0.0

01

04

27

5

0.0

66

73

61

8

P [

pre

miè

re o

ccu

rre

nc

e | yes

]

0.1

30

31

02

6

0.0

00

47

73

3

0.0

62

52

98

3

0.0

00

47

73

3

5

6

7

8

[0

.057

97

1-0

.06

] [0

.06

-0.0

72

72

7]

[0.0

72

72

7-0

.078

94

7]

[0.0

78

94

7-0

.08

]

P [

pre

miè

re o

ccu

rre

nc

e | no

]

0.0

01

04

27

5

0.2

84

67

15

3

0.0

01

04

27

5

0.0

51

09

48

9

P [

pre

miè

re o

ccu

rre

nc

e | yes

]

0.0

23

86

63

5

0.0

00

47

73

3

0.0

33

89

02

1

0.0

00

47

73

3

9

1

0

11

12

[0

.08

-0.1

25

] [0

.125

-0.1

730

77

] [0

.173

07

7-0

.2]

/[0

.2-0

.21

56

86

]

P [

pre

miè

re o

ccu

rre

nc

e | no

]

0.0

01

04

27

5

0.0

31

28

25

9

0.0

01

04

27

5

0.0

71

94

99

5

P [

pre

miè

re o

ccu

rre

nc

e | yes

]

0.2

25

29

83

3

0.0

00

95

46

5

0.0

09

54

65

4

0.0

00

47

73

3

1

3

14

15

16

[0

.215

68

6-0

.241

37

9]

[0.2

41

37

9-0

.246

15

4]

[0.2

46

15

4-0

.25

]

[0.2

5-0

.258

62

1]

P [

pre

miè

re o

ccu

rre

nc

e | no

]

0.0

01

04

27

5

0.0

66

73

61

8

0.0

02

08

55

1

0.1

34

51

51

2

P [

pre

miè

re o

ccu

rre

nc

e | yes

]

0.0

84

00

95

5

0.0

00

47

73

3

0.0

07

15

99

0.0

00

47

73

3

1

7

18

19

[0

.258

62

1-0

.307

69

2]

[0.3

07

69

2-0

.615

38

5]

[0.6

15

38

5-i

nf]

P [

pre

miè

re o

ccu

rre

nc

e | no

]

0.0

01

04

27

5

0.2

10

63

60

8

0.0

01

04

27

5

P [

pre

miè

re o

ccu

rre

nc

e | yes

]

0.1

78

52

02

9

0.1

32

21

95

7

0.1

08

35

32

2

Tab

leau

4.9

Rés

ulta

t de

la c

onst

ruct

ion

du m

odèl

e po

ur la

mét

riqu

e P

rem

ière

occ

urr

ence

.

Page 91: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

77

· Phase de test : Pour sélectionner des termes-clés d'un nouveau document,

K.E.A détermine les termes candidats et les valeurs des métriques associées, le modèle

construit lors de la phase d’apprentissage est appliqué. Lorsque le modèle Naïve de Bayes est

utilisé sur un terme candidat avec les deux métriques deux quantités sont calculées:

TF×IDF distance (1)

Et une équation similaire est calculée pour P[no], où Y est le nombre d’instances positives

dans le fichier d’apprentissage —que l’auteur à identifier comme étant des termes-clés— et N

est le nombre d’instances négatives— les termes-candidats qui ne le sont pas. (L’estimateur

Laplace est utilisé pour éviter la probabilité zéro. Simplement Y et N sont remplacés par Y+1

et N+1.)

Une probabilité totale est calculée de la façon suivante :

(2)

La figure 4.4 suivante donne un extrait du résultat de l’extraction des nouveaux termes-clés

obtenu lors de la phase de test effectué pour un échantillon de 100 fiches d’ESTs de N.crassa.

Figure 4.4 Extrait du résultat obtenu pour 100 fiches d’ESTs (Phase de test).

-- Reading instance -- Converting instance -- Document: 4VG1 -- Keyphrases and feature values: 'neurospor cr','Neurospora crassa',0,0.05,0.669565,1,True strain,strain,0,0.25,0.669565,2,True -- 2.0 correct -- Reading instance -- Converting instance -- Document: 4VG0 -- Keyphrases and feature values: 'neurospor cr','Neurospora crassa',0,0.05,0.669565,1,True strain,strain,0,0.25,0.669565,2,True -- 2.0 correct -- Reading instance -- Converting instance -- Document: 7VG7 -- Keyphrases and feature values: fgsc,FGSC,0.014516,0.28,0.669565,1,True 'neurospor cr','Neurospora crassa',0,0.06,0.669565,2,True strain,strain,0,0.24,0.669565,3,True -- 3.0 correct -- Reading instance -- Converting instance -- Document: 7VG6 -- Keyphrases and feature values: fgsc,FGSC,0.014516,0.28,0.669565,1,True 'neurospor cr','Neurospora crassa',0,0.06,0.669565,2,True strain,strain,0,0.24,0.669565,3,True -- 3.0 correct

Page 92: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

78

Au cours de notre expérimentation, nous avons voulu évaluer l’effet de la taille de

l’échantillon test sur le corpus global. Le tableau 4.10 indique le nombre moyen de termes-

candidats extraits durant cette phase de test :

Taille de

l'échantillon de

test

100

fiches

d'ESTs

500

fiches

d'ESTs

1 000

fiches

d'ESTs

5 000

fiches

d'ESTs

10 000

fiches

d'ESTs

50 000

fiches

d'ESTs

100 000

fiches

d'ESTs

Nombre moyen

des termes-

candidats

extraits

4.23

+/-

0.99

4.28

+/-

0.94

4.07

+/-

1.03

4.2

+/-

1.01

3.95

+/-

1.03

3.94

+/-

1.03

3.94

+/-

1.03

Tableau 4.10 L’effet de la taille de l’échantillon test sur le corpus global.

o Nécessité de l’intervention de l’expert

Nous reprenons le paragraphe précédemment écrit dans le chapitre 3 du

mémoire « Aucun outil ou méthode ne permet aujourd’hui de créer de façon totalement non

supervisée des ressources sémantiques de bonne qualité [Lav, 07]. La plupart des outils

disponibles pour la construction d’ontologie à partir de textes sont décrits comme nécessitant

l’intervention humaine [Lav, 07] à différents niveaux ».

Car dans notre cas, il est nécessaire de valider les termes choisis par K.E.A à ce

stade par les experts pour ces termes qui représentent « la prière angulaire » de notre

ontologie biologique.

Le tableau 4.11 expose trois exemples de trois expérimentations dont les

termes-clés ont été extraits selon un modèle construit par apprentissage à partir d’un ensemble

de 100 000 fiches d’EST (colonne 2) dont la terminologie a été complétée par le biologiste

(colonne 3).

Page 93: Thèse de magister - Univ Oran 1

79

Des

crip

tion

Ter

mes

ext

rait

s pa

r K

.E.A

Ter

mes

com

plét

és p

ar le

bio

logi

ste

1

Lib

Nam

e:

N

euro

spor

a cr

assa

cD

NA

- 4

hou

rs V

eget

ativ

e G

row

th in

con

stan

t lig

ht

Org

anis

m:

N

euro

spor

a cr

assa

Stra

in:

Mau

rice

ville

Sex:

A

Des

crip

tion:

Pol

y (A

) m

RN

A w

as p

urif

ied

from

the

Mau

rice

ville

-1c

mat

A s

trai

n (F

GSC

222

5)

usin

g th

e Po

ly A

ttra

ct S

YS

I ki

t fr

om P

rom

ega.

Cel

ls w

ere

grow

n in

1X

Vog

el's

med

ium

/0.5

%

argi

nine

/50(

ng/m

l) b

iotin

/2%

glu

cose

for

4 h

at 3

0 de

gree

C w

ith

orbi

tal s

haki

ng a

t 125

rpm

.

neur

ospo

r cr

,' ne

uros

pora

cra

ssa

cr,

mau

rice

vil

1c m

a, M

auri

cevi

lle-1

c m

at, f

gsc,

FG

SC, s

trai

n,

stra

in

Neu

rosp

ora

cras

sa,

Mau

rice

ville

-1c,

mat

A,

stra

in

(FG

SC

2225

),

Vog

el's

m

ediu

m,0

.5%

ar

gini

ne,

50(n

g/m

l)

biot

in,

2%

gluc

ose

4 h

30

degr

ee

C

,orb

ital s

haki

ng 1

25 r

pm.

2

Lib

Nam

e:

N

euro

spor

a cr

assa

cD

NA

- 4

8 ho

urs

Unf

erti

lized

Gro

wth

in

C

ross

ing

Med

ium

Org

anis

m:

N

euro

spor

a cr

assa

Stra

in:

Mau

rice

ville

Des

crip

tion:

Pol

y (A

) m

RN

A w

as p

urif

ied

from

the

Mau

rice

ville

-1c

mat

A s

trai

n (F

GSC

222

5).

Tw

o cu

lture

s w

ere

grow

n in

Weste

rgaard

’s m

ediu

m (

synt

hetic

cro

ss m

ediu

m)

for

48 h

at 2

5 de

gree

s

C, o

ne w

ith

orbi

tal s

haki

ng a

t 200

rpm

, and

one

wit

hout

sha

king

.

mau

rice

vil

1c m

a, M

auri

cevi

lle-1

c m

at,

fgsc

,

FGSC

neu

rosp

or c

r, n

euro

spor

a cr

assa

cr

med

,

cros

s m

ediu

m, s

hak,

sha

king

, str

ain,

str

ain

Mau

rice

ville

-1c,

m

at

A,

stra

in

(FG

SC

2225

),

Weste

rgaard

’s m

ed

ium

, 48

h

, 2

5 degre

es C

, w

ith

orbi

tal s

haki

ng, 2

00 r

pm, w

ithou

t

shak

ing.

3

Lib

Nam

e:

N

euro

spor

a cr

assa

SSH

Lib

rary

AR

01

Org

anis

m:

N

euro

spor

a cr

assa

Des

crip

tion:

Tra

nscr

ipts

dow

n-re

gula

ted

in N

. cra

ssa

nuc-

2A m

utan

t str

ain

grow

n un

der

Pi s

hort

age

at a

cid

pH.

neur

ospo

r cr

, neu

rosp

ora

cras

sa, s

trai

n,st

rain

nuc-

2A,

mut

ant s

trai

n, P

i sho

rtag

e, a

cid

pH

Tab

leau

4.1

1 T

rois

exe

mpl

es d

'ext

ract

ion

de te

rmes

ave

c l'o

util

KE

A p

our

troi

s ex

péri

ence

s (c

olon

ne 2

) co

mpl

étée

par

le b

iolo

gist

e (c

olon

ne 3

).

Page 94: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

80

2.5. Exploitation des termes de l’ontologie pour le Clustering

o Présentation du logiciel TANAGRA

TANAGRA est un logiciel « open source » librement accessible sur le web et gratuit

de Data Mining destiné à l’enseignement et à la recherche, diffusé sur internet

(http://eric.univ-lyon2.fr/~ricco/tanagra). Il implémente une série de méthodes de fouilles de

données issues du domaine de la statistique exploratoire, de l’apprentissage automatique et

des bases de données.

Son premier objectif est d’offrir aux étudiants et aux experts d’autres domaines

(médecine, bio-informatique, marketing, etc.) une plate-forme facile d’accès, respectant les

standards des logiciels actuels, notamment en matière d’interface et de mode de

fonctionnement, il doit être possible d’utiliser le logiciel pour mener des études sur des

données réelles.

Le second objectif est de proposer aux chercheurs une architecture leur facilitant

l’implémentation des techniques qu'ils veulent étudier, de comparer les performances de ces

algorithmes. TANAGRA se comporte alors plus comme une plateforme d'expérimentation

qui leur permettrait d'aller à l'essentiel en leur épargnant toute la partie ingrate de la

programmation de ce type d'outil, notamment la gestion des données.

o Utilisation du Clutering par TANAGRA

· Description des données

Pour la construction du « Clustering » dans TANAGRA, le fichier CH.arff

(figure 4.5) où figurent à la fois les 29 attributs qui correspondent aux différentes fiches

d’ESTs des deux champignons et les valeurs calculées TF×IDF des différents termes extraits

de ces fiches, est utilisé.

Page 95: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

81

Figure 4.5 Format des données manipulées.

· Importation du fichier

Pour charger les données, le menu FILE / NEW est activé. Une boîte de

dialogue apparaît, pour spécifier le répertoire adéquat. Nous sélectionnons le fichier CH.arff,

puis nous validons.

@relation champignons @attribute ASC real @attribute HET real @attribute MYC-PA real @attribute PER-OLD real @attribute RAM real @attribute SEN real @attribute YOU-PER real @attribute OX real @attribute S-CO real @attribute SSH real @attribute S-PER real @attribute 7VG real @attribute 24VG real @attribute CO real @attribute GD real @attribute MO real @attribute ND real @attribute OST real @attribute PER-NC real @attribute SE real @attribute S-MYC real @attribute WES real @attribute 4VG real @attribute MYC-NC real @attribute NEL real @attribute UG real @attribute 7PC real @attribute EV real @attribute HS real

Description des attributs (variables)

manipulés

@data

2,215 1,928 1,936 1,564 1,385 1,421 1,369 1,081 1,147 1,21 1,078 1,052 1,044 1,109 1,034 1,1 1,023 1,02 1,03 1,115 1,017 1,01 1,006 1,001 0,993 0,9913,753 2,857 2,873 2,391 2,057 2,116 2 1,281 1,448 1,543 1,203 1,124 1,092 1,17 1,042 1,062 1 0,982 0,94 0,688 0,893 0,879 0,844 0,822 0,686 0,783

2,061 -0,682

0,063 0,818 1,111 1,163 1,524 1,182 1,27 1,523 2,771 1,64 2,862 1,363 1,631 2,426 5,118 1,037 1,24 1,442 1,58 2,055 1,674

18,26 1,073 1,083 0,938 0,942 0,862 0,94 0,842 0,768 0,833 0,842 0,834 0,638 0,812 0,574 0,791 0,767 0,627 0,456 0,542 0,66 0,646 0,628 0,569 0,7141,798 6,954 2,489 2,156 1,637 1,338 1,166 1,015 1,026 0,963 0,938 1,054 1,016 0,967 0,955 0,853 0,907 0,879 0,785 0,844 0,814 0,829 0,795 0,683 0,614 0,7341,232 1,406 1,557 1,405 1,375 1,299 1,251 1,083 1,125 1,131 1,105 1,058 1,049 1,08 1,037 1,065 1,029 1,026 1,046 1,037 1,034 1,02 1,015 1,014 1,009 1,002

1,353 1,436 1,388 1,283 1,259 1,221 1,082 1,118 1,122 1,099 1,057 1,048 1,076 1,037 1,062 1,029 1,026 1,044 1,036 1,033 1,02 1,016 1,015 1,01 1,0041,208 1,313 1,364 1,325 1,279 1,207 1,198 1,079 1,112 1,114 1,093 1,056 1,047 1,072 1,037 1,058 1,028 1,026 1,042 1,035 1,032 1,02 1,016 1,015 1,011 1,0041,198 1,283 1,315 1,281 1,244 1,206 1,163 1,077 1,105 1,106 1,088 1,054 1,046 1,068 1,036 1,055 1,028 1,025 1,04 1,033 1,03 1,02 1,016 1,015 1,011 1,0050,497 0,052

0,275 -0,24 -0,17 -

0,126 0,484 0,379 0,376 0,693 0,811 0,907 0,983 0,991 1,113 1,134 1,209 1,481 1,398 1,519 1,353 1,308 1,479 1,433 1,264

1,185 1,257 1,285 1,256 1,222 1,189 1,164 1,073 1,103 1,121 1,085 1,055 1,047 1,064 1,036 1,055 1,028 1,026 1,036 1,033 1,028 1,019 1,016 1,014 1,011 1,0051,559 1,842 1,922 1,8 1,662 1,528 1,425 1,187 1,285 1,297 1,185 1,104 1,072 1,069 1,022 1,071 1,02 1,041 1,099 1,063 1,026 0,993 0,964 0,93 0,897 0,8961,512 1,731 1,781 1,694 1,595 1,496 1,417 1,221 1,259 1,273 1,182 1,111 1,103 1,146 1,082 1,12 1,057 1,058 1,081 1,055 1,026 1 0,979 0,977 0,951 0,9430,393 0,012

0,255 -0,251

-0,215

-0,191

0,194 0,308 0,118 0,259 0,395 0,732 1,079 0,97 1,458 1,187 1,566 2,125 1,838 1,57 1,306 1,183 1,423 1,255 1,076

1,498 1,729 1,646 1,549 1,451 1,371 1,235 1,22 1,263 1,171 1,13 1,117 1,12 1,114 1,117 1,072 1,068 1,071 1,041 1,01 0,983 0,946 0,954 0,924 0,928 1,179 1,181 1,164 1,147 1,13 1,116 1,088 1,085 1,089 1,068 1,064 1,054 1,052 1,046 1,041 1,035 1,03 1,027 1,025 1,022 1,016 1,018 1,012 1,01 1,006

……….

Description des observations

Page 96: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

82

Figure 4.6 Importation du fichier CH.arff sous TANAGRA.

TANAGRA permet de charger automatiquement les données du fichier CH.arff. Il

indique que 29 variables et 47 observations ont bien été importées.

Figure 4.7 Chargement des données sous TANAGRA.

2

1

Fichier CH .arff chargé

Page 97: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

83

· Définition des variables

Les variables de l’analyse sont définies avec l’insertion du composant

« DEFINE STATUS » dans le diagramme en utilisant le raccourci de la barre d’outils. Dans

l’onglet « INPUTT » sont placés toutes les variables.

Figure 4.8 Définition des données sous TANAGRA.

· Définition de la méthode : Le Clustering

Il nous reste alors à placer le composant VARHCA (onglet CLUSTERING) dans le

diagramme, par glisser-déposer. Pour visualiser les résultats, nous activons le menu

contextuel VIEW.

Page 98: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

84

Figure 4.9 Définition de la méthode du Clustering sous TANAGRA.

o Résultats du Clustering

Le résumé de la partition ou « CLUSTER SUMMARY » décrit le nombre de

clusters construits (3 clusters dans notre cas) et le nombre de fiches d’ESTs contenues dans

chaque cluster : 6 fiches d’ESTs pour le premier cluster, 18 fiches d’ESTs pour le second et

5 fiches d’ESTs pour le troisième cluster. La variabilité expliquée ou « VARIATION

EXPLAINED » indique la valeur propre expliquée à l’intérieur de chaque groupe. La

proportion expliquée ou « PROPORTION EXPLAINED » indique la proportion de la

valeur propre expliquée à l’intérieur du groupe. La valeur de la variabilité est égale à 0,9237

pour le premier cluster de ce groupe.

Figure 4.10 Nombres de clusters construits par la méthode du Clustering.

Page 99: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

85

La liste des variables par cluster « CLUSTER MEMBERS » et les

« R-SQUARE VALUES » recensent les variables dans chaque groupe. Plusieurs indicateurs

permettent d’apprécier la qualité de l’affectation : « OWN CLUSTER » indique le R² de la

variable avec son groupe c’est-à-dire le carré de la corrélation de la variable avec le

représentant de la classe, le premier axe de l’ACP sur les variables composant le groupe ;

« NEXT CLOSEST » indique le R² de la variable avec le groupe le plus proche, si cette

valeur est plus grande que la première, il y a matière à s’inquiéter.

L’indicateur (1-R² ratio) indique justement le rapport entre (1-R² own cluster) et (1-R²

next closest). Plus petite est sa valeur, meilleure est l’affectation de la variable au groupe. Si

elle est supérieure à 1, cela voudrait dire que la variable est plus corrélée avec un autre cluster

qu’avec son propre groupe d’appartenance.

Figure 4.11 Résultat du Clustering.

Dans notre exemple, VARHCA a proposé une typologie en 3 clusters, 84,51% de la

variabilité totale est restituée par ce partitionnement. Les variables semblent bien assorties à

Page 100: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

86

leurs classes respectives. Dans le pire des cas, 1-R² ratio est égal à 0.5958 pour la variable ND

(Nitrogen Deprivation) dans le 2ème cluster.

Interprétation des classes. Le tableau des corrélations des variables avec les clusters

(« CLUSTER CORRELATIONS – STRUCTURE ») permet d’interpréter les groupes de

variables. Il faut le lire en parallèle avec le tableau précédent.

Figure 4.12 Résultat des corrélations du Clustering.

Nous disposons des corrélations de chaque variable avec l’ensemble des classes.

Lorsque que la corrélation est supérieure à 0.7 (ou inférieure à –0.7), ce paramètre est

modifiable, elle est mise en surbrillance et elle est recensée dans la colonne MEMBERS.

Dans l’idéal, chaque variable ne devrait être significativement corrélée qu’avec une et une

seule classe.

Page 101: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

87

La première classe associe les variables : SEN, YOU-PER, OX, S-CO, SSH, S-PER,

7VG, 24VG. Ces variables sont fortement corrélées ensembles. Les autres variables sont très

peu corrélées avec cette classe.

La deuxième classe associe les variables : MO, ND, OST, PER-NC, SE, S-MYC,

WES, 4VG, MYC-NC, NEL, UG, 7PC, EV, HS.

La troisième classe associe les variables : 24VG, CO, GD, MO, ND, OST, PER-NC,

SE, NEL, UG, EV.

Il est possible sur les détails de la variation des clusters grâce au tableau suivant et son

dendrogramme associé.

Figure 4.13 Résultat de la variation des clusters.

Page 102: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

88

Figure 4.14 Résultat du dendrogramme.

Page 103: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

89

3. Conception

Cette partie présente la conception de l’ontologie biologique du domaine, ainsi que

l’architecture du système qui va exploiter cette dernière pour répondre aux requêtes des

utilisateurs en tenant compte de la sémantique de cette dernière.

3.1. Choix de la méthode de construction de l’ontologie

Après les étapes de standardisation des extractions et de sélection des termes dans

la partie précédente, l'ontologie est construite selon la méthode proposée par l'Université de

STANFORD [Noy, 02] (voir Annexe C), car elle comporte des phases claires, simples et

faciles à comprendre. L’éditeur d'ontologie « Protégé » et « OBO Edit » ont été également

utilisés. Tout comme dans l'approche eVoc [Kel, 03], il a été décidé de créer quatre ontologies

afin de caractériser de manière complémentaire et quasi indépendante les aspects clés du

contexte d'une expérience.

o Critères

Les critères pertinents pour orienter et évaluer une ressource terminologie ou

ontologie sont présentés dans les travaux de [Bou, 03] : clarté, cohérence et capacité

évolutive à définir un vocabulaire afin de décrire un domaine donné. Ces critères sont utilisés

lors de la construction de notre ressource.

La terminologie concernant la morphologie des organismes a été prise en

considération ainsi que le côté expérimental de la culture. Les caractéristiques

morphologiques concernent le type de souche qui peut être sauvage ou mutant, les stades de

développement (du cycle sexué ou asexué) ou les types cellulaires de l'étude (ex. mycélium,

thalle, périthèce, etc.) Pour le côté expérimental, le milieu de culture peut être soit adapté à la

croissance soit au croisement, il peut contenir des suppléments moléculaires tels que des

sucres, des acides aminés, ou des vitamines comme nutriments des champignons. La culture

peut subir un choc thermique, un stress oxydatif ou osmotique, etc.

Page 104: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

90

o Etapes de la construction de l’ontologie du domaine (Avec la méthode

proposée par l'Université de Stanford)

Etape 1 : Déterminer le domaine et la portée de l'ontologie :

· Le domaine que couvre l'ontologie concerne les expériences réalisées sur les deux

champignons filamenteux (N.crassa et P.anserina) avant d’obtenir la séquence

d’EST, c’est-à-dire la description de l’échantillon biologique et des conditions de

culture.

· Le but de l'utilisation de notre ontologie est celui d’associer une information

concernant l’échantillon biologique à chaque fiche d’EST. L’objectif de cette

information ajoutée est de pouvoir définir des ensembles d’EST à partir d’un

terme/critère de l’ontologie pour guider des études d’expression des gènes associés.

· L'ontologie doit répondre aux requêtes des utilisateurs en proposant une description de

l’échantillon biologique (souche, espèce) et de l’expérience conduite (conditions de

culture, cycle de développement lors du prélèvement).

· L'ontologie sera utilisée par les bio-informaticiens pour la caractérisation des fiches

d’EST.

· L'ontologie sera maintenue et enrichie par des experts du domaine : les biologistes et

les bio-informaticiens

Etape 2 : Réutiliser des ontologies existantes :

Les ontologies mentionnées dans « l’état de l’art » présentent certaines limitations par

rapport aux besoins de l’étude. De notre point de vue le niveau de détail de certaines

ontologies biologiques est soit trop profond (CCO) ou trop grand (FAO) ; certaines ontologies

sont espèces spécifiques, et souvent associées aux espèces modèles telles que la levure

unicellulaire S. cerevisiae (APO, CCO) ou l’homme (eVOC, HGNC), et ne peuvent donc pas

être appliquées aux espèces de champignons de l’étude N.crassa et P.anserina ; ou bien nous

poursuivons d'autres objectifs ou ressources (GO, FWO, AFTOL-2, MGED, Tao, HKIS).

Pour toutes ces raisons, et pour nous focaliser sur les champignons de l'étude, N.crassa et

Page 105: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

91

P.anserina, nous avons développé notre propre une ontologie propre a été développée à partir

de, afin de fouiller les données associées aux EST à l'aide d'un modèle de connaissance du

contexte expérimental.

Etape 3 : Énumérer les termes importants de l'ontologie :

L'étude faite sur le domaine (grâce notamment à l’extraction automatique des termes)

a permis de dégager une liste importante de termes. Ne pouvant pas les énumérer tous nous

nous contentons de quelques exemples : mycélium, périthèces, hyphes, souches, conditions de

culture, durée de la culture etc.

Etape 4 : Définir les classes et la hiérarchie des classes :

Les tableaux (de 4.12 à 4.19) ci-après décrivent les différentes classes et les sous

classes associées qui ont pu être déterminées lors de notre étude. Les figures (de 4.15 à 4.18)

sont les quatre ontologies construites à partir de ces tableaux.

Page 106: Thèse de magister - Univ Oran 1

92

Con

cept

s

D

escr

ipti

on

C

lass

es

So

us c

lass

es

C

ellu

lar

cycl

e st

eps

- S

éri

e d

’évén

em

en

ts q

ui

se o

bserv

ée d

an

s u

ne c

ell

ule

se p

rodu

it l

a d

ivis

ion

et

la d

up

licati

on.

A

scos

pore

ger

min

atio

n

C

ellu

lar

cycl

e st

eps

Germ

inati

on

d’u

ne s

po

re s

e f

orm

an

t dan

s un

asq

ue d

u ch

ampi

gnon

.

Ase

xual

cyc

le s

teps

C

ellu

lar

cycl

e st

eps

Eta

pes

du c

ycle

ase

xué

: R

ep

roducti

on

qu

i n

’abo

uti

pas u

ne m

éio

se o

u f

ert

ilis

ati

on

. U

n s

eu

l d

es p

are

nts

se r

ep

rod

uit

.

Myc

eliu

m g

row

th

C

ellu

lar

cycl

e st

eps

Cro

issa

nce

de la

par

tie

végé

tativ

e du

cha

mpi

gnon

.

Sexu

al c

ycle

ste

ps

C

ellu

lar

cycl

e st

eps

Eta

pes

du c

ycle

sex

ué :

Rep

rodu

ctio

n qu

i abo

uti à

une

méi

ose

ou f

erti

lisa

tion

. Les

deu

x pa

rent

s se

rep

rodu

isen

t.

Spor

e ge

rmin

atio

n

C

ellu

lar

cycl

e st

eps

Ger

min

atio

n de

la s

truc

ture

de

mul

tipl

icat

ion

végé

tativ

e ou

de

repr

oduc

tion

du c

ham

pign

on.

T

hall

us g

row

th

C

ellu

lar

cycl

e st

eps

Cro

issa

nce

du th

alle

.

Con

idiu

m f

orm

atio

n

A

sexu

al c

ycle

ste

ps

For

mat

ion

de la

con

idie

du

cham

pign

on p

rodu

ite

dura

nt la

pha

se a

sexu

ée.

M

utin

ucle

ate

mac

ro-c

onid

ium

di

ffer

enti

atio

n

A

sexu

al c

ycle

ste

ps

Dif

fére

ncia

tio

n d

’un

e c

ell

ule

macro

-co

nid

ie c

on

ten

an

t p

lus d

’un n

ucle

us p

ar

cell

ule

.

U

ninu

clea

te

mic

ro-c

onid

ium

di

ffer

enti

atio

n

A

sexu

al c

ycle

ste

ps

Dif

fére

ncia

tio

n d

’un

e c

ell

ule

de m

icro

-con

idie

con

tena

nt a

u pl

us u

n nu

cleu

s pa

r ce

llule

.

T

able

au 4

.12

Cla

sses e

t hié

rarc

hie

des c

lasses d

e l

’onto

logie

« E

tape

s du

cyc

le c

ellu

lair

e de

s ch

ampi

gnon

s ».

(1/

3)

Page 107: Thèse de magister - Univ Oran 1

93

C

once

pts

D

escr

ipti

on

C

lass

es

So

us c

lass

es

A

scos

pore

dif

fere

ntia

tion

Se

xual

cyc

le s

teps

Dif

fére

ncia

tio

n d

’un

e s

po

re c

on

ten

ue d

an

s u

n a

sq

ue.

Fer

tiliz

atio

n

Se

xual

cyc

le s

teps

Fus

ion

des

gam

ètes

mâl

es e

t fem

elle

s.

Mei

ose

Se

xual

cyc

le s

teps

Pha

se d

e re

prod

uctio

n du

cha

mpi

gnon

.

Per

ithe

cuim

Sexu

al c

ycle

ste

ps

Cel

lule

du

péri

thèc

e du

cha

mpi

gnon

.

Pro

to-p

erit

heci

um

Sexu

al c

ycle

ste

ps

Cel

lule

de

Pro

to-p

érith

éciu

m.

Sexu

al o

rgan

dif

fere

ntia

tion

Sexu

al c

ycle

ste

ps

Dif

fére

ncia

tion

des

orga

nes

sexu

és.

Asc

ogon

ium

(F

EM

AL

E)

Se

xual

org

an d

iffe

renc

iati

on

Cell

ule

de l

’asco

go

ne du

ch

am

pig

no

n.

M

icro

-con

idiu

m (

MA

LE

)

Sexu

al o

rgan

dif

fere

ncia

tion

C

ellu

le d

e m

icro

-con

idie

du

cham

pign

on.

T

able

au 4

.13

Cla

sses

et h

iéra

rchie

des c

lasses d

e l

’onto

logie

« E

tape

s du

cyc

le c

ellu

lair

e de

s ch

ampi

gnon

s ».

(2/

3)

Page 108: Thèse de magister - Univ Oran 1

94

C

once

pts

Des

crip

tion

Cla

sses

Sous

cla

sses

Old

per

ithe

cium

Per

ithe

cuim

C

ellu

le d

e P

érith

èce

âgée

(>

48h)

.

You

ng p

erit

heci

um

Per

ithe

cuim

C

ellu

le d

e P

érith

èce

jeun

es (

<48

h).

Asc

ogen

ous

hyph

a

Pro

to-p

erit

heci

um

Part

ie v

égéta

tive d

e l

’hyp

he.

Het

erot

halis

m

F

erti

lizat

ion

Indi

vidu

s se

xuel

lem

ent d

iffé

rent

s.

Hom

otha

lism

Fer

tiliz

atio

n

Indi

vidu

s se

xuel

lem

ent i

dent

ique

s.

Pse

udo-

hom

otha

lism

Fer

tiliz

atio

n

Indi

vidu

s se

xuel

lem

ent d

iffé

rent

s (m

ais

indé

term

inés

).

T

able

au 4

.14

Cla

sses e

t hié

rarc

hie

des c

lasses d

e l

’onto

logie

« E

tape

s du

cyc

le c

ellu

lair

e de

s ch

ampi

gnon

s ».

(3/

3)

Page 109: Thèse de magister - Univ Oran 1

95

Fig

ure

4.15

Ont

olog

ie «

Eta

pes

du c

ycle

cel

lula

ire

des

cham

pign

ons

».

Page 110: Thèse de magister - Univ Oran 1

96

T

able

au 4

.15

Cla

sses e

t hié

rarc

hie

des c

lasses d

e l

’onto

logie

« T

ypes

cel

lula

ire

des

cham

pign

ons

». (

1/2)

Con

cept

s

D

escr

ipti

on

C

lass

es

So

us c

lass

es

C

ellu

lar

type

s -

Typ

e de

s ce

llul

es d

u ch

ampi

gnon

.

Asc

ospo

re

C

ellu

lar

type

s S

ac c

onte

nant

les

spor

es d

u ch

ampi

gnon

.

Asc

us

C

ellu

lar

type

s

Cell

ule

po

ur

la d

issém

inati

on

d’a

sq

ue d

u c

ham

pig

no

n.

C

onid

ium

Cel

lula

r ty

pes

Cel

lule

du

cham

pign

on p

rodu

ite lo

rs d

e la

pha

se a

sexu

ée.

H

ypha

Cel

lula

r ty

pes

Cel

lule

uni

que

en f

orm

e de

fil

amen

t plu

s ou

moi

ns r

amif

ié.

Myc

eliu

m

C

ellu

lar

type

s

Par

tie

végé

tativ

e de

s ch

ampi

gnon

s.

Per

ithe

ciu

m

C

ellu

lar

type

s

Cel

lule

de

péri

thèc

e du

cha

mpi

gnon

.

Pro

to-p

erit

heci

um

C

ellu

lar

type

s

Cel

lule

de

Pro

to-p

érith

èce

du c

ham

pign

on.

Tha

llus

C

ellu

lar

type

s

Cel

lule

Tha

lle

du c

ham

pign

on.

Uni

nucl

eate

mic

ro-c

onid

ium

Con

idiu

m

Cel

lule

de

mic

ro-c

onid

ie c

onte

nant

au

plus

un

nucl

eus

par

cellu

le.

M

utin

ucle

ate

mac

ro-c

onid

ium

Con

idiu

m

Cel

lule

de

mac

ro-c

on

idie

con

ten

an

t plu

s d

’un

nu

cle

us p

ar

cell

ule

.

Page 111: Thèse de magister - Univ Oran 1

97

T

able

au 4

.16

Cla

sses

et h

iéra

rchie

des c

lasses d

e l

’onto

logie

« T

ypes

cel

lula

ire

des

cham

pign

ons

». (

2/2)

C

once

pts

D

escr

ipti

on

C

lass

es

So

us c

lass

es

Aer

ial h

ypha

H

ypha

C

ell

ule

de l

a p

art

ie a

éri

en

ne d

e l

’hyp

he.

Mul

tinu

clea

te m

ycel

ium

M

ycel

ium

M

ycéli

um

co

nte

nan

t p

lus d

’un n

ucle

us p

ar

cell

ule

.

Asc

ogen

ous

hyph

ae

P

erit

heci

um

C

ell

ule

de l

’asco

go

ne a

éri

en

du c

ham

pig

no

n.

Asc

ogen

ous

cell

P

roto

-per

ithe

ciu

m

Cel

lule

asc

ogèn

e du

cha

mpi

gnon

.

Self

-fer

tile

tha

llus

T

hall

us

Tha

lle

auto

-fer

tile

du

cham

pign

on.

Cro

zier

Asc

ogen

ous

cell

Cel

lule

sou

s fo

rme

de c

ross

e, q

ui v

a su

bir

une

méi

ose.

Try

chog

yne

A

scog

enou

s ce

ll

Cel

lule

Try

gogy

ne d

u ch

ampi

gnon

.

Page 112: Thèse de magister - Univ Oran 1

98

Fig

ure

4.16

Ont

olog

ie «

Typ

es c

ellu

lair

e de

s ch

ampi

gnon

s ».

Page 113: Thèse de magister - Univ Oran 1

99

C

once

pts

D

escr

ipti

on

C

lass

es

So

us c

lass

es

St

rain

fea

ture

s (S

ouch

e)

- C

ara

ctè

res m

orp

ho

logiq

ues d

’un

ch

am

pig

no

n.

St

rain

typ

es

St

rain

Typ

es d

e so

uche

s du

cha

mpi

gnon

.

Veg

etat

ive

inco

mpa

tibi

lity

St

rain

In

divi

dus

inco

mpa

tibl

es v

égét

ativ

emen

t.

Mut

ant

(Sou

che

mut

ante

)

St

rain

typ

es

Sou

ches

issu

es d

es e

xpér

ienc

es e

n la

bora

toir

e.

Wild

(So

uche

sau

vage

)

St

rain

typ

es

Sou

ches

de

réfé

renc

e.

T

able

au 4

.17

Cla

sses e

t hié

rarc

hie

des c

lasses d

e l

’onto

logie

« C

arac

téri

stiq

ues

des

souc

hes

des

cham

pign

ons

».

Page 114: Thèse de magister - Univ Oran 1

100

F

igur

e 4.

17 O

ntol

ogie

« C

arac

téri

stiq

ues

des

souc

hes

des

cham

pign

ons

».

Page 115: Thèse de magister - Univ Oran 1

101

Con

cept

s

D

escr

ipti

on

C

lass

es

So

us c

lass

es

C

ultu

re c

ondi

tion

-

Déc

rit l

es c

ondi

tions

de

cultu

re d

u ch

ampi

gnon

.

Cul

ture

dur

atio

n

C

ultu

re c

ondi

tion

D

écri

t les

dur

ées

de c

ultu

re d

u ch

ampi

gnon

.

Cul

ture

med

ium

Cul

ture

con

diti

on

Déc

rit l

es m

ilie

ux d

e cu

ltur

e du

cha

mpi

gnon

.

Lig

ht

C

ultu

re c

ondi

tion

D

écri

t l’

uti

lisati

on

ou

non

de l

a l

um

ière

dan

s l

’exp

éri

en

ce.

Orb

ital

Sta

king

Cul

ture

con

diti

on

Décri

t l’

uti

lisati

on

ou

non

de l

’agit

ati

on

dan

s l

’exp

éri

en

ce.

Rel

even

t m

omen

t

Cul

ture

con

diti

on

Déc

rit l

e m

omen

t de

prél

èvem

ent d

u ch

ampi

gnon

.

Stre

ss

C

ultu

re c

ondi

tion

Déc

rit l

es s

tres

s su

bi p

ar le

cha

mpi

gnon

.

Cro

ss m

ediu

m

C

ultu

re m

ediu

m

Déc

rit l

es m

ilie

ux p

erm

etta

nt la

rep

rodu

ctio

n du

cha

mpi

gnon

.

Gro

wth

med

ium

C

ultu

re m

ediu

m

Déc

rit l

es m

ilie

ux p

erm

etta

nt la

cro

issa

nce

du c

ham

pign

on.

Tab

leau

4.1

8 C

lasses e

t hié

rarc

hie

des c

lasses d

e l

’onto

logie

« c

ondi

tions

de

cultu

re »

. (1/

2)

Page 116: Thèse de magister - Univ Oran 1

102

Con

cept

s

D

escr

ipti

on

C

lass

es

So

us c

lass

es

In

suff

icie

nces

C

ultu

re m

ediu

m

Déc

rit l

es in

suff

isan

ces

du m

ilie

u de

cul

ture

du

cham

pign

on.

P

H m

ediu

m

C

ultu

re m

ediu

m

Déc

rit l

e P

H d

u m

ilie

u de

cul

ture

du

cham

pign

on.

Su

pple

men

ts

C

ultu

re m

ediu

m

Déc

rit l

es a

ddit

ifs

rajo

utés

au

mil

ieu

de c

ultu

re.

O

smos

tic

stre

ss

St

ress

D

écri

t le

stre

ss o

smot

ique

sub

i par

le c

ham

pign

on.

O

xida

tive

str

ess

St

ress

D

écri

t le

stre

ss o

xyda

tif

subi

par

le c

ham

pign

on.

T

empe

ratu

re s

tres

s

Stre

ss

Déc

rit l

e st

ress

par

var

iatio

n de

tem

péra

ture

sub

i par

le c

ham

pign

on.

W

ith

Orb

ital

Sta

king

Orb

ital

Sta

king

Décri

t l’

uti

lisati

on

de l

’agit

ati

on d

an

s l

’exp

éri

en

ce.

Wit

hout

Orb

ital

Sta

king

Orb

ital

Sta

king

Décri

t la

no

n u

tili

sati

on

de l

’agit

ati

on d

an

s l

’exp

éri

en

ce.

Tab

leau

4.1

9 C

lasses e

t hié

rarc

hie

des c

lasses d

e l

’onto

logie

« c

ondi

tions

de

cultu

re »

. (2/

2)

Page 117: Thèse de magister - Univ Oran 1

103

F

igur

e 4.

18 O

ntol

ogie

« C

ondi

tion

s de

cul

ture

des

cha

mpi

gnon

s ».

Page 118: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

104

Etapes 5 & 6 : Définir les propriétés des classes, les relations et leurs facettes

Les deux tableaux suivants décrivent respectivement les propriétés et les relations des

différents concepts de l’ontologie :

o Description des propriétés des classes

Propriété Description Concept concerné Type Cardinalité

Nom_concept

Nom du concept Tous Chaine de

caractères

1, 1

Synonyme

Synonymes d’un

concept

Tous Chaine de

caractères

0, n

Définition

Définition du

concept

Tous Chaine de

caractères

1, 1

Nom_scientifique

Nom scientifique Souches (Strain) Chaine de

caractères

1, n

Tableau 4.20 Propriétés des classes de l’ontologie.

o Description des relations

Relation Concept source

Concept cible

Description Cardinalité

Avoir(1)

Champignon

Conditions de culture

Représente les conditions de culture du champignon.

1, n

Avoir(2)

Conditions de culture

Milieu de culture

Représente les milieux de culture du champignon.

1, n

Se produire

Conditions de culture

Moment de prélèvement

Représente les moments de prélèvement du champignon.

1, n

Subir

Conditions de culture

Stress

Représente le stress induit dans le champignon.

1, n

Tableau 4.21 Relations des classes de l’ontologie.

Page 119: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

105

Etape 7 : Créer les instances des classes dans la hiérarchie.

Les instances constituent l'ensemble des objets des classes. Le tableau suivant décrit

les différentes instances associées à chaque classe de l’ontologie :

Classe

Instances

Mutant

{Mauriceville-1c (FGSC_2225), Nuc-2, 74-OR 23-IV (FGSC_2489), bd_frq7, bd_30-7, fl (FGSC_4347), ORS (FGSC_2490)}

Vegetative incompatibility

{het-S_het-s system, het-R_het-V system}

Culture duration

{1h, 4h, 4 h et ½, 7h, 9h, 22h, 24h, 36h, 48h, 2j, 5j}

Temperature Stress

{25°C, 30°C, 34°C, 45°C, 58°C, 120°C}

With Orbital Staking

{Speed--125 rpm, Speed--200 rpm}

Insufficiences

{Pi shortage}

PH medium

{Acid}

Amino-acid

{Arginine, Leucine, Lysine, Méthionine, Tryptophane}

Sugar

{Glucose, Sucrose}

Vitamines

{Biotin}

Osmostic stress

{Sodium chloride}

Oxidative stress

{Hydrogen peroxyde, Dithiothreitol, Cadium chloride}

Cross medium

{ M2 medium, Westergaard medium}

Growth medium

{G medium, MR medium, RG medium, Sorbose medium, Vogel medium}

Light

{Constant light, Dark}

Relevent moment

{Morning, Evening}

Tableau 4.22 Instances des classes de l’ontologie.

Page 120: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

106

o Aspects spatio-temporels du développement des organismes

Du fait du domaine d'application, nous avions à prendre en compte l'aspect spatio-

temporel des termes liés aux stades de développement des champignons. Par exemple, le

terme « périthèce » désigne l'organe de fructification des champignons, mais il définit

également un moment précis de leur cycle de vie. Deux solutions sont possibles : soit

construire une ontologie unique de «développement», soit construire une ontologie pour

chaque aspect, l’une pour l'espace et l'autre pour le temps. L'organisation d'une ontologie

unique de développement semble aussi complexe que le développement de l'organisme et

nécessite une combinaison de différents types de lien entre les concepts. Sur la base de ce qui

a été fait pour le vocabulaire contrôlé eVoc [Kel, 03], la deuxième possibilité a été retenue et

deux ontologies distinctes ont été conçues. Ces deux ontologies sont plus faciles à représenter

et à organiser. Des concepts ont été dupliqués dans chaque ontologie quand ils incluent à la

fois des aspects espace et temps et seul le type de lien « is-a » a été utilisé.

o Protocole de construction

Les termes sélectionnés ont été répartis dans les quatre aspects du contexte d'une

expérience d'expression des gènes : caractérisation de la souche étudiée, les conditions de

culture maintenues jusqu'à l'extraction des molécules exprimées, l'organe ou le tissu extrait, et

les stades de développement de l'organisme au moment de l'extraction.

Les figures (de 4.15 à 4.18) sont des vues schématiques des quatre ontologies créées

(les nœuds en jaune représentent les concepts tandis que les nœuds en orange sont des

exemples d’instances des concepts). L’ontologie « étapes du cycle cellulaire » a six niveaux

de ramification, représentent les différentes étapes du cycle du champignon, y compris les

stades sexués et asexués. L’ontologie « types cellulaires » contient cinq niveaux, et décrie les

différents organes ou tissus qui sont impliqués dans le développement des champignons.

Certains concepts sont communs avec l’ontologie « étapes du cycle cellulaire » en raison de

leur fonction spatiale et temporelle. L'ontologie des caractéristiques des « souches » se

compose de trois niveaux de ramification. Les souches de champignons peuvent être de type

sauvage ou mutant dont les valeurs sont par exemples Mauriceville-1c (FGSC 2225), Nuc-2,

74 ou 23 IV (FGSC 2489). Les souches présentent également des incompatibilités végétatives

résultant de différences génétiques à des loci spécifiques et chaque champignon possède son

Page 121: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

107

propre système (par exemple "R /V" pour N.crassa et "het-S/het-s" pour P.anserina) [Lou,

00]. L’ontologie « conditions de culture », dispose de quatre niveaux de ramification. Cinq

caractéristiques sont décrites. Le milieu de culture qui peut être de croissance ou de

croisement, contenir un supplément ou présenter un manque d'éléments nutritifs comme des

vitamines, des acides aminés, ou des sucres. Deux aspects temporels sont pris en compte : la

durée de la culture (1, 7, ou 24 heures, 5 ou 7 jours par exemples), et le moment du

prélèvement (matin ou le soir). La lumière est soit constante ou absente. Et enfin, les stress

subis par les champignons lors de leurs développements peuvent être dûs à une variation de

température ou de la concentration d'oxydant.

3.2. Architecture du système

L’objectif de notre système est de faciliter la consultation (visualisation),

l’exploitation et la gestion des données relatives aux expériences réalisées sur les deux

champignons filamenteux à travers l’ontologie biologique du domaine. Cette ontologie qui est

subdivisée en quatre sous ontologies que sont : « le cycle de développement », « le tissus

cellulaire », « les caractéristiques des souches » et « les conditions de culture » représentants

les différents aspects morphologiques et expérimentales d’un champignon. L’architecture

générale du système est illustrée dans le schéma ci-après :

Page 122: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

108

Figure 4.19 Architecture générale de l’application.

Nous allons détailler dans les parties qui suivent le rôle des différents modules du

système, nous proposons de modéliser leurs fonctionnements ainsi que les fonctionnalités qui

doivent être fournies à l’utilisateur grâce aux diagrammes UML.

Nous allons commencer par délimiter notre système et définir les fonctionnalités

principales dont il doit disposer ainsi que les différents types d’utilisateurs qui les effectuent.

Page 123: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

109

o Acteurs et fonctions principales du système

Les besoins fonctionnels couverts par le prototype peuvent être synthétisés en

quatre grandes familles :

· La visualisation (consultation) d’informations ;

· La recherche d’informations ;

· L’exploitation d’informations ;

· Et la gestion (mise à jour) d’informations.

Les acteurs représentent le rôle humain dans notre système, leurs interactions

avec le système sont représentées sous forme de cas d’utilisation dans ce qui suit. Les acteurs

dans notre système peuvent être :

· Utilisateur de l’ontologie (les Biologistes, les Bio-informaticiens ou les

Informaticiens)

· Expert du domaine (les Biologistes, les Bio-informaticiens)

· Administrateur l’ontologie (les Bio-informaticiens ou Informaticien)

o Cas d’utilisation commun à tous les utilisateurs

Ce diagramme représente les cas d’utilisations d’un utilisateur quelconque,

autrement dit, les fonctionnalités que doit fournir le système à tous ses utilisateurs. Ces

fonctionnalités sont :

· Chargement de l'interface de choix : lorsque l'utilisateur se connecte au système,

l'interface du choix est chargée, ce qui va permettre à l’utilisateur de choisir le mode

adéquat et ensuite le chargement de l'interface choisit (1: Consulter, 2: Exploiter, 3:

Enrichir).

· Affichage du contenu de l'ontologie : dans le cas ou l’utilisateur choisit de consulter

l'ontologie, une représentation de l'ontologie sous forme d'un arbre est visualisée.

· Affichage d'informations concernant un concept choisit : lorsque l'utilisateur

choisit un concept, les informations relatives à ce concept sont affichées.

Page 124: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

110

· Recherche d’un concept dans l’ontologie : l’utilisateur à la possibilité de rechercher

manuellement un concept ou à l’aide d’une requête saisie.

Figure 4.20 Cas d’utilisation de tous les utilisateurs.

o Cas d’utilisation de l’expert du domaine

Ce diagramme représente les cas d’utilisations d’un expert du domaine.

Figure 4.21 Cas d’utilisation de l’expert du domaine.

Page 125: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

111

Les fonctionnalités que doit fournir le système à l’expert du domaine sont décrites comme

suit :

· Chargement des fiches d’ESTs : l’expert du domaine peut exploiter les données

expérimentales contenues dans les fiches d’ESTs préalablement prétraitées en

décomposant le texte des fiches en termes et en normalisant les termes extraits.

· Calcul des fréquences des termes : un calcul de fréquence exemple la mesure

TF-IDF est effectuée sur les termes précédemment extraits.

· Affichage du Clustering : Après le calcul des fréquences, l’expert à la possibilité

d’évaluer la similitude ou non de la fonction des gènes en utilisant le Clustering.

o Cas d’utilisation de l’administrateur

Ce diagramme représente les cas d’utilisations de l’administrateur de l’ontologie :

Figure 4.22 Cas d’utilisation de l’administrateur.

Les fonctionnalités que doit fournir le système à l’administrateur sont :

· S’identifier : la mise à jour est une tâche délicate d’où la nécessité de s’identifier pour

garantir une sécurité de l’information.

· Mise à jour des informations : Cette mise à jour consiste en l’ajout, suppression et

modifications des concepts, de leur définition et de leurs synonymes.

Page 126: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

112

3.3. Le module consultation (Description)

Ce module est aux utilisateurs voulant visualiser sous forme d’arborescence le

contenu des quatre ontologies en proposant pour chaque concept sélectionné : son nom, sa

définition, le(s) synonymes, le concept père et le(s) concept(s) fils associés. Il permet aussi

d’effectuer une recherche manuelle ou par mot-clé d’un concept donné. L’architecture de ce

module est la suivante :

Figure 4.23 Architecture du module consultation.

3.4. Le module exploitation (Description)

Ce module est destiné aux utilisateurs désirant avoir une « idée » sur l’activité des

gènes associés aux deux champignons. Chaque fiche d’EST est constituée d’un ensemble de

termes à qui on leurs calcule la métrique TF*IDF puis grâce au logiciel TANAGRA un

clustering est réalisé. Chaque groupe correspondrait à des distances entre termes de fiche

dESTs proche (ou éloigné selon le cas) et que (peut être) l’expert du domaine pourra

déterminer l’activité des gènes. L’architecture de ce module est la suivante :

Page 127: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

113

Figure 4.24 Architecture du module exploitation.

3.5. Le module enrichissement (Description)

Ce module est le noyau du système, il a pour but de mettre à jour les

informations de l’ontologie. L’administrateur s’identifie grâce à un mot de passe qui lui

permet d’accéder soit au fichier ONTO-BIO.obo qu’il veut modifier ou bien la base de

données. L’architecture de ce module est la suivante :

Figure 4.25. Architecture du module enrichissement.

Page 128: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

114

Pour une représentation claire et précise des fonctionnalités fournies par du

module consultation, un diagramme de séquence (ou de scénario) est présenté. Ce diagramme

offre une représentation dynamique du système. Il montre pas à pas le séquencement des

actions constituant le cas du processus de recherche d’informations (ici par mots-clés) :

Figure 4.26 Diagramme de séquence de la recherche d’information par mots-clés.

Le diagramme de séquence suivant décrit la mise à jour de l’ontologie via la

BDD qui se trouve dans EasyPHP pour le module enrichissement.

Figure 4.27 Diagramme de séquence de mise à jour de l’ontologie via la BDD.

Page 129: Thèse de magister - Univ Oran 1

Chapitre 4. La Conception

115

4. Conclusion

Ce chapitre aborde l’expérimentation effectuée dans le cadre de ce mémoire à savoir

l’effectif manipulé, ainsi que les cirières pris en compte pour les deux types d’extraction

manuelle et automatique et commente les résultats obtenus par l’extraction manuelle,

l’extraction automatique grâce au logiciel K.E.A et de la nécessité de l’intervention humaine

dans ce cas de figure. Ce chapitre comprend aussi la phase de construction de l’ontologie

biologique du domaine, en spécifiant la méthode choisie à cet effet. Ainsi que la présentation

de l’architecture qui exploite cette ontologie en détaillant les différents modules de ce

système.

Dans ce qui suit, est présenté l’environnement de développement de notre application

en expliquant le choix des outils utilisés, et la description du système développé à travers des

captures d’écran de ses différentes interfaces.

Page 130: Thèse de magister - Univ Oran 1

Chapitre 5

Plan

1. Introduction

2. Environnement de développement

2.1. Choix du langage de développement

2.2. Choix de l’éditeur de l’ontologie

2.3. Choix du S.G.B.D

3. Description du système

3.1. Interface principale

3.2. Description de la barre d’outils

3.3. Cas d’utilisation du système

4. Conclusion

L’Implémentation

Page 131: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

117

1. Introduction

Après avoir décrit la conception de l’ontologie des champignons filamenteux, nous

allons à présent entamer la partie réalisation du système que nous avons baptisé « COSEC »

(Construction Ontologique à partir de Séquences d'Expression de Champignons). Dans la

première partie de ce chapitre, est présenté l’ensemble des outils de développement utilisés.

Dans la seconde partie, le processus d’implémentation du système est détaillé, ainsi que les

principales interfaces qui le composent à travers des fenêtres de capture.

2. Environnement de développement

Pour implémenter le prototype, nous avons dû faire un choix concernant les outils de

développement. Nous citons dans cette section ces outils tout en mentionnant les raisons qui

nous ont amenés à les utiliser.

2.1. Choix du langage de développement

Dans la partie programmation du système de recherche d’information nous

avons utilisé le langage JAVA. Ce langage nous a paru beaucoup plus une évidence qu’un

choix, vu que les outils que nous utilisant sont entièrement développés en JAVA. De plus la

plupart de ces outils ont des problèmes de compatibilité avec les autres langages dans leur

version actuelle. De plus nous avons choisi ce langage pour ses qualités, à savoir :

· JAVA est un langage orienté objet simple, qui réduit le risque des erreurs

d’incohérences,

· Il est indépendant de toute plate forme, il est possible d’exécuter des programmes

JAVA sur tous les environnements qui possèdent une Java Virtual Machine (JVM),

· Il est doté d’une riche bibliothèque de classes, comprenant la gestion des interfaces

graphiques (fenêtres, menus, graphismes, boites de dialogue, contrôles), la

programmation multithread (multitâche), la gestion des exceptions,

· Il permet d’accéder d’une manière simple aux fichiers et aux réseaux (notamment

Internet),

· Il permet un accès aux bases de données simplifié soit a travers la passerelle JDBC-

ODBC ou a travers un pilote JDBC spécifique au SGBD,

Page 132: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

118

· Il est caractérisé aussi par la réutilisation de son code ainsi que la simplicité de sa mise

en œuvre.

2.2. Choix de l’éditeur d’ontologies

L’implémentation de notre ontologie biologique s’est effectuée à travers l’éditeur

d’ontologies OBO-Edit 2.0. Plusieurs raisons ont motivé notre choix :

· OBO-Edit est un éditeur d’ontologies open source et gratuit,

· OBO-Edit possède une interface modulaire, ce qui permet son enrichissement par des

modules additionnels (plugins),

· OBO-Edit permet l’édition et la visualisation d’ontologies,

· OBO-Edit permet le contrôle de la cohérence de l’ontologie par des vérifications de

contraintes,

· OBO-Edit est un éditeur d’ontologies développé et maintenue par le « Consortium

Gene Ontology » pour les ontologies dans le domaine de la biologie.

2.3. Choix du SGBD

Le Système de Gestion de Bases de Données que nous avons choisi pour

implémenter notre base de données des deux champignons filamenteux est MySQL. MySQL

est un SGBDR (Système de Gestion de Base de Données Relationnelles) fonctionnant sur

diverses plates-formes matérielles sous différents systèmes d’exploitation.

L’une des principales qualités de MySQL est d’être un logiciel libre, c'est-à-dire

gratuit et open source (les sources du logiciel sont disponibles dans le site

http://www.mysql.com). Il possède de nombreuses caractéristiques qui font de lui un SGBDR

robuste et puissant. Il est considéré parmi les systèmes libres les plus avancés.

· Il permet la définition et la manipulation des données,

· Il permet d’assurer l’intégrité et la cohérence des données,

· Il permet la sauvegarde et la restauration des données

· Il reconnaît la plupart des spécifications SQL,

Page 133: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

119

· Il intègre des bibliothèques pour de nombreux langages, afin de permettre d’accéder

aux enregistrements à partir de programmes écrits en : Java (JDBC), langage C/C++,

Perl…etc.

· Et enfin, la gestion des accès concurrents.

L’interface PhpMyAdmin

PhpMyAdmin est un outil entièrement écrit en PHP qui fournit une interface simple et

très complète pour administrer une base MySQL. La plupart des commandes de l’utilitaire

MySQL peuvent s’effectuer par l’intermédiaire de PhpMyAdmin, les opérations possibles

dépendant bien sûr des droits de l’utilisateur qui se connecte à la base. Voici une liste des

principales possibilités :

· Créer et détruire des bases de données (sous le compte root de MySQL),

· Créer, détruire, modifier la description des tables,

· Consulter le contenu des tables, modifier certaines lignes ou les détruire, etc.

· Exécuter des requêtes SQL interactivement,

· Charger des fichiers dans des tables et, réciproquement, récupérer le contenu de tables

dans des fichiers ASCII,

· Administrer MySQL.

Connexion Java/MySQL

Pour connecter l’application à la base de données, nous avons utilisé l’interface JDBC.

JDBC (acronyme qui signifie « Java Data Base Connectivity»), est un ensemble de classes

Java qui permettent de se connecter à une base de données, généralement distante sur le

réseau, et d’interroger cette base afin d’en extraire des données. La principale caractéristique

de JDBC est le fait qu’elle est complètement indépendante de tout SGBD, c’est-à-dire qu’il

peut être utilisé pour accéder à une base Oracle, PostgreSQL ou MySQL, etc.

3. Description du système

L’interface homme/machine représente l’élément clé dans l’utilisation de tout système

informatique. Ainsi, les interfaces de notre système sont conçues de manière à être simples,

faciles d’utilisation et de compréhension. Ce système (prototype) permettra à l’utilisateur

Page 134: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

120

d’exploiter l’ontologie des champignons filamenteux, de consulter ses concepts et de voir les

informations sur ses concepts. Dans ce qui suit nous allons présenter le prototype réalisé à

travers des captures d’écran.

3.1. Interface principale

L’interface illustrée par la figure ci-dessous représente l’interface principale de

notre application :

Figure 5.1 Interface Principale de l’application.

1) Choix du type de tâche à effectuer : On a le choix entre Consulter, Exploiter ou

Enrichir l’ontologie du domaine.

2) Botton Valider : validation du choix.

3) Botton Annuler : annulation du choix.

4) Botton Quitter : sortie de l’application.

1

4 3 2

Page 135: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

121

3.2. Description de la barre de Menus

On trouve la barre de menus dans les interfaces suivantes : Consulter, Exploiter

ou Enrichir. Elles ont toutes les mêmes composants.

v Le menu Fichier

Figure 5.2 Menu Fichier.

· Ouvrir : Permet l’ouverture (ou le chargement) de l’ontologie du domaine.

· Imprimer : Permet l’impression de l’arborescence de tous les concepts de

l’otologie.

· Quitter : Permet sortir de l’application.

v Le menu Rechercher

Figure 5.3 Menu Rechercher.

· Par exploitation de l’arborescence : Dans ce mode de recherche l’utilisateur peut

accéder à tous les concepts de l’ontologie. Son principe est de permettre aux

utilisateurs de faire une recherche et découvrir les concepts de l’ontologie en

navigant sur cette dernière représentée sous forme d’une arborescence.

· Recherche par mots clés : Dans ce mode de recherche il est possible d’accéder

directement à un concept de l’ontologie par saisie d’une requête, toutefois la

connaissance de quelques mots clés du domaine est nécessaire pour faire ce type

de recherche. Ce mode permet de faire des recherches sur l’ensemble des données

contenues dans l’ontologie à partir d’un mot précis ou d’un mot approchant qui se

trouve dans la requête.

Page 136: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

122

v Le menu Mise à jour

Figure 5.4 Menu Mise à jour.

· Mise à jour concepts : Permet d’ajouter, de supprimer ou de modifier le contenu

des concepts.

· Mise à jour ontologies : Permet d’ajouter, de supprimer ou de modifier le contenu

des ontologies.

v Le menu A propos : Permet de représenter la présentation et la version du logiciel.

3.3. Cas d’utilisation du système

La section qui suit décrit les différentes possibilités qui sont offertes à

l’utilisateur selon la tâche sélectionnée.

· Cas1 : Consulter

Si l’utilisateur choisi la tâche Consulter, il lui sera possible de visualiser l’ontologie

du domaine (c’est-à-dire les 4 sous ontologies) et les informations associées à chaque

concepts à savoir : la définition et le(s) synonyme(s), ainsi que le concept père et le(s) fils

comme le montre la figure ci-dessous :

Page 137: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

123

Figure 5.5 Interface de l’ontologie biologique du domaine.

1) LE CONCEPT SELECTIONNE : représente le nom du concept sélectionné.

2) LA DEFINITION : donne la définition du concept sélectionné.

3) LES SYNONYMES : affiche le ou les synonymes du concept sélectionné.

4) LE CONCEPT PERE : c’est le concept ascendant du concept sélectionné.

5) LE CONCEPT FILS : le ou les concept(s) fils du concept sélectionné.

L’utilisateur a aussi la possibilité d’effectuer une recherche sur un concept selon les

deux modes précédemment décrits. La figure suivante correspond au mode de recherche par

mots clés :

1

2

3

5 4

Page 138: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

124

Figure 5.6 Interface de la recherche par mots-clés.

1) MOT CLE A SAISIR : Zone de saisie du mot clé.

2) RESULTATS DE LA RECHERCHE : Résultat du ou des concepts trouvés à partir du

mot clé saisi.

3) L’ONTOLOGIE CONCERNEE : Numéro de l’ontologie contenant le mot clé.

4) LA DEFINITION : Définition du ou des concepts trouvés à partir du mot clé.

5) LES SYNONYMES : Synonyme(s) du ou des concepts trouvés à partir du mot clé.

6) LE CONCEPT PERE : Concept père du ou des concepts trouvés à partir du mot clé.

7) LE CONCEPT FILS : Concept fils du ou des concepts trouvés à partir du mot clé.

· Cas 2 : Exploiter

Si l’expert du domaine choisi la tâche Exploiter, il lui sera possible demander le

Clustering des fiches d’ESTs (Expressed Sequence Tags) pour permettre de proposer une

fonction biologique liée à l’expérience.

1

6

2

5

4

3

7

Page 139: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

125

w D’abord, les termes des fiches d’ESTs sont prétraités (décomposition et normalisation) :

Figure 5.7 Prétraitement des fiches d’ESTs.

Décomposition +

Normalisation

Page 140: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

126

w Ensuite, les fréquences des termes des fiches d’ESTs sont calculées (métrique TF*IDF) :

Figure 5.8 Calcul de TF*IDF des termes des fiches d’ESTs.

w Enfin, les termes des fiches d’ESTs dont la métrique TF*IDF a été calculée sont

enregistrés (en format .arff) pour être utilisé par TANAGRA qui établira le Clustering

correspondant :

Figure 5.9 Résultat du clustering des termes des fiches d’ESTs par TANAGRA.

Page 141: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

127

· Cas 3 : Enrichir

Pour pouvoir utiliser notre application l’administrateur système doit d’abord

lancer le serveur web EasyPHP pour se connecter à la base de données. Ensuite,

l’administrateur spécifie le nom d’utilisateur et le mot de passe, qu’il saisi au niveau

de notre application comme est illustré dans la figure suivante :

Figure 5.10 Connexion à la base de données.

Grâce au Menu mise à jour, l’administrateur peut enrichir l’ontologie du domaine en

effectuant les opérations d’ajout, de suppression et de modification des données. Pour

ce faire l’administrateur choisi soit de mettre à jour « localement » ou « globalement »

les données.

v Si l’administrateur effectue une mise à jour dite « locale », cette dernière se répercute

que sur les fichiers .OBO des quatre sous ontologies :

1) Ontologie : Sélectionne une ontologie.

2) Nom concept père : Nom du concept père du concept sélectionné.

3) ID père : Identifiant du concept père du concept sélectionné.

4) Nom concept courant : Nom du concept sélectionné.

5) ID fils: Identifiant du concept sélectionné.

6) Définition : définition du concept sélectionné.

7) Synonymes : Synonyme(s) du concept sélectionné.

8) Créé le : date de création du concept sélectionné.

9) Créé par : auteur de création du concept sélectionné.

10) Fichier .OBO de l’ontologie sélectionnée.

Page 142: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

128

· Bouton Nouveau : Permet à l’administrateur d’accéder à une nouvelle interface

permettant d’ajouter un concept et les informations qui lui sont associées.

· Bouton Supprimer : Permet à l’administrateur de supprimer un concept et les

informations qui lui sont associées.

· Bouton Modifier : Permet à l’administrateur de modifier un concept et les informations

qui lui sont associées.

· Bouton Enregistrer : Permet à l’administrateur d’enregistrer les modifications apportées

concept et les informations qui lui sont associées.

Figure 5.11 Mise à jour dite « locale » de l’ontologie biologique du domaine.

L’interface suivante correspond à celle que l’administrateur doit remplir lors de

l’opération de l’ajout.

Page 143: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

129

Figure 5.12 Ajout d’un concept de l’ontologie « Cellular cycle steps.OBO ».

v Si l’administrateur effectue une mise à jour dite « globale », cette dernière se

répercutera sur la base de données créée et définie sous MySQL. Il possible

d’effectuer ces modifications sur les ontologies, leurs synonymes et leurs concepts.

Nous allons illustrer par un exemple l’ajout d’une nouvelle ontologie (une cinquième)

et voir sa mise à jour effective dans EasyPHP :

Figure 5.13 La table ontologie avant la mise à jour.

Identifiant du nouveau concept

Page 144: Thèse de magister - Univ Oran 1

Chapitre 5. L’implémentation

130

Figure 5.14 La table ontologie avant et après la mise à jour (au niveau d’EasyPHP).

Figure 5.15 La table ontologie après la mise à jour.

4. Conclusion

Dans ce chapitre nous avons présenté l’implémentation de notre système de recherche

d’information. Nous avons tout d’abord présenté l’environnement de développement ainsi que

les différents outils utilisés, puis nous avons donné une description détaillée du système à

travers des fenêtres de capture qui représentent les interfaces de ce dernier, qui sont conçues

de manière à être conviviales et simples d’utilisation. Cette étape nous a aussi permis de nous

familiariser avec les outils utilisés pour le développement du système.

Nouvelle ontologie

Page 145: Thèse de magister - Univ Oran 1

Conclusion générale et perspectives

131

Conclusion générale et perspectives

Notre approche vise la construction d’ontologie de deux champignons filamenteux

modèles. Durant cette mise en œuvre il était important de bien effectuer le passage du niveau

documents textuels au niveau ontologique, en définissant de façon rigoureuse les entités

manipulées et en faisant intervenir les techniques de TAL et de fouille de textes pour les

déterminer. Cette contribution concerne un type de données particulières : Les informations

associées aux EST (Expressed sequence Tags) chez Neurospora crassa et Podospora anserina.

A ce titre, nous avons évoqué dans notre approche l’utilisation d’un outil de

Traitement Automatique de la Langue : K.E.A. Ce dernier appartient à la deuxième classe des

méthodes d’acquisition terminologique qui extrait des termes candidats, les méthodes

statistiques. La base de données de référence dans cette étude étant NCBI (terminologie

anglo-saxonne).

Cette technique a permis l’extraction d’un certain nombre de termes à partir des fiches

d’EST auxquels nous avons ajouté les termes n’apparaissant pas dans les fiches d’EST, et à

partir de quelques documents spécialisés dans le domaine. Nous sommes parvenus à un

vocabulaire contrôlé consistant permettant la construction d’ontologies. Le résultat de cette

extraction a abouti à une cinquantaine de termes que nous avons répartis en termes liés aux

processus biologiques et en termes liés aux conditions imposées pendant la culture.

Dans un premier temps, les termes de Neurospora cressa et Podosopora anserina ont

été fusionné car ces derniers sont relativement proches morphologiquement. Dans un

deuxième temps, nous avons eu à prendre en considération un aspect important concernant les

termes à savoir l’aspect spatio-temporel associé à un même terme ; exemple : perithecium

(périthèce) qui est un moment défini du cycle mais aussi un organe. Deux solutions ont été

envisageables, soit construire une ontologie pour chaque aspect, spatial et temporelle ou bien

une ontologie unique de « développement ».

Nous avons préféré et ce en s’inspirant de ce qui a été réalisé pour le vocabulaire

contrôlé « eVoc », d’opter pour une ontologie modulaire qui comporte quatre ontologies

(Ontologie du développement du cycle cellulaire du champignon, types cellulaires, souches et

Page 146: Thèse de magister - Univ Oran 1

Conclusion générale et perspectives

132

conditions de culture du champignon). Ceci nous a permis de mettre en évidence les différents

aspects morphologiques et expérimentaux des deux champignons filamenteux modèles.

Cette dernière est modulaire pour plus de flexibilité et de facilitation de mises à jour.

Ces informations ont été exploitées par une approche statistique d’extraction de termes. Les

premiers résultats obtenus montrent que la stratégie adoptée est relativement pertinente.

Cependant, des améliorations, notamment en ce qui concerne la couverture par des documents

spécialisés, doivent encore être apportées pour que cette ontologie puisse être effectivement

opérationnelle sur toutes les ressources biologiques.

En perspective à ce travail, nous envisageons :

Ø De développer un module d’enrichissement d’ontologie du système.

Ø D’enrichir notre ontologie le plus possible avec l’aide des experts du domaine pour

envisager une éventuelle intégration de ces ressources à l’ontologie du domaine.

Ø De pouvoir associer la « Gene Ontology » aux ontologies précédemment définies

pour une possibilité d’intégration et de comparaison avec notre ontologie.

Ø De conceptualiser une ontologie d’un organisme supérieur tel que : Arabidopsis

thaliana et la comparer avec l’ontologie construite pour les champignons.

Page 147: Thèse de magister - Univ Oran 1

5

Références bibliographiques

Page 148: Thèse de magister - Univ Oran 1

134

[Bac, 00] : B. Bachimont. Engagement sémantique et engagement ontologique : conception et réalisation d'ontologies en ingénierie des connaissances. Ingénierie des connaissances, Evolutions récentes et nouveaux défis, 2000.

[Bah, 06] : D. Bahloul. Une approche hybride de gestion des connaissances basée sur les ontologies : application aux incidents informatiques, Thèse de Doctorat, Université de Lyon (France), 2006.

[Bou, 03] : D. Bourigault, D et N. Aussenac-Gilles. N. Construction d’ontologies à

partir de textes. Journal Traitement Automatique des Langues Naturelles 2003, p. 9-11, 2003.

[Bou, 08] : F. Boubekeur-Amirouche. Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets, Thèse de Doctorat, Université de Toulouse III- Paul Sabatier (France), 2008.

[Bor, 97] : W. N. Borst. «Construction of Engineering Ontologies.» Center for Telematica and Information Technology, University of Tweenty, Enschede, NL, 1997.

[Cha, 04] : F. Chantelot, A. Claude, V. Zoonekynd. Interaction entre gènes : extraction d’information d’un corpus de résumés d’articles de recherche,

Rapport, p. 1-3, France, 2004.

[Che, 04] : H. Cherfi. Étude et réalisation d’un système d’extraction de connaissances

à partir de textes, Thèse de Doctorat, Université d’Henri Poincaré –Nancy 1 (France), 2004.

[Che, 05] : H. Cherfi, A. Napoli et Y.Toussaint. Towards a Text Mining Methodology Using Association Rules Extraction, Soft Computing Journal, 2005.

[Cho, 09] : O. Chourabi. Un cadre ontologique générique de modélisation, de capitalisation et de partage de Connaissances Métiers Situées en Ingénierie Système, Thèse de Doctorat, Université de la Manouba (France), 2009.

[Coh, 04] : S. Cohen Boulakia, S. Lair, N. Stransky, S. Grazian, F. Radvany, E. Barillot, C. Froidevaux. Selecting Biomedical Data Sources according to User Preferences. ISMB/ECCB’04 Bioinformatics Volume 20 Supplement

1, pages i86–i93, 2004.

Page 149: Thèse de magister - Univ Oran 1

135

[Col, 00] : N. Collier, C. Nobata, et J. Tsujii. Extracting the Names of Genes and

Gene Products with a Hidden Markov Model. In Proc. of COLING 2000, p. 201–207, 2000.

[Cop, 97] : E. Coppin, R. Debuchy, S. Arnaise, M. Picard. Mating Types and Sexual Development in Filamentous Ascomycetes, Microbiology end

Molecular Biology Reviews, Volume. 61, No. 4, p. 413, USA, 1997.

[Des, 08] : S. Despres et S. Szulman. Réseau terminologique versus Ontologie. Revue TOTh 2008, p. 6-7, 2008.

[Dia, 06] : G. Diallo. Une architecture à base d’Ontologies pour la gestion unifiée des

données structurées et non structurées, Thèse de Doctorat, Université de Joseph Fourier – Grenoble I (France), 2006.

[Dop, 07] : H-A. Do Prado. Emerging Technologies Of Text Mining: Techniques And Applications / Hercules Antonio Do Prado & Edilson Ferneda, Editors. ISBN 978-1-59904-373-9 (Hardcover) -- ISBN 978-1-59904-375-3 (Ebook), 2007.

[Eom, 04] : J. Eom et B. Zhang. PubMiner: Machine Learning-based Text Mining for Biomedical Information Analysis. In Genomics & Informatics Volume. 2(2) p. 99- 106, 2004.

[Esp, 08] : E. Espagne, O. Lespinet, F. Malagnac, C. Da Silva, O. Jaillon, B. M Porcel, A. Couloux, J-M. Aury, B. Ségurens, J.Poulain, V. Anthouard, S. Grossetete, H. Khalili, E. Coppin, M. Déquard-Chablat, M. Picard, V. Contamine, S. Arnaise, A. Bourdais, V. Berteaux-Lecellier, D. Gautheret, R-P. de Vries, E. Battaglia, P. M Coutinho, E. GJ Danchin, B. Henrissat, R. EL Khoury, A. Sainsard-Chanet, A. Boivin, B. Pinan-Lucarré, C. H Sellem, R. Debuchy, P. Wincker, J. Weissenbach, P. Silar. The genome sequence of the model ascomycete fungus Podospora

anserina, Genome Biology, Volume 9, Issue 5, 2008.

[Fay, 96] : U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. The KDD Process for Extracting Useful Knowledge from Volumes of Dated, Communications Of The ACM, Volume 39, No. 11, 1996.

Page 150: Thèse de magister - Univ Oran 1

136

[Fel, 95]

: R. Feldman et I. Dagan. Knowledge Discovery In Textual Databases (KDT). Dans In Proceedings Of The First International Conference On Knowledge Discovery And Data Mining (KDD-95), Pages 112–117, Montréal (Canada), 1995.

[Fro, 04] : C. Froidevaux et S. Cohen Boulakia. Intégration de Sources de Données Génomiques du Web. 2004.

[Fuk, 98]

: K. Fukuda, T. Tsunoda, A. Tamura, T. Takagi. Toward information extraction: identifying protein names from biological papers. PSB, p.705–

716, 1998.

[Gaa, 05] : M-V. Gaad. Genomic conflicts in Podospora anserina, Thèse de Doctorat, Université de Wageningen, 2005.

[Gar, 03] : Y.Gargouri. Maintenance d’ontologies de domaine à partir d’analyses

textuelles, Thèse de Doctorat, 2003.

[Gha, 09] : I. Ghalamallah. Proposition d'un modèle d'analyse exploratoire multidimensionnelle dans un contexte d'Intelligence Economique, Thèse de Doctorat, Université de Toulouse III - Paul Sabatier (France), 2009.

[Gom, 04] : A. Gómez-Pérez, F-L. Mariano, C.Oscar. Theoretical Foundations of Ontology, Chapter 1 of Ontological Engineering: with examples from the

areas of Knowledge Management, e-Commerce and the Semantic Web. Springer-Verlag, p. 1–45, 2004.

[Gru, 93] : T. Gruber. «A translation approach to portable ontology specifications. » Knowledge Acquisition Journal, academic Press, 1993.

[Gua, 97] : N. Guarino. Some organizing principles for a unified top-level ontology. Proceedings of the AIII Spring Symposium on Ontological Engineering,

1997.

[Gua, 95] : N. Guarino et P. Giaretta. «Ontologies and Knowledge Bases: Towards a Terminological Clarification.» In Towards Very Large Knowledge Bases:

Knowledge Building and Knowledge Sharing, Mars N. J. I., Amsterdam: IOS Press, 1995.

[Gué, 05] : E. Guérin. Intégration de données pour l’analyse du transcriptome : mise en œuvre par l’entrepôt GEDAW (Gene expression data warehouse), Thèse de Doctorat, Université Renne (France), 2005.

Page 151: Thèse de magister - Univ Oran 1

137

[Had, 02] : M. Hatem Haddad. « Extraction Et Impact Des Connaissances Sur Les Performances Des Systèmes De Recherche d’Information », Thèse de Doctorat, Université de Joseph Fourier (France). 2002.

[Hat, 04] : D. Hatsch. Interaction hôte/pathogène : étude du modèle Humulus lupulus / Fusarium graminearum. Identification, génomique et transcriptomique du

pathogène,Thèse de Doctorat, Université de Louis PasteurStrasbourg I (France), 2004.

[Hat, 01] : V. Hatzivassiloglou, P. Duboué, A. Rzhetsky. Disambiguating proteins, genes, and RNA in text: a machine learning approach. Bioinformatics, 17(1): p. 97-106, 2001.

[Her, 06] : N.Hernandez, J.Mothe. TtoO: une méthodologie de construction d’ontologie de domaine à partir d’un thésaurus et d’un corpus de référence,

RAPPORT INTERNE IRIT, 2006.

[Hob, 97] : J.R. Hobbs, D. Appelt, J. Bear, D. Israel, M. Kameyama, M. Stickel. FASTUS: A Cascaded Finite-State Transducer for Extracting Information From Natural- Language Text. Finite-State Language Processing., Cambridge: MIT press. 383-406, 1997.

[Hob, 00] : J.R. Hobbs. Information extraction from biomedical text. Journal Biomedical Informatics. In Proceedings of Pac Symposium Biocomputers. p. 541-552, 2000.

[Kaz, 02] : J. Kazama, T. Makino, Y. Ohta, et J. Tsujii. Tuning SVM for biomedical named entity recognition. In Proceedings of the workshop on NLP in the biomedical domain, 2002.

[Kel, 03] : J. Kelso, J. Visagie, G. Theiler, A. Christoffels, S. Bardien, D. Smedley, D. Otgaar, G. Greyling, C. Victor Jongeneel, M.I. McCarthy, T. Hide, W. Hide. eVOC: A Controlled Vocabulary for Unifying Gene Expression Data. Journal of Genome Research. 13:1223–1227. 2003.

[Khe, 06] : M-K. Khelif. Web sémantique et mémoire d’expériences pour l’analyse du

transcriptome, Thèse de Doctorat, Université de Nice-Sophia Antipolis (France), 2006.

[Kim, 03] : J.D. Kim, T. Ohta, Y. Tateisi, J. Tsujii. GENIA corpus -semantically annotated corpus for bio-textmining. Bioinformatics 19 (Suppl. 1), i180-182, 2003.

Page 152: Thèse de magister - Univ Oran 1

138

[Kra, 00] : M. Krauthammer, A. Rzhetsky, P. Morozov et C. Friedman. Using

BLAST for identifying gene and protein names in journal articles. Gene 259(1-2) p. 245-52, 2000.

[Jon, 09] : C. Jonquet, N. Shah, M.A. Musen. Un service Web pour l’annotation

sémantique de données biomédicales avec des ontologies. 2009.

[Jou, 03] : W. Jouini. Les méthodes et techniques d’Extraction de Connaissances de

Bases de données, Rapport de synthèse, 2003.

[Lav, 07] : B. Lavoie. Notion d'ontologie et construction d'ontologie à partir de corpus de textes. Programme de doctorat en informatique cognitive (Synthèse de lectures). Université Québec (Canada), 2007.

[Lor, 02] : G. Lortal. État de l’art Ontologies et Intégration/Fusion d’ontologies,

Rapport de synthèse 2009.

[Lor, 09] : J. Lorec. Extraction d’informations sur la régulation transcriptionnelle à

partir de gènes à partir d’articles biomédicaux, Thèse de Doctorat, Université de Nantes (France), 2009.

[Lou, 00] : G. Loubradou et B. Turcq. Vegetative incompatibility in filamentous fungi: a roundabout way of understanding the phenomenon. Res. Microbiol. vol. 151-4, p. 239-245, 2000.

[Luc, 00] : M. Lucas. Mining In Textual Mountains, An Interview With Marti Hearst. Mappa Mundi Magazine, Trip-M, 005, 1–3. Http: //Mappa.Mundi.Net/Trip-M/Hearst/, 2000.

[Mar, 08] : L.Marcheix. CONCEPTION D’UNE ONTOLOGIE A PARTIR D’UN THESAURUS SPECIALISE DANS LE DOMAINE DE L’ARCHEOLOGIE ET DES SCIENCES DE L’ANTIQUITE, Thèse de Doctorat, Vincennes – Saint-Denis, Paris 8 (France), 2008.

[Med, 05] : O. Medelyan. Automatic Keyphrase Indexing with a Domain-Specific Thesaurus, Thèse de Doctorat, Université Albert-Ludwigs- (Nouvelle Zélande), 2005.

Page 153: Thèse de magister - Univ Oran 1

139

[Még, 02] : K. Mégy. Analyse in-silico de profils d’expression de gènes humain à

partir d’une étude statistique des ESTs, Thèse de Doctorat, Université d’Aix-Marseille II (France), 2002.

[Miz, 96] : R. Mizoguchi et M. Ikeda «Towards Ontological Engineering (AI-TR-96-1).», Osaka: ISIR, Osaka, 1996.

[Mor, 02] : A. Morget et F. Rechenmann. Modélisation des données biologiques, Medecine sciences 2002, Volume 18, Issue 3.

[Mul, 04] : H.M. Muller, E.E. Kenny, P.W. Sternberg, Textpresso: an ontology-based information retrieval and extraction system for biological literature. PLoS Biologie, E309, 2004.

[Nas, 01]

: V. Nastase et S. Szpakowicz. «Word sense disambiguation in Roget's thesaurus using WordNet ». In: Proceedings of the NAACL 2001 Workshop on WordNet and Other Lexical Resources, Pittsburgh, 2001.

[Nee, 91]

: R. Neeches, R. E. Fikes, T. Finin, T. R. Gruber, T. Senator et W. R. Swartout. «Enabling technology for knowledge sharing.» AI Magazine. Volume. 12, No 3, 1991.

[Néd, 01]

: C. Nédellec et A. Nazarenko. Application de l'apprentissage à la recherche et à l'extraction d'information - Un exemple, le projet Caderige : identification d'interactions géniques. In Actes de la Journée thématique Exploration de données issues d'Internet, 2001.

[Néd, 04]

: C. Nédellec et A. Nazarenko. Machine learning for information extraction in genomics state of the art and perspectives. In: Sirmakessis, S. (ed.): Text Mining and its Applications. Studies in Fuzzi. and Soft Comp. 138. Springer Verlag, Berlin Heidelberg New York 99-118, 2004.

[Noy, 02] : N.F Noy et D. McGuinness. Développement d’une ontologie 101 : Guide

pour la création de votre première ontologie. Stanford (USA). 2002.

[Oli, 02] : D. Oliver, D. Rubin, J. Stuart, M. Hewett, T. Klein, R. Altman. Ontology development for a pharmacogenetics knowledge base. In Pacific Symposium on Biocomputing, p. 65-76, 2002.

Page 154: Thèse de magister - Univ Oran 1

140

[Psy, 07] : V. Psyché. RÔLE DES ONTOLOGIES EN INGÉNIERIE DES EIAH : CAS D’UN SYSTÈME D’ASSISTANCE AU DESIGN PÉDAGOGIQUE,

Université du Québec à Montréal (Canada), Thèse de Doctorat, 2007.

[Raj, 09] : N. Raju. Neurospora as a model fungus for studies in cytogenetics and sexual biology at Stanford, Journal of Biosciences, Volume 34, No.1, p. 139–142, Inde, 2009.

[Rin, 00]

: T.C. Rindflecsh, L.Tanabe, J.N.Weinstein, L.Hunter. EDGAR: extraction of drugs, genes and relations from the biomedical literature. Proceedings of the Pac Symposium of Biocomputers, p. 517-528, 2000.

[Roc, 03] : C. Roche. The differentia principle as a cornerstone for ontology. Knowledge Management and Philosophy, Workshop in WM 2003

Conference, Luzern, 2003.

[Sea, 72]

: T. Seale. Life Cycle of Neurospora crassa Viewed by Scanning Electron Microscopy, Microbiology end Molecular Biology Reviews, Volume 113, No. 2, p. 1016, USA, 1972.

[Sha, 05]

: A. Shaban-Nejad. Design and Development of an Integrated Formal Ontology for Fungal Genomics. Université Québec (Canada), Thèse de Doctorat, 2005.

[Sha, 02]

: H. Shatkay, S. Edwards et M. Boguski. Information retrieval meets gene analysis. IEEE Intelligent System (Special Issue on Intelligent Systems in Biology). 17:45-53, 2002.

[Sha, 03]

: H. Shatkay, S. Edwards et M. Boguski. Mining the biomedical literature in the genomic era: an overview. Journal of Computational Biology, 10, 821–855, 2003.

[Sta, 02] : Staab S. Mining information for functional genomics. IEEE Intelligent System 17-66, 2002.

[Ste, 00] : R. Stevens, P. Baker, S. Bechhofer, A. Jacoby, N.W. Paton, C.A. Goble, A. Brass. TAMBIS: Transparent access to multiple bioinformatics information sources. Journal of Bioinformatics.16: 184–185, 2000.

[Stu, 98]

: R. Studer, V. R. Benjamins, D. Fensel. «Knowledge engineering: Principles and Methods.» Data Knowledge Engineering, Volume 25, No 1-2, 1998.

Page 155: Thèse de magister - Univ Oran 1

141

[Swa, 97]

: B. Swartout, R. Patil, K. Knight et T. Russ. «Towards Distributed Use of Large Scale Ontologies.» Spring Symposium Series on Ontological Engineering, Stanford University, CA, 1997.

[Tru, 05] : S. Trufféry. Data mining et statistique décisionnelle (l’intelligence des

bases de données). Université de Renne 1 et de Paris dauphine, Livre 2005.

[Tua, 04] : O. Tuason, L. Chen, H. Liu, J. Blake, et C. Friedman. Biological nomenclatures: Source of lexical knowledge and ambiguity. In Proceedings of the Pacific Symposium of Biocomputing, number 9, p. 238-249, 2004.

[Usg, 96] : M. Uschold et M. Grüninger «Ontologies: Principles, Methods and Applications». Journal of Knowledge Engineering Review. vol. 11, no 2, 1996.

[Wai, 02] : H.M. Wain, R.C. Lovering, E.A. Bruford, M.J. Lush, M.W. Wright, S. Povey. Guidelines for Human Gene Nomenclature. Journal of Genomics. Vol. 79, Num. 4, 2002.

[Wol, 04]

: F. Wollman, S. Ball, H. Barbier-Brygoo, S. Blanc, E. Blee, A. Borgel, C. Boyen, J-F. Briat, É. Coppin, D. de Vienne, S. Delrot, C. Dumas, V. Gomord, A-M. Justin, T. Langin, Y. Meyer, J. Millet, J-P. Reichheld, D. Roby, N. Schwebel, M. Vantard. « BIOLOGIE VÉGÉTALE », Rapport de conjoncture, Chapitre27, p.593-594, France, 2004.

Page 156: Thèse de magister - Univ Oran 1

5

Annexes

Page 157: Thèse de magister - Univ Oran 1

5

Annexe A

Page 158: Thèse de magister - Univ Oran 1

Annexe A Les champignons filamenteux

144

1. Introduction

L’utilisation d’organismes biologiques comme modèles est incontournable pour faire

progresser la connaissance, en particulier pour accéder à la biologie des organismes dans son

ensemble. La place de plus en plus grande faite à la génétique a conduit à un recentrage

progressif sur des organismes présentant un cycle de reproduction court, facile à gérer en

laboratoire et accessible à toutes les méthodologies de génétique classique et moléculaire.

[Wol, 04]

Inclus dans le monde végétal et des micro-algues, les champignons filamenteux

représentent des modèles pour des créneaux thématiques originaux qui engendrent des

connaissances de portée générale. Plusieurs espèces de champignons filamenteux non

pathogènes du groupe des Ascomycètes sont utilisées comme systèmes modèles. Neurospora

crassa, constitue une référence dans le domaine, mais il existe également des modèles dits de

« tradition française » en particulier Podospora anserina. [Wol, 04]

L’intérêt des champignons en biologie végétale ne se limite pas aux recherches sur les

champignons phytopathogènes. Les champignons font l’objet de travaux originaux sur la

structure et la stabilité et l’expression des gènes et des génomes, le métabolisme et la

physiologie, la biologie du développement et de la reproduction. Ainsi, les champignons

filamenteux ont ouvert des pistes originales pour aborder les problèmes liés à la reproduction

sexuée. Dans un autre domaine, les recherches récentes concernant la plasticité des génomes

de champignons a permis de montrer le rôle des éléments transposables dans la création de la

variabilité génétique, et d’identifier deux mécanismes d’inactivation de gènes chez

Neurospora crassa.

2. Champignons filamenteux modèles : Neurospora crassa et Podospora anserina

Les travaux de cette thèse se sont focalisés sur les deux champignons modèles,

Neurospora crassa et Podospora anserina : le champignon filamenteux Podospora anserina

est un organisme utilisé pour l’étude génétique et moléculaire de plusieurs processus

biologiques et Neurospora crassa dont le génome est déjà séquencé, est l’espèce la plus

proche de Podospora anserina. Ces deux champignons appartiennent au même ordre, celui

des Sordariales.

Page 159: Thèse de magister - Univ Oran 1

Annexe A Les champignons filamenteux

145

En tant qu’espèce modèle, Neurospora crassa a été rendue célèbre par son rôle dans la

naissance de la biologie moléculaire. C’est en effet grâce à la génétique de Neurospora que

George W. Beadle et Edward Tatum ont pu établir la célèbre relation « un gène - une

enzyme »1. L’étude de Podospora anserina montre qu’on aurait tort de se limiter à un unique

modèle tel que Neurospora crassa. Malgré leur relative proximité, les deux espèces

présentent en effet des différences importantes. L’étude de P.anserina donne accès à d’autres

phénomènes biologiques que celle de N.crassa. En particulier, les hyphes de P.anserina

subissent un phénomène de sénescence qui a établi ce champignon, depuis plusieurs

décennies, comme un modèle d’étude des mécanismes du vieillissement. Chez N.crassa, au

contraire, la sénescence n’est pas observée de façon systématique. Par ailleurs, P.anserina ne

présente pas ou avec une efficacité moindre, les phénomènes d’extinctions géniques qui sont

particulièrement efficaces chez N.crassa, ce qui permet de développer chez le second des

technologies impossibles à mettre en œuvre chez le premier.

2.1. Cycle de développement de Neurospora crassa

Les espèces de Neurospora sont majoritairement haploïdes2, passant la plupart

de leurs cycles de vie à l'état haploïde. Cependant, les diverses espèces de Neurospora

présentent un des trois cycles de vie différents dits hétérothallique3 homothallique4 ou pseudo-

homothallique. L’hétérothallisme des espèces de Neurospora crassa est le plus étudié; son

cycle général est présenté dans la figure A.1.

Pendant la phase asexuée, la germination et la croissance d'une spore asexuée

haploïde (conidie) produit une masse de filaments emmêlés (hyphes), qui constituent une

colonie. Les hyphes5 n'ont aucune paroi ainsi, une colonie est essentiellement une cellule

contenant beaucoup de noyaux haploïdes. Une colonie bourgeonne des millions de conidies

des hyphes aériens, des macro-conidies multi-nucléées et des micro-conidies uni-nucléées, et

ceux-ci se dispersent et répètent le cycle asexué si elles se trouvent et demeurent sur un

substrat approprié. [Raj, 09]

1 http://www.genoscope.cns.fr/externe/HistoireBM/#beadle.

2 Haploïdes : Cellule contenant n chromosomes. 3 Hétérothallique : Reproduction sexuée produite par un seul mycélium ayant des polarités différentes, l'un de signe (+), l'autre de signe (-) 4 Homothallique : Reproduction sexuée produite par un seul mycélium. 5 Hyphes : Ensemble des filaments d'un champignon.

Page 160: Thèse de magister - Univ Oran 1

Annexe A Les champignons filamenteux

146

Dans la phase sexuée, quand les colonies du type sexuel différent entrent en

contact, leurs parois cellulaires et les noyaux fusionnent formant beaucoup de noyaux

diploïdes transitoires à l'intérieur de fructifications appelées périthèces. Chaque noyau

diploïde subit la méiose6. Les quatre produits haploïdes d'une méiose restent ensemble dans

un sac appelé un asque chez Neurospora crassa chacun des quatre produits de la méiose subit

encore une autre division mitotique, ayant pour résultat une octade de huit ascospores dans

chaque asque. Les ascospores7 germent et produisent des hyphes ayant pour résultat des

colonies. [Raj, 09]

Figure A.1 Cycle de vie de N.crassa. [Sea, 72]

2.2. Cycle de développement de Podospora anserina

Podospora anserina est un ascomycète8 filamenteux hétérothallique, dont le

cycle de type haplobiontique présente plusieurs caractéristiques intéressantes :

Dans les conditions appropriées (c’est-à-dire après l'épuisement des nutriments dans le

milieu de culture), les mycéliums9 de chaque type sexuel (mat+ et mat-) différencient à la fois

des gamètes reproducteurs mâles et des organes reproducteurs femelles. La fécondation ne se

produit qu'entre un organe mâle (et un seul) et un seul organe femelle de type sexuel opposé.

6 Méiose : Phase de reproduction du champignon. 7 Ascomycète : Champignon dont la reproduction sexuée consiste en la formation d'asques. 8 Ascospores : Spore de reproduction sexuée formée dans un asque. 9 Mycélium : Ensemble des hyphes ou des filaments d'un champignon.

Page 161: Thèse de magister - Univ Oran 1

Annexe A Les champignons filamenteux

147

Pour ceci, l'organe femelle produit une extension cytoplasmique, le trichogyne qui attrape une

micro-conidie de type sexuel opposé. Le noyau fécondant entre dans l'ascogone. Un point

intéressant est que la caryogamie10 ne se produit pas immédiatement. [Gaa, 05]

D'abord, les deux noyaux se divisent dans un cytoplasme commun pour former un

syncytium. Les noyaux migrent ensuite par paires de types sexuels opposés dans des cellules

spécialisées, les hyphes ascogènes. Ces hyphes donnent naissance après une ou deux divisions

à des cellules spécialisées, les crochets (ou crozier en anglais), où les deux noyaux se divisent

de manière synchrone. Un septum spécial est mis en place et donne naissance à une cellule à

deux noyaux, un mat+ et un mat-. Cette fusion est suivie immédiatement de la méiose, d'une

mitose post méiotique et de la formation de 4 ascospores bi-nuclées ou 5 ascospores 3 bi-

nuclées et 2 uni-nuclées. Tout ceci se produit dans une structure protectrice spécialisée, le

périthèce11. Le processus dans les conditions optimales prend environ 4 jours, au bout

desquels les ascospores sont éjectées à l'extérieur du périthèce par un mécanisme qui fait

intervenir une forte turgescence12. [Gaa, 05]

Figure A.2 Cycle de vie de P.anserina. [Cop, 97]

10 Caryogamie : Fusion du noyau mâle et du noyau femelle. 11 Périthèce : organe de fructification sexuée en forme d'urne ou de bouteille présentant à son sommet une ouverture l'ostiole. 12 Turgescence : état cellulaire associé à l'élongation de la cellule causée par une entrée d'eau dans cette même cellule.

Page 162: Thèse de magister - Univ Oran 1

Annexe A Les champignons filamenteux

148

3. Comparaison des deux champignons

Le tableau1 ci-dessous dresse un comparatif entre les deux champignons filamenteux

d’intérêt. Cette comparaison concerne trois aspects : l’écologie, la croissance végétative et la

reproduction.

o Par écologie, est désigné l’environnement dans lequel évoluent naturellement les deux

organismes. Ainsi, N.crassa préfère un milieu (ou un habitat) où les plantes sont tuées

par le feu et un climat chaud pour se développer alors que pour P.anserina, il est

restreint et se trouve notamment sur les déjections des herbivores.

o Pour la croissance végétative, elle se caractérise par une production de pigment orange

chez N.crassa et un pigment vert chez P.anserina, un taux de croissance élevé est

observé chez N.crassa par rapport à P.anserina pour qui il est moyen, enfin la

sénescence est observée chez P.anserina ce qui n’est pas le cas pour N.crassa

o Pour la reproduction asexuée des deux champignons, elle n’existe pas chez P.anserina

alors que pour N.crassa se caractérise par la germination de conidies. La durée d’une

génération durant la phase sexuée est d’une semaine pour P.anserina dont la

physiologie du type sexuel est pseudo-homothallique et de trois semaines pour

N.crassa avec une physiologie du type sexuel strictement hétérothallique.

Page 163: Thèse de magister - Univ Oran 1

Annexe A Les champignons filamenteux

149

Neurospora crassa Podospora anserina

Écologie Habitat Préfère les plantes tuées par le feux Restreint, sur les déjections des herbivores

Biotopes souvent de grande taille et à faible compétitivité

Toujours des petits biotopes et de haute compétitivité

Distribution Préfère les climats chauds Répandu dans le monde

Croissance végétative Taux de croissance Elevé à (9 cm / jour) Moyen (7 mm / jour)

Syndrome du vieillissement Généralement immortel avec certaines souches du vieillissement

Sénescence dans toutes les souches étudiées

Interférences sur les hyphes Non encore décrites Présente

Pigmentation Caroténoïdes (orange) Mélanines (vertes)

Reproduction Reproduction asexuée Efficace avec la germination des conidies Non

Durée d'une génération sexuée Trois semaines Une semaine

Physiologie du type sexuel Strictement hétérothallique Pseudo-homothallique

Dormance des ascospores Oui Non

Déclenchement de la germination des ascospores

Choc thermique à 60 ° C ou produits chimiques (par exemple, le furfural)

Passage par la voie digestive des herbivores dans la nature (Dans un milieu minimum nutritif contenant de l'acétate d'ammonium dans les laboratoires)

Tableau A.1 Comparaison entre N.crassa et P.anserina. [Esp, 08]

Page 164: Thèse de magister - Univ Oran 1

Annexe A Les champignons filamenteux

150

4. Conclusion

Les deux champignons filamenteux d’intérêt que sont Neurospora crassa et

Podospora anserina ont été présentés à travers une description des différentes étapes de leur

développement. Aussi, La comparaison de ces deux organismes montre qu’ils peuvent être

considérés à la fois comme étant suffisamment proches et éloignés, pour qu’une comparaison

de données expérimentales qui leur sont associées puisse être intéressante.

Dans ce qui suit, nous allons définir un type particulier de séquences : les EST

(Expressed Sequence Tags) qui sont de plus en plus utilisés par les biologistes pour trouver

les informations sur les fonctions de gènes d’organismes divers et pour évaluer le taux

d’expression des gènes associés.

Page 165: Thèse de magister - Univ Oran 1

5

Annexe B

Page 166: Thèse de magister - Univ Oran 1

Annexe B. Les données de biologie moléculaire

151

1. Introduction

Dans l'état actuel des connaissances, une méthode employée en génomique depuis

plusieurs années, repose sur l'emploi des séquences partielles d'ADN complémentaire

(ADNc). Ces séquences partielles, nommées Expressed Sequence Tags (ESTs) sont

accumulées par millions dans les banques de données depuis les années 1990.

La comparaison d'un EST avec une séquence génomique conduit en effet au repérage

de zones homologues qui, normalement, correspondent à des gènes exprimés. Ainsi la

détection des gènes dans les séquences d'ADN par le biais des ESTs et la détection de leur

profil d'expression font donc un usage intensif de ces données, qui ont été déterminantes pour

le succès de nombreux travaux récents en génétique moléculaire [Hat, 04].

2. Définition des Expressed Sequence Tags (ESTs)

Les ESTs (Expressed Sequence Tags) sont de courts fragments représentant les gènes

exprimés dans une cellule dans un temps donné. Ils sont régulièrement utilisés pour mesurer

le taux d’expression des gènes [Meg, 02].

Figure B.1 Procédé d’obtention des ESTs. [Meg, 02]

Page 167: Thèse de magister - Univ Oran 1

Annexe B. Les données de biologie moléculaire

152

3. Procédure d’obtention des ESTs

Différents laboratoires publiques et compagnies privées se sont lancés dans des

programmes de séquençage d'ADNc à partir de prélèvements spécifiques. Les étapes suivies

pour l'obtention d'EST sont les suivantes [Meg, 02] :

o On considère la séquence génomique d'un chromosome. Les gènes des cellules

eucaryotes (non bactériennes), ont leurs séquences généralement codantes (appelées

'exons') interrompues par des 'introns' (séquences de gène situées entre deux 'exons' et

dont la fonction est encore inconnue).

o La transcription est initiée ; elle se définit comme la copie d'une molécule d'ADN par

la création d’une molécule d'ARN. La molécule d'ARN directement synthétisée à

partir du modèle ADN, reste dans le noyau de la cellule et est traitée par un complexe

enzymatique qui enlève tous les introns. Cette étape est appelée épissage.

o Construction d'une banque d'ADNc : à partir d'un tissu ou de cellules en culture, les

ARNm sont purifiés, transformés en ADNc (copie double brin des ARNm) et

finalement clonés ce qui produit une librairie de clones.

o Séquençage des ESTs : de nombreux clones sont séquencés de manière systématique,

mais partielle (pour réduire le temps et le coût). Chaque fragment d'ADNc cloné est

séquencé une seule fois ('single-pass') sur quelques centaines de nucléotides

(généralement de 300 à 600 paires de base) à partir de chacune de ses extrémités : on

obtient ainsi des banques de séquences, avec un taux relativement important d'erreurs

dans les séquences (de 1 à 3%).

4. Banques de données de séquences

Les banques de données de séquences en biologie moléculaire constituent un outil

indispensable à l'activité quotidienne du chercheur amené à travailler avec des séquences.

Elles représentent une source précieuse d'informations, dont l'exhaustivité permet

théoriquement d’effectuer des recherches efficaces et globales sur les connaissances du

moment au sujet de tel gène ou de telle protéine. Un autre intérêt de ces bases réside dans

l'information qui accompagne les séquences (i.e. annotations, expertises, bibliographies). Ces

Page 168: Thèse de magister - Univ Oran 1

Annexe B. Les données de biologie moléculaire

153

informations peuvent parfois constituer les rares annotations disponibles sur certaines

séquences. Enfin la présence de références à d'autres bases permet d'avoir accès à d'autres

informations complémentaires. Ainsi, en fonction de la nature de l’information produite par

ces séquences, deux types de banques peuvent être distinguées :

o Celles qui correspondent à une collecte des données la plus exhaustive possible et qui

offrent finalement un ensemble plutôt hétérogène d'informations dites banques de

séquences généralistes exemple : EMBL1, GenBank2, DDBJ3[Mor, 02].

o Celles qui correspondent à des données plus homogènes établies autour d'une

thématique et qui offrent une valeur ajoutée à partir d'une technique particulière ou

d'un intérêt suscité par un groupe d'individus dites banques de séquences spécialisées

exemple : enzymes, pathologies, gène et expression, etc [Mor, 02].

Banques d'ESTs

Les ESTs, par leur nature, constituent une catégorie de séquences nucléotidiques à

part, et une ressource essentielle pour les biologistes. Le NCBI et l'EBI produisent chacun une

banque ne contenant que des ESTs. D'autre part, il existe plusieurs banques spécialisées dans

le traitement et l'analyse des EST, offrant différents niveaux d'analyse et d'interprétation de

cette information.

La banque d'EST fournie par le NCBI est dbEST4, celle-ci est une division de

GenBank qui regroupe toutes les séquences issues du séquençage des ESTs. En date du 15

avril 2005, dbEST contient plus de 26 millions de séquences représentant plus de 800

organismes. Sa forte croissance est due aux nombreux programmes de séquençage d'EST qui

ont été mis en œuvre ces dernières années. Les organismes les plus représentés dans dbEST

sont : Homo sapiens (22% des séquences) et Mus musculus (16%), le tableau 2 reprend une

liste non exhaustive d'organismes et met en évidence le nombre d'EST pour chacun d'entre

eux [Hat, 04].

1 http://www.ebi.ac.uk/ebi_docs/embl_db/ebi/topembl.html 2 http://www.ncbi.nlm.nih.gov/Web/GenBank 3 http://www.ddbj.nig.ac.jp 4 http://www.ncbi.nlm.nih.gov/dbEST

Page 169: Thèse de magister - Univ Oran 1

Annexe B. Les données de biologie moléculaire

154

Organisme Nombre d'EST Homme (Homo Sapiens) 6 054 956

Vache (Bos taurus) 59 2603 Chien (Canis familiaris) 323 129

Souris (Mus musculus) 4 334 174 Rat (Rattus norvegicus) 691 988

Sanglier (Sus scrofa) 435 156 Poule (Gallus gallus) 532 239

Poisson (Danio Rerio) 606 296 Cione (Ciona intestinalis) 684 319

Tableau B.1 dbEST - Nombre d'EST par organisme.

La banque dbEST centralise donc les séquences EST issues des différents projets de

séquençage. Cette banque présente une forte redondance due au fait que ces séquences ont été

obtenues à partir de clones pris au hasard dans de nombreuses banques d'ADNc établies à

partir de divers tissus. Par conséquent, des EST peuvent correspondre à des parties

différentes, souvent (mais pas toujours) chevauchantes d'un même gène exprimé [Hat, 04].

5. Conclusion

La quantité de données dans le domaine de la biologie ne cesse d'augmenter en

particulier avec le séquençage des génomes de différents organismes mais également la

grande diversification des informations produites (i.e. séquences primaires, structures

moléculaires, cartographie, collection de clones...). Toutes ces informations sont regroupées

soit dans des banques de données de séquences dites « généralistes » ou « spécifiques ».

Dans ce qui précède, nous avons présenté un type particulier de séquences : les ESTs

(Expressed Sequence Tags), leur procédure d’obtention et le nombre de séquences d’ESTs de

quelques d’organismes. Cependant, ces ESTs sont généralement exploités pour leur partie

séquence mais les informations textuelles associées qui renseignent sur le protocole

expérimental sont ignorées.

De ce fait, un recours à la fouille de données, plus précisément la fouille de textes

apporterait une solution pour exploiter au mieux ces informations inconnues et

potentiellement utiles pour le biologiste.

Page 170: Thèse de magister - Univ Oran 1

5

Annexe C

Page 171: Thèse de magister - Univ Oran 1

Annexe C La méthode de STANFORD de construction des ontologies

157

Présentation

Il existe une multitude de méthodes d’ingénierie ontologique mais l’absence de

directives structurées et communes ralentisse le développement d’ontologie à l’intérieur et

entre les équipes, l’extension de n’importe quelle ontologie, la possibilité de réutilisation de

l’ontologie.

On entend par méthodologie, les procédures de travail, les étapes, qui décrivent le

pourquoi et le comment de la conceptualisation puis de l’artefact construit. Dans ce qui va

suivre les étapes générales de la méthode de STANDFORD [Noy, 02] pour la construction

des ontologies sont décrits ci-après. Elle comporte sept étapes qui sont les suivantes :

1. Déterminer le domaine et la portée de l’ontologie. 2. Réutiliser des ontologies existantes. 3. Enumérer les termes importants de l’ontologie. 4. Définir les classes et la hiérarchie de classes. 5. Définir les propriétés des classes (les attributs). 6. Définir les facettes des attributs. 7. Créer des instances des classes dans la hiérarchie ou exemples. Détaillons maintenant ces étapes : Etape 1 : Déterminer le domaine et la portée de l’ontologie. Cette étape se fait en répondant

aux questions ci-dessous tout au long de la conception de l’ontologie et qui aident à définir la

portée du domaine de l’ontologie :

· Quel est le domaine que va couvrir l’ontologie ?

· Dans quel but utiliserons-nous l’ontologie ?

· A quels types de questions l’ontologie devra-t-elle fournir des réponses ?

· Qui va utiliser et maintenir l’ontologie ?

Page 172: Thèse de magister - Univ Oran 1

Annexe C La méthode de STANFORD de construction des ontologies

158

Afin de mieux cerner la portée de l’ontologie on peut recourir aux questions de compétence,

c'est-à-dire les questions auxquelles le système projeté est censé répondre. Ces questions

permettent de savoir si l’ontologie contient suffisamment d’informations pour répondre aux

questions et s’il y a une nécessité de détail dans les réponses ou de représentation d’un

domaine particulier.

Etape 2 : envisager une éventuelle réutilisation des ontologies existantes. Dans tout domaine

de recherche, il est utile de profiter de ce que les autres ont fait afin d’en tirer les informations

et ainsi permettre d’élargir le travail et l’affiner pour répondre aux besoins. Il est intéressant

d’importer des ontologies déjà existantes (dans le même domaine) et les adapter à nos

besoins.

Etape 3 : Enumérer les termes importants de l’ontologie. Il est important d’établir en premier

lieu une liste complète des termes concernant le domaine d’intérêt, et cela sans se soucier de

la catégorisation de ces derniers dans des classes ou dans une hiérarchie. On peut extraire ces

termes à partir de produits terminologiques comme les corpus, les thésaurus, les taxonomies

etc. les questions à se poser pour établir cette liste sont les suivantes :

· Sur quels termes souhaiterons-nous discuter ?

· Quelles sont les propriétés de ces termes ?

· Que veut-on dire par ces termes ?

Etape 4 : Définir les classes et la hiérarchie de classes. A partir de la liste de l’étape

précédente, on commence par définir les classes en sélectionnant les termes qui décrivent des

objets ayant une existence indépendante. Ce sont ces termes qui constitueront les classes de

l’ontologie. Il faut ensuite organiser ces classes dans une taxonomie hiérarchique en suivant la

règle suivante : « Si une classe A est super classe d’une classe B alors toute instance de B est

aussi une instance de A.» Il existe différentes approches qui permettent la définition d’une

hiérarchie des classes, il n’y a pas de meilleure méthode. Cela dépend en fait du point de vue

du développeur :

· Un procédé de développement de haut en bas : c’est une approche systémique qui

commence par une définition des concepts les plus généraux du domaine et se poursuit

par la spécialisation des concepts.

Page 173: Thèse de magister - Univ Oran 1

Annexe C La méthode de STANFORD de construction des ontologies

159

· Un procédé de développement de bas en haut : commence par la définition des

classes les plus spécifiques, appelées feuilles de la hiérarchie, et se poursuit avec le

regroupement de ces classes en concepts plus généraux.

· Un procédé combiné de développement : représente une combinaison des deux

approches précédentes, c’est l’approche la plus souvent utilisée par les développeurs

en raison du fait que les concepts du milieu sont en général plus descriptifs du

domaine. Au tout début, les concepts les plus saillants sont définis ensuite ils sont

généralisés ou spécialisés selon le cas.

Etape 5 : Définir les propriétés des classes (les attributs) Dans cette étape, on devra décrire la

structure interne des concepts tirés pendant l’étape précédente. Les propriétés définissent la

structure interne et les caractéristiques des classes. La plupart des termes restants (qui ne sont

pas des classes) ont de fortes chances de représenter les propriétés de ces classes. Chaque

propriété sera ensuite rattachée comme attribut à la classe qu’elle décrit. Il faut ensuite

prendre en considération les classes et les sous-classes, ainsi un attribut doit être rattaché à la

classe la plus générale pouvant avoir cette propriété et toutes les sous-classes de cette classe

héritent cet attribut. On peut citer quelques recommandations :

· Les attributs inverses : on parle d’attributs inverses quand la valeur d’un attribut

dépend de la valeur d’un autre attribut. Il est parfois plus commode de stocker

l’information dans les deux sens bien que cela paraisse redondant.

· Valeurs par défaut : une valeur par défaut d’un attribut est une valeur particulière qui

est la même pour la plupart des instances d’une classe. Le système renseigne

automatiquement cette valeur par défaut à chaque création d’une nouvelle instance

appartenant à une classe comportant cet attribut.

· Nommer les classes et les attributs : il faut définir une convention de nomination des

classes et attributs et y adhérer complètement. Cela permet de mieux comprendre

l’ontologie et d’éviter les erreurs les plus fréquentes de modélisation.

Etapes 6 : définir les facettes des attributs. Les attributs peuvent avoir plusieurs facettes. Les

facettes les plus communes décrivent :

Page 174: Thèse de magister - Univ Oran 1

Annexe C La méthode de STANFORD de construction des ontologies

160

· Le type de valeur des attributs : désigne le type de valeur pouvant être affectée à un

attribut. Les plus typiques sont les suivants : chaîne de caractère, nombre ou enveloppe

ou entier, booléen, énuméré (précise une liste de valeurs spécifiques autorisées pour

l’attribut), instance (permet de définir des relations entre les concepts).

Remarque : ici « instance » est un type d’attribut offert par l’éditeur d’ontologies Protégé. Ce

type indique que la propriété est une relation entre la classe comportant cet attribut et celle

spécifiée avec l’attribut. Exemple : pour modéliser la relation « avoir_père » entre les deux

classes « père » et « enfant », il suffit d’ajouter une propriété de type « instance » dans la

classe « enfant » qui a le nom « avoir_père ». La classe cible est la classe père.

· Le nombre de valeur ou cardinalité : désigne le nombre de valeurs qu’un attribut

peut avoir. Une cardinalité peut être unique (autorise une seule valeur) ou multiple

(autorise plusieurs valeurs). Il utile de spécifier pour un attribut une cardinalité

minimale et une cardinalité maximale.

· Le domaine et le rang d’un attribut : l’étendue ou le rang d’un attribut représente

les classes autorisées pour les attributs de type « Instance ». Le domaine d’un attribut

représente les classes autorisées auxquelles cet attribut est rattaché ou les classes dont

l’attribut décrit les propriétés.

Etape 7 : créer les instances. Cette étape consiste à créer les instances qui représentent des

entités réelles des classes. On commence par créer une instance individuelle de la classe

choisie puis on la renseigne avec les valeurs des attributs.

Page 175: Thèse de magister - Univ Oran 1

5

Annexe D

Page 176: Thèse de magister - Univ Oran 1

162

Fig

ure

D.1

Résult

ats

de l

’extr

acti

on a

uto

mati

que d

es d

eux m

étr

iques p

our

un é

chanti

llon d

’appre

nti

ssage =

500 f

iches d

’ES

Ts (

Neu

rosp

ora

cra

ssa).

Page 177: Thèse de magister - Univ Oran 1

163

Fig

ure

D.2

Résult

ats

de l

’extr

acti

on a

uto

mati

que d

es d

eux m

étr

iques p

our

un é

chanti

llon d

’appre

nti

ssage =

1 000 f

iches d

’ES

Ts (

Neu

rosp

ora

cra

ssa

).

Page 178: Thèse de magister - Univ Oran 1

164

Fig

ure

D.3

Résult

ats

de l

’extr

acti

on a

uto

mati

que d

es d

eux m

étr

iques p

our

un é

chanti

llon d

’appre

nti

ssage =

5 0

00 f

iches d

’ES

Ts (

Neu

rosp

ora

cra

ssa

).

Page 179: Thèse de magister - Univ Oran 1

165

Fig

ure

D.4

Résult

ats

de l

’extr

acti

on a

uto

mati

que d

es d

eux m

étr

iques p

our

un é

chanti

llon d

’appre

nti

ssage =

10 0

00 f

iches d

’ES

Ts (

Neu

rosp

ora

cra

ssa

).

Page 180: Thèse de magister - Univ Oran 1

166

Fig

ure

D.5

Résult

ats

de l

’extr

acti

on a

uto

mati

que d

es d

eux m

étr

iques p

our

un é

chanti

llon d

’appre

nti

ssage =

50 0

00 f

iches d

’ES

Ts (

Neu

rosp

ora

cra

ssa

).

Page 181: Thèse de magister - Univ Oran 1

167

Fig

ure

D.6

Rés

ulta

ts d

e l’

extr

acti

on a

uto

mati

que d

es d

eux m

étr

iques p

our

un é

chanti

llon d

’appre

nti

ssage =

100 0

00 f

iches d

’ES

Ts (

Neu

rosp

ora

cra

ssa).