système de représentation et dexploration de données biologiques hétérogènes
Post on 03-Apr-2015
108 Views
Preview:
TRANSCRIPT
Système de représentation et d’exploration de données biologiques hétérogènes.
Sommaire
GenoLink
Genostar
Démonstration de GenoLink
GenoLink ?
Système de représentation de données bio. hétérogènes
Système d’intégration de données
Moteur de requêtes
Outils de visualisation adaptés à la gestion de graphes
Deux versions du logiciel: autonome et module de Genostar.
Représentation des données
Principe: utilisation d’un graphe
contient domainecode pourinteraction
protéine noeuds
arêtes
gènedomaine
Chaque nœud/arête a un identifiant, type, et peut avoir des attributs.
Notion de voisinage.
GenoLink:Concept:1/3
Modèle de données
Pour décrire formellement les données autorisées dans un graphe, GenoLink s’appuie sur un système de représentation des connaissances orienté objet: AROM (INRIA, Grenoble).
Gene
Identifier
Name
Type de l’entité
attributsIsLocatedOn
fromto
Chromosome
Identifier
Size
Topology
Type et attributsde la relation
GenoLink:Concept:1/3
Modèle de données
HasPhysicalInteractionWith
IsCodingFor ContainsFragment
IsOrthologTo
HasNucleicSimilarityWith
HasPeptidicSimilarityWith
Organism
PeptidicComposite
FragmentPolypeptide
Peptidic
Gene
Nucleic
PeptidicAtomicReplicon
RnaGene ProteinGene
IsLocatedOn
IsRepliconOf
Identifier: string
Name: string
Synonym: string
Description: string
Length: int
Polypeptide
GenoLink:Concept:1/3
Identifier: string
from: int
to: int
IsLocatedOn
Exemple de modèle pour la génomique bactérienne.
Graphe d’instances
Helicobacter pylori 26695NC_000915
HP0072
HP0073
ureB
ureA
IROILO
ILO
ICF
ICFHPIW
HPIW
Identifier:pp15644702
Name:urease beta subunit (urea amidohydrolase) (ureB)
Synonym:GI:15644702,RS:NP_206872,GB:AAD07143
Description:/Note: similar to GB:M60398 GB:X17079 SP:P14917 PID:149011
GB:AE000511 percent identity: 100.00; identified by sequence similarity; putative
Length:569
IRO : IsRepliconOf
ILO : IsLocatedOn
ICF : IsCodingFor
HPIW : HasPhysicalInteractionWith
Génome complet: 6391 arêtes reliant 3197 nœuds (RefSeq:NC000915).
GenoLink:Concept:1/3
Exemple: représentation d ’un génome.
Exploration d’un graphe d’instances
GénoLink ‘voit’ l’information via un graphe
Requête GenoLink = un motif de graphe
GenoLink:Concept:2/3
Exploration d’un graphe : principe
Exemple: rechercher les gènes orthologues chez Helicobacter pylori et Escherichia coli.
Organism Gene OrganismGene
H.pylori E.coliIsOrthologToRequête:
Résultat: H.pylori HP0396 E.coliyigC
H.pylori HP0810 E.coliyhhF
H.pylori HP1247 E.coliholA
...
GenoLink:Concept:2/3
Langage de requête : GQL
GQL = GenoLink-Graph Query Language
Soit Q=(A,Y,GC) un graphe requête
où A={ai}i=1,m un ensemble de variables de noeud
Y={yk}k=0,n un ensemble de variables d’arête
GC une expression sur ai et yk (Global Constraint).
Q ne peut contenir qu’une unique composante connexe,
A et Y définissent la topologie de la requête.
GenoLink:Concept:2/3
Langage de requête : GQL
Déclaration d’une variable de nœud:
Na isa TE [where AE];
Nom de la variable
Expression de type
Expression decontrainte locale
pg isa ProteinGene where Length>600 ;pp isa Polypeptide where Name!:”hypothetical” ;
GenoLink:Concept:2/3
Langage de requête : GQL
Les opérateurs autorisés dans les expressions:
Relationnels: < > <= >= != ==Booléens: and or notArithmétiques: + - * / ( )Pattern-matching: !: :: (GNU RegExp)
GenoLink:Concept:2/3
Langage de requête : GQL
Déclaration d’une variable d’arête:
Ny (Na1, Na2) isa TE [where AE];
Nom de la variable
Expression de type
m (pg,pp) isa IsCodingFor ;
Nom des variables de nœud source (a1) et cible (a2)
GenoLink:Concept:2/3
Expression decontrainte locale
Langage de requête : GQL
Déclaration d’une requête:
query Nq Nx [where GC];
Nom de la requête
Liste de noms de variable
Contrainte globale
query q m;
Langage de requête : GQL
En résumé :
pg isa ProteinGene where Length>600 ;pp isa Polypeptide where Name!:”hypothetical” ;m (pg,pp) isa IsCodingFor ;
query q m;
create graphRes from GenolinkDB with q;
pg ppm
GenoLink:Concept:2/3
Langage de requête : GQL
Requête avec contrainte globale et filtrage des résultats:
p1 isa Polypeptide ;p2 isa Polypeptide ;ppi (p1,p2) isa HasPhysicalInteractionWith ;
query q2 ppi where p1.Length<=250 and p1!=p2;
create graphRes2 from GenolinkDB with q2 distinct p1;
p1 p2ppi
Construction d’une requête GenoLink
GenoLink:Concept:2/3
En pratique: Query Builder.
Algorithme de recherche
Soit: pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:”hypothetical” ; m (pg,pp) isa IsCodingFor ; query q m; create g from GenolinkDB with q distinct pg;
pg ppm
1. Validation du GQL,
PG {pgi}i=1,2
S Øfor all pgi in PG do if solve(pgi)=true then for all neighbours of pgi do s = DFS(query, pgi) if s Ø then if solve(s, query.GC)=true then S.addDistinct(s, DC) end if end if end for end ifend for
3. Résolution:
GenoLink:Concept:2/3
2. Choix de l’amorce: interrogation du graphe d’instances,
pg1 pp1
pg2 pp2
pp3pg2
pg1 pp1
pg2 pp2
pp3
ProteinGene 2 instancesPolypeptide 3 instancesIsCodingFor 3 instances
Opérateurs spéciaux de GQL
Opérateurs sur les ensembles :
union, intersection et différence (de graphes).
GenoLink:Concept:2/3
Nœuds: objets : organisme, molécule (ADN, ARN, protéine), domaine, … groupe d’objets: groupe de gènes orthologues. classifications fonctionnelles.
Arêtes: similitude, interaction, association (appartenance à un groupe, à une classification)
Modèle ouvert, interchangeable
Quelles données ?
Modèle de données pour génomes bactériens
GenoLink:Concept:3/3
Banques de données généralistes/spécialisées GenBank-RefSeq, COG, Domaines InterPro, Gene Ontology, Enzyme Classification, Données PSI
Données calculées Similitudes de séquences (orthologues prédits), Groupes de synténies.
Quelles données ?
GenoLink:Concept:3/3
Processing / Integration
Genomicdata
Interaction data
FunctionalClasses
Domaindata
PG PP PP PP DS PP EC
GenoLink data-graph
PGPP
DSEC
Intégration de données
GenoLink:Concept:3/3
GENOME ExpressHybrigenicsINRIAInstitut Pasteur
développer une plate-forme bioinformatique de génomique exploratoire
But :
Partenaires :
Plus : www.genostar.org
Genostar
Genostar
Genostar est aussi, et avant tout, une plate-forme de développement logicielle multi-OS pour la bioinformatique (Java 1.4.x).
GenoCore, le noyau du système, propose les services logiciels (API):de modélisation et de gestion des données (AROM),de typage complexe (matrice, séquence),de modélisation des tâches (AROM-Task),d’exécution de logiciels externes avec gestion des entrées/sorties (BLAST),d’affichage graphique générique (AROM-GCL) et cartographique,d’interopérabilité,...
Tout module Genostar (GenoAnnot, GenoLink, GenoBool, ...)fonctionne grâce à GenoCore.
Genostar
Genostar 1.x: destinée aux utilisateurs (depuis décembre 2002),
Genostar 2.x: destinée aux utilisateurs/programmeurs (décembre 2003).
Démo...
top related