Industrialisation d'un logiciel pour la
prédiction de structures secondaires
d'ARN non codants
Maitre de stage : Fariza TAHI
Tuteur universitaire : Valérie CHAUDRU
Master Génie Biologique et Informatique, première année
Gabriel CHANDESRIS
2
Qu’est ce que
l’industrialisation d’un logiciel ?
Mise à disposition (ici via le web).
• Utilisable sur des jeux de données importants.
Examinable : documentation, tests. Extensible, modifiable : architecture du logiciel.
3
Contexte Biologique
Structure => Fonction
Structure
secondaire
Structure
tertiaire
4
Prédiction des
structures secondaires d’ARN Connaître les structures
Techniques expérimentales lourdes (RMN, cristallographie…).
Méthodes informatiques : plus rapides, moins chères.
Méthodes in silico complètent méthodes expérimentales.
Différentes approches :
Approche thermodynamique.
Approche comparative.
Nombreux algorithmes existants :
complexité élevée et/ou manque d’efficacité
5
TFold / P-DCFold
6
Mon travail sur le logiciel
Etude et formalisation de l'existant : TFold et P-DCFold Diagrammes UML (classes et cas d'utilisation)
Modifications de P-DCFold. Documentation, tests. Développement de l’interface.
7
Formalisation de TFold
(cas d’utilisation UML)
*
8
Etude et modification du
code de P-DCFold
Formalisation
Modification
Documentation et tests
9
Interface graphique : existant
10
Interface graphique : web
QuickTime™ et undécompresseur TIFF (LZW)
sont requis pour visionner cette image.
SSCA : Sequence Selection for the Comparative Approach
11
Interface graphique : web
QuickTime™ et undécompresseur TIFF (LZW)
sont requis pour visionner cette image.
Pseudoknots, Divide and Conquer Fold
12
Conclusion
Compétence en biologie
Comprendre le modèle utilisé, contexte biologique.
Adapter le modèle : contraintes.
Compétence informatique
Conceptualisation et formalisation objet (UML, classes,
cas d’utilisations…).
Programmation java : modèle, interface, contrôle.
Tests de développement et de fonctionnement (JUnit) .
13
Perspectives
Export de l'application / importation des données
(soucis de confidentialité).
Amélioration de l’ergonomie de l’interface,
Documentation technique (à destination des
utilisateurs).
Tester massivement avec des données publiques (et
résultats connus).
Extension de TFold pour la recherche des petits ARN.
14
15
Intérêt de TFold / P-DCFold
Prédiction de structure secondaire des ARN Construit sur l'approche comparative.
Utilisation de critères thermodynamiques.
But du stage : améliorer et rendre accessible Interface web
Documentation
-----
-----
16
De l'ARN à la structure secondaire
Que fait le logiciel TFold / P-DCFold ?
Structure
secondaire
Structure
tertiaire
17
Comment cela fonctionne (++)
18
Les algorithmes (++)
« Valeur Ajoutée » : fonctionnement logiciel,
Adaptation des abstractions : Vecteurs (non typés) et
Listes / Ensembles d'instances,
Correction des représentations (simplification),
Résultat : interface, systèmes de tests, recherche de
dysfonctionnements
Documentation et tests : extension à venir.