recherche reproductible chez inria: quelle stratégie et quels … · 2014. 9. 29. · greedy-like...
TRANSCRIPT
1 1
Recherche reproductible chez Inria:
quelle stratégie et quels outils?
Rémi Gribonval (EPC PANAMA, Rennes) Emmanuel Vincent (EPI PAROLE, Nancy)!
!!
merci&à&tous&les&collègues&qui&ont&apporté&leur&pierre&&à&ces&quelques&éléments&de&réflexion&via&des&discussions&s8mulantes&
PANAMA
Exemples célèbres
• Théorème de Fermat ✦ Marge des Arithmétiques de Diophante, 1621
• Mémoire de l’eau ✦ Nature, 1988
• Cellules STAP ✦ Nature, 2014
• Et en informatique / mathématiques appliquées ?
2!
PANAMA
Reproductibilité: de quoi parlons-nous ?
• J’ai lu un article aux résultats intéressants mais:
✓ 1) je n'ai pas accès à tout ou partie des données ✓ 2) l'étape X de l'algorithme n'est pas décrite dans l'article ✓ 3) il manque la valeur du paramètre Y ✓ 4) le critère d'évaluation n'est pas exactement spécifié ✓ 5) je n'ai pas le temps de tout ré-implémenter!
… en pratique, souvent une combinaison des 5.
3!
PANAMA 4!
Plan de la présentation
• Pourquoi ? ✦ Enjeux de la reproductibilité
✦ Quelques initiatives en « sciences computationnelles »
• Pourquoi pas ? ✦ Les (nombreux) obstacles à la reproductibilité
• Comment ? ✦ Quelques pistes pour lever certains de ces obstacles
- PANAMA
Pourquoi ? Enjeux
PANAMA 6!
Enjeux de la reproductibilité • Socle fondamental de la méthode scientifique
✦ Fondements philosophiques (Descartes 1637, Popper 1934)
• Accélérateur de la recherche ✦ Facilite la reprise de travaux antérieurs ✦ Accélère le progrès scientifique global
• Facteur d’excellence ✦ Augmente la visibilité et la citation par les pairs ✦ Articles avec des données en ligne ont 70% de citations en plus
Piwowar HA, Day RS, Fridsma DB (2007) Sharing Detailed Research Data Is Associated with Increased Citation Rate. PLoS ONE 2(3): e308.
• Garde-fou sociétal / déontologique / éthique ✦ Evite rejet dû au manque de transparence (climat, OGM, …)
• Obligation contractuelle ✦ Obligatoire dans les projets NSF depuis 2011, bientôt à l’ANR
PANAMA 7!
Quelques initiatives en “sciences computationnelles”
• Reproductibilité = article + code + données • Campagnes et outils d’évaluation
✦ Données, tâches et critères de performance en traitement du signal audio (E. Vincent, R. Gribonval)
✦ Frameworks logiciels COCO pour l’optimisation black-box (N. Hansen), OSA pour la simulation de réseaux (O. Dalle)
• Plateformes de stockage ✦ Researchcompendia.org
• Serveurs d’exécution ✦ Serveurs d'exécution pour la géométrie discrète (B. Kerautret), pour
l'analyse de documents (B. Lamiroy) ✦ Ipol.im ✦ Runmycode.org
PANAMA 8!
RR Workshop - 30
Analysis of citations vs code availability for TIP 2004-2006 papers
Impact: Citations vs Code Sharing CiSE
P. Vandewalle, Code sharing is associated with research impact in image processing, IEEE Comp. in Science and Engineering, 2012.
Reproductibilité et impact
Tiré d’une présentation de P. Vandewalle au Workshop!« Reproductibilité en traitement du signal », GDR ISIS, 2014!
- PANAMA
Pourquoi pas ? Obstacles Stratégiques Légaux Techniques
PANAMA 10!
Objections souvent entendues
• Aspects “stratégiques”:
✓ je veux garder une longueur d’avance ✦ Code et données = avantages à ne pas donner à la concurrence ✦ Préserver sa capacité à breveter, à transférer
✓ ça demande du travail ✦ Code pas propre = ne pas se ridiculiser … ✦ Publication reproductible pas beaucoup plus valorisée que publication
normale (recrutements, promotions)
• Aspects légaux / éthiques ✦ Propriété intellectuelle ✦ Droit à l’image et protection de la vie privée ✦ Ethique (données biomédicales)
PANAMA 11!
Obstacles
• Aspects techniques / pratiques
✓ Capacité de stockage (données notamment) ✦ Aspects techniques et financiers (si archivage volumineux)
✓ Pérennité ✦ Durée de vie de l’URL (personne / équipe / projet européen …) ✦ Dépendance à un environnement logiciel ou un format
• Langage (ex: version de Matlab), • Plate-forme (pour un exécutable binaire) • Format de fichier
✦ Cf. aussi notion de “software sustainability” • http://www.software.ac.uk/about « développement » durable ;-)
✓ Maintien du lien article / code/ données
- PANAMA
Comment ? Pistes
PANAMA 13!
Des outils existent!
Tools for Computational Science• Dissemination Platforms:
• Workflow Tracking and Research Environments:
• Embedded Publishing:
VisTrails Kepler CDE
Galaxy GenePattern Paper Mâché
Sumatra Taverna Pegasus
Verifiable Computational Research SweaveCollage Authoring Environment SHARE
ResearchCompendia.org IPOL MadagascarMLOSS.org thedatahub.org nanoHUB.orgOpen Science Framework RunMyCode.org
Tiré d’une présentation de V . Stodden au Workshop !« Reproductibilité en traitement du signal », GDR ISIS, 2014!
PANAMA 14!
Fragmentation des ressources
• Beaucoup d’outils
✓ Traduisent mouvement de fond ✓ … mais spécifiques à telle ou telle communauté
• Analogie avec l’Open Access:
✓ À une époque pas si lointaine, assuré uniquement via multitude de pages personnelles, pages d’équipe …
✓ Aujourd’hui, outils institutionnels mutualisés:
Tools for Computational Science• Dissemination Platforms:
• Workflow Tracking and Research Environments:
• Embedded Publishing:
VisTrails Kepler CDE
Galaxy GenePattern Paper Mâché
Sumatra Taverna Pegasus
Verifiable Computational Research SweaveCollage Authoring Environment SHARE
ResearchCompendia.org IPOL MadagascarMLOSS.org thedatahub.org nanoHUB.orgOpen Science Framework RunMyCode.org
PANAMA 15!
Infrastructures institutionnelles = soutien à la reproductibilité!
• Quelques pistes immédiates: ✓ Pérennité URL + liens article-code-données
✦ S’appuyer sur HAL ! ✦ Déjà possible (à la marge) via « ANNEXES »:
✓ « Archivage » de données, de code ✦ S’appuyer sur HAL ? ✦ Faire évoluer types de fichiers acceptés ? ✦ Mettre en valeur annexes reproductibles comme DOI ?
• Plus ambitieux : ✓ Robustesse à l’environnement logiciel
✦ S’appuyer sur grappes de machines virtuelles de type « plateforme de développement continu » ?
✦ Lien avec EPI-journaux « logiciel environné » / article exécutable
• Défis: modèle économique, licences, modération …
hal-00716593, version 2
Greedy-Like Algorithms for the Cosparse Analysis Model
Raja Giryes a, 1, Sangnam Nam ( ) b, 2, Michael Elad ( ) 1, Rémi Gribonval ( , ) 2, Mike E. Davies ( ) 3
Linear Algebra and its Applications 441 (2014) 22--60
a – Technionb – INRIA1: Department of Computer Science [Haifa]
http://www.cs.technion.ac.ilUniversity of Haifa Taub Building, Technion Israel Institute of Technology, Haifa 32000 Israel
2: PANAMA (INRIA - IRISA)
INRIA – CNRS : UMR6074 Campus de Beaulieu 35042 Rennes cedex France
3: Institute for Digital Communication Joint Research Institute for Signal & Image Processing School of Engineeringand Electronics - University of Edinburgh
http://www.see.ed.ac.uk/University of Edinburgh The King's Buildings Edinburgh, EH9 3JL United Kingdom
Available versions : v1 (2012-07-10) v2 (2013-01-18)
Bibliographic reference
Type of document: Articles in peer-reviewed journal
Domain:Computer Science/Signal and Image ProcessingEngineering Sciences/Signal and Image processingMathematics/Functional Analysis
Title: Greedy-Like Algorithms for the Cosparse Analysis Model
Abstract: The cosparse analysis model has been introduced recently as an interesting alternative to the standardsparse synthesis approach. A prominent question brought up by this new construction is the analysis pursuit problem-- the need to find a signal belonging to this model, given a set of corrupted measurements of it. Several pursuitmethods have already been proposed based on relaxation and a greedy approach. In this work we pursue thisquestion further, and propose a new family of pursuit algorithms for the cosparse analysis model, mimicking thegreedy-like methods -- compressive sampling matching pursuit (CoSaMP), subspace pursuit (SP), iterative hardthresholding (IHT) and hard thresholding pursuit (HTP). Assuming the availability of a near optimal projectionscheme that finds the nearest cosparse subspace to any vector, we provide performance guarantees for thesealgorithms. Our theoretical study relies on a restricted isometry property adapted to the context of the cosparseanalysis model. We explore empirically the performance of these algorithms by adopting a plain thresholdingprojection, demonstrating their good performance.
Full text language: English
Journal title:
Linear Algebra and its Applications
Publisher Elsevier
ISSN 0024-3795
Publication date: 2014-01-15
Audience: international
Commercial editor: Elsevier
Volume title : Special Issue on Sparse Approximate Solution of Linear Systems
Volume: 441
Pagination: 22--60
DOI: 10.1016/j.laa.2013.03.004
Keywords: Sparse representations – Compressed sensing – Synthesis – Analysis – CoSaMP – Subspace-pursuit –Iterative hard threshodling – Hard thresholding pursuit.
Comment: partially funded by the ERC, PLEASE project, ERC-2011-StG-277906
European project:
Cordis number 225913
Acronyme SMALL
Title Sparse Models, Algorithms, and Learning for Large Scale Data
Funded by ICT
Start date 2009-01-31
End date 2012-07-31
Call identifier FP7-ICT-2007-C
Attached file list to this document:
TEX
ACoSaMP1_2.eps (66.8 KB)
ACoSaMP1_2-eps-converted-to.pdf (6.5 KB)
ACoSaMP2-eps-converted-to.pdf (6.3 KB)
ACoSaMP2.eps (38.6 KB)
ACoSaMP2_TV-eps-converted-to.pdf (6.5 KB)
ACoSaMP2_TV.eps (38.6 KB)
ACoSaMPth1_2-eps-converted-to.pdf (6.3 KB)
ACoSaMPth1_2.eps (66.8 KB)
ℓ1
See short view
Associated documents
PDF :
PS :
Annexes :
arXiv: 1207.2456
DOI: 10.1016/j.laa.2013.03.004
Export
Bibtex EndNote TEI RefWorks
Liste des fichiers attachés à ce document :
ANNEX
MMSEvsMAP.m (2.7 KB)
MAPvsOptim-revision-HAL.pdf (248.6 KB)
inria-00486840, version 4http://hal.inria.fr/inria-00486840oai:hal.inria.fr:inria-00486840Contributeur : Rémi Gribonval <[email protected]>Soumis le : Vendredi 11 Mars 2011, 17:52:30Dernière modification le : Mardi 14 Juin 2011, 20:00:53
PANAMA 16!
Mais aussi (et surtout?)
• Reproductibilité au cœur de la méthode de travail ✦ Développer du logiciel et des données distribuables dès la conception ✦ Formations au développement, intégration au rapport annuel
• Valorisation de la reproductibilité ✦ Dans recrutements et promotions?
• Profiter du développement d’épi-journaux ✦ Voir http://episciences.org/ & exposé de Laurent Romary ✦ Y valoriser la reproductibilité “à la IPOL”
• Etre raisonnablement ambitieux ✦ On ne règlera pas tout du jour au lendemain
PANAMA 17!
Conclusion
• Mouvement de fond vers la reproductibilité ✓ Nécessite accès ouvert à article + code + données
• Légitimité et responsabilité d’Inria • Piste immédiate (fragmentation des ressources): ✓ S’appuyer sur HAL en le faisant évoluer
• Réflexion plus large lancée ✦ Articles (P. Guitton, T. Viéville, M.H. Comte) ✦ Groupe de travail du comité des projets d'Inria Nancy (initié en mai 2014) ✦ Workshops spécialisés (G. Fursin, L. Nussbaum) ✦ EPI-journaux (C. Kirchner, L. Romary)
• Vos idées, contributions, remarques, critiques ? ✓ Organiser une journée fin 2014
Merci de votre attention !
[email protected] http://team.inria.fr/panama