données issues des interactions en ligne en situation d'apprentissage : quels sont les moyens...

Post on 03-Apr-2015

104 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Données issues des interactions en ligne en situation d'apprentissage :

Quels sont les moyens du partage ?

Christophe ReffayChercheur de l’IFÉ,STEF, ENS Cachan

Séminaire TIC, STEF, ENS-Cachan – 13 juin 2013

Séminaire TIC, ENS-Cachan, 13/06/20132

Publication = Part visible

Analyse

Séminaire TIC, ENS-Cachan, 13/06/20133

Contexte international

• CODATA: Physique, Géosciences… (Paris,1966)– Revue "Data Science Journal" 

• Processus de Berlin : Open Access

• Science Commons => Creative Commons / Data– 10 obstacles au partage (livre blanc J. Rees, 2010)

• The DataVerse Network (G. King, 2007)– Archive, Estampille, Reconnaissance, Partage ou non.

• NSF : Data Management Plan

• Datacite : Liste des (647) repositories (juin 2013)

• PSLC DataShop : une initiative exemplaire

10

Séminaire TIC, ENS-Cachan, 13/06/20134

Initiatives nationales

• ADONIS (TGE) + IR Corpus => TGIR pour les humanités numériques – Le CLEO (Hypothèses, Revues.org, Calenda)– beQuali ?– Datapublication (lien avec revues) ?

• Mulce (ANR Corpus) : mulce.org • CALICO (données et outils)• IPOL : Une initiative exemplaire

Mulce (ANR 2007-2010) MUltimodal Learning Corpus

ExchangeLaboratoire d’Informatique de l’UFC

Laseldi puis LRL (T. Chanier)

Open University (CREEK)

http://mulce.org

Projet Mulce soutenu par

Informatique

Ingénierie pédagogiqueApprentissage des langues

Séminaire TIC, ENS-Cachan, 13/06/20136

Contexte : Analyse des interactions en ligne

Scénariopédagogique

HypothèsesQuestionsrecherche

Analyses

Traces

Prod.

Descrip.Acteurs

HypothèsesQuestionsrecherche

t0 t1Instanciation

Communauté de recherche

Publi.

Dispositif

outil

Séminaire TIC, ENS-Cachan, 13/06/20137

Aujourd’hui…

Une autre vision du partage

Questions Traces Résultat1Dispositif

TracesDisposit

if Résultat2

=?=

Partage

Questions

Analyses

Analyses

Partage

Résultat3

Résultat4

Demain ?

Séminaire TIC, ENS-Cachan, 13/06/20138

Ce qui est problématique

• Pour interpréter les interactions situées : cadre pédagogique, temporel, acteurs, médium, … => Contexte – Scénario pédagogique– Protocole de recueil des données– Questions de recherche

• Pour automatiser certaines analyses=> Format d’échange / Structuration des données– Normes et standards

• Pour protéger les acteurs => Droit et éthique– Consentement éclairé et droits d’auteurs, image– Données personnelles => anonymisation– Licences d’utilisation des données

Séminaire TIC, ENS-Cachan, 13/06/20139

- Questions- Objet- Problématique- Observables- Protocole de recueil des donnés

Schéma simplifié des parties d’un corpus de base

Instanciation

Scénario pédagogique

Protocole de recherche

Licence publique

Licence privée

Analyses

Contexte

- Activités- Rôles - Environnements

- Acteurs- Outils- Traces

-Interactions-Logs-produits

Observations du contexte

- Termes cession des droits- Contrats d’utilisation- Lien propriétaire

- Transcriptions- Analyses

Séminaire TIC, ENS-Cachan, 13/06/201310

Scénario Pédagogique

ProtocoleRecherche Instanciation Licence

Index

Donnéesprimaires

ApprochePédagogique

_______ActivitésRôlesEnvironnements

QuestionsMéthodologie,recueil_______Activités, rôles &Environnements (recherche)

ObservationsAgenda

_______Acteurs / groupes (codes acteurs)OutilsInteractions structurées

Licences-Utilisation-Dépôt_______EditeursDroits accèsContrat cession acteursAnonymisation

ConsignesAidesRessources

QuestionsGrilles d’entretien

Recherche : questionnaires réflexifs, entretiensPédagogique :Produits, tracesFichier suivi

Procédure d’anonymisationContrat de Cession des droits

LicencePrivée

ContratsCessionCodes,Noms acteurs

Package (IMS-CP) pour Mulce

Identification des ressources

Tableau anonymisationContrat de cession des droits

Description

Méta données Méta données

Méta données générales sur le corpus

Méta donnéesMéta données

Séminaire TIC, ENS-Cachan, 13/06/201311

Plateforme Mulce

Chercheurauthentifié

Client

Outils d’aideà la

l’analyse

Serveur

Internaute

ComparerAnalyser

Consulter / Télécharger

Transcrire

Outils d’aideà la

transcription

Corpus

Scénario pédagogique

Protocole deRecherche

LicenceInstanciation

-Description-Index

Ressources

-Description-Index

-Description-Index

-Description-Index

ServeurOLAC**

ServeurOAI*

Metadata

* Open Archive Initiative** Open Language Archive Community

?

Séminaire TIC, ENS-Cachan, 13/06/201312

La plateforme Mulce actuelle…

Séminaire TIC, ENS-Cachan, 13/06/201313

Mulce… 3 ans après

• 45 corpus déposés (dont 4 globaux)

• Quelques réutilisations de corpus

• Toujours pas de dépôt « externe » malgré plusieurs intentions exprimées

• Quelques leçons :– Format sophistiqué => coût d’entrée– Métadonnées bien documentées => visibilité– Nécessité d’outiller : exploration et analyse

Séminaire TIC, ENS-Cachan, 13/06/201314

Difficultés surmontées pour la réutilisation :Bilan du projet Mulce

1. The author must be professionally motivated to publish the data

2. The effort and economic burden of publication must be acceptable

3. The data must become accessible to potential users

4. The data must remain accessible over time

5. The data must be discoverable by potential users

6. The user’s use of the data must be permitted

7. The user must be able to understand what was measured and how (materials and methods)

8. The user must be able to understand all computations that were applied and their inputs

9. The user must be able to apply standard tools to all file formats

10. The user must be able to understand the data in detail (units, symbols)

Surmontée Pas observé Non surmontée

CALICO (ERTÉ 2006-2010) Communautés d'apprentissage en ligne, instrumentation, collaboration

STEF, CREAD : Sciences de l’Éducation LIUM, LIFC - GREYC : Informatique - LinguistiqueCURAPP : Administration et PolitiqueCEDITEC : Communication

http://www.stef.ens-cachan.fr/calico/calico.htm

ERTÉ CALICO soutenue par

Séminaire TIC, ENS-Cachan, 13/06/201316

Plateforme CALICO : Principes

• Plateforme avec interface multilingue

• Dépôt & partage de données d’interactions en ligne (Forums, Blogs, mailing lists, etc.)

• Outils d’exploration et d’analyse– Indépendants de la langue– Visualisations variées (volumes, périodes…)– Extraction du lexique, marquage, repérage

Séminaire TIC, ENS-Cachan, 13/06/201317

CALICO : Les documents

Séminaire TIC, ENS-Cachan, 13/06/201318

CALICO : Les outils

Séminaire TIC, ENS-Cachan, 13/06/201319

CALICO : Les outils

Séminaire TIC, ENS-Cachan, 13/06/201320

CALICO : Les outils

Séminaire TIC, ENS-Cachan, 13/06/201321

CALICO : Les outils

Séminaire TIC, ENS-Cachan, 13/06/201322

CALICO : Bilan des usages

• Beaucoup d’intérêt

• Des essais assez nombreux

• Des dépôts « externes »

• Assez peu de partage de données

• Plutôt une réutilisation des outils

Séminaire TIC, ENS-Cachan, 13/06/201323

Difficultés surmontées pour la réutilisation :Bilan pour CALICO

1. The author must be professionally motivated to publish the data

2. The effort and economic burden of publication must be acceptable

3. The data must become accessible to potential users

4. The data must remain accessible over time

5. The data must be discoverable by potential users

6. The user’s use of the data must be permitted

7. The user must be able to understand what was measured and how (materials and methods)

8. The user must be able to understand all computations that were applied and their inputs

9. The user must be able to apply standard tools to all file formats

10. The user must be able to understand the data in detail (units, symbols)

Surmontée Pas observé Non surmontée

Data PublicationDirection du projet

Thierry Chanier, Professor, Director of  LRL Eric Bruillard, Professor, Director of STEF Christophe Reffay, Ass. Professor, UMR STEF

Directeur de publicationJean-Luc Pinol, Professor, TGE-Adonis

Plateforme : conception et developpementGérald Foliot: IR CNRS, IT Manager of TGE-Adonis

http://datapublication.tge-adonis.fr/

Séminaire TIC, ENS-Cachan, 13/06/201325

Data publication : objectifs

• Pour les revues et conférences:– Relecture AVEC accès aux données

• Pour les lecteurs– Accès à la réplication des analyses

• Pour l’auteur : un double référencement– Article– Ensemble de données (permalien)

Séminaire TIC, ENS-Cachan, 13/06/201326

Data Publication…

• Plusieurs essais– Co-publication des données après article– Un essai « complet » : lors de la soumission

• Plateforme : prototype quasi opérationnel– Processus un peu rigide pour l’instant– Nécessite d’être documenté

• Affaire à suivre A voir selon TGIR Humanités numérique

Séminaire TIC, ENS-Cachan, 13/06/201327

Difficultés surmontées pour la réutilisation :Attendu pour Data Publication

1. The author must be professionally motivated to publish the data

2. The effort and economic burden of publication must be acceptable

3. The data must become accessible to potential users

4. The data must remain accessible over time

5. The data must be discoverable by potential users

6. The user’s use of the data must be permitted

7. The user must be able to understand what was measured and how (materials and methods)

8. The user must be able to understand all computations that were applied and their inputs

9. The user must be able to apply standard tools to all file formats

10. The user must be able to understand the data in detail (units, symbols)

Améliore Pas concerné Accentue le problème

Séminaire TIC, ENS-Cachan, 13/06/201328

2 initiatives exemplaires

• PSLC Datashop : Pittsburgh Science of Learning Center

– Un Modèle pour les ITS– Une plateforme de dépôt des traces– Un outil de représentation/évaluation

• IPOL : Image Processing On Line – Article + Code source + Demo en ligne– Article et code source sont évalués

“Open Science and Reproducible Research”

Séminaire TIC, ENS-Cachan, 13/06/201329

Quelques points clés retenus

• Dépôt/Publication = Antériorité

• Contribution : réputation, citation

• Valoriser le dépôt :– Définition du contexte– Organisation/Structuration des données

• Visibles (Repository, Metadata, OAI)

• Réutilisables : Accessibles, Inter opérables

• Réplicables : Outillées, documentées

Séminaire TIC, ENS-Cachan, 13/06/201330

Perspectives

• Le partage de données devient réalité

• Pour certaines communautés permet :– Maturation/Convergence/Comparaison des

méthodes – Réplication des analyses ou ré-analyse– Meilleure évaluation de la recherche

• Toute donnée n’est cependant pas partageable

Séminaire TIC, ENS-Cachan, 13/06/201331

Questions éthiques

Protection des participants en SHS(ex: situations d’apprentissage, entretiens):

• Droits à l’image

• Droits d’auteur

• Protection des données personnelles

• Protection des données sensibles

Séminaire TIC, ENS-Cachan, 13/06/201332

Anonymisation (données textuelles)

• Débat:– Données non anonymes => non partageables– Anonymisation trop coûteuse– Anonymisation automatisable ?– Limiter l’accès ?

• Propositions– Outiller le processus d’anonymisation ?– Maîtriser la diffusion ?

Séminaire TIC, ENS-Cachan, 13/06/201333

MERCI !

Questions ? Réactions ?

Témoignages ?

Séminaire TIC, ENS-Cachan, 13/06/201334

Déclaration Berlin (Open Access) 5° conférence (Padoue, 2007)

Workshop on policies and practices of research organisations on open access to research data.

Objectifs : 1. to get research organizations in Europe acquainted

with on-going and planned initiatives for open access to research data

2. to present and discuss policies and practices on open access to research data of organisations and

3. to identify areas in which research organisations could collaborate on this issue.

Les 19 premiers cosignataires du 22/10/2003

Berlin ProcessBerlin Process

Signataires récents

Séminaire TIC, ENS-Cachan, 13/06/201335

National Science Fondation (depuis janvier 2013)

Data Management Plan : Pour une bourse de la NFS, un document supplémentaire de 2 pages

intitulé « plan de gestion des données » doit indiquer :

• Le type de données (extraits, collections, logiciels, contenus, ou produits du projet)

• Les standards utilisés pour les données et les métadonnées;• Politique d’accès et de partage incluant les précautions pour le

respect de la vie privée, de la confidentialité, de la sécurité et des propriétés intellectuelles;

• Politique de réutilisation, redistribution, et produits dérivés• Plans pour l’archivage des données, extraits, et autre produits de

la recherche, et pour la préservation de leur accès.

Séminaire TIC, ENS-Cachan, 13/06/201336

CODATA : Créée à Paris en 1966 !

• Constantes physiques

• 23 Conf.• 30 Nations• 20 Sociétés

scientifiques• 57 Task

Groups

1970

1980

1990

2000

2010

1970

1980

1990

2000

2010

Codata@45 years(Lide & Wood, 2010)

Séminaire TIC, ENS-Cachan, 13/06/201337

Difficultées à surmonter pour la réutilisation (Jonathan Rees, Science Commons, white paper Creative Commons, March 2010)

1. The author must be professionally motivated to publish the data

2. The effort and economic burden of publication must be acceptable

3. The data must become accessible to potential users

4. The data must remain accessible over time

5. The data must be discoverable by potential users

6. The user’s use of the data must be permitted

7. The user must be able to understand what was measured and how (materials and methods)

8. The user must be able to understand all computations that were applied and their inputs

9. The user must be able to apply standard tools to all file formats

10. The user must be able to understand the data in detail (units, symbols)

=> Data paper genre

Séminaire TIC, ENS-Cachan, 13/06/201338

Autres Initiatives/Relais

• Open Notebook Science (J.-C Bradley)– Transparence complète (Drexel University)

top related