concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

30
Analyse linguistique de grands corpus d’écrits scolaires problèmes de transcription, d’annotation et de traitement Journée d’études organisée par le groupe Ecriture Scolaire du laboratoire Clesthia (EA 7345) Mercredi 18 mars 2015 Consortium Corpus-écrits SIG TEI-CMC Open Resources and TOols for LANGuage http://comere.org http://hdl.handle.net/11403/comere Thierry Chanier

Upload: thierry-chanier

Post on 18-Jul-2015

230 views

Category:

Science


0 download

TRANSCRIPT

Page 1: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

Analyse linguistique de grands corpus d’écrits scolairesproblèmes de transcription, d’annotation et de traitement

Journée d’études organisée par le groupe Ecriture Scolaire du laboratoire Clesthia (EA 7345)Mercredi 18 mars 2015

Consortium Corpus-écrits

SIG TEI-CMC

Open Resources and TOols for LANGuage

http://comere.orghttp://hdl.handle.net/11403/comere

Thierry Chanier

Page 2: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

Objective: Kernel corpus assembling existing corpora of different CMC

genres and new corpora build on data extracted from the Internet. These

heterogeneous corpora will be structured and processed in a uniform way,

complemented with metadata. CoMeRe will be released as OpenData

through the national infrastructure Ortolang, following constraints which will

be reused for the forthcoming “Corpus de Référence du Français”.

Project supported by the national

consortium Corpus-écrits, sub-part of

Huma-Num, and Ortolang (French

correspondant to DARIAH)

Variety + Standards + Open Access

Consortium Corpus-écrits

Page 3: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

3

Page 4: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

4

Page 5: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

Ref Tokens Partici. Posts, <u>, <prod> Envir.

(Antoniadis,2014) 449 313 359 22 052 SMS

(Falaise, 2014) 35 M 25 000 3 M textchat

(Ledegen, 2014) 357 000 850 22 000 SMS

(Reffay et al., 2014) 600 000 67 + 4 groups- textchat: 6 790- emails: 2 030 - forums: 2 686

LMS

(Yun, Chanier, 2014) 77 605 31 + 2 courses 7 750 textchat

(Abendroth et al., 2014)

273 546 26 + 4 groups 1 200 Blog

(Longhi et al., 2014) 567 851 205 34273 Tweet

(Poudat et al., 2015)489 000 discussions + 330 Mo art.

3 971 4456 (discussions)Wiki discussions

(Chanier & Audras, 2015)

184 594 62 + 12 groups

-2809 audio acts, -248 chat acts, - 1058 nonverbal acts, -779 blog messages

Audiographic conference

(Chanier & Wigham, 2015)

27 912 18 + 4 groups- 1690 audio acts,- 669 chat acts, - 2452 nonverbal acts

3D env.

(Chanier, 2015) 127 228 16 + 2 groups- 7718 audio acts,- 1566 chat acts,- 5790 nonverbal acts

Audiographic conference 5

informalbusiness

informal

informal

education

education

education

education

education

science

education

politic

Page 6: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

6

ServeurLocal LRL

Dépositeur individuel

Ingénieur :Kun Jin

Groupe qualité

Discussion avecdépositeur

Groupe étiquetageTAL : TEI-v2

TEI-V1

Page 7: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

7

Page 8: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

La diffusion des corpus et surtout la possibilité de longues recherches futures dépend des choix de départ

Page 9: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

9

1) garantir l'accès ouvert aux données / corpus

Page 10: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

10

l'utilisateur est autorisé à télécharger une copie du corpus […]

• la réutilisation (reproduction, diffusion) de parties non substantielles du corpus XXX est

autorisée […]

• la réutilisation est soumise à la condition de citer in extenso, à titre de crédits : […]

• la réutilisation (reproduction, diffusion) de parties substantielles du corpus XXX n'est pas

permise sur le fondement de la présente licence d'utilisation.

Je consens aux présentes conditions d'utilisation (obligatoire pour avoir accès au corpus)

Ce corpus, diffusé par Huma-Num, est présenté comme étant en accès libre (OA)

Regarder sans pouvoir réutiliser?

Page 11: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

11

Page 12: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

12

Collecte des données

Contrats de consentement

éclairé

ou

Licence d'utilisationsur données récoltées

Anonymisation

- Préserver informations essentielles- Identifier utilisateur sur toute la banque de corpus

Poser licenced'utilisation

Page 13: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

13

Page 14: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

14

Page 15: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

15

Images, audio, vidéo, etc.

Exemple sur Ortolang

Exemple sur Mulce

Page 16: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

16

Données

Corpus version V1

Corpus version V2

Page 17: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

17

Page 18: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

18

<teiheader>

<text>

Page 19: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

19

<teiheader>

Page 20: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

20

OLAC keywords

DiscourseGenreType of interaction

Page 21: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

21

The IRC textchat

Types of acts within this Specific IRC

Subtypes of « event »

Page 22: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

22

Page 23: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

23

ImportantInformation for researchpurposes canbe described

Page 24: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

24

<text>

Page 25: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

25

Individual, informalcontext

Individual, educational context

Group with 4 status/ roles

Page 26: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

26

Page 27: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

27

Titlelabel

comment

message

Contents/ body

Page 28: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

28

Response to what?

Sent to whom?Read by whom?

May containHTML,Table,etc.

Attached doc

Page 29: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

29

Page 30: Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

30