l’histoire et les humanités numériques

66
l’histoire et les humanités numériques Histoire et perspectives Marie Puren 3 mars 2020 LARHRA - CNRS | 2nde Ecole de Printemps de l’IDHN, CY Cergy Paris Université

Upload: others

Post on 25-Dec-2021

7 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: l’histoire et les humanités numériques

lrsquohistoire et les humaniteacutes numeacuteriquesHistoire et perspectives

Marie Puren3 mars 2020

LARHRA - CNRS | 2nde Ecole de Printemps de lrsquoIDHN CY Cergy Paris Universiteacute

introduction

rdquoLrsquooutil certes ne fait pas la science mais une socieacuteteacute qui preacutetendrespecter les sciences ne devrait pas se deacutesinteacuteresser de leursoutilsrdquo

Marc Bloch Apologie pour lrsquohistoire ou Meacutetier drsquohistorien preacutefacede Georges Duby Paris Armand Colin 1974 p67

1

introduction

∙ Cite souvent cette phrase pour justifier et preacutesenterpositivement les eacutevolutions susciteacutees par les nouvellestechnologies en histoire

∙ Ne pas extrapoler et ne pas y voir une reacutefeacuterence agrave lrsquousage delrsquoinformatique (texte reacutedigeacute entre 1940 et 1943) - fait reacutefeacuterenceau deacutesinteacuterecirct de ses collegravegues pour lrsquoeacutedition des sources delrsquohistoire de France

∙ Pour certains historiens comme Serge Noiret peut srsquoappliqueragrave lrsquohistoire numeacuterique aujourdrsquohui (ou rdquohistoire 20rdquo comme illrsquoappelle lui-mecircme)

En quoi consiste cette rdquohistoire 20rdquo

2

une relation ancienne

de lrsquohistoire quantitative agrave lrsquohistoire numeacuterique

∙ Utilisation du numeacuterique en histoire heacuteritage de lrsquohistoirequantitative

∙ Usage des statistiques creacuteation et exploitation de grandesbases de donneacutees utiilisation de lrsquoinformatique

∙ Essor des humaniteacutes numeacuteriques doit beaucoup agrave lrsquoEcole desAnnales notamment

4

le regravegne de lrsquohistoire quantitative

∙ Apogeacutee de lrsquohistoire quantitative dans les anneacutees 1960 et 1970 sixiegraveme section de lrsquoEcole pratique des hautes eacutetudes (futureEHESS) + Sorbonne (travaux drsquoErnest Labrousse)

∙ Accent mis sur la longue dureacutee ∙ Travailler sur des seacuteries deacuteterminer de grandes tendances∙ Sorte de religion du chiffre (cf fortune de lrsquoexpression rdquopeseacuteeglobalerdquo de Pierre Chaunu (1968))

∙ Centre de recherches historiques (CRH) de lrsquoEHESS arriveacutee dansles anneacutees 70 drsquoinformaticiens cartographes et perforateurs decartes =gt produire des chiffres et creacuteer de grandes bases dedonneacutees

=gt Histoire quantitative eacuterigeacutee en modegravele

5

un appel agrave utiliser les meacutethodes rdquomeacutecanographiquesrdquo

∙ 1959 (Annales) Adeline Daumard et Franccedilois Furet dansldquoMeacutethodes de lrsquoHistoire sociale les Archives notariales et laMeacutecanographierdquo appellent agrave utiliser des meacutethodesldquomeacutecanographiquesrdquo dans la lecture drsquoarchives notariales

∙ Premier usage des bases de donneacutees en histoire (transformationde lrsquoinformation historique en une grille chiffreacutee et codifieacutee)

∙ rdquo La meacutecanisation du travail de classement et de seacutelection desfichiers serait une immense ameacutelioration qualitative etquantitative de nos enquecirctes car les archives notarialesacceacutederaient agrave la digniteacute statistique sans pour autant perdre leurvaleur typologique [] la meacutecanographie valoriserait ainsi nonseulement le travail historique mais nos sources mecircmesrdquo

6

le triomphe de lrsquoinformatique

∙ 1961 (Annales) Paul Garetti et Jean-Paul Gardin dans rdquoEtude parordinateurs des eacutetablissements assyriensrdquo meacutethode pourutiliser lrsquoinformatique en histoire justifieacutee ainsi

∙ rdquola mise au point drsquoune proceacutedure drsquoexploitation automatique detelles ou telles donneacutees trop nombreuses ou trop complexes pourqursquoon puisse aiseacutement les maicirctriser par drsquoautres voiesrdquo

∙ Anneacutees 60 thegraveses qui ont intenseacutement utiliseacute lrsquoinformatique∙ LrsquoArmeacutee franccedilaise de la fin du XVIIe siegravecle au ministegravere ChoiseuldrsquoAndreacute Corvisier (1964) et Les paysans du LanguedocdrsquoEmmanuel Le Roy Ladurie (1966)

∙ Impossible de se contenter de lrsquooeil humain pour exploiter cestregraves gros corpus de sources

∙ 1968 Emmanuel Le Roy Ladurie ldquoLa fin des eacuteruditsrdquo dans LeNouvel Observateur ldquoLrsquohistorien de demain sera programmeurou ne sera plusrdquo

7

renforcer lrsquoutilisation de lrsquoinformatique

∙ 1979 revue Le Meacutedieacuteviste et lrsquoordinateur∙ 1987 Association for History and Computing en 1987 (revueHistory and Computing de 1987 agrave 2010 remplaceacutee en 2005 parune revue interdisciplinaire International Journal of Humanitiesand Arts Computing)

∙ 1989 Histoire amp Mesure Meacutemoire Vive Bulletin delrsquoAssociation franccedilaise pour lrsquohistoire et lrsquoinformatique(1989-1995)

∙ 1997 Meacutenestrel meacutedieacutevistes sur le net sources travaux etreacutefeacuterences en ligne

Malgreacute tout lrsquohistoire ne va pas prendre le tournant delrsquoinformatique paradoxal avec micro-ordinateurs dans les foyers agravepartir des anneacutees 80

8

la fin de la croyance en lrsquoinformatique

Meacutethodes utiliseacutees rdquolourdes complexes parfois inabouties souventfrustrantesrdquo 1

∙ Traitement informatique dans les anneacutees 70 et 80 =gt solutionslogicielles lourdes et contraignantes neacutecessiteacute drsquoune bonnemaicirctrise de lrsquoinformatique par lrsquohistorien ou aide drsquoun ingeacutenieur

∙ Remise en cause de la rdquocroyance qursquoil suffisait de rassemblerdes donneacutees par brouetteacutes pour eacutecrire lrsquohistoire et que lesconclusions allaient sortir toutes armeacutees de lrsquoordinateur telleAtheacutena eacutemergeant de la tecircte de Zeusrdquo (Beacuteaur 1996)

∙ Pas assez de formation + rejet des chiffres par les historiens rdquomeacutelange savant de reacutepulsion drsquoattirance et drsquoignorancerdquo(Beacuteaur 1996)

1 Beacuteaur Geacuterard rdquoAcircge critique ou acircge de raison Les dix ans drsquoHistoire amp MesurerdquoHistoire amp Mesure 11 ndeg1 (1996) 7-17

9

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 2: l’histoire et les humanités numériques

introduction

rdquoLrsquooutil certes ne fait pas la science mais une socieacuteteacute qui preacutetendrespecter les sciences ne devrait pas se deacutesinteacuteresser de leursoutilsrdquo

Marc Bloch Apologie pour lrsquohistoire ou Meacutetier drsquohistorien preacutefacede Georges Duby Paris Armand Colin 1974 p67

1

introduction

∙ Cite souvent cette phrase pour justifier et preacutesenterpositivement les eacutevolutions susciteacutees par les nouvellestechnologies en histoire

∙ Ne pas extrapoler et ne pas y voir une reacutefeacuterence agrave lrsquousage delrsquoinformatique (texte reacutedigeacute entre 1940 et 1943) - fait reacutefeacuterenceau deacutesinteacuterecirct de ses collegravegues pour lrsquoeacutedition des sources delrsquohistoire de France

∙ Pour certains historiens comme Serge Noiret peut srsquoappliqueragrave lrsquohistoire numeacuterique aujourdrsquohui (ou rdquohistoire 20rdquo comme illrsquoappelle lui-mecircme)

En quoi consiste cette rdquohistoire 20rdquo

2

une relation ancienne

de lrsquohistoire quantitative agrave lrsquohistoire numeacuterique

∙ Utilisation du numeacuterique en histoire heacuteritage de lrsquohistoirequantitative

∙ Usage des statistiques creacuteation et exploitation de grandesbases de donneacutees utiilisation de lrsquoinformatique

∙ Essor des humaniteacutes numeacuteriques doit beaucoup agrave lrsquoEcole desAnnales notamment

4

le regravegne de lrsquohistoire quantitative

∙ Apogeacutee de lrsquohistoire quantitative dans les anneacutees 1960 et 1970 sixiegraveme section de lrsquoEcole pratique des hautes eacutetudes (futureEHESS) + Sorbonne (travaux drsquoErnest Labrousse)

∙ Accent mis sur la longue dureacutee ∙ Travailler sur des seacuteries deacuteterminer de grandes tendances∙ Sorte de religion du chiffre (cf fortune de lrsquoexpression rdquopeseacuteeglobalerdquo de Pierre Chaunu (1968))

∙ Centre de recherches historiques (CRH) de lrsquoEHESS arriveacutee dansles anneacutees 70 drsquoinformaticiens cartographes et perforateurs decartes =gt produire des chiffres et creacuteer de grandes bases dedonneacutees

=gt Histoire quantitative eacuterigeacutee en modegravele

5

un appel agrave utiliser les meacutethodes rdquomeacutecanographiquesrdquo

∙ 1959 (Annales) Adeline Daumard et Franccedilois Furet dansldquoMeacutethodes de lrsquoHistoire sociale les Archives notariales et laMeacutecanographierdquo appellent agrave utiliser des meacutethodesldquomeacutecanographiquesrdquo dans la lecture drsquoarchives notariales

∙ Premier usage des bases de donneacutees en histoire (transformationde lrsquoinformation historique en une grille chiffreacutee et codifieacutee)

∙ rdquo La meacutecanisation du travail de classement et de seacutelection desfichiers serait une immense ameacutelioration qualitative etquantitative de nos enquecirctes car les archives notarialesacceacutederaient agrave la digniteacute statistique sans pour autant perdre leurvaleur typologique [] la meacutecanographie valoriserait ainsi nonseulement le travail historique mais nos sources mecircmesrdquo

6

le triomphe de lrsquoinformatique

∙ 1961 (Annales) Paul Garetti et Jean-Paul Gardin dans rdquoEtude parordinateurs des eacutetablissements assyriensrdquo meacutethode pourutiliser lrsquoinformatique en histoire justifieacutee ainsi

∙ rdquola mise au point drsquoune proceacutedure drsquoexploitation automatique detelles ou telles donneacutees trop nombreuses ou trop complexes pourqursquoon puisse aiseacutement les maicirctriser par drsquoautres voiesrdquo

∙ Anneacutees 60 thegraveses qui ont intenseacutement utiliseacute lrsquoinformatique∙ LrsquoArmeacutee franccedilaise de la fin du XVIIe siegravecle au ministegravere ChoiseuldrsquoAndreacute Corvisier (1964) et Les paysans du LanguedocdrsquoEmmanuel Le Roy Ladurie (1966)

∙ Impossible de se contenter de lrsquooeil humain pour exploiter cestregraves gros corpus de sources

∙ 1968 Emmanuel Le Roy Ladurie ldquoLa fin des eacuteruditsrdquo dans LeNouvel Observateur ldquoLrsquohistorien de demain sera programmeurou ne sera plusrdquo

7

renforcer lrsquoutilisation de lrsquoinformatique

∙ 1979 revue Le Meacutedieacuteviste et lrsquoordinateur∙ 1987 Association for History and Computing en 1987 (revueHistory and Computing de 1987 agrave 2010 remplaceacutee en 2005 parune revue interdisciplinaire International Journal of Humanitiesand Arts Computing)

∙ 1989 Histoire amp Mesure Meacutemoire Vive Bulletin delrsquoAssociation franccedilaise pour lrsquohistoire et lrsquoinformatique(1989-1995)

∙ 1997 Meacutenestrel meacutedieacutevistes sur le net sources travaux etreacutefeacuterences en ligne

Malgreacute tout lrsquohistoire ne va pas prendre le tournant delrsquoinformatique paradoxal avec micro-ordinateurs dans les foyers agravepartir des anneacutees 80

8

la fin de la croyance en lrsquoinformatique

Meacutethodes utiliseacutees rdquolourdes complexes parfois inabouties souventfrustrantesrdquo 1

∙ Traitement informatique dans les anneacutees 70 et 80 =gt solutionslogicielles lourdes et contraignantes neacutecessiteacute drsquoune bonnemaicirctrise de lrsquoinformatique par lrsquohistorien ou aide drsquoun ingeacutenieur

∙ Remise en cause de la rdquocroyance qursquoil suffisait de rassemblerdes donneacutees par brouetteacutes pour eacutecrire lrsquohistoire et que lesconclusions allaient sortir toutes armeacutees de lrsquoordinateur telleAtheacutena eacutemergeant de la tecircte de Zeusrdquo (Beacuteaur 1996)

∙ Pas assez de formation + rejet des chiffres par les historiens rdquomeacutelange savant de reacutepulsion drsquoattirance et drsquoignorancerdquo(Beacuteaur 1996)

1 Beacuteaur Geacuterard rdquoAcircge critique ou acircge de raison Les dix ans drsquoHistoire amp MesurerdquoHistoire amp Mesure 11 ndeg1 (1996) 7-17

9

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 3: l’histoire et les humanités numériques

introduction

∙ Cite souvent cette phrase pour justifier et preacutesenterpositivement les eacutevolutions susciteacutees par les nouvellestechnologies en histoire

∙ Ne pas extrapoler et ne pas y voir une reacutefeacuterence agrave lrsquousage delrsquoinformatique (texte reacutedigeacute entre 1940 et 1943) - fait reacutefeacuterenceau deacutesinteacuterecirct de ses collegravegues pour lrsquoeacutedition des sources delrsquohistoire de France

∙ Pour certains historiens comme Serge Noiret peut srsquoappliqueragrave lrsquohistoire numeacuterique aujourdrsquohui (ou rdquohistoire 20rdquo comme illrsquoappelle lui-mecircme)

En quoi consiste cette rdquohistoire 20rdquo

2

une relation ancienne

de lrsquohistoire quantitative agrave lrsquohistoire numeacuterique

∙ Utilisation du numeacuterique en histoire heacuteritage de lrsquohistoirequantitative

∙ Usage des statistiques creacuteation et exploitation de grandesbases de donneacutees utiilisation de lrsquoinformatique

∙ Essor des humaniteacutes numeacuteriques doit beaucoup agrave lrsquoEcole desAnnales notamment

4

le regravegne de lrsquohistoire quantitative

∙ Apogeacutee de lrsquohistoire quantitative dans les anneacutees 1960 et 1970 sixiegraveme section de lrsquoEcole pratique des hautes eacutetudes (futureEHESS) + Sorbonne (travaux drsquoErnest Labrousse)

∙ Accent mis sur la longue dureacutee ∙ Travailler sur des seacuteries deacuteterminer de grandes tendances∙ Sorte de religion du chiffre (cf fortune de lrsquoexpression rdquopeseacuteeglobalerdquo de Pierre Chaunu (1968))

∙ Centre de recherches historiques (CRH) de lrsquoEHESS arriveacutee dansles anneacutees 70 drsquoinformaticiens cartographes et perforateurs decartes =gt produire des chiffres et creacuteer de grandes bases dedonneacutees

=gt Histoire quantitative eacuterigeacutee en modegravele

5

un appel agrave utiliser les meacutethodes rdquomeacutecanographiquesrdquo

∙ 1959 (Annales) Adeline Daumard et Franccedilois Furet dansldquoMeacutethodes de lrsquoHistoire sociale les Archives notariales et laMeacutecanographierdquo appellent agrave utiliser des meacutethodesldquomeacutecanographiquesrdquo dans la lecture drsquoarchives notariales

∙ Premier usage des bases de donneacutees en histoire (transformationde lrsquoinformation historique en une grille chiffreacutee et codifieacutee)

∙ rdquo La meacutecanisation du travail de classement et de seacutelection desfichiers serait une immense ameacutelioration qualitative etquantitative de nos enquecirctes car les archives notarialesacceacutederaient agrave la digniteacute statistique sans pour autant perdre leurvaleur typologique [] la meacutecanographie valoriserait ainsi nonseulement le travail historique mais nos sources mecircmesrdquo

6

le triomphe de lrsquoinformatique

∙ 1961 (Annales) Paul Garetti et Jean-Paul Gardin dans rdquoEtude parordinateurs des eacutetablissements assyriensrdquo meacutethode pourutiliser lrsquoinformatique en histoire justifieacutee ainsi

∙ rdquola mise au point drsquoune proceacutedure drsquoexploitation automatique detelles ou telles donneacutees trop nombreuses ou trop complexes pourqursquoon puisse aiseacutement les maicirctriser par drsquoautres voiesrdquo

∙ Anneacutees 60 thegraveses qui ont intenseacutement utiliseacute lrsquoinformatique∙ LrsquoArmeacutee franccedilaise de la fin du XVIIe siegravecle au ministegravere ChoiseuldrsquoAndreacute Corvisier (1964) et Les paysans du LanguedocdrsquoEmmanuel Le Roy Ladurie (1966)

∙ Impossible de se contenter de lrsquooeil humain pour exploiter cestregraves gros corpus de sources

∙ 1968 Emmanuel Le Roy Ladurie ldquoLa fin des eacuteruditsrdquo dans LeNouvel Observateur ldquoLrsquohistorien de demain sera programmeurou ne sera plusrdquo

7

renforcer lrsquoutilisation de lrsquoinformatique

∙ 1979 revue Le Meacutedieacuteviste et lrsquoordinateur∙ 1987 Association for History and Computing en 1987 (revueHistory and Computing de 1987 agrave 2010 remplaceacutee en 2005 parune revue interdisciplinaire International Journal of Humanitiesand Arts Computing)

∙ 1989 Histoire amp Mesure Meacutemoire Vive Bulletin delrsquoAssociation franccedilaise pour lrsquohistoire et lrsquoinformatique(1989-1995)

∙ 1997 Meacutenestrel meacutedieacutevistes sur le net sources travaux etreacutefeacuterences en ligne

Malgreacute tout lrsquohistoire ne va pas prendre le tournant delrsquoinformatique paradoxal avec micro-ordinateurs dans les foyers agravepartir des anneacutees 80

8

la fin de la croyance en lrsquoinformatique

Meacutethodes utiliseacutees rdquolourdes complexes parfois inabouties souventfrustrantesrdquo 1

∙ Traitement informatique dans les anneacutees 70 et 80 =gt solutionslogicielles lourdes et contraignantes neacutecessiteacute drsquoune bonnemaicirctrise de lrsquoinformatique par lrsquohistorien ou aide drsquoun ingeacutenieur

∙ Remise en cause de la rdquocroyance qursquoil suffisait de rassemblerdes donneacutees par brouetteacutes pour eacutecrire lrsquohistoire et que lesconclusions allaient sortir toutes armeacutees de lrsquoordinateur telleAtheacutena eacutemergeant de la tecircte de Zeusrdquo (Beacuteaur 1996)

∙ Pas assez de formation + rejet des chiffres par les historiens rdquomeacutelange savant de reacutepulsion drsquoattirance et drsquoignorancerdquo(Beacuteaur 1996)

1 Beacuteaur Geacuterard rdquoAcircge critique ou acircge de raison Les dix ans drsquoHistoire amp MesurerdquoHistoire amp Mesure 11 ndeg1 (1996) 7-17

9

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 4: l’histoire et les humanités numériques

une relation ancienne

de lrsquohistoire quantitative agrave lrsquohistoire numeacuterique

∙ Utilisation du numeacuterique en histoire heacuteritage de lrsquohistoirequantitative

∙ Usage des statistiques creacuteation et exploitation de grandesbases de donneacutees utiilisation de lrsquoinformatique

∙ Essor des humaniteacutes numeacuteriques doit beaucoup agrave lrsquoEcole desAnnales notamment

4

le regravegne de lrsquohistoire quantitative

∙ Apogeacutee de lrsquohistoire quantitative dans les anneacutees 1960 et 1970 sixiegraveme section de lrsquoEcole pratique des hautes eacutetudes (futureEHESS) + Sorbonne (travaux drsquoErnest Labrousse)

∙ Accent mis sur la longue dureacutee ∙ Travailler sur des seacuteries deacuteterminer de grandes tendances∙ Sorte de religion du chiffre (cf fortune de lrsquoexpression rdquopeseacuteeglobalerdquo de Pierre Chaunu (1968))

∙ Centre de recherches historiques (CRH) de lrsquoEHESS arriveacutee dansles anneacutees 70 drsquoinformaticiens cartographes et perforateurs decartes =gt produire des chiffres et creacuteer de grandes bases dedonneacutees

=gt Histoire quantitative eacuterigeacutee en modegravele

5

un appel agrave utiliser les meacutethodes rdquomeacutecanographiquesrdquo

∙ 1959 (Annales) Adeline Daumard et Franccedilois Furet dansldquoMeacutethodes de lrsquoHistoire sociale les Archives notariales et laMeacutecanographierdquo appellent agrave utiliser des meacutethodesldquomeacutecanographiquesrdquo dans la lecture drsquoarchives notariales

∙ Premier usage des bases de donneacutees en histoire (transformationde lrsquoinformation historique en une grille chiffreacutee et codifieacutee)

∙ rdquo La meacutecanisation du travail de classement et de seacutelection desfichiers serait une immense ameacutelioration qualitative etquantitative de nos enquecirctes car les archives notarialesacceacutederaient agrave la digniteacute statistique sans pour autant perdre leurvaleur typologique [] la meacutecanographie valoriserait ainsi nonseulement le travail historique mais nos sources mecircmesrdquo

6

le triomphe de lrsquoinformatique

∙ 1961 (Annales) Paul Garetti et Jean-Paul Gardin dans rdquoEtude parordinateurs des eacutetablissements assyriensrdquo meacutethode pourutiliser lrsquoinformatique en histoire justifieacutee ainsi

∙ rdquola mise au point drsquoune proceacutedure drsquoexploitation automatique detelles ou telles donneacutees trop nombreuses ou trop complexes pourqursquoon puisse aiseacutement les maicirctriser par drsquoautres voiesrdquo

∙ Anneacutees 60 thegraveses qui ont intenseacutement utiliseacute lrsquoinformatique∙ LrsquoArmeacutee franccedilaise de la fin du XVIIe siegravecle au ministegravere ChoiseuldrsquoAndreacute Corvisier (1964) et Les paysans du LanguedocdrsquoEmmanuel Le Roy Ladurie (1966)

∙ Impossible de se contenter de lrsquooeil humain pour exploiter cestregraves gros corpus de sources

∙ 1968 Emmanuel Le Roy Ladurie ldquoLa fin des eacuteruditsrdquo dans LeNouvel Observateur ldquoLrsquohistorien de demain sera programmeurou ne sera plusrdquo

7

renforcer lrsquoutilisation de lrsquoinformatique

∙ 1979 revue Le Meacutedieacuteviste et lrsquoordinateur∙ 1987 Association for History and Computing en 1987 (revueHistory and Computing de 1987 agrave 2010 remplaceacutee en 2005 parune revue interdisciplinaire International Journal of Humanitiesand Arts Computing)

∙ 1989 Histoire amp Mesure Meacutemoire Vive Bulletin delrsquoAssociation franccedilaise pour lrsquohistoire et lrsquoinformatique(1989-1995)

∙ 1997 Meacutenestrel meacutedieacutevistes sur le net sources travaux etreacutefeacuterences en ligne

Malgreacute tout lrsquohistoire ne va pas prendre le tournant delrsquoinformatique paradoxal avec micro-ordinateurs dans les foyers agravepartir des anneacutees 80

8

la fin de la croyance en lrsquoinformatique

Meacutethodes utiliseacutees rdquolourdes complexes parfois inabouties souventfrustrantesrdquo 1

∙ Traitement informatique dans les anneacutees 70 et 80 =gt solutionslogicielles lourdes et contraignantes neacutecessiteacute drsquoune bonnemaicirctrise de lrsquoinformatique par lrsquohistorien ou aide drsquoun ingeacutenieur

∙ Remise en cause de la rdquocroyance qursquoil suffisait de rassemblerdes donneacutees par brouetteacutes pour eacutecrire lrsquohistoire et que lesconclusions allaient sortir toutes armeacutees de lrsquoordinateur telleAtheacutena eacutemergeant de la tecircte de Zeusrdquo (Beacuteaur 1996)

∙ Pas assez de formation + rejet des chiffres par les historiens rdquomeacutelange savant de reacutepulsion drsquoattirance et drsquoignorancerdquo(Beacuteaur 1996)

1 Beacuteaur Geacuterard rdquoAcircge critique ou acircge de raison Les dix ans drsquoHistoire amp MesurerdquoHistoire amp Mesure 11 ndeg1 (1996) 7-17

9

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 5: l’histoire et les humanités numériques

de lrsquohistoire quantitative agrave lrsquohistoire numeacuterique

∙ Utilisation du numeacuterique en histoire heacuteritage de lrsquohistoirequantitative

∙ Usage des statistiques creacuteation et exploitation de grandesbases de donneacutees utiilisation de lrsquoinformatique

∙ Essor des humaniteacutes numeacuteriques doit beaucoup agrave lrsquoEcole desAnnales notamment

4

le regravegne de lrsquohistoire quantitative

∙ Apogeacutee de lrsquohistoire quantitative dans les anneacutees 1960 et 1970 sixiegraveme section de lrsquoEcole pratique des hautes eacutetudes (futureEHESS) + Sorbonne (travaux drsquoErnest Labrousse)

∙ Accent mis sur la longue dureacutee ∙ Travailler sur des seacuteries deacuteterminer de grandes tendances∙ Sorte de religion du chiffre (cf fortune de lrsquoexpression rdquopeseacuteeglobalerdquo de Pierre Chaunu (1968))

∙ Centre de recherches historiques (CRH) de lrsquoEHESS arriveacutee dansles anneacutees 70 drsquoinformaticiens cartographes et perforateurs decartes =gt produire des chiffres et creacuteer de grandes bases dedonneacutees

=gt Histoire quantitative eacuterigeacutee en modegravele

5

un appel agrave utiliser les meacutethodes rdquomeacutecanographiquesrdquo

∙ 1959 (Annales) Adeline Daumard et Franccedilois Furet dansldquoMeacutethodes de lrsquoHistoire sociale les Archives notariales et laMeacutecanographierdquo appellent agrave utiliser des meacutethodesldquomeacutecanographiquesrdquo dans la lecture drsquoarchives notariales

∙ Premier usage des bases de donneacutees en histoire (transformationde lrsquoinformation historique en une grille chiffreacutee et codifieacutee)

∙ rdquo La meacutecanisation du travail de classement et de seacutelection desfichiers serait une immense ameacutelioration qualitative etquantitative de nos enquecirctes car les archives notarialesacceacutederaient agrave la digniteacute statistique sans pour autant perdre leurvaleur typologique [] la meacutecanographie valoriserait ainsi nonseulement le travail historique mais nos sources mecircmesrdquo

6

le triomphe de lrsquoinformatique

∙ 1961 (Annales) Paul Garetti et Jean-Paul Gardin dans rdquoEtude parordinateurs des eacutetablissements assyriensrdquo meacutethode pourutiliser lrsquoinformatique en histoire justifieacutee ainsi

∙ rdquola mise au point drsquoune proceacutedure drsquoexploitation automatique detelles ou telles donneacutees trop nombreuses ou trop complexes pourqursquoon puisse aiseacutement les maicirctriser par drsquoautres voiesrdquo

∙ Anneacutees 60 thegraveses qui ont intenseacutement utiliseacute lrsquoinformatique∙ LrsquoArmeacutee franccedilaise de la fin du XVIIe siegravecle au ministegravere ChoiseuldrsquoAndreacute Corvisier (1964) et Les paysans du LanguedocdrsquoEmmanuel Le Roy Ladurie (1966)

∙ Impossible de se contenter de lrsquooeil humain pour exploiter cestregraves gros corpus de sources

∙ 1968 Emmanuel Le Roy Ladurie ldquoLa fin des eacuteruditsrdquo dans LeNouvel Observateur ldquoLrsquohistorien de demain sera programmeurou ne sera plusrdquo

7

renforcer lrsquoutilisation de lrsquoinformatique

∙ 1979 revue Le Meacutedieacuteviste et lrsquoordinateur∙ 1987 Association for History and Computing en 1987 (revueHistory and Computing de 1987 agrave 2010 remplaceacutee en 2005 parune revue interdisciplinaire International Journal of Humanitiesand Arts Computing)

∙ 1989 Histoire amp Mesure Meacutemoire Vive Bulletin delrsquoAssociation franccedilaise pour lrsquohistoire et lrsquoinformatique(1989-1995)

∙ 1997 Meacutenestrel meacutedieacutevistes sur le net sources travaux etreacutefeacuterences en ligne

Malgreacute tout lrsquohistoire ne va pas prendre le tournant delrsquoinformatique paradoxal avec micro-ordinateurs dans les foyers agravepartir des anneacutees 80

8

la fin de la croyance en lrsquoinformatique

Meacutethodes utiliseacutees rdquolourdes complexes parfois inabouties souventfrustrantesrdquo 1

∙ Traitement informatique dans les anneacutees 70 et 80 =gt solutionslogicielles lourdes et contraignantes neacutecessiteacute drsquoune bonnemaicirctrise de lrsquoinformatique par lrsquohistorien ou aide drsquoun ingeacutenieur

∙ Remise en cause de la rdquocroyance qursquoil suffisait de rassemblerdes donneacutees par brouetteacutes pour eacutecrire lrsquohistoire et que lesconclusions allaient sortir toutes armeacutees de lrsquoordinateur telleAtheacutena eacutemergeant de la tecircte de Zeusrdquo (Beacuteaur 1996)

∙ Pas assez de formation + rejet des chiffres par les historiens rdquomeacutelange savant de reacutepulsion drsquoattirance et drsquoignorancerdquo(Beacuteaur 1996)

1 Beacuteaur Geacuterard rdquoAcircge critique ou acircge de raison Les dix ans drsquoHistoire amp MesurerdquoHistoire amp Mesure 11 ndeg1 (1996) 7-17

9

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 6: l’histoire et les humanités numériques

le regravegne de lrsquohistoire quantitative

∙ Apogeacutee de lrsquohistoire quantitative dans les anneacutees 1960 et 1970 sixiegraveme section de lrsquoEcole pratique des hautes eacutetudes (futureEHESS) + Sorbonne (travaux drsquoErnest Labrousse)

∙ Accent mis sur la longue dureacutee ∙ Travailler sur des seacuteries deacuteterminer de grandes tendances∙ Sorte de religion du chiffre (cf fortune de lrsquoexpression rdquopeseacuteeglobalerdquo de Pierre Chaunu (1968))

∙ Centre de recherches historiques (CRH) de lrsquoEHESS arriveacutee dansles anneacutees 70 drsquoinformaticiens cartographes et perforateurs decartes =gt produire des chiffres et creacuteer de grandes bases dedonneacutees

=gt Histoire quantitative eacuterigeacutee en modegravele

5

un appel agrave utiliser les meacutethodes rdquomeacutecanographiquesrdquo

∙ 1959 (Annales) Adeline Daumard et Franccedilois Furet dansldquoMeacutethodes de lrsquoHistoire sociale les Archives notariales et laMeacutecanographierdquo appellent agrave utiliser des meacutethodesldquomeacutecanographiquesrdquo dans la lecture drsquoarchives notariales

∙ Premier usage des bases de donneacutees en histoire (transformationde lrsquoinformation historique en une grille chiffreacutee et codifieacutee)

∙ rdquo La meacutecanisation du travail de classement et de seacutelection desfichiers serait une immense ameacutelioration qualitative etquantitative de nos enquecirctes car les archives notarialesacceacutederaient agrave la digniteacute statistique sans pour autant perdre leurvaleur typologique [] la meacutecanographie valoriserait ainsi nonseulement le travail historique mais nos sources mecircmesrdquo

6

le triomphe de lrsquoinformatique

∙ 1961 (Annales) Paul Garetti et Jean-Paul Gardin dans rdquoEtude parordinateurs des eacutetablissements assyriensrdquo meacutethode pourutiliser lrsquoinformatique en histoire justifieacutee ainsi

∙ rdquola mise au point drsquoune proceacutedure drsquoexploitation automatique detelles ou telles donneacutees trop nombreuses ou trop complexes pourqursquoon puisse aiseacutement les maicirctriser par drsquoautres voiesrdquo

∙ Anneacutees 60 thegraveses qui ont intenseacutement utiliseacute lrsquoinformatique∙ LrsquoArmeacutee franccedilaise de la fin du XVIIe siegravecle au ministegravere ChoiseuldrsquoAndreacute Corvisier (1964) et Les paysans du LanguedocdrsquoEmmanuel Le Roy Ladurie (1966)

∙ Impossible de se contenter de lrsquooeil humain pour exploiter cestregraves gros corpus de sources

∙ 1968 Emmanuel Le Roy Ladurie ldquoLa fin des eacuteruditsrdquo dans LeNouvel Observateur ldquoLrsquohistorien de demain sera programmeurou ne sera plusrdquo

7

renforcer lrsquoutilisation de lrsquoinformatique

∙ 1979 revue Le Meacutedieacuteviste et lrsquoordinateur∙ 1987 Association for History and Computing en 1987 (revueHistory and Computing de 1987 agrave 2010 remplaceacutee en 2005 parune revue interdisciplinaire International Journal of Humanitiesand Arts Computing)

∙ 1989 Histoire amp Mesure Meacutemoire Vive Bulletin delrsquoAssociation franccedilaise pour lrsquohistoire et lrsquoinformatique(1989-1995)

∙ 1997 Meacutenestrel meacutedieacutevistes sur le net sources travaux etreacutefeacuterences en ligne

Malgreacute tout lrsquohistoire ne va pas prendre le tournant delrsquoinformatique paradoxal avec micro-ordinateurs dans les foyers agravepartir des anneacutees 80

8

la fin de la croyance en lrsquoinformatique

Meacutethodes utiliseacutees rdquolourdes complexes parfois inabouties souventfrustrantesrdquo 1

∙ Traitement informatique dans les anneacutees 70 et 80 =gt solutionslogicielles lourdes et contraignantes neacutecessiteacute drsquoune bonnemaicirctrise de lrsquoinformatique par lrsquohistorien ou aide drsquoun ingeacutenieur

∙ Remise en cause de la rdquocroyance qursquoil suffisait de rassemblerdes donneacutees par brouetteacutes pour eacutecrire lrsquohistoire et que lesconclusions allaient sortir toutes armeacutees de lrsquoordinateur telleAtheacutena eacutemergeant de la tecircte de Zeusrdquo (Beacuteaur 1996)

∙ Pas assez de formation + rejet des chiffres par les historiens rdquomeacutelange savant de reacutepulsion drsquoattirance et drsquoignorancerdquo(Beacuteaur 1996)

1 Beacuteaur Geacuterard rdquoAcircge critique ou acircge de raison Les dix ans drsquoHistoire amp MesurerdquoHistoire amp Mesure 11 ndeg1 (1996) 7-17

9

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 7: l’histoire et les humanités numériques

un appel agrave utiliser les meacutethodes rdquomeacutecanographiquesrdquo

∙ 1959 (Annales) Adeline Daumard et Franccedilois Furet dansldquoMeacutethodes de lrsquoHistoire sociale les Archives notariales et laMeacutecanographierdquo appellent agrave utiliser des meacutethodesldquomeacutecanographiquesrdquo dans la lecture drsquoarchives notariales

∙ Premier usage des bases de donneacutees en histoire (transformationde lrsquoinformation historique en une grille chiffreacutee et codifieacutee)

∙ rdquo La meacutecanisation du travail de classement et de seacutelection desfichiers serait une immense ameacutelioration qualitative etquantitative de nos enquecirctes car les archives notarialesacceacutederaient agrave la digniteacute statistique sans pour autant perdre leurvaleur typologique [] la meacutecanographie valoriserait ainsi nonseulement le travail historique mais nos sources mecircmesrdquo

6

le triomphe de lrsquoinformatique

∙ 1961 (Annales) Paul Garetti et Jean-Paul Gardin dans rdquoEtude parordinateurs des eacutetablissements assyriensrdquo meacutethode pourutiliser lrsquoinformatique en histoire justifieacutee ainsi

∙ rdquola mise au point drsquoune proceacutedure drsquoexploitation automatique detelles ou telles donneacutees trop nombreuses ou trop complexes pourqursquoon puisse aiseacutement les maicirctriser par drsquoautres voiesrdquo

∙ Anneacutees 60 thegraveses qui ont intenseacutement utiliseacute lrsquoinformatique∙ LrsquoArmeacutee franccedilaise de la fin du XVIIe siegravecle au ministegravere ChoiseuldrsquoAndreacute Corvisier (1964) et Les paysans du LanguedocdrsquoEmmanuel Le Roy Ladurie (1966)

∙ Impossible de se contenter de lrsquooeil humain pour exploiter cestregraves gros corpus de sources

∙ 1968 Emmanuel Le Roy Ladurie ldquoLa fin des eacuteruditsrdquo dans LeNouvel Observateur ldquoLrsquohistorien de demain sera programmeurou ne sera plusrdquo

7

renforcer lrsquoutilisation de lrsquoinformatique

∙ 1979 revue Le Meacutedieacuteviste et lrsquoordinateur∙ 1987 Association for History and Computing en 1987 (revueHistory and Computing de 1987 agrave 2010 remplaceacutee en 2005 parune revue interdisciplinaire International Journal of Humanitiesand Arts Computing)

∙ 1989 Histoire amp Mesure Meacutemoire Vive Bulletin delrsquoAssociation franccedilaise pour lrsquohistoire et lrsquoinformatique(1989-1995)

∙ 1997 Meacutenestrel meacutedieacutevistes sur le net sources travaux etreacutefeacuterences en ligne

Malgreacute tout lrsquohistoire ne va pas prendre le tournant delrsquoinformatique paradoxal avec micro-ordinateurs dans les foyers agravepartir des anneacutees 80

8

la fin de la croyance en lrsquoinformatique

Meacutethodes utiliseacutees rdquolourdes complexes parfois inabouties souventfrustrantesrdquo 1

∙ Traitement informatique dans les anneacutees 70 et 80 =gt solutionslogicielles lourdes et contraignantes neacutecessiteacute drsquoune bonnemaicirctrise de lrsquoinformatique par lrsquohistorien ou aide drsquoun ingeacutenieur

∙ Remise en cause de la rdquocroyance qursquoil suffisait de rassemblerdes donneacutees par brouetteacutes pour eacutecrire lrsquohistoire et que lesconclusions allaient sortir toutes armeacutees de lrsquoordinateur telleAtheacutena eacutemergeant de la tecircte de Zeusrdquo (Beacuteaur 1996)

∙ Pas assez de formation + rejet des chiffres par les historiens rdquomeacutelange savant de reacutepulsion drsquoattirance et drsquoignorancerdquo(Beacuteaur 1996)

1 Beacuteaur Geacuterard rdquoAcircge critique ou acircge de raison Les dix ans drsquoHistoire amp MesurerdquoHistoire amp Mesure 11 ndeg1 (1996) 7-17

9

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 8: l’histoire et les humanités numériques

le triomphe de lrsquoinformatique

∙ 1961 (Annales) Paul Garetti et Jean-Paul Gardin dans rdquoEtude parordinateurs des eacutetablissements assyriensrdquo meacutethode pourutiliser lrsquoinformatique en histoire justifieacutee ainsi

∙ rdquola mise au point drsquoune proceacutedure drsquoexploitation automatique detelles ou telles donneacutees trop nombreuses ou trop complexes pourqursquoon puisse aiseacutement les maicirctriser par drsquoautres voiesrdquo

∙ Anneacutees 60 thegraveses qui ont intenseacutement utiliseacute lrsquoinformatique∙ LrsquoArmeacutee franccedilaise de la fin du XVIIe siegravecle au ministegravere ChoiseuldrsquoAndreacute Corvisier (1964) et Les paysans du LanguedocdrsquoEmmanuel Le Roy Ladurie (1966)

∙ Impossible de se contenter de lrsquooeil humain pour exploiter cestregraves gros corpus de sources

∙ 1968 Emmanuel Le Roy Ladurie ldquoLa fin des eacuteruditsrdquo dans LeNouvel Observateur ldquoLrsquohistorien de demain sera programmeurou ne sera plusrdquo

7

renforcer lrsquoutilisation de lrsquoinformatique

∙ 1979 revue Le Meacutedieacuteviste et lrsquoordinateur∙ 1987 Association for History and Computing en 1987 (revueHistory and Computing de 1987 agrave 2010 remplaceacutee en 2005 parune revue interdisciplinaire International Journal of Humanitiesand Arts Computing)

∙ 1989 Histoire amp Mesure Meacutemoire Vive Bulletin delrsquoAssociation franccedilaise pour lrsquohistoire et lrsquoinformatique(1989-1995)

∙ 1997 Meacutenestrel meacutedieacutevistes sur le net sources travaux etreacutefeacuterences en ligne

Malgreacute tout lrsquohistoire ne va pas prendre le tournant delrsquoinformatique paradoxal avec micro-ordinateurs dans les foyers agravepartir des anneacutees 80

8

la fin de la croyance en lrsquoinformatique

Meacutethodes utiliseacutees rdquolourdes complexes parfois inabouties souventfrustrantesrdquo 1

∙ Traitement informatique dans les anneacutees 70 et 80 =gt solutionslogicielles lourdes et contraignantes neacutecessiteacute drsquoune bonnemaicirctrise de lrsquoinformatique par lrsquohistorien ou aide drsquoun ingeacutenieur

∙ Remise en cause de la rdquocroyance qursquoil suffisait de rassemblerdes donneacutees par brouetteacutes pour eacutecrire lrsquohistoire et que lesconclusions allaient sortir toutes armeacutees de lrsquoordinateur telleAtheacutena eacutemergeant de la tecircte de Zeusrdquo (Beacuteaur 1996)

∙ Pas assez de formation + rejet des chiffres par les historiens rdquomeacutelange savant de reacutepulsion drsquoattirance et drsquoignorancerdquo(Beacuteaur 1996)

1 Beacuteaur Geacuterard rdquoAcircge critique ou acircge de raison Les dix ans drsquoHistoire amp MesurerdquoHistoire amp Mesure 11 ndeg1 (1996) 7-17

9

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 9: l’histoire et les humanités numériques

renforcer lrsquoutilisation de lrsquoinformatique

∙ 1979 revue Le Meacutedieacuteviste et lrsquoordinateur∙ 1987 Association for History and Computing en 1987 (revueHistory and Computing de 1987 agrave 2010 remplaceacutee en 2005 parune revue interdisciplinaire International Journal of Humanitiesand Arts Computing)

∙ 1989 Histoire amp Mesure Meacutemoire Vive Bulletin delrsquoAssociation franccedilaise pour lrsquohistoire et lrsquoinformatique(1989-1995)

∙ 1997 Meacutenestrel meacutedieacutevistes sur le net sources travaux etreacutefeacuterences en ligne

Malgreacute tout lrsquohistoire ne va pas prendre le tournant delrsquoinformatique paradoxal avec micro-ordinateurs dans les foyers agravepartir des anneacutees 80

8

la fin de la croyance en lrsquoinformatique

Meacutethodes utiliseacutees rdquolourdes complexes parfois inabouties souventfrustrantesrdquo 1

∙ Traitement informatique dans les anneacutees 70 et 80 =gt solutionslogicielles lourdes et contraignantes neacutecessiteacute drsquoune bonnemaicirctrise de lrsquoinformatique par lrsquohistorien ou aide drsquoun ingeacutenieur

∙ Remise en cause de la rdquocroyance qursquoil suffisait de rassemblerdes donneacutees par brouetteacutes pour eacutecrire lrsquohistoire et que lesconclusions allaient sortir toutes armeacutees de lrsquoordinateur telleAtheacutena eacutemergeant de la tecircte de Zeusrdquo (Beacuteaur 1996)

∙ Pas assez de formation + rejet des chiffres par les historiens rdquomeacutelange savant de reacutepulsion drsquoattirance et drsquoignorancerdquo(Beacuteaur 1996)

1 Beacuteaur Geacuterard rdquoAcircge critique ou acircge de raison Les dix ans drsquoHistoire amp MesurerdquoHistoire amp Mesure 11 ndeg1 (1996) 7-17

9

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 10: l’histoire et les humanités numériques

la fin de la croyance en lrsquoinformatique

Meacutethodes utiliseacutees rdquolourdes complexes parfois inabouties souventfrustrantesrdquo 1

∙ Traitement informatique dans les anneacutees 70 et 80 =gt solutionslogicielles lourdes et contraignantes neacutecessiteacute drsquoune bonnemaicirctrise de lrsquoinformatique par lrsquohistorien ou aide drsquoun ingeacutenieur

∙ Remise en cause de la rdquocroyance qursquoil suffisait de rassemblerdes donneacutees par brouetteacutes pour eacutecrire lrsquohistoire et que lesconclusions allaient sortir toutes armeacutees de lrsquoordinateur telleAtheacutena eacutemergeant de la tecircte de Zeusrdquo (Beacuteaur 1996)

∙ Pas assez de formation + rejet des chiffres par les historiens rdquomeacutelange savant de reacutepulsion drsquoattirance et drsquoignorancerdquo(Beacuteaur 1996)

1 Beacuteaur Geacuterard rdquoAcircge critique ou acircge de raison Les dix ans drsquoHistoire amp MesurerdquoHistoire amp Mesure 11 ndeg1 (1996) 7-17

9

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 11: l’histoire et les humanités numériques

de lrsquoapogeacutee agrave la crise

Figure ndash Histoire quantitative de 1950 agrave 2008 (Google Ngram Viewer)

10

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 12: l’histoire et les humanités numériques

un rejet total

∙ 2006 Philippe Genet repreacutesentant de lrsquohistoire quantitative les historiens se sont deacutetourneacutes des meacutethodes informatiquesnotamment celles pour traiter les textes et les corpus (AtelierATHIS rdquoLrsquohistorien le texte et lrsquoordinateurrdquo Lyon 2006)

∙ 2011 rdquo[hellip] programmer est souvent perccedilu comme un signe denon maicirctrise du savoir historique Les meacutethodes informatiqueset statistiques sont releacutegueacutees depuis de nombreuses anneacutees aumieux comme auxiliaire drsquoappoint de la recherche commecuriositeacute scientifique ou le plus souvent comme des processuscontre-productifsrdquo 2

2 Alerini Julien et Steacutephane Lamasseacute rdquoDonneacutees et statistiques Lrsquoavenir en lignepour lrsquohistorienrdquo in Ateliers pour lrsquohistoire et lrsquoinformatique et Eacutecole franccedilaise deRome Les historiens et lrsquoinformatique un meacutetier agrave reacuteinventer Eacutediteacute parJean-Philippe Genet et Andrea Zorzi Rome Italie Eacutecole franccedilaise de Rome 2011

11

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 13: l’histoire et les humanités numériques

lrsquoaccegraves aux technologies numeacuteriques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 14: l’histoire et les humanités numériques

lrsquoirruption du web

Dans les anneacutees 1990 et 2000 deacutebuts et eacutepanouissement du Web

∙ Mise en reacuteseau ∙ des acteurs∙ des revues∙ des projets∙ des bases de donneacutees

∙ Mise agrave disposition de sources numeacuteriseacutees et numeacuteriques

Reacuteveil de lrsquohistoire numeacuterique + nouveaux questionnements autourde la pratique de lrsquohistoire agrave lrsquoegravere numeacuterique

13

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 15: l’histoire et les humanités numériques

des changements dans la rdquogesterdquo historienne

∙ Preacutesence des historiens sur les reacuteseaux sociaux dialogue entrecollegravegues + eacutechanges et partages autour des documentsdrsquoarchives

∙ Institutions partagent et commentent des documents issus deleurs collections Ex Meacutemoire Vive Besanccedilon

∙ Expeacuterience originale ougrave un personnage mort depuis longtempscommente ses propres archives Ex Jules Legras

∙ Historiens parlent des documents sur lesquels ils travaillent ExDes documents photographieacutes en archives

∙ Historiens rompent la solitude eacutechangent en ligne et font de laveille

∙ Utilisation drsquoarchives numeacuteriseacutees∙ Prise de photos lues ensuite sur lrsquoeacutecran drsquoun ordinateur∙ Interface de consultation en ligne drsquoarchives nativementnumeacuteriques (Ex Etude de la commeacutemoration du Centenaire de laGrande Guerre sur Twitter archives du Web)

∙ Mise agrave disposition faciliteacutee des archives via un systegraveme dereacuteservation en ligne (inventaire en ligne)

14

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 16: l’histoire et les humanités numériques

des changements dans la rdquogesterdquo historienne

∙ rdquoDialoguerdquo via une interface de programmation pour collecterdes donneacutees (API)

∙ Usage de logiciels aidant agrave la lecture de ces donneacutees (exlogiciels pour la fouille de textes comme TXM Iramuteq)

15

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 17: l’histoire et les humanités numériques

des centres drsquoarchives sans historiens

∙ Changement dans le travail quotidien des historiens et de larelation entretenue avec le document drsquoarchives

∙ Lrsquoune des conseacutequences les salles drsquoarchives se vident et deplus en plus de travaux seulement sur des archives numeacuteriquesou numeacuteriseacutees - notamment de la part des eacutetudiants 3

∙ Pas nouveau mais pheacutenomegravene de massification avec accegravesfaciliteacute aux nouvelles technologies

3 Quelques exemples Archives 20 Les archives connais pas La recherche dans ledeacutepocirct drsquoarchives je ne connais pas

16

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 18: l’histoire et les humanités numériques

une reacuteflexion neacutecessaire

∙ Reacuteflexions meneacutees par Caroline Muller et Freacutedeacuteric Clavert sur leGoucirct de lrsquoarchive agrave lrsquoegravere numeacuterique - reprenant et prolongeantles reacuteflexions meneacutees par Arlette Farge dans Le Goucirct delrsquoArchive (1989)

∙ Logiciels qui aident agrave lire ces archives numeacuteriques comme leslogiciels drsquoOCR

∙ Logiciels drsquoanalyse des sources TXM Iramuteq Gephi(visualisation et analyse des reacuteseaux)

∙ Stockage des archives numeacuteriseacutees∙ Annotation classement ajout de meacutetadonneacutees

∙ Tout cela peut influer sur la recherche historique qui va ecirctremeneacutee

∙ Ex utilisation de Gephi implique drsquoaccepter de cadre de lasociologie des reacuteseaux sociaux et donc theacuteorie de lrsquoacteur-reacuteseau

∙ Logiciel pas neutre

17

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 19: l’histoire et les humanités numériques

la mise en donneacutees du monde

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 20: l’histoire et les humanités numériques

lrsquoegravere des big data

∙ Entreacutee dans lrsquoldquoegravere des big datardquo∙ Explosion des reacuteseaux sociaux croissance du Web collaboratifet multiplication de nos activiteacutes numeacuteriques production dequantiteacutes massives de donneacutees numeacuteriques

19

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 21: l’histoire et les humanités numériques

des big data rdquopatrimonialesrdquo

∙ Numeacuterisation accegraves agrave de grandes quantiteacutes de donneacuteespatrimoniales des sources historiques des textes mais aussides oeuvres drsquoart =gt ldquodataficationrdquo ou ldquomise en donneacutees dumonderdquo

∙ Pour historien Freacutedeacuteric Clavert veacuteritable tournant numeacuteriquepour lrsquohistoire 4

∙ Concept apparu dans un livre de Viktor Mayer-Schoumlnberger etKenneth Cukier Big Data a Revolution That Will Transform HowWe Live Work and Think (2013) ldquoTo datafy a phenomenon is toput it in a quantified format so it can be tabulated andanalysed 5rdquo

4 Clavert Freacutedeacuteric rdquoVers de nouveaux modes de lecture des sourcesrdquo Le temps deshumaniteacutes digitales Le Deuff Olivier (dir) FYP EDITIONS 20145 Mayer-Schoumlnberger Viktor et Kenneth Cukier Big data a revolution that will

transform how we live work and think New York Etats-Unis drsquoAmeacuterique EamonDolan books-Houghton Mifflin harcourt 2013 p78

20

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 22: l’histoire et les humanités numériques

datafication

∙ Datafication traduit par ldquomise en donneacutees du monderdquo par LeMonde Diplomatique en 2013

∙ rdquoDataficationrdquo avant lrsquoapparition du numeacuterique (par ex lacomptabiliteacute) mais consideacuterablement acceacuteleacutereacutee au XXegravemesiegravecle avec lrsquoinformatique et la numeacuterisation

21

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 23: l’histoire et les humanités numériques

la mise en donneacutees en histoire

∙ Mise en donneacutees en histoire rdquoprocessus contenant toutes leseacutetapes allant de la numeacuterisation drsquoun artefact physique ndash lesarchives numeacuteriseacutees ndash ou de la captation drsquoun signal ndash lessources primaires neacutees numeacuteriques ndash aux possibiliteacutesdrsquoanalyser ces artefacts et signaux via des outils informatiquescrsquoest-agrave-dire une lecture des sources au moyen drsquoune meacutediationinformatique 6rdquo

∙ Futures sources de la recherche historique pour FreacutedeacutericClavert dans quelques anneacutees des thegraveses drsquohistoirecontemporaines travailleront presque exclusivement voiremecircme exclusivement sur des sources numeacuteriques

6 Clavert Freacutedeacuteric rdquoUne histoire par les donneacutees Le futur tregraves proche de lrsquohistoiredes relations internationalesrdquo Bulletin de lrsquoInstitut Pierre Renouvin Ndeg44 ndeg2 (1novembre 2016) 119-30

22

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 24: l’histoire et les humanités numériques

des donneacutees creacuteeacutees collaborativement

∙ Mise agrave disposition des sources soutenue souvent par unedeacutemarche collaborative

∙ Diverses actions ∙ Indexation collaborative Identification de documents∙ Correction ou lrsquoenrichissement drsquoinstruments de recherche∙ Alimentation de dictionnaires jusqursquoagrave la transcription et lrsquoeacuteditionde textes collaborative

∙ Mise en ligne de documents drsquoarchives∙ Quelques exemples

∙ Annotation et transcription collaborative Testaments de polius(transcription de testaments de soldats de la Grande Guerre)Natnum (indexation des deacutecrets de naturalisation) TranscribeBentham (transcription des mss non publieacutes du philosopheJeremy Bentham)

∙ Mise en ligne de documents The Parallel Archive a distributedcollaborative historical archive Destineacute aux eacutetudiants etchercheurs qui utilisent des archives dans leurs travaux possiblede stocker et partager les copies numeacuteriques des sourcesprimaires qursquoils utilisent 23

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 25: l’histoire et les humanités numériques

la mise en donneacutees en histoire

Quelles conseacutequences

∙ Remise au goucirct du jour des meacutethodologies quantitatives∙ Importance des meacutethodes qui font ressortir des eacuteleacutementsqualitatifs des grands corpus numeacuteriques

24

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 26: l’histoire et les humanités numériques

la mise en donneacutees en histoire

∙ Quelques exemples de sources numeacuteriseacutees (mais il y en a biendrsquoautres )

∙ Gallica∙ Europeana∙ Oral History (Entretiens avec des fonctionnaires europeacuteens surlrsquohistoire de la Commission Europeacuteenne)

∙ Edition de textes Elec (Eacutecole nationale des chartes) Telma(Institut de Recherche et drsquoHistoire des Textes) AHN (Eacutecolenormale supeacuterieure)

∙ Sources numeacuteriseacutees deacutepend des choix de lrsquoinstitution qui lesmet agrave disposition

∙ Corpus choisi∙ Meacutetadonneacutees et accegraves∙ Encodage des entiteacutes nommeacutees pour faciliter la recherche

∙ Vision biaiseacutee de lrsquohistoire creacuteeacute par ses nouvelles sources Peutavoir des eacutepercussions importantes sur les analyses

25

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 27: l’histoire et les humanités numériques

etre conscient des biais engendreacutes par la numeacuterisation

∙ Etude des mentions des journaux canadiens du XIXe s dans laCanadian Historical Review on utilise plus les grand journauxanglophones numeacuteriseacutes au deacutetriment des ressourcesfrancophones et locales

∙ Vision plus anglo-saxonne de lrsquohistoire canadienne deacuteporteacutee versune

∙ En France certaines revues anciennes pas disponibles viaPerseacutee ou Gallica

∙ Lrsquoimportance drsquoavoir une oceacuterisation de qualiteacute =gt influenceimportante sur lrsquoexploitation des sources

∙ Accegraves agrave ces sources∙ Difficile drsquoavoir accegraves aux sources Facebook∙ Inteacutegraliteacute des tweets publics (2006-2017) conserveacutes par laBibliothegraveque du Congregraves inaccessible

∙ Conservation de ces sources ex de lrsquoOffice des Affaireseacutetrangegraveres allemands demande agrave ses fonctionnaires drsquoimprimerles courriels pour les archiver =gt demande de faire des choix etdonc perte drsquoinformations

26

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 28: l’histoire et les humanités numériques

lire de grands corpus

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 29: l’histoire et les humanités numériques

des outils de lecture approprieacutes

∙ Pour analyser ces donneacutees neacutecessaire drsquoavoir des meacutethodes etdes outils qui facilitent la lecture systeacutematique de ces grandscorpus de donneacutees numeacuteriques

∙ Lecture ldquohumainerdquo de ces corpus repeacuterer plus facilement cequi est exceptionnel pas ce qui est freacutequent

∙ Accessibiliteacute croissante des outils informatiques pour lire degrands corpus

28

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 30: l’histoire et les humanités numériques

la lecture distante

∙ Franco Moretti (Graphs maps trees abstract models for aliterary history 2005 Distant reading 2013) appelle agraveabandonner la pratique traditionnelle agrave savoir la rdquoclosereadingrdquo ou rdquolecture attentiverdquo ou rdquolecture procherdquo

∙ Travailler non pas sur des textes singuliers mais sur de grandesbases de donneacutees de milliers de textes

∙ But = identifier des rdquopatternsrdquo des modegraveles ou motifs au seinde corpus qui traversent les siegravecles et les frontiegraveresrdquo[hellip] what we really need is a little pact with the devil weknow how to read texts now letrsquos learn how not to read themDistant reading where distance let me repeat it is a condi-tion of knowledge it allows you to focus on units that aremuch smaller or much larger than the text devices themestropesmdashor genres and systemsrdquo 7

7 Moretti Franco rdquoConjectures on World Literaturerdquo New Left Review 1JanuaryndashFebruary 2000 2 mars 2000

29

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 31: l’histoire et les humanités numériques

retour agrave la longue dureacutee

Jo Guldi et David Armitage dans The History Manifesto (2014)

∙ Les eacutevolutions technologiques reacutecentes =gt retour agrave la longuedureacutee

∙ Importance du travail de lrsquohistorien = renforceacute∙ Rocircle de lrsquohistorien travail sur la provenance des donneacutees leurhistoire et leur pertinencerdquoThis change in the life of data may determine a major shiftfor the university of the future where historical thinkers willhave an increasingly important role to play as the arbiters ofbig data 8rdquo

8 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p12

30

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 32: l’histoire et les humanités numériques

mettre agrave distante pour mieux comprendre

∙ Pour analyser ces ldquobig datardquo neacutecessaire drsquoavoir une relationplus distante aux sources primaires

∙ Mise agrave distance = outil de lecture pour les chercheurs∙ Resituer le document dans un ensemble plus large etinterconnecteacute de documents pour mieux lrsquointerpreacuteter pourcomprendre un processus

∙ Shawn Graham et al Exploring Big Historical Data TheHistorianrsquos Macroscope London Imperial College Press 2016

∙ Proposent un ensemble de diffeacuterents outils (par exemplelrsquoexploration de textes la modeacutelisation theacutematique le codagevisuel les nuages de mots et lrsquoanalyse de reacuteseau) pour traiter lesgrandes donneacutees historiques = rdquomacroscope des historiensrdquo

∙ Compenser les lacunes des approches de lecture proche etlointaine la neacutecessiteacute drsquoune contextualisation des reacutesultatsquantitatifs de la premiegravere et lrsquoimpossibiliteacute de lire tout de laseconde

31

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 33: l’histoire et les humanités numériques

allier lecture distante et lecture proche

rdquoTogether micro-historical work in archives and macro-historical frameworks can offer a new horizon for historicalresearchers who want to hone their talents of judging theflow of events and institutions across centuries and aroundthe globe 9rdquo

9 Guldi Jo et David Armitage The History Manifesto Cambridge CambridgeUniversity Presse 2014 p121

32

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 34: l’histoire et les humanités numériques

allier lecture distante et lecture proche

∙ Guldi et Armitage humaniteacutes numeacuteriques = lrsquooutil quipermettra aux historiens de srsquoaffranchir de la rdquotyrannierdquo desarchives en creacuteant des bases de donneacutees reprenant lrsquoensembledes informations dans les sources

∙ Neacutecessaire drsquoutiliser et concilier ces deux formes de lectures rdquo ilfaut creacuteer un chemin permettant drsquoarticuler une lecturehumaine des sources primaires ndash en clair le seacutejour classique encentre drsquoarchives et la critique interne et externe des documentsque lrsquoon y trouve ndash avec une lecture computationnelle 10rdquo

10 Clavert Freacutedeacuteric rdquoLecture des sources historiennes agrave lrsquoegravere numeacuteriquerdquo Lrsquohistoirecontemporaine agrave lrsquoegravere numeacuterique (blog) 15 janvier 2019https histnumhypothesesorg1061

33

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 35: l’histoire et les humanités numériques

histoire et analyse des textes

∙ Historiens nrsquoont pas attendu Moretti pour lire des textes rdquoagravedistancerdquo

∙ Compter des mots activiteacute commune depuis les anneacutees 1960 agravedes linguistes des historiens des politistes des sociologues

∙ Lexicomeacutetrie appliqueacutee en histoire dans le cadre de lrsquoENS deFontenay-Saint-Cloud plus particuliegraverement agrave lrsquoeacutetude dediscours politiques

∙ Reacuteception difficile de ces meacutethodes par lrsquohistoire

34

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 36: l’histoire et les humanités numériques

histoire et analyse des textes

∙ Lexicomeacutetrie rebaptiseacutee dans les anneacutees quatre-vingt-dixldquotextomeacutetrierdquo

∙ Logomeacutetrie analyse automatique statistique linguistiquestatistique lexicale ou linguistique quantitative statistiquetextuelle voire analyse des donneacutees en linguistique

∙ Stylomeacutetrie ∙ Emergence dans la deuxiegraveme moitieacute du XIXe s drsquoune nouvelleapproche des textes quantification du style appeleacutee rdquostylomeacutetrierdquo(1897 Wincenty Lutolawski)

∙ 1880-1890 deacuteveloppement drsquoune rdquomachine agrave compterrdquo les motspar TC Mendenhall (une machine opeacutereacutee manuellement par deuxopeacuteratrices) =gt ideacutee drsquoautomatisation

35

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 37: l’histoire et les humanités numériques

histoire et analyse des textes

∙ Eclipse dans les anneacutees 1980 et 1990 et un retour de lrsquoanalysedu discours en France aujourdrsquohui

∙ Mise agrave disposition de gros corpus numeacuteriseacutes Frantext et leTreacutesor de la langue franccedilaise informatiseacute les corpus eacutecrits etoraux rassembleacutes par Ortolangles bases de donneacuteesaccessibles via Hyperbase Web

∙ Habitueacutes agrave un nouveau mode de lecture rendu possible parlrsquoinformatique et par Internet

36

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 38: l’histoire et les humanités numériques

un exemple le projet time-us

∙ Projet ANR Time-Us a pour but de travailler sur le long terme reconstruire les reacutemuneacuterations et les budgets-temps desfemmes et des hommes du textile de la preacute-industrialisationjusqursquoagrave la Premiegravere Guerre mondiale (longue dureacutee) dans 4villes reacutegions industrielles franccedilaises (Lille Paris LyonMarseille)

∙ Projet dont lrsquoampleur est bien adapteacutee agrave lrsquoutilisation de lalecture distante par nature utilisation de nombreuses sourcesprimaires de la fin du XVIIegraveme siegravecle au deacutebut du XXegraveme siegraveclediffeacuterentes formes (mss ou imprimeacutees documents de justicepeacutetitions presse)

∙ Composer ce corpus de sources neacutecessite un important travailde la part des historien(ne)s

∙ Bien connaicirctre les sources drsquoarchives∙ Seacutelectionner les documents qui pourront ecirctre exploiteacutees∙ Documenter ces sources primaires

37

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 39: l’histoire et les humanités numériques

creacuteer un corpus exploitable

∙ Traiter des sources qualitatives pour produire notamment desdonneacutees quantitatives qui permettront de documenter le rocircledes femmes dans le deacuteveloppement industriel (ici textile) sur lalongue dureacutee

∙ Travail collaboratif pour reacuteunir les sources primaires de faccedilon agravecreacuteer un corpus dont lrsquoanalyse permettra de reacutepondre auxobjectifs du projet Par exemple travail sur des seacuteries similairescomme les prudhommes dans les 4 reacutegions eacutetudieacutees

∙ Corpus est coheacuterent pour le projet mais pas rdquohomogegravenerdquo ∙ Grande varieacuteteacute de documents de la fin du XVIIegraveme siegravecle au deacutebutdu XXegraveme siegravecle documents mss et imprimeacutes documentsdrsquoarchives articles de presse et monographies (comme lesmonographies de famille de lrsquoeacutecole de Le Play)

38

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 40: l’histoire et les humanités numériques

creacuteer un corpus exploitable

∙ Pas seulement numeacuteriser les sources mais en faire desdonneacutees utilisables par des outils informatiques

∙ Grande quantiteacute de documents drsquoarchives pas possible de lestranscrire un agrave un manuellement et donc neacutecessiteacute drsquoutiliserdes outils de transcrition collaborative et automatiseacutee Iciutilisation de Transkribus

∙ Pour repeacuterer et extraire des seacuteries de donneacutees agrave analyser(seacuteries temporelles sommes drsquoargent vocabulaires)neacutecessaire drsquoannoter ces transcriptions

39

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 41: l’histoire et les humanités numériques

creacuteer un corpus exploitable

Reacuteseau seacutemantiquegeacuteneacutereacute agrave partir delrsquoanalyse du corpus

∙ Annotation manuelle avec Transkribus∙ Annotation automatique agrave partir desdonneacutees drsquoentraicircnement (annoteacutees) creacuteeacuteesavec Transkribus

∙ Utilisation des meacutethodes et outils proposeacutespar le traitement automatique des langues(TAL) pour annoter automatiquement letexte et pour connecter les eacuteleacutementsannoteacutes avec des informationscontextuelles

40

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 42: l’histoire et les humanités numériques

allier lecture proche et lecture distante

∙ Corpus de textes heacuteteacuterogegravenes qui demandent agrave ecirctre analyseacutesdiffeacuteremment en fonction de leur nature

∙ Neacutecessaire drsquoadopter une double strateacutegie ∙ Appliquer les techniques de la lecture distante pour analyser lecorpus repeacuterer du vocabulaire et des structures simples dediscours =gt indexation (lecture distante avec TAL)

∙ Neacutecessaire de revenir vers le ou les texte(s) concerneacute(s) pourexaminer ces textes les analyser et les interpreacuteter (lecture prochepar le chercheur)

∙ Seuls les speacutecialistes drsquoun corpus pourront savoir ce que lrsquoondoit chercher dans le corpus

∙ Creacuteer une grille de lecture agrave appliquer aux outils drsquoanalyseautomatique (deacutesignation des meacutetiers des salaires des tacircchesassocieacutees aux salaires)

∙ Comment analyser exploiter les reacutesultats

41

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 43: l’histoire et les humanités numériques

des reacuteticences

En histoire encore quelques reacuteticences

∙ Reconnaissance de caractegraveres ndash notamment manuscrits - doitprogresser

∙ Effort de saisie peut paraicirctre disproportionneacute dans certains cas∙ Concurrence avec lrsquoactiviteacute consideacutereacutee comme principale pourlrsquohistorien la lecture et lrsquointerpreacutetation drsquoeacutecrits

42

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 44: l’histoire et les humanités numériques

et objections

∙ 2011 (Science) JB Michel et al rdquoQuantitative Analysis ofCulture Using Millions of Digitized Booksrdquo

∙ Etude portant sur des millions de livres numeacuteriseacutes par GoogleBooks =gt fondation des rdquoculturonomicsrdquo (eacutetude des tendancesculturelles avec lrsquoanalyse quantitative des textes numeacuteriseacutes)

∙ Histoire culturelle sans historiens car on laisse rdquoparlerrdquo lesdonneacutees brutes elles-mecircmes 11

∙ Deacutebat geacuteneacutereacute par The History Manifesto risques de creacuteer uneopposition artificielle et manicheacuteenne entre la longue et lacourte dureacutee drsquoun cocircteacute et entre les grandes donneacutees etlrsquoanalyse agrave petite eacutechelle de lrsquoautre 12

11 Michel Jean-Baptiste et al rdquoQuantitative Analysis of Culture Using Millions ofDigitized Booksrdquo Science 331 ndeg6014 (14 janvier 2011) 176-8212 rdquoLa longue dureacutee en deacutebatrdquo Annales Histoire Sciences Sociales 20152 (70eanneacutee)

43

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 45: l’histoire et les humanités numériques

lrsquohistoire et le web seacutemantique

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 46: l’histoire et les humanités numériques

les enjeux du web seacutemantique

Web seacutemantique rdquoun ensemble de technologies permettantdrsquoapporter une reacuteponse agrave la dispersion et agrave la non structuration desdonneacutees qui rendent leur exploitation difficilerdquo (Dominique NaudrdquoLe numeacuterique beaucoup de gestes pour un meilleur partagerdquo inLe goucirct de lrsquoarchive agrave lrsquoegravere numeacuterique)

∙ Harmonisation des descriptions produites par les archivistes etles historiens

∙ Mise agrave disposition des donneacutees dans des standardsinternationaux

∙ Utilisation de vocabulaires communs∙ Utilisation de modegraveles construits collaborativement

45

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 47: l’histoire et les humanités numériques

de nouvelles possibiliteacutes

∙ Nouvelles possibiliteacutes de deacuteveloppement pour lrsquohistoire 13

∙ Profiter de la tendance agrave lrsquoouverture des donneacutees difficile dansles humaniteacutes mais efforts en ce sens actuellement

∙ Contexte de plus en plus de donneacutees numeacuteriques historiques =gtimplique de porter attention agrave la structuration de ces donneacuteesdans le but de les analyser les comparer et les agreacuteger

∙ Patrick Manning faire une histoire globale de la socieacuteteacute humaineavec la mise en place drsquoun deacutepocirct unifieacute des donneacutees historiques 14

∙ Mais deux eacutecueils ∙ Travail solitaire de lrsquohistorien qui travaille seul sur ses propresjeux de donneacutees

∙ Historiens pas familiariseacutes avec les technologies offertes par leWeb seacutemantique

∙ Neacutecessiteacute de deacutevelopper des modegraveles de donneacutees quidonneront une structure agrave nrsquoimporte quelle donneacutee historique

13 Merontildeo Albert et al rdquoSemantic Technologies for Historical Research A SurveyrdquoSemantic Web Journal 2015 539-56414 Patrick Manning Big Data in History Palgrave Macmillan 2013

46

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 48: l’histoire et les humanités numériques

creacuteer des donneacutees historiques structureacutees

Objectif faciliter le partage lrsquoexploitation la diffusion etlrsquoagreacutegation des corpus de donneacutees historiques

∙ But du consortium Data for History∙ Etablir un modegravele de donneacutees commun pour modeacuteliser geacuterer etdiffuser des donneacutees historiques interopeacuterables dans le cadredu Web seacutemantique

∙ Deacuteveloppement drsquoun modegravele de donneacutees extension delrsquoontologie de lrsquoinformation relative au patrimoine culturelCIDOC CRM (CIDOC Conceptual Reference Model)

Travail collaboratif cumulatif visant agrave reacutepondre aux besoins deshistoriens

47

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 49: l’histoire et les humanités numériques

creacuteer des donneacutees historiques structureacutees

∙ Deacuteveloppement drsquoun modegravele conceptuel geacuteneacuterique pour lesdonneacutees historiques lrsquoexemple de SyMoGIH systegraveme modulairede gestion de lrsquoinformation historique

∙ Mise en place drsquoun systegraveme de stockage de lrsquoinformation pourpermettre aux historiens de produire des donneacutees analysablesavec des outils informatiques

∙ Mutualisation des donneacutees historiques perspectives nouvellespour reconstruire les dynamiques des socieacuteteacutes

48

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 50: l’histoire et les humanités numériques

creacuteer des donneacutees historiques structureacutees

∙ Utilisation de vocabulaires de modeacutelisation propres au webseacutemantique ndash Resource Description Framework (RDF)

∙ Creacuteation de donneacutees structureacutees crsquoest-agrave-dire des donneacuteesrdquoconstruites gracircce agrave un modegravele seacutemantique qui en explicite lesens et qui les rend intelligibles et immeacutediatement utilisablespar drsquoautres une fois que le modegravele est partageacute 15rdquo

∙ Production de donneacutees susceptibles de subir des traitementinformatiques en vue de les rendre interopeacuterables

15 Beretta Francesco rdquoLrsquointeropeacuterabiliteacute des donneacutees historiques et la question dumodegravele lrsquoontologie du projet SyMoGIHrdquo In Enjeux numeacuteriques pour les meacutediationsscientifiques et culturelles du passeacute Brigitte Juanals et Jean-Luc Minel (dir) Pressesuniversitaires de Paris Nanterre 2017

49

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 51: l’histoire et les humanités numériques

symogih

∙ Creacuteation drsquoune plateforme collaborative pour la recherche enhistoire

∙ Stockage des donneacutees primaires deacutecrivant toute activiteacutehumaine des textes codeacutees en XML-TEI (avec images etmeacutetadonneacutees)

∙ Lrsquoutilisation drsquoun Systegraveme drsquoInformation Geacuteographique

Quels apports du Web seacutemantique

50

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 52: l’histoire et les humanités numériques

creacuteer et rendre accessible une base de donneacutees

Figure ndash Systegraveme drsquoinformation des patrons et patronat franccedilais XIXe-XXe s

51

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 53: l’histoire et les humanités numériques

une eacutedition de textes

Figure ndash Meacutemoires de Leacuteonard Michon (1675-1746)

52

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 54: l’histoire et les humanités numériques

visualiser un reacuteseau

Figure ndash Reacuteseau des beacutedeacuteistes franccedilais en 1945

53

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 55: l’histoire et les humanités numériques

visualiser lrsquoeacutevolution des frontiegraveres europeacuteennes

Figure ndash Evolution des frontiegraveres politiques en Europe

54

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 56: l’histoire et les humanités numériques

lrsquohistoire publique numeacuterique

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 57: l’histoire et les humanités numériques

une histoire partageacutee

∙ Essor du Web 20 =gt de plus en plus de discours historiens enligne par des amateurs et des professionnels

∙ Deacutestabilisation de lrsquoautoriteacute (souvent acadeacutemique) commeunique proprieacutetaire de la connaissance

∙ Discours historique provient de lrsquoensemble de la socieacuteteacute rdquoEveryone is an historianrdquo Roy Rosenzweig (1998)

∙ Eclatement de la notion drsquoauteur avec eacutecriture collaborative =rdquoautoriteacute partageacuteerdquo ou rdquoshared authorityrdquo

Neacutecessiteacute de reconstruire les meacutethodes historiennes en tenantcompte du nouveau meacutedium qursquoest le web

56

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 58: l’histoire et les humanités numériques

lrsquohistoire publique

rdquoDans la tourdrsquoivoirerdquo in Livre dela bonne morale deJacques le Grant

(1360-1415)

∙ Jusque-lagrave seacuteparation entre le public et lesauteurs professionnels

∙ Auteurs acadeacutemiques travaillaient seuls∙ Histoire publique historienscommuniquent beaucoup plus avec lesautres

∙ Concept de rdquoShared authorityrdquo ou ldquoautoriteacutepartageacuteerdquo

∙ Parler au public et construire un dialogueavec la socieacuteteacute

57

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 59: l’histoire et les humanités numériques

lrsquohistoire publique numeacuterique

∙ Web = possibiliteacute aux historiens acadeacutemiques de rencontrer deplus vastes publics et de reacutepondre agrave leur besoin drsquohistoire

∙ Roy Rosenzweig interrogations sur lrsquoexistence sur le Web drsquounehistoire eacutecrite de maniegravere rdquolibre et ouverterdquo deacutefi poseacute parWikipeacutedia aux historiens acadeacutemiques face aux formesdrsquoeacutecriture collective

∙ Neacutecessiteacute de ∙ Former les jeunes historiens agrave un usage pertinent des moteurs derecherche

∙ Donner plus de place au deacuteveloppement de lrsquoesprit critique∙ Renforcer le libre accegraves aux sources de qualiteacute∙ Corriger et deacutevelopper les articles sur Wikipeacutedia

Pas seulement une affaire drsquohistoriens mais aussi une affairedrsquohistoriens dans la perspective de deacutevelopper une histoire rdquoopensourcerdquo eacutelaboreacutee et deacuteveloppeacutee de maniegravere collective

58

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 60: l’histoire et les humanités numériques

un exemple

PhotosNormandie

∙ PhotosNormandie sur Flickr compleacuteteretou relever les errurs drsquoattribution dephotographies publieacutees sur le Web

∙ Photos provenant drsquoun site institutionnelArchives Normandie 1939-1945 (reacutealiseacute parle Conseil Reacutegional de Basse-Normandie en2004 pour le 60egraveme anniversaire duDeacutebarquement ndash disparu )

∙ Flickr instrument de travail collectif pourre-documenter des images qui nrsquoont paseacuteteacute deacutecrites par des historiensprofessionnels

59

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 61: l’histoire et les humanités numériques

quelques projets embleacutematiques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 62: l’histoire et les humanités numériques

time machine europe

Time Machine Europe

Figure ndash Exemple La Venice Time Machine

61

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 63: l’histoire et les humanités numériques

lrsquohistoire sonore de paris

Figure ndash Restituer le passeacute sonore

62

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 64: l’histoire et les humanités numériques

the republic of letters

Figure ndash Visualiser la correspondance de Voltaire63

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 65: l’histoire et les humanités numériques

bibliographie

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie
Page 66: l’histoire et les humanités numériques

reacutefeacuterences

Disponibles sur Zotero https wwwzoteroorggroups2458100histoire_et_hn

65

  • Une relation ancienne
  • Laccegraves aux technologies numeacuteriques
  • La mise en donneacutees du monde
  • Lire de grands corpus
  • Lhistoire et le Web seacutemantique
  • Lhistoire publique numeacuterique
  • Quelques projets embleacutematiques
  • Bibliographie