archivage du web quelle mise en oeuvre 5à7_sep2012

54
Archivage du Web : Quelle mise en œuvre ? Mercredi 25 septembre 2012 ADBS, Paris Chloé Martin [email protected] Leïla Medjkoune [email protected] 1 vendredi 19 octobre 2012

Upload: adbs

Post on 21-May-2015

971 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Archivage du Web :Quelle mise en œuvre ?

Mercredi 25 septembre 2012 ADBS, Paris

Chloé Martin [email protected]ïla Medjkoune [email protected]

1

vendredi 19 octobre 2012

Page 2: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Internet Memory

Leïla MedjkouneResponsable des services d’archivage

Depuis 2007

Chloé MartinResponsable des partenariats et du développement

Depuis 2010

2

Deux entités pour une même cause, l’archivage du Web :

✓ Internet Memory Foundation, 2005 (anciennement European Archive)

✓ Internet Memory Research, spin-off d’IMF, 2011➡ 150 To de données, une douzaine d’institutions partenaires,

plusieurs projets de recherche, 20+ ETP motivés !

vendredi 19 octobre 2012

Page 3: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Archivage du Web :Quelle mise en œuvre ?

• Etat des lieux

• Vous avez dit Archivage du Web ?

• Cas Pratiques

• Pour aller plus loin...

3

vendredi 19 octobre 2012

Page 4: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Etat des lieux

• Omniprésence du Web et de ses contenus

• Pourquoi archiver le Web ?

• Qui archive le Web ?

• Enquête

4

vendredi 19 octobre 2012

Page 5: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Le Web ? Ici, là et ailleurs...

OmniprésentDynamique

Contenu Webdiversité des formats

Ephémèreprécieux

5

vendredi 19 octobre 2012

Page 6: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Omniprésence du Web• De 50 millions de sites actifs (déc.06) à 190

millions (sept.11) • 2,3 milliards d’utilisateurs Internet en déc.11

pour une population mondiale de 6,9 milliards• Boom des Média sociaux

• Facebook (n°1): 250 millions de photos par jour• YouTube (n°2): 830 millions de vidéos par jour • Twitter (n°15): 175 millions de Tweets par jour• LinkedIn (n°29):135 millions de profils

• E-gouvernement : 44% des procédures administratives des entreprises eur. sont traitées par voie électronique

!"#!"$!"%!"&!"'!"(!")!"*!"+!"

,-./0"

1232456.74"

189-:0"

;-<38=0"6.7"

>[email protected]"

A93.B0"

C3:-."

!"#$%&'%()*)+,"-.*%/%

6

vendredi 19 octobre 2012

Page 7: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Etat des lieux

• Omniprésence du Web et de ses contenus

• Pourquoi archiver le Web ?

• Qui archive le Web ?

• Enquête

7

vendredi 19 octobre 2012

Page 8: Archivage du web   quelle mise en oeuvre 5à7_sep2012

• Patrimoine: le Web, un nouveau media• Contraintes légales

• dépôt légal, • e-gouvernement, • publications en ligne, • corporate

• Recherche• Knowledge Management, Data mining

Pourquoi archiver le Web ?8

vendredi 19 octobre 2012

Page 9: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Etat des lieux

• Omniprésence du Web et de ses contenus

• Pourquoi archiver le Web ?

• Qui archive le Web ?

• Enquête

9

vendredi 19 octobre 2012

Page 10: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Qui archive le Web?• Institutions privées

(Fondations) • Institutions publiques à

vocation patrimoniale• Archives nationales et régionales• Bibliothèques nationales, régionales

et universitaires• Musées• Organisations internationales

➡ IIPC

• Sociétés commerciales

10

vendredi 19 octobre 2012

Page 11: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Quelques initiatives...

๏ Internet Archive Foundation

๏ Bibliothèque du Congrès

๏ Archives Nationales UK

๏ ...

๏ International Internet Preservation Consortium

๏ International Web Archiving Workshop

๏ En France

‣ Bibliothèque nationale de France (BnF)

‣ Institut national de l’Audiovisuel (InA)

‣ Quelques initiatives universitaires : IEP, université de Lorraine,...

11

vendredi 19 octobre 2012

Page 12: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Etat des lieux

• Omniprésence du Web et de ses contenus

• Pourquoi archiver le Web ?

• Qui archive le Web ?

• Enquête

12

vendredi 19 octobre 2012

Page 13: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Enquête 2010 (Europe)74 réponses sur 365 institutions

8%7%1%7%

23%

5%19%

30%

Yes, fully operationalYes, operational but still experimentingYes, just starting a Web Archiving projectNo, but we plan to do itNo, no fundingNo, not in our mandateNo, an other institution is already in chargeanswered question

Legal Aspects % NbYes, law is enacted or passed 50% 34Yes, law is expected 16,2% 11Lobbying are in progress 7,4% 5No, we do not applicable law 26,5% 18Answered question 68

Access restriction % NbAccess is online for anyone 41% 25Access is online with restrictions 28% 17Access is on site for anyone 18% 11Access is on site with restrictions 21% 13We do not have access: contents are in a completely dark archive 21% 13

Answered questionAnswered question 61

Archive policy % Nb

Domain crawls - TLD (.uk, .eu, .com…) 23% 12

Thematic/selective crawls 71% 37

Only our Websites and associated Websites 30,8% 16

Answered questionAnswered question 52

13

vendredi 19 octobre 2012

Page 14: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Archivage du Web :Quelle mise en œuvre ?

• Etat des lieux

• Vous avez dit Archivage du Web ?

• Cas Pratiques

• Pour aller plus loin...

14

vendredi 19 octobre 2012

Page 15: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Vous avez dit Archivage Web ?

• L’archivage du Web en un clin d’oeil

• Besoin de compétences particulières ?

• Solutions : en interne ou en externe ? Quid du Retour sur Investissement

15

vendredi 19 octobre 2012

Page 16: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Quid ?Qu’est-ce qu’une archive Web ?

Une copie d’un site web enregistrée par un robot (crawler)

à une date et heure spécifiquesur lequel on peut naviguer

comme un site en ligne(vs copie d’écran et back-up)

Ex: http://collections.europarchive.org/tna/*/www.tate.org.uk

16

vendredi 19 octobre 2012

Page 17: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Défis d’un projet d’Archive Web

• Sélectionner ce qui sera préservé

• Définir des frontières

• Relever des défis technologiques

• Préserver un contenu non stable

• Rendre accessible

17

vendredi 19 octobre 2012

Page 18: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Comment ? Workflow18

vendredi 19 octobre 2012

Page 19: Archivage du web   quelle mise en oeuvre 5à7_sep2012

CollecteCollection horizontale (extensif)

vs. Collection verticale (intensif)

19

vendredi 19 octobre 2012

Page 20: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Vous avez dit Archivage Web ?

• L’archivage du Web en un clin d’oeil

• Besoin de compétences particulières ?

• Solutions : en interne ou en externe ? Quid du Retour sur Investissement

20

vendredi 19 octobre 2012

Page 21: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Compétences

• Mettre en place une équipe multi-disciplinaire‣ Sélection/contrôle qualité: Bibliothécaire / Conservateur /

Archiviste, Assistant qualité, Chef de projet‣ Capture de contenu Web/développements: Ingénieur, technicien‣ Création et administration de l’infrastructure: Ingénieur,

administrateur système

➡ L’archivage du Web nécessite des compétences et une expérience cruciales, surtout dans le cas d’une solution entièrement en interne.

21

vendredi 19 octobre 2012

Page 22: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Vous avez dit Archivage Web ?

• L’archivage du Web en un clin d’oeil

• Besoin de compétences particulières ?

• Solutions : en interne ou en externe ? Quid du Retour sur Investissement

22

vendredi 19 octobre 2012

Page 23: Archivage du web   quelle mise en oeuvre 5à7_sep2012

ArchiveWeb

+ -

solution interne

Contrôle de tout le processusBudgets internesEquipe en interneAutonome

Ressources humainesInfrastructures

solutionexterne

Déploiement rapideCoûts adaptables aux volumes collectés Economie d’échelle Etat de l’art

Dépendance à une société Problèmes organisationnels (langue, décalage horaire, IP,...)

En interne ou en externe ?23

vendredi 19 octobre 2012

Page 24: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Outils d’archivage24

• Netarchivesuite (http://netarchive.dk/suite/)

‣ Open source, développé au Danemark par la Royal Library et la State and University Library

• Web curator tool: (http://webcurator.sourceforge.net)

‣ Open source, développé par la National Library of New Zealand, la British Library, à l’initiative de IIPC (International Internet Preservation Consortium)

• Archive-it (http://www.archive-it.org/)

‣ service payant d’archivage Web, développé par Internet Archive

vendredi 19 octobre 2012

Page 25: Archivage du web   quelle mise en oeuvre 5à7_sep2012

ArchivetheNet

• Software-as-a-Service ergonomique et intuitif• 3 modules de gestion automatisés :

• Administration• Collection• Rapports

• Processus entièrement automatisé (montée en charge)• Personnalisation du services grâce à des options (QA,...)• Actualisation en continu de l’outils

➡ Rapide déploiement➡ Bon Retour sur Investissement (ROI)

25

vendredi 19 octobre 2012

Page 26: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Archivage du Web :Quelle mise en œuvre ?

• Etat des lieux

• Vous avez dit Archivage du Web ?

• Cas Pratiques

• Pour aller plus loin...

26

vendredi 19 octobre 2012

Page 27: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Cas pratiques • Préservation

• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites

• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.

• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage

• Recherche

27

vendredi 19 octobre 2012

Page 28: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Préservation

• Garder une trace de l'information en ligne au fil des ans ✓ Parlement du Royaume-Uni ✓ CERN (où le Web est né il y a plus de 20 ans!)

• Construire une mémoire thématique de contenus en ligne✓ Bibliothèque nationale d'Irlande

• Fin de projets de recherche, disparition du site et du domaine ✓ Retour sur les projets de recherche européens, ✓ Inside Installations

• Refonte complète de sites✓ RTS

28

vendredi 19 octobre 2012

Page 29: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Pour une institutionArchives Web du Parlement anglais

29

vendredi 19 octobre 2012

Page 30: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Pour un événementBibliothèque nationale d’Irlande

146 sites archivés, avant, pendant et après la campagne électorale

30

vendredi 19 octobre 2012

Page 31: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Projets de recherche• FP6 (2000-2007): 10’000+ projets

financés, soit 17+ milliards d’€• Analyse de 200 projets (avril 2012)• 65% des projets ont fait l’objet d’un

site Web :➡ Tous les sites de projets finis depuis

moins de 2 ans sont encore accessibles

➡ 23% des sites de projets finis depuis 3 ans ont disparu

➡ 32% des sites de projets finis depuis 6 ans ont disparu

31

vendredi 19 octobre 2012

Page 32: Archivage du web   quelle mise en oeuvre 5à7_sep2012

RTS: Refonte de siteD’une refonte de site à un changement d’identité

2010 début 2012 aujourd’hui version archivée version archivée version en ligne

32

vendredi 19 octobre 2012

Page 33: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Cas pratiques • Préservation

• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites

• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.

• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage

• Recherche

33

vendredi 19 octobre 2012

Page 34: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Multimedia & Réseaux sociaux

• Constituer des archives Web contextualisées

✓ Südwestrundfunk (SWR)

• Résoudre les difficultés d’Accès pour les réseaux sociaux

✓ YouTube ✓ Twitter

34

vendredi 19 octobre 2012

Page 35: Archivage du web   quelle mise en oeuvre 5à7_sep2012

SWR: Festival Rock am RingContexte

- Evénement sur 3 jours

Taille de la campagne- Site officiel- Site de la TV- Sites des médias sociaux- Forum - Sites des médias traditionnels

Fréquence: 5 fois- 3 jour avant l’événement- les 3 jours de l’événement- 3 jour après l’événement

Profondeur- Complète pour 1re et 5e captures- Partiellement pour 2,3 et 4

Limites- Budget- Limites techniques- Restrictions légales- Ressources humaines

Bénéfices- une vue d’ensemble - suivre l’événement en temps réel

- garder une trace de la présence médiatique

Festival Rock-am-Ring

CompleteCrawl

CompleteCrawlPartial

CrawlPartialCrawl

PartialCrawl

35

vendredi 19 octobre 2012

Page 36: Archivage du web   quelle mise en oeuvre 5à7_sep2012

SWR: Festival Rock am Ring36

vendredi 19 octobre 2012

Page 37: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Défi: Video37

• Développement d’une méthode de capture

• Remplacement du player utilisé

•Modification de l’outil d’accès pour reproduire l’accès en ligne

vendredi 19 octobre 2012

Page 38: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Défi : You Tube 38

Capture archivée Solution générique

vendredi 19 octobre 2012

Page 39: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Défi : Twitter 39

Capture archivée Solution générique

vendredi 19 octobre 2012

Page 40: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Cas pratiques • Préservation

• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites

• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.

• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage

• Recherche

40

vendredi 19 octobre 2012

Page 41: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Usages : Cas des Archives Nationales du Royaume Uni

• Transparence et visibilité :

✓ Redirection automatique ✓ Memento

• Alléger le poids de son site

✓ Redirection des Archives des sites vers l’Archive Web

• Statistiques d'usage

✓ Exemple de l’Archive Web d’Irlande

41

vendredi 19 octobre 2012

Page 42: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Visibilité

•Accès public •Recherche

• par URL et par date de capture• plein texte• navigation par catégorie

•Personnalisation• Logo• Bannière• Catégorie dans la recherche avancée

42

vendredi 19 octobre 2012

Page 43: Archivage du web   quelle mise en oeuvre 5à7_sep2012

D’un site qui n’est plus en ligne43

vendredi 19 octobre 2012

Page 44: Archivage du web   quelle mise en oeuvre 5à7_sep2012

aux archives du web44

vendredi 19 octobre 2012

Page 45: Archivage du web   quelle mise en oeuvre 5à7_sep2012

et retour au web vivant45

vendredi 19 octobre 2012

Page 46: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Memento• Développement piloté

par le Los Alamos National Laboratory et

financé par la Bibliothèque du Congrès

• Vise à intégrer les archives Web à la navigation Web

vendredi 19 octobre 2012

Page 47: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Usage et Presse

0

100

200

300

400

500

600

700

800

900

1000

May 11

June

11

July

11

Augus

t 11

Sept. 1

1

Oct. 11

Nov. 1

1

Dec. 1

1

Jan.

12

Feb. 1

2

March 1

2

April 1

2

May 12

Unique visitors per month

• 21/09/2011: Lancement officiel de l’archive Web (Tweets)

• 26/10/2011: Post sur le Blog nli.ie/blog et article dans thejournal.ie

• 25/11/2011: article dans irishtimes.com• 20/01/2012: article dans irishtimes.com• 17/03/2012: post sur

soundofthearchives.wordpress.com• 04/05/2012: article dans irisheconomy.ie

Communication de la Bibliothèque nationale d’Irlande (NLI) sur son archive Web

47

vendredi 19 octobre 2012

Page 48: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Cas pratiques • Préservation

• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites

• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.

• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage

• Recherche

48

vendredi 19 octobre 2012

Page 49: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Exemples - Recherche

Projet de recherche thématique : enpolitique.com• Etude de l'évolution des sites web politiques lors de

campagnes nationales (France & Québec)• Pertinence du projet face à la disparition des sites

Ex: http://toushollande.fr fermé et redirigé vers la page Facebook du candidat élu

49

vendredi 19 octobre 2012

Page 50: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Archivage du Web :Quelle mise en œuvre ?

• Etat des lieux

• Vous avez dit Archivage du Web ?

• Cas Pratiques

• Pour aller plus loin...

50

vendredi 19 octobre 2012

Page 51: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Pour aller plus loin...

... face aux nombreux challenges du Web et de son archivage

• Web caché & profond• Spams & boucles• Sites dynamiques• Média sociaux• Multimedia• Web Mining

51

vendredi 19 octobre 2012

Page 52: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Internet Memory relève le défi

• Crawl sélectif : ✓ LiWA (2007-2010)

✓ ARCOMEM (2010-2013)

• Préservation :

✓ SCAPE (2010-2013)

• Big Data et traitement de l’information Web : ✓ LK (2009-2012)

✓ LAWA (2010-2013)

✓ TrendMiner (2011-2014)

✓ DOPA (2012-2014)

✓ AnnoMarket (2012-2014)

... et s’engage dans des projets de recherche

52

vendredi 19 octobre 2012

Page 53: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Internet MemoryInternet Memory Foundation

Amsterdam - Paris

• Fondation à but non lucratif

• Préservation & Open Access

http://internetmemory.org

@InternetMemory

Internet Memory ResearchParis

• Services d’Archivage

http://archivethe.net

@ArchivetheNet

• Services de traitement de l’information à grande échelle

http://mignify.com

@mignify

53

vendredi 19 octobre 2012

Page 54: Archivage du web   quelle mise en oeuvre 5à7_sep2012

Merci de votre attention54

vendredi 19 octobre 2012