archivage du web quelle mise en oeuvre 5à7_sep2012

Post on 21-May-2015

971 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Archivage du Web :Quelle mise en œuvre ?

Mercredi 25 septembre 2012 ADBS, Paris

Chloé Martin chloe@internetmemory.netLeïla Medjkoune leila.medjkoune@internetmemory.net

1

vendredi 19 octobre 2012

Internet Memory

Leïla MedjkouneResponsable des services d’archivage

Depuis 2007

Chloé MartinResponsable des partenariats et du développement

Depuis 2010

2

Deux entités pour une même cause, l’archivage du Web :

✓ Internet Memory Foundation, 2005 (anciennement European Archive)

✓ Internet Memory Research, spin-off d’IMF, 2011➡ 150 To de données, une douzaine d’institutions partenaires,

plusieurs projets de recherche, 20+ ETP motivés !

vendredi 19 octobre 2012

Archivage du Web :Quelle mise en œuvre ?

• Etat des lieux

• Vous avez dit Archivage du Web ?

• Cas Pratiques

• Pour aller plus loin...

3

vendredi 19 octobre 2012

Etat des lieux

• Omniprésence du Web et de ses contenus

• Pourquoi archiver le Web ?

• Qui archive le Web ?

• Enquête

4

vendredi 19 octobre 2012

Le Web ? Ici, là et ailleurs...

OmniprésentDynamique

Contenu Webdiversité des formats

Ephémèreprécieux

5

vendredi 19 octobre 2012

Omniprésence du Web• De 50 millions de sites actifs (déc.06) à 190

millions (sept.11) • 2,3 milliards d’utilisateurs Internet en déc.11

pour une population mondiale de 6,9 milliards• Boom des Média sociaux

• Facebook (n°1): 250 millions de photos par jour• YouTube (n°2): 830 millions de vidéos par jour • Twitter (n°15): 175 millions de Tweets par jour• LinkedIn (n°29):135 millions de profils

• E-gouvernement : 44% des procédures administratives des entreprises eur. sont traitées par voie électronique

!"#!"$!"%!"&!"'!"(!")!"*!"+!"

,-./0"

1232456.74"

189-:0"

;-<38=0"6.7"

>??0=3@.0"

A93.B0"

C3:-."

!"#$%&'%()*)+,"-.*%/%

6

vendredi 19 octobre 2012

Etat des lieux

• Omniprésence du Web et de ses contenus

• Pourquoi archiver le Web ?

• Qui archive le Web ?

• Enquête

7

vendredi 19 octobre 2012

• Patrimoine: le Web, un nouveau media• Contraintes légales

• dépôt légal, • e-gouvernement, • publications en ligne, • corporate

• Recherche• Knowledge Management, Data mining

Pourquoi archiver le Web ?8

vendredi 19 octobre 2012

Etat des lieux

• Omniprésence du Web et de ses contenus

• Pourquoi archiver le Web ?

• Qui archive le Web ?

• Enquête

9

vendredi 19 octobre 2012

Qui archive le Web?• Institutions privées

(Fondations) • Institutions publiques à

vocation patrimoniale• Archives nationales et régionales• Bibliothèques nationales, régionales

et universitaires• Musées• Organisations internationales

➡ IIPC

• Sociétés commerciales

10

vendredi 19 octobre 2012

Quelques initiatives...

๏ Internet Archive Foundation

๏ Bibliothèque du Congrès

๏ Archives Nationales UK

๏ ...

๏ International Internet Preservation Consortium

๏ International Web Archiving Workshop

๏ En France

‣ Bibliothèque nationale de France (BnF)

‣ Institut national de l’Audiovisuel (InA)

‣ Quelques initiatives universitaires : IEP, université de Lorraine,...

11

vendredi 19 octobre 2012

Etat des lieux

• Omniprésence du Web et de ses contenus

• Pourquoi archiver le Web ?

• Qui archive le Web ?

• Enquête

12

vendredi 19 octobre 2012

Enquête 2010 (Europe)74 réponses sur 365 institutions

8%7%1%7%

23%

5%19%

30%

Yes, fully operationalYes, operational but still experimentingYes, just starting a Web Archiving projectNo, but we plan to do itNo, no fundingNo, not in our mandateNo, an other institution is already in chargeanswered question

Legal Aspects % NbYes, law is enacted or passed 50% 34Yes, law is expected 16,2% 11Lobbying are in progress 7,4% 5No, we do not applicable law 26,5% 18Answered question 68

Access restriction % NbAccess is online for anyone 41% 25Access is online with restrictions 28% 17Access is on site for anyone 18% 11Access is on site with restrictions 21% 13We do not have access: contents are in a completely dark archive 21% 13

Answered questionAnswered question 61

Archive policy % Nb

Domain crawls - TLD (.uk, .eu, .com…) 23% 12

Thematic/selective crawls 71% 37

Only our Websites and associated Websites 30,8% 16

Answered questionAnswered question 52

13

vendredi 19 octobre 2012

Archivage du Web :Quelle mise en œuvre ?

• Etat des lieux

• Vous avez dit Archivage du Web ?

• Cas Pratiques

• Pour aller plus loin...

14

vendredi 19 octobre 2012

Vous avez dit Archivage Web ?

• L’archivage du Web en un clin d’oeil

• Besoin de compétences particulières ?

• Solutions : en interne ou en externe ? Quid du Retour sur Investissement

15

vendredi 19 octobre 2012

Quid ?Qu’est-ce qu’une archive Web ?

Une copie d’un site web enregistrée par un robot (crawler)

à une date et heure spécifiquesur lequel on peut naviguer

comme un site en ligne(vs copie d’écran et back-up)

Ex: http://collections.europarchive.org/tna/*/www.tate.org.uk

16

vendredi 19 octobre 2012

Défis d’un projet d’Archive Web

• Sélectionner ce qui sera préservé

• Définir des frontières

• Relever des défis technologiques

• Préserver un contenu non stable

• Rendre accessible

17

vendredi 19 octobre 2012

Comment ? Workflow18

vendredi 19 octobre 2012

CollecteCollection horizontale (extensif)

vs. Collection verticale (intensif)

19

vendredi 19 octobre 2012

Vous avez dit Archivage Web ?

• L’archivage du Web en un clin d’oeil

• Besoin de compétences particulières ?

• Solutions : en interne ou en externe ? Quid du Retour sur Investissement

20

vendredi 19 octobre 2012

Compétences

• Mettre en place une équipe multi-disciplinaire‣ Sélection/contrôle qualité: Bibliothécaire / Conservateur /

Archiviste, Assistant qualité, Chef de projet‣ Capture de contenu Web/développements: Ingénieur, technicien‣ Création et administration de l’infrastructure: Ingénieur,

administrateur système

➡ L’archivage du Web nécessite des compétences et une expérience cruciales, surtout dans le cas d’une solution entièrement en interne.

21

vendredi 19 octobre 2012

Vous avez dit Archivage Web ?

• L’archivage du Web en un clin d’oeil

• Besoin de compétences particulières ?

• Solutions : en interne ou en externe ? Quid du Retour sur Investissement

22

vendredi 19 octobre 2012

ArchiveWeb

+ -

solution interne

Contrôle de tout le processusBudgets internesEquipe en interneAutonome

Ressources humainesInfrastructures

solutionexterne

Déploiement rapideCoûts adaptables aux volumes collectés Economie d’échelle Etat de l’art

Dépendance à une société Problèmes organisationnels (langue, décalage horaire, IP,...)

En interne ou en externe ?23

vendredi 19 octobre 2012

Outils d’archivage24

• Netarchivesuite (http://netarchive.dk/suite/)

‣ Open source, développé au Danemark par la Royal Library et la State and University Library

• Web curator tool: (http://webcurator.sourceforge.net)

‣ Open source, développé par la National Library of New Zealand, la British Library, à l’initiative de IIPC (International Internet Preservation Consortium)

• Archive-it (http://www.archive-it.org/)

‣ service payant d’archivage Web, développé par Internet Archive

vendredi 19 octobre 2012

ArchivetheNet

• Software-as-a-Service ergonomique et intuitif• 3 modules de gestion automatisés :

• Administration• Collection• Rapports

• Processus entièrement automatisé (montée en charge)• Personnalisation du services grâce à des options (QA,...)• Actualisation en continu de l’outils

➡ Rapide déploiement➡ Bon Retour sur Investissement (ROI)

25

vendredi 19 octobre 2012

Archivage du Web :Quelle mise en œuvre ?

• Etat des lieux

• Vous avez dit Archivage du Web ?

• Cas Pratiques

• Pour aller plus loin...

26

vendredi 19 octobre 2012

Cas pratiques • Préservation

• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites

• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.

• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage

• Recherche

27

vendredi 19 octobre 2012

Préservation

• Garder une trace de l'information en ligne au fil des ans ✓ Parlement du Royaume-Uni ✓ CERN (où le Web est né il y a plus de 20 ans!)

• Construire une mémoire thématique de contenus en ligne✓ Bibliothèque nationale d'Irlande

• Fin de projets de recherche, disparition du site et du domaine ✓ Retour sur les projets de recherche européens, ✓ Inside Installations

• Refonte complète de sites✓ RTS

28

vendredi 19 octobre 2012

Pour une institutionArchives Web du Parlement anglais

29

vendredi 19 octobre 2012

Pour un événementBibliothèque nationale d’Irlande

146 sites archivés, avant, pendant et après la campagne électorale

30

vendredi 19 octobre 2012

Projets de recherche• FP6 (2000-2007): 10’000+ projets

financés, soit 17+ milliards d’€• Analyse de 200 projets (avril 2012)• 65% des projets ont fait l’objet d’un

site Web :➡ Tous les sites de projets finis depuis

moins de 2 ans sont encore accessibles

➡ 23% des sites de projets finis depuis 3 ans ont disparu

➡ 32% des sites de projets finis depuis 6 ans ont disparu

31

vendredi 19 octobre 2012

RTS: Refonte de siteD’une refonte de site à un changement d’identité

2010 début 2012 aujourd’hui version archivée version archivée version en ligne

32

vendredi 19 octobre 2012

Cas pratiques • Préservation

• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites

• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.

• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage

• Recherche

33

vendredi 19 octobre 2012

Multimedia & Réseaux sociaux

• Constituer des archives Web contextualisées

✓ Südwestrundfunk (SWR)

• Résoudre les difficultés d’Accès pour les réseaux sociaux

✓ YouTube ✓ Twitter

34

vendredi 19 octobre 2012

SWR: Festival Rock am RingContexte

- Evénement sur 3 jours

Taille de la campagne- Site officiel- Site de la TV- Sites des médias sociaux- Forum - Sites des médias traditionnels

Fréquence: 5 fois- 3 jour avant l’événement- les 3 jours de l’événement- 3 jour après l’événement

Profondeur- Complète pour 1re et 5e captures- Partiellement pour 2,3 et 4

Limites- Budget- Limites techniques- Restrictions légales- Ressources humaines

Bénéfices- une vue d’ensemble - suivre l’événement en temps réel

- garder une trace de la présence médiatique

Festival Rock-am-Ring

CompleteCrawl

CompleteCrawlPartial

CrawlPartialCrawl

PartialCrawl

35

vendredi 19 octobre 2012

SWR: Festival Rock am Ring36

vendredi 19 octobre 2012

Défi: Video37

• Développement d’une méthode de capture

• Remplacement du player utilisé

•Modification de l’outil d’accès pour reproduire l’accès en ligne

vendredi 19 octobre 2012

Défi : You Tube 38

Capture archivée Solution générique

vendredi 19 octobre 2012

Défi : Twitter 39

Capture archivée Solution générique

vendredi 19 octobre 2012

Cas pratiques • Préservation

• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites

• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.

• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage

• Recherche

40

vendredi 19 octobre 2012

Usages : Cas des Archives Nationales du Royaume Uni

• Transparence et visibilité :

✓ Redirection automatique ✓ Memento

• Alléger le poids de son site

✓ Redirection des Archives des sites vers l’Archive Web

• Statistiques d'usage

✓ Exemple de l’Archive Web d’Irlande

41

vendredi 19 octobre 2012

Visibilité

•Accès public •Recherche

• par URL et par date de capture• plein texte• navigation par catégorie

•Personnalisation• Logo• Bannière• Catégorie dans la recherche avancée

42

vendredi 19 octobre 2012

D’un site qui n’est plus en ligne43

vendredi 19 octobre 2012

aux archives du web44

vendredi 19 octobre 2012

et retour au web vivant45

vendredi 19 octobre 2012

Memento• Développement piloté

par le Los Alamos National Laboratory et

financé par la Bibliothèque du Congrès

• Vise à intégrer les archives Web à la navigation Web

vendredi 19 octobre 2012

Usage et Presse

0

100

200

300

400

500

600

700

800

900

1000

May 11

June

11

July

11

Augus

t 11

Sept. 1

1

Oct. 11

Nov. 1

1

Dec. 1

1

Jan.

12

Feb. 1

2

March 1

2

April 1

2

May 12

Unique visitors per month

• 21/09/2011: Lancement officiel de l’archive Web (Tweets)

• 26/10/2011: Post sur le Blog nli.ie/blog et article dans thejournal.ie

• 25/11/2011: article dans irishtimes.com• 20/01/2012: article dans irishtimes.com• 17/03/2012: post sur

soundofthearchives.wordpress.com• 04/05/2012: article dans irisheconomy.ie

Communication de la Bibliothèque nationale d’Irlande (NLI) sur son archive Web

47

vendredi 19 octobre 2012

Cas pratiques • Préservation

• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites

• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.

• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage

• Recherche

48

vendredi 19 octobre 2012

Exemples - Recherche

Projet de recherche thématique : enpolitique.com• Etude de l'évolution des sites web politiques lors de

campagnes nationales (France & Québec)• Pertinence du projet face à la disparition des sites

Ex: http://toushollande.fr fermé et redirigé vers la page Facebook du candidat élu

49

vendredi 19 octobre 2012

Archivage du Web :Quelle mise en œuvre ?

• Etat des lieux

• Vous avez dit Archivage du Web ?

• Cas Pratiques

• Pour aller plus loin...

50

vendredi 19 octobre 2012

Pour aller plus loin...

... face aux nombreux challenges du Web et de son archivage

• Web caché & profond• Spams & boucles• Sites dynamiques• Média sociaux• Multimedia• Web Mining

51

vendredi 19 octobre 2012

Internet Memory relève le défi

• Crawl sélectif : ✓ LiWA (2007-2010)

✓ ARCOMEM (2010-2013)

• Préservation :

✓ SCAPE (2010-2013)

• Big Data et traitement de l’information Web : ✓ LK (2009-2012)

✓ LAWA (2010-2013)

✓ TrendMiner (2011-2014)

✓ DOPA (2012-2014)

✓ AnnoMarket (2012-2014)

... et s’engage dans des projets de recherche

52

vendredi 19 octobre 2012

Internet MemoryInternet Memory Foundation

Amsterdam - Paris

• Fondation à but non lucratif

• Préservation & Open Access

http://internetmemory.org

@InternetMemory

Internet Memory ResearchParis

• Services d’Archivage

http://archivethe.net

@ArchivetheNet

• Services de traitement de l’information à grande échelle

http://mignify.com

@mignify

53

vendredi 19 octobre 2012

Merci de votre attention54

vendredi 19 octobre 2012

top related