formats de fichiers adaptés à l'archivage

19
Département fédéral de l'intérieur DFI Archives fédérales suisses AFS Division de la pérennisation de l’information DPI NORMES ET STANDARDS POUR L'ARCHIVAGE DE DOCUMENTS NUMÉRIQUES Instance responsable Archives fédérales suisses Division de la pérennisation de l’information Date Janvier 2014 Version Janvier 2014, remplace la version de juillet 2007 Suivi des modifications Version Description, remarque 06/2007 Première version juillet 2007 01/2014 Ajout du format MPEG-4 (vidéo), révision intégrale ––– Formats de fichiers adaptés à l'archivage

Upload: others

Post on 22-May-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

NORMES ET STANDARDS POUR L'ARCHIVAGE DE DOCUMENTS

NUMÉRIQUES

Instance responsable Archives fédérales suisses

Division de la pérennisation de l’information

Date Janvier 2014

Version Janvier 2014, remplace la version de juillet 2007

Suivi des modifications

Version Description, remarque

06/2007 Première version juillet 2007

01/2014 Ajout du format MPEG-4 (vidéo), révision intégrale

––– Formats de fichiers adaptés à l'archivage

Page 2: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

2

Table des matières

1 Introduction ................................................................................................................ 3

2 Formats d'archivage .................................................................................................. 4

2.1 Texte ............................................................................................................................................................ 4

2.2 PDF/A ........................................................................................................................................................... 5

2.3 CSV (Comma Separated Values) ................................................................................................................. 5

2.4 Format SIARD .............................................................................................................................................. 5

2.5 TIFF (Tagged Image File Format) ................................................................................................................ 6

2.6 WAVE ........................................................................................................................................................... 6

2.7 MPEG-4 ........................................................................................................................................................ 6

3 Standards ................................................................................................................... 7

3.1 Standard pour les données texte (non structurées) ...................................................................................... 7

TEXTE – Données "Texte brut" non structurées........................................................................................... 7

3.2 Standard pour les documents imprimables (structurés) ............................................................................... 9

PDF/A – Portable Document Format / Archive ............................................................................................. 9

3.3 Standard pour CSV (comma separated values) ......................................................................................... 11

CSV – comma separated values ................................................................................................................ 11

3.4 Standard pour les bases de données relationnelles ................................................................................... 13

SIARD – Software Independent Archiving of Relational Databases ........................................................... 13

3.5 Standard pour les images matricielles ........................................................................................................ 15

TIFF – TAGGED IMAGE FILE FORMAT .................................................................................................... 15

3.6 Standard pour les données audio ............................................................................................................... 17

WAVE – le format audio de Microsoft ......................................................................................................... 17

3.7 Standard pour les données vidéo ............................................................................................................... 18

MPEG-4 – format vidéo .............................................................................................................................. 18

Page 3: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

3

1 INTRODUCTION

Par « documents numériques » on entend ci-après les documents reçus ou établis par le biais des technologies

de l’information et de la communication et par « archivage numérique » leur conservation aux Archives fédérales

pour une durée indéterminée

Les services tenus de proposer leurs documents aux Archives fédérales veillent à les préparer de telle manière

que l'on puisse les évaluer sans surcroît de travail, voire, si on les a désignés comme ayant une valeur

archivistique, les archiver.1

Les formats et documents remis doivent être adaptés à l’archivage et satisfaire aux critères énumérés aux

chapitres 2 et 3. Les Archives fédérales déterminent les formats de fichiers adaptés à l’archivage, c’est-à-dire qui

respectent les exigences élevées permettant de garantir une compréhension sur le long terme.

Dans ce domaine, les Archives fédérales privilégient la qualité à la quantité. Un nombre clair et restreint de

formats soigneusement choisis est nettement plus à même de garantir la compréhension ultérieure qu’un grand

nombre de formats difficilement contrôlable, ces formats demandant en outre beaucoup d’entretien et dépendant

souvent des versions actuelles des applications informatiques.

Le présent document offre un aperçu des formats actuellement acceptés. Le site Internet des Archives fédérales

mentionne en outre les formats en cours d’évaluation en vue d’être intégrés à la liste des formats adaptés à

l'archivage.

1 OLAr, art. 5

Page 4: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

4

2 FORMATS D'ARCHIVAGE

Actuellement, les standards des AFS en matière de formats pour l’archivage de documents numériques sont les

suivants :

Domaine d'application Formats adaptés à l'archivage Remarques

Texte (non structuré) « Texte brut » (« plain text ») UTF-8

UTF-16

ISO-8859-1

ISO 8859-15

US-ASCII

Documents « Office » PDF/A correspond à PDF 1.4 avec des

restrictions

Tableaux CSV comma separated values

Bases de données relationnelles SIARD

Graphiques matriciels TIFF

Audio WAVE

Vidéo MPEG-4

Information générale : la liste des formats acceptés est limitée. Peu de fichiers doivent être convertis dans l'un de

ces formats. Cependant, un nombre conséquent de fichiers existent souvent déjà dans d’autres formats, tels que

PDF, JPEG ou MP3. Dans ces cas précis, les Archives fédérales offrent leurs conseils quant à la démarche à

adopter.

Les formats sont brièvement présentés dans les chapitres suivants. Vous trouverez le détail des normes des

Archives fédérales avec les informations et les restrictions correspondantes au chapitre suivant.

2.1 Texte

Convient aux : données texte simples, non structurées

Un fichier texte non structuré convient pour présenter un contenu texte pur acceptant des possibilités de structure

minimales (lignes) et qui ne nécessite aucune autre information de structure ou de présentation. Cela signifie qu’il

ne contient aucune instruction de présentation intégrée ou visible (caractères gras, retrait, couleur, etc.) ni

information sur la structure (titre, paragraphe, sous-paragraphe, table des matières, etc.). L’expérience a montré

que ce type de fichiers très simple présente les meilleures qualités de conservation et de compréhension.

Exemples : messages e-mail simples (texte brut, sans annexe), fichiers journaux ou brèves descriptions

(README.TXT).

Les jeux de caractères suivants sont autorisés :

US-ASCII

ISO 8859-1 et 8859-15 (Latin-1 et Latin-9)

Unicode (UTF-8, UTF-16)

Les fichiers dans d’autres jeux de caractères doivent être convertis à la norme Unicode, de préférence UTF-8. En

cas de doute concernant le jeu de caractères du document original, il convient de ne pas procéder à la

conversion.

Remarque : contrairement aux fichiers texte « simples », les fichiers texte structurés contiennent, outre le contenu

en tant que tel, des marques qui structurent le contenu ou comportent des indications de présentation

(formatage). Les marques sont des éléments de texte du même jeu de caractères, par ex. les tags dans XML, les

codes de commande dans PDF ou les séparateurs (souvent une virgule) pour CSV. A défaut d’information

Page 5: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

5

supplémentaire sur la structure et sa signification, de tels fichiers ne peuvent pas être interprétés et ne peuvent

pas être archivés comme fichiers texte purs. Le format txt ne convient pas non plus pour des documents très

volumineux.

2.2 PDF/A

Convient aux: documents « Office »

Le Portable Document Format (PDF) est un format ouvert (c’est-à-dire publié) propriétaire créé par la société

Adobe Systems Inc qui permet de décrire des pages imprimées. Il convient à la sauvegarde de documents dont

le contenu peut être correctement restitué sur des pages imprimées (par exemple documents Word, Excel, etc.).

Souvent, il ne convient pas à la restitution de fichiers HTML dans la mesure où des interactions, des scriptages et

des astuces de design limitant l’accessibilité empêchent souvent la bonne restitution sur des pages imprimées.

Le format PDF/A (PDF/Archive) normalisé ISO (Organisation internationale de normalisation), ouvert et non

propriétaire est basé sur le format ouvert propriétaire PDF 1.4 de la société Adobe Systems Inc., complété par les

restrictions ci-après qui sont indispensables à l’archivage :

- pas de référence à des données externes (tous les jeux de caractères utilisés dans le document doivent

notamment être intégrés à ce dernier) ;

- pas de cryptage ni de protection par mot de passe ;

- pas de code (programme) exécutable ;

- pas de contenus multimédia ;

- quelques rares métadonnées.

La norme ISO entrée en vigueur en 2006 porte la désignation précise de PDF/A-1. ISO prévoit à l’avenir

d’adopter d’autres éléments normatifs (par exemple concernant l’utilisation recommandée).

Il existe deux niveaux de conformité pour ce standard : PDF/A-1a et PDF/A1-b. Tout document qui respecte la

norme PDF/A-1a, plus sévère, respecte logiquement la norme PDF/A-1b, plus souple.

Les Archives fédérales acceptent les documents conformes à la norme PDF/A-1b et les considèrent comme

conformes à PDF/A. Elles recommandent toutefois de respecter la norme PDF/A-1a dans la mesure du possible.

Outre la restitution précise des pages, celle-ci garantit en effet une meilleure accessibilité à laquelle la

Confédération est contrainte en vertu de directives internes.

Globalement, tout document pouvant être imprimé et dont la version imprimée restitue correctement le contenu

des documents peut être converti en PDF/A pour l’archivage.

2.3 CSV (Comma Separated Values)

Convient aux : données organisées sous forme de tableau

Les données CSV sont des données texte structurées. Chaque ligne présente des champs (colonnes) qui sont

séparés par une virgule ou un autre caractère choisi. Ce format permet d’archiver très facilement des tableaux.

Les applications telles qu’Excel ou OpenOffice permettent la sauvegarde et la lecture de données CSV.

On mentionnera le format SIARD comme alternative pour les tableaux volumineux (plus de 50 000 lignes ou de

200 colonnes) ou en cas de liaisons entre plusieurs tableaux.

2.4 Format SIARD

Convient aux : bases de données relationnelles

SIARD Suite est destiné à l'archivage de bases de données relationnelles. Ce logiciel extrait (télécharge) les

données nécessaires d'une base de données relationnelles (informations structurelles et contenus) et crée à

partir de celles-ci un fichier adapté à l'archivage au format SIARD. Il permet de décrire plus précisément la base

de données et sa structure en complétant les métadonnées (par exemple signification des tableaux et / ou des

colonnes).

Actuellement, les produits suivants sont pris en charge :

Page 6: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

6

IBM DB2 (à partir de la version 1.60)

Microsoft SQL Server

Microsoft Access

Oracle MySQL

Oracle Database

SIARD Suite est une application basée sur Java et peut à ce titre être utilisée sur toutes les plateformes

courantes supportant Java (Java 1.6 ou version postérieure). Le logiciel comprend des outils interactifs et utilisant

des scripts batch.

Les Archives fédérales mettent SIARD Suite gratuitement à disposition des services envoyant des documents et

des autres institutions intéressées.

2.5 TIFF (Tagged Image File Format)

Convient aux : données d’image (données d'images matricielles)

Le format TIFF sauvegarde les images sous forme d'images matricielles (graphique pixel ou bitmap), une

succession de pixels sous forme de tableau (éléments d’image) auxquels sont attribuées des couleurs.

Le format TIFF est souple et extensible. Certaines restrictions sont donc nécessaires pour garantir la

compréhension à long terme. Les principales sont mentionnées brièvement ici (voir aussi chapitre 3) :

pas de compression (exception : images en noir et blanc);

les AFS n’acceptent ps les extensions propriétaires. Toutefois, elles doivent respecter le standard.

Les images numériques dans d’autres formats (p. ex. JPEG, GIF) doivent être converties au format TIFF.

2.6 WAVE

Convient aux : données audio

Les fichiers WAVE contiennent des données audio numériques, principalement des données codées PCM (pulse

code modulation). Les Archives fédérales acceptent les fichiers audio codés PCM et recommandent de les fournir

avec une qualité élevée.

Le chapitre 3 présente des scénarios avec des propositions concrètes.

2.7 MPEG-4

Convient aux : données vidéo

MPEG-4 est à la fois une méthode de compression et le format de fichier correspondant, qui permet d'enregistrer

des données vidéo numériques. Ce format est défini par le Moving Picture Experts Group (MPEG) et publié en

tant que norme ISO.

MPEG-4 comprime considérablement les données vidéo afin de supporter également les domaines d'application

disposant de peu de ressources ou de faibles bandes passantes. MPEG-4 est une norme moderne qui atteint des

taux de compression plus élevés que le format MPEG-2 par exemple, pour une qualité inchangée.

Recommandation : MPEG-4 est la norme acceptée par les Archives fédérales pour la livraison de données vidéo.

Il convient d'en tenir compte suffisamment tôt dans les nouveaux projets où des données vidéo sont générées

et / ou traitées.

Restrictions : il faut tenir compte de l'importante restriction suivante :

pas de gestion des droits numériques (pour MPEG-4).

Vous trouverez d'autres restrictions / recommandations dans les descriptions détaillées des formats.

Remarque : le transcodage (conversion d'un format dans un autre, p. ex. MPEG-2 ou WMF en MPEG-4) ainsi

que la décompression et la recompression qui s'ensuit entraînent à chaque fois une perte d'informations en

raison de l'algorithme de compression avec perte de MPEG-4. Dans les situations extrêmes, ceci est déjà visible

après quelques cycles. Avant de convertir au format MPEG-4 un fichier contenant un très grand nombre de

données vidéo qui ne sont pas encore dans un format adapté à l'archivage, le service livrant des documents doit

vérifier auprès des Archives fédérales comment procéder exactement.

Page 7: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

7

3 STANDARDS

3.1 Standard pour les données texte (non structurées)

TEXTE – Données « Texte brut » non structurées

IDENTIFICATEUR OBLIGATOIRE

TEXT – Text Plain

EXTENSION DE FICHIER

Extension de fichier recommandée : .txt

Les fichiers texte sont parfois dotés d’autres extensions (p. ex. .log, .dat, .lst). C’est le cas notamment des fichiers texte structurés. Il n’est pas indispensable de renommer avec une extension .txt des fichiers texte non structurés, en particulier lorsque l'extension d'origine a un sens particulier et fournit une information sur l’usage d’origine du fichier.

Identifiants uniques (PUID) du registre de format PRONOM

x-fmt/16, x-fmt/21, x-fmt/22, x-fmt/62, x-fmt/111, x-fmt/282, x-fmt/283

SPÉCIFICATIONS OBLIGATOIRES

Codages de jeux de caractères autorisés pour les fichiers « texte brut » :

ISO Latin-1 (ISO 8859-1) et ISO Latin-9 (ISO 8859-15)

Unicode 5.0 Universal Character Set (UCS) (ISO 10646:2003)

US-ASCII (ANSI X3.4-1986) ou US-ASCII « safe characters »

ISO Latin-1 (ISO 8859-1) et ISO Latin-9 (ISO 8859-15)

La norme ISO 8859 est un groupe de 15 codages de jeux de caractères pour divers alphabets.

Source: Organisation internationale de normalisation, ISO/CEI 8859-1 « Information technology -- 8-bit single-byte coded graphic character sets -- Part 1: Latin alphabet No. 1 »

Unicode

Unicode est un standard international qui définit durablement un code numérique pour chaque signe ou élément de texte significatif de toutes les cultures écrites et systèmes de signes connus.

On trouve dans Unicode les principaux jeux de caractères ISO en reproduction à l’identique (comme par exemple les normes(de la série 8859). Cela signifie qu’en cas de conversion de ISO vers Unicode puis de conversion d’Unicode vers ISO, le résultat reste identique. De nos jours, la plupart des navigateurs Web présentent ces jeux de caractères avec une écriture codée Unicode, généralement de manière parfaite et sans que l’utilisateur ne le remarque.

Le terme « Universal Character Set (USC) », issu de la norme ISO 10646, peut aussi être utilisé comme alternative au jeu de caractère Unicode.

Les codages suivants d'Unicode sont autorisés:

UTF-8 (un codage 8 bits, de longueur variable, offre une compatibilité maximale avec US-ASCII)

UTF-16 (un codage 16 bits, de longueur variable)

UCS-2 et UTF-7 sont considérés comme caducs et ne devraient plus être utilisés.

Sources : ISO 10646:2003 sous Publicly Available Standards

Page 8: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

8

US-ASCII (ANSI X3.4-1986) ou « safe characters »

D’une manière générale, le jeu de caractères US-ASCII selon le standard ANSI X3.4-1986 ou ISO/IEC 646-US ou encore ISO/IEC 646:1991-IRV (international reference version) est autorisé. Aucune autre désignation « ASCII » n’est adaptée à l’archivage.

Compte tenu des « variantes nationales » (par exemple dans les standards ISO/IEC 646), certains caractères du jeu de caractères US-ASCII @ [ \ ] { | } sont peu sûrs et peuvent être transférés ou interprétés de manière incorrecte lors d’un échange international de données texte.

Il est recommandé de n’utiliser que les codes de caractères considérés comme sûrs, les « safe characters ». Outre les lettres de l’alphabet (A à Z et a à z), les chiffres (0 à 9), l’espace ( ), seuls les signes suivants sont considérés comme sûrs :

! " % & ' ( ) * + , - . / : ; < = > ?

─ Sources :

─ Wikipedia, L’encyclopédie libre : ASCII

Information technology -- ISO 7-bit coded character set for information interchange, IRV international reference version : ISO/IEC 646:1991

PROPRIÉTAIRE

Normes ISO/CEI : Organisation internationale de normalisation

Normes ANSI: American National Standards Institute (Institut de normalisation américaine)

TYPE

Format de fichier et format de données

DOMAINES D’APPLICATION

Données texte (textes simples, non structurés)

Un fichier texte non structuré convient pour présenter un contenu texte pur acceptant des possibilités de structure minimales (lignes) et qui ne nécessite aucune autre information de structure ou de présentation. Cela signifie qu’il ne contient aucune instruction de présentation intégrée ou visible (caractères gras, retrait, couleur, etc.) ni information sur la structure (titre, paragraphe, sous-paragraphe, table des matières, etc.).

Exemples : messages e-mail simples (texte brut, sans annexe), fichiers journaux ou brèves

descriptions (README.TXT)

Si les données sont structurées, il faut utiliser d’autres standards :

- pour une structure sous forme de tableau : CSV

- pour des documents Office : PDF/A

RESTRICTIONS OBLIGATOIRES DE L’APPLICATION

Les données « texte brut » non structurées ne doivent pas contenir de caractères de commande, sauf les sauts de ligne (LF), les retours chariot (CR), les sauts de page (FF) et les tabulations (TAB).

Le caractère 0 (NUL) est interdit.

RECOMMANDATIONS DES ARCHIVES FÉDÉRALES POUR LA PRODUCTION DE CE FORMAT D’ARCHIVAGE

Les fichiers dans d’autres jeux de caractères que ceux précisés précédemmentdoivent être convertis à la norme Unicode, de préférence UTF-8. En cas de doute concernant le jeu de caractères du document original, il ne faut pas procéder à la conversion.

REMARQUES ET RECOMMANDATIONS

En présence de grandes quantités de fichiers texte à archiver, dont le codage de caractères est inconnu, merci de consulter au préalable les Archives fédérales.

Page 9: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

9

3.2 Standard pour les documents imprimables (structurés)

PDF/A – Portable Document Format / Archive

IDENTIFICATEUR OBLIGATOIRE

PDF/A – PDF/Archive

EXTENSION DE FICHIER

Extensions de fichier recommandées : .pdfa, .pdf

Les documents PDF selon PDF 1.4 avec extension .pdf respectent souvent les restrictions de PDF/A. C’est la validation du format et non l’extension du fichier qui est déterminante pour la conformité à PDF/A.

Identifiants uniques (PUID) du registre de format PRONOM

fmt/95, fmt/354

SPÉCIFICATIONS OBLIGATOIRES

ISO PDF/A-1

ISO 19005-1:2005 Document management – Electronic document file format for long-term preservation – Part 1: Use of PDF 1.4 (PDF/A-1)

Ce standard ISO est une restriction de PDF 1.4. ISO prévoit de faire suivre d’autres normes d’utilisation, etc.

ISO PDF/A-1 Corrigendum

ISO 19005-1:2005/Cor.2:2011 Document management – Electronic document file format for long-term preservation – Part 1: Use of PDF 1.4 (PDF/A-1); TECHNICAL CORRIGENDUM 2

Source : Organisation internationale de normalisation

PDF 1.4

PDF Reference third edition, Adobe Portable Document Format, Version 1.4, Addison Wesley, 2001,

ISBN 0-201-75839-3

PDF 1.4 Spécification de la version 1.4 du langage de description des pages PDF (Portable Document Format) de Adobe Systems Inc. sous http://www.adobe.com/devnet/pdf/pdf_reference.html.

XMP

Spécification XMP: XMP Adding Intelligence to Media, Adobe Systems Inc., 2004

Spécification XMP de la « Extensible Metadata Platform ». Voir :

http://www.adobe.com/devnet/xmp.html

PROPRIÉTAIRE

Normes ISO/CEI : Organisation internationale de normalisation

Normes Adobe Systems, Inc. : Adobe Systems Inc.

TYPE

Format de fichier et format de données

DOMAINES D’APPLICATION

Documents « Office » imprimables.

Un fichier est archivé au format PDF/A lorsque sa version imprimée restitue correctement son contenu. La teneur en informations de la version PDF correspond à la version imprimée.

Au format PDF, les caractères et les mots sont sauvegardés comme des signes et non comme des points. En conséquence, il convient de préférer le format PDF/A au format TIFF pour présenter les pages dès que le fichier contient une information de signes textuelle et n’est pas uniquement un patron de conception pour un fichier image.

RESTRICTIONS OBLIGATOIRES DE L’APPLICATION

Les données PDF/A doivent être validées au moins comme PDF/1-1b.

RECOMMANDATIONS DES ARCHIVES FÉDÉRALES POUR LA PRODUCTION DE CE FORMAT

Page 10: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

10

D’ARCHIVAGE

Pour la conversion de fichiers Word et Excel au format PDF/A, il faut utiliser les plugins

correspondants d’Adobe.

REMARQUES ET RECOMMANDATIONS

Les documents au format PDF/A sont difficiles à modifier (de ce point de vue également, ils

ressemblent à une version imprimée). La conversion au format PDF/A doit être effectuée lorsque le document n’a plus à être modifié. L’auteur du document doit effectuer la conversion le plus rapidement possible (et ne pas charger les Archives fédérales de le faire au bout de dix ans). En effet, il est le seul à pouvoir vérifier que la version imprimée reproduit correctement le document.

Page 11: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

11

3.3 Standard pour CSV (comma separated values)

CSV – comma separated values

IDENTIFICATEUR OBLIGATOIRE

CSV – Comma Separated Values

EXTENSION DE FICHIER

Extension de fichier obligatoire : .csv

Identifiants uniques (PUID) du registre de format PRONOM

fmt/18

SPÉCIFICATIONS OBLIGATOIRES

RFC 4180: Common Format and MIME Type for Comma-Separated Values (CSV) Files

Sources : RFC4180 - Shafranovich, Y., “« Common Format and MIME Type for Comma-Separated Values (CSV) Files» , RFC 4180, October 2005. http://www.ietf.org/rfc/rfc4180.txt

Codages de jeux de caractères autorisés pour les fichiers CSV :

ISO Latin-1 (ISO 8859-1) et ISO Latin-9 (ISO 8859-15)

Unicode 5.0 Universal Character Set (UCS) (ISO 10646:2003)

US-ASCII « safe characters » (ANSI X3.4-1986)

Vous trouverez des informations sur les codages de jeux de caractères cités par le standard pour les fichiers « texte brut ».

Bien qu'il existe diverses spécifications et implémentations pour CSV, il n’y a pas de standard formel qui gère toutes les variantes existantes des fichiers CSV. Le mémo RFC 4180 décrit le format compris par la majorité des implémentations. Il sert de base au format AFS.

Les lignes du tableau sont désignées ci-après par le terme « entrée(s) » et les colonnes par le terme « champ(s) ». Dans un fichier CSV, les champs sont séparés par un séparateur (généralement une virgule).

1. Chaque entrée tient en principe sur une ligne (exception : voir point 6) qui finit par un saut de ligne (ASCII LF ou ASCII CRLF ou ASCII CR). Par exemple :

aaa,bbb,ccc CRLF

xxx,yyy,zzz CRLF

2. La dernière entrée du fichier ne se termine pas obligatoirement par un saut de ligne :

aaa,bbb,ccc CRLF

xxx,yyy,zzz

3. Il est recommandé de présenter la première ligne comme en-tête (header), au même format que les autres. L'en-tête comprendra les noms des champs du tableau. Le format CSV ne comporte aucune information sur la présence d’un en-tête. Celui-ci doit être établi en externe (p. ex., avec le paramètre optionnel « header » du type MIME). Exemple :

Nom du champ 1,Nom du champ 2,Nom du champ 3 CRLF

aaa,bbb,ccc CRLF

xxx,yyy,zzz CRLF

4. L'en-tête et chaque entrée comprennent plusieurs champs séparés par des virgules. Chaque ligne doit contenir le même nombre de champs. Les espaces sont importants et ne doivent pas être ignorés. Le dernier champ ne doit pas être suivi d’une virgule:

aaa,bbb,cc cc,ddd

5. Chaque champ peut mais ne doit pas nécessairement être placé entre guillemets (double quotes). Si des champs ne sont pas placés entre guillemets, aucun guillemet ne doit apparaître à l’intérieur des champs :

"aaa",bbb,"ccc" CRLF

xxx,yyy,zzz CRLF

6. Les champs qui comportent des sauts de ligne (CRLF), des guillemets ou des virgules doivent être placés entre guillemets :

"aaa","b CRLF

bb","ccc" CRLF

Page 12: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

12

xxx,yyy,"z,zz" CRLF

Dans la mesure du possible, il vaut mieux éviter cette situation spéciale, car de nombreux programmes (p. ex. Excel, Access) l’interprètent de manière erronée.

7. Un guillemet dans un champ doit être précédé d’un autre guillemet. Le champ doit être placé entre guillemets :

"aaa","b""bb","ccc" CRLF

Extension de RFC 4180 autorisée par les AFS

8. On peut choisir un autre séparateur (delimiter) qu’une virgule. Les règles ci-dessus

s’appliquent par analogie. Les séparateurs suivants sont autorisés :

Caractère Code ASCII

; 0x3B

| 0x7C

# 0x23

En principe, en cas de divergences dépassant le cadre des règles 1 à 8, il faut contacter les Archives fédérales au préalable.

PROPRIÉTAIRE

RFC Standards : The Internet Engineering Task Force http://www.ietf.org

TYPE

Format de fichier et format de données

DOMAINES D’APPLICATION

Données organisées sous forme de tableau

Tableaux Excel si le contenu du tableau est important (contrairement à la présentation).

Divers tableaux de petites bases de données (MS Access, MySQL, etc.). Si les bases de données sont volumineuses ou contiennent plusieurs tableaux liés les uns aux autres, il faut utiliser SIARD (voir standard pour les bases de données relationnelles).

RESTRICTIONS OBLIGATOIRES DE L’APPLICATION

Les lignes d’un fichier CSV doivent toujours comporter le même nombre de champs. Les fichiers CSV qui dérogent à cette règle ne sont pas autorisés.

RECOMMANDATIONS DES ARCHIVES FÉDÉRALES POUR LA PRODUCTION DE CE FORMAT D’ARCHIVAGE

-

REMARQUES ET RECOMMANDATIONS

En cas de doute sur l’adéquation de CSV ou de SIARD pour des données Excel ou une petite base de données, s’adresser aux Archives fédérales.

Page 13: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

13

3.4 Standard pour les bases de données relationnelles

SIARD – Software Independent Archiving of Relational Databases

IDENTIFICATEUR OBLIGATOIRE

Format SIARD

EXTENSION DE FICHIER

Extension de fichier obligatoire : .siard

Identifiants uniques (PUID) du registre de format PRONOM

fmt/161

SPÉCIFICATIONS OBLIGATOIRES

SIARD Suite crée un fichier au format SIARD en extrayant les données d'une base de données relationnelles, selon la spécification »Description du format SIARD » du 15 novembre 2011.

L'extraction nécessite une connexion à la base de données avec les autorisations correspondantes. Le tableau ci-après présente un aperçu :

Base de données Type de connexion Remarques

IBM DB2 DB/2 host:port/DBNAME

Microsoft SQL Server SQL Server host:port/DBNAME

Microsoft Access ODBC ODBC connection name

Oracle Database Oracle host:port:SID

Oracle MySQL MySQL host:port/DBNAME

Sources : Archives fédérales suisses, 3003 Berne http://www.bar.admin.ch/dienstleistungen/00823/00825/index.html?lang=fr

PROPRIÉTAIRE

©2005-2014 Archives fédérales suisses

TYPE

Format de fichier et format de données

DOMAINES D’APPLICATION

Bases de données relationnelles

RESTRICTIONS OBLIGATOIRES DE L’APPLICATION

Les fichiers de la documentation jointe d’une base de données relationnelles archivée au format SIARD doivent être enregistrés dans un format d’archivage standard prescrit par les Archives fédérales (voir Spécification Submission Information Package (SIP), V4.0, mars 2012)

Si les tableaux contiennent des colonnes de type BLOB (binary large object), les éventuels fichiers qu’ils contiendraient doivent être enregistrés dans un format d’archivage standard prescrit par les Archives fédérales.

RECOMMANDATIONS DES ARCHIVES FÉDÉRALES POUR LA PRODUCTION DE CE FORMAT D’ARCHIVAGE

Page 14: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

14

L'utilisation du logiciel SIARD Suite est obligatoire actuellement, car il s'agit de la seule application

pouvant générer le format SIARD. Le logiciel SIARD Suite comprend une application basée sur une interface graphique, des scripts batch pour les extractions non interactives ainsi qu'un manuel d'utilisation détaillé. L'ensemble du logiciel est implémentée sous Java et ne dépend pas de la plateforme. SIARD Suite a été testé sur Microsoft Windows, Linux et Mac OS X.

Le logiciel est composé d'une application basée sur une interface graphique (SiardEdit) et de deux outils utilisant des scripts batch (SiardFromDb et SiardToDb). SiardEdit dispose de la fonctionnalité de SiardFromDb et de SiardToDb pour télécharger une base de données relationnelles. SiardEdit permet en outre de voir et de parcourir les données primaires ainsi que d'adapter et / ou de compléter les métadonnées.

Source : Archives fédérales suisses

http://www.bar.admin.ch/dienstleistungen/00823/00825/index.html?lang=fr

Un logiciel complet ne nécessitant aucune autre application ou aucun composant du logiciel est fourni. SIARD Suite peut être installé ou exécuté directement à partir d'une clé USB.

REMARQUES ET RECOMMANDATIONS

Le format SIARD est basé sur ZIP64, ce qui signifie qu'un fichier SIARD est un fichier ZIP non

compressé. Il peut être ouvert et lu uniquement pas le biais d'une application compatible avec ZIP64, telle que PKZIP ou SiardEdit. Les outils ZIP traditionnels et connus (Winzip, explorateur de fichiers avec fonctionnalité ZIP intégrée, etc.) ne sont pas adaptés, car ils sont basés sur le format ZIP 32 bits.

Page 15: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

15

3.5 Standard pour les images matricielles

TIFF – TAGGED IMAGE FILE FORMAT

IDENTIFICATEUR OBLIGATOIRE

TIFF – Tagged Image File Format

EXTENSION DE FICHIER

Extensions de fichier recommandées : .tif, .tiff

Identifiants uniques (PUID) du registre de format PRONOM

fmt/353

SPÉCIFICATIONS OBLIGATOIRES

Révision 6.0 du 3 juin 1992 et révision 6.0.1 du 15 octobre 1995

Source : http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf

PROPRIÉTAIRE

©1986-1988, 1992 Adobe Systems Inc., U.S.A.

TYPE

Format de fichier et format de données

DOMAINES D’APPLICATION

Images matricielles (noir et blanc, niveaux de gris, couleur)

RESTRICTIONS OBLIGATOIRES DE L’APPLICATION

Les fichiers TIFF doivent être validés TIFF 6.

EXTENSIONS PROPRIÉTAIRES : les extensions de format par les fabricants de logiciel ne sont autorisées que si elles satisfont parfaitement aux exigences de la norme en la matière. En cas de doute, le service livrant des documents doit obtenir la confirmation écrite du fabricant du logiciel. Les extensions propriétaires (private fields and values) doivent en particulier être implémentées en dessus du numéro de tag ou des numéros de constantes 32767. Attention : même si elles sont implémentées conformément à la norme, ces extensions ne sont pas acceptées par les Archives fédérales.

C’est notamment le cas des TIFF Enhancements for Adobe Photoshop®, ce qui signifie notamment que le tag image-source 37724 inscrit par Adobe™ Photoshop® ne l’est pas non plus. L’utilisation des deux autres options « Advanced TIFF » de Adobe™ Photoshop® – ZIP/zlib et de compression JPEG est exclue. De même, les TIFF Enhancements for Adobe™ PageMaker® 6.0 et les Kodak™ TIFF Extensions ne sont expressément pas acceptées.

Adobe™ Photoshop TIFF Enhancements für Adobe™ Photoshop® :

http://partners.adobe.com/public/developer/en/tiff/TIFFphotoshop.pdf

TIFF Enhancements for Adobe™ PageMaker® 6.0 :

http://partners.adobe.com/public/developer/en/tiff/TIFFPM6.pdf

Kodak™ TIFF Extensions : adressez-vous directement à Eastman Kodak Company.

Pour les autres logiciels : consultez la documentation du fabricant.

MULTIPAGE-TIFF : l’intégration de plusieurs pages dans un seul fichier TIFF (Multipage-TIFF, plusieurs IFD) n’est pas autorisée.

Si la même image doit être archivée en diverses résolutions ou profondeurs de bit, il faut créer différents fichiers dans différents dossiers afin de permettre de gérer facilement chacune des différentes versions.

Pour l'archivage d'un document contenant plusieurs pages, il conviendra d'utiliser le format PDF/A.

RECOMMANDATIONS DES ARCHIVES FÉDÉRALES POUR LA PRODUCTION DE CE FORMAT D’ARCHIVAGE

-

Page 16: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

16

REMARQUES ET RECOMMANDATIONS

TIFF utilise des offsets de fichiers de 4 octets. L a quantité de données d'image d’un fichier TIFF ne peut donc dépasser 4 Go (comprimé).

En présence d’une grande quantité de fichiers TIFF à archiver au format « GeoTIFF » (http://www.remotesensing.org/geotiff/geotiff.html), il conviendra de consulter les Archives fédérales.

Page 17: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

17

3.6 Standard pour les données audio

WAVE – le format audio de Microsoft

IDENTIFICATEUR OBLIGATOIRE

WAVE

IDENTIFICATEUR ALIAS: WAVEFORMAT, PCMWAVEFORMAT

EXTENSION DE FICHIER

Extension de fichier obligatoire : .wav

Identifiants uniques (PUID) du registre de format PRONOM

fmt/1, fmt/2, fmt/6, fmt/141

SPÉCIFICATIONS OBLIGATOIRES

Il n’existe pas de standard publié pour les fichiers WAVE. Le format WAVE est une implémentation du format RIFF (Ressource Interchange Format) de Microsoft Corporation. Il est autorisé comme publication.

Sources : Multimedia Programming Interface and Data Specifications 1.0, publié par IBM Corporation et Microsoft Corporation, août 1991. Disponible également chez : http://www.tactilemedia.com/info/MCI_Control_Info.html. WAVEFORMAT (structure) de Microsoft.

PROPRIÉTAIRE

©1991 Microsoft Corporation

TYPE

Format de fichier et format de données

DOMAINES D’APPLICATION

Données audio

RESTRICTIONS OBLIGATOIRES DE L’APPLICATION

Seul le default Microsoft Pulse Code Modulation (LPCM) Codec est autorisé. Byte-Offset 20 (0x14) doit contenir la valeur 1 comme valeur 2 octets (short) (dans le little-endian byte order).

RECOMMANDATIONS DES ARCHIVES FÉDÉRALES POUR LA PRODUCTION DE CE FORMAT D’ARCHIVAGE

Production à partir de sources analogiques

La fréquence d’échantillonnage et la quantification suivantes sont recommandées pour la numérisation de sources analogiques :

Fréquence d’échantillonnage

Quantification

48 KHz 16 ou 24 bits

Production à partir de sources numériques

Si les données audio sont déjà disponibles sous forme numérique, il faut conserver la fréquence

d’échantillonnage et la quantification. Pour les CD Audio et le fichiers Audio (DAT), il s’agit de :

Original Fréquence

d’échantillonnage Quantification

CD Audio 44.1 KHz 16 bits

DAT 44.1 KHz / 48 KHz 16 bits

REMARQUES ET RECOMMANDATIONS

Le format WAVE est très proche du format CD audio (CDA). Toutefois, il est extrêmement difficile d'accéder à la documentation le concernant. Des programmes courants (Nero, etc.) convertissent le CDA en WAVE et réciproquement.

Page 18: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

18

3.7 Standard pour les données vidéo

MPEG-4 – format vidéo

IDENTIFICATEUR OBLIGATOIRE

MPEG-4

EXTENSION DE FICHIER

Extensions de fichier obligatoires : .mp4 .mp4v

Identifiants uniques (PUID) du registre de format PRONOM

fmt/199

SPÉCIFICATIONS OBLIGATOIRES

ISO/IEC 14496-10 Coding of audio-visual objects -- Part 10: Advanced Video Coding

ISO/IEC 14496-3 Coding of audio-visual objects -- Part 3: Audio

ISO/IEC 14496-14 Coding of audio-visual objects -- Part 14: MP4 file format

ISO/IEC 14496-17 Coding of audio-visual objects -- Part 17: Timed Text subtitle format

Sources: Organisation internationale de normalisation

PROPRIÉTAIRE

Normes ISO/CEI : Organisation internationale de normalisation

TYPE

Format de fichier (conteneur) et méthode de compression (codec) pour les fichiers vidéo et audio

DOMAINES D’APPLICATION

Données vidéo

RESTRICTIONS OBLIGATOIRES DE L’APPLICATION

Les codecs suivants sont autorisés :

Vidéo : MPEG-4 part 10 (aussi appelée MPEG-4 AVC ou ITU H.264)

Audio : MPEG-4 AAC (Advanced Audio Coding), décrit dans MPEG-4 part 3

Les conteneurs suivants sont autorisés pour les flux de données vidéo et audio :

MP4, décrit dans MPEG-4 part 14

Les éventuels sous-titres (times text subtitles) sont également autorisés.

RECOMMANDATIONS DES ARCHIVES FÉDÉRALES POUR LA PRODUCTION DE CE FORMAT D’ARCHIVAGE

Production à partir de sources analogiques

L'échantillonneur doit produire le format natif MPEG-4 directement à partir de sources analogiques. Un autre format fortement comprimé ne doit en aucun cas être utilisé comme intermédiaire (WMC ou VC1 par exemple).

Production à partir de sources numériques

Si les données vidéo sont déjà disponibles sous forme numérique, il faut conserver tant que possible le codage existant.

a) le codec vidéo est MPEG-4

Si MPEG-4 part 14 est déjà le format du fichier, il ne faut rien entreprendre de plus. Les autres formats de fichiers doivent être enregistrés au format MPEG-4 part 14. Il vaut veiller à ce qu'aucun nouveau codage n'ait lieu.

b) le codec vidéo n'est pas MPEG-4

En principe, les flux de données audio et vidéo doivent être transcodés au format MPEG-4 AVC ou MPEG-4 AAC. Etant donné que cela peut entraîner des pertes considérables, il faut au préalable convenir de la procédure exacte avec les Archives fédérales.

Page 19: Formats de fichiers adaptés à l'archivage

Département fédéral de l'intérieur DFI

Archives fédérales suisses AFS

Division de la pérennisation de l’information DPI

19

En cas de transcodage, la résolution du contenu de la vidéo doit être conservée, aucun

redimensionnement ne doit être effectué.

Si les données vidéo ne sont pas encore disponibles sous forme numérique, il faut faire attention à

utiliser, dans la mesure du possible, le format MPEG-4 avec les codecs susmentionnés lors d'un achat/projet. Si cela n'est pas compatible avec les exigences, il faut créer aussi rapidement que possible une copie pouvant être archivée. Tout transcodage inutile doit être évité.

REMARQUES ET RECOMMANDATIONS

En raison de l'évolution rapide des technologies dans le domaine des formats vidéo numériques ainsi que des éventuelles pertes lors du transcodage, les Archives fédérales fournissent aux services livrant des documents des conseils quant à la procédure à suivre. C'est notamment le cas lorsqu'il est question de matériel vidéo sous forme numérique en grande quantité, dans un format qui n'est pas adapté à l'archivage.