Édition, codage et compression de l'audio et du son numérique par e. akakpo et c. brando...

Édition, codage et compression de l'audio et du son numérique

Par E. Akakpo et C. Brando

Cours Technologie MultimédiaCours Technologie Multimédia

Plan

La natureLa numérisation ou codageLa compression et formats d'audioLa famille MPEG/audioAutres formats audioL'édition

2

Nature : généralités

Le son est un phénomène physique, il se traduit par la variation de pression d'un milieu

Propriétés physiques Fréquence Célérité Amplitude et longueur d'onde

3

Fréquence: Nombre d’oscillations du signal sonore par secondes

Chez l'homme elle est de 20Hz à 20KHz

Les sons sont classés de la façon suivante:

Basses 20Hz à 300Hz

Médiums 300Hz à 1600Hz

Aigües 1600Hz à 20KHz

Nature : généralités (2)Propriétés physiques: Fréquence et célérité

Célérité: Il s'agit de la vitesse de l'onde sonore

4

L’Amplitude : Elle se mesure en décibels (dB).

On définit à: 0 dB, le seuil d’audibilité de

l’oreille Humaine. 120 dB, le seuil de douleur.

La longueur d’onde:Distance parcourue par l’onde en un cycle complet.

Elle se calcule en fonction du rapport : l = v/f .

Nature : généralités (3)Propriétés physiques: Amplitude et

longueur d'onde

5

Numérisation ou codage

Elle permet de transformer un signal sonore en fichier enregistré sur support numérique

Les données sonores sont numérisées en passant par: L'échantillonnage La quantification

6

Numérisation ou codage (2)L'échantillonnage

Il s’agit de la discrétisation du signal sonore analogique (continu).

Il se définit par sa fréquence, qui se calcule grâce au théorème de Nyquist-Shannon.

7

Numérisation ou codage (3)La quantification

C ’est le nombre de valeurs utilisées pour représenter l’information sous forme numérique. On parle aussi de résolution.

Elle est essentielle pour la qualité du son Si on utilise 16 valeurs, chaque échantillon

est codée sur 4 bits (24= 16)

8

Numérisation ou codage (4):Poids d'un fichier

K : taille du fichier en Kilo-octets F : fréquence d'échantillonnage en KHz Q : nombre d'octets utilisés pour coder le signal (16 bits = 2 octets) P : nombre total de pistes mono T : temps de l'enregistrement en secondes

K = P * F * Q * T

9

Bitrate : débit binaire d’un fichier. D (kb/s)= fe . nbCanaux . nbBitsQuantif

1024 Plus il est élevé, plus la qualité est bonne. Il porte une information importante dans le

domaine de l’internet:Ex : Pour lire un fichier son sur un site web par exemple il

faut que le débit connexion modem soit supérieure au bitrate.

Numérisation ou codage (5)

10

Numérisation ou codage (6):Pulse code modulation

Les principes de numérisation sont mentionnés sous la cadre de PCM (Pulse code Modulation)

C'est le format standard des sons numériques non compressés dans les ordinateurs : .AIF (Machintosh) .WAV (Windows)

11

Numérisation ou codage (7):Le wave

Format flexible pour garder plus ou moins tous les combinaisons d'échantillons

Il décode tous les sons, soit du son complexe ou du silence

Il se compose d'un en-tête de fichier, suivi des données.

12

Structure des fichiers WAVE simples.– Entête :

– Bloc Format :

« RIFF » taille_fichier «WAVE

« fmt »Taille du bloc

Format Information Nombres de canauxFréquence d’échantillonnage (Hz)

Débit_BinaireBlock Alignment Nb de bits de quantification


13

Bloc Données :

« data »Taille du bloc

Données


14

Un exemple : CD-Audio fe = 44,1 KHz son stéréo 2 canaux résolution de 16 bits: bitrate : 1376 kbps et

connexion modem RTC : 56 kbps Il y a plusieurs pour comprimer sans

sacrifiquer forcement la qualité: Algorithmes non destructifs Algorithmes destructifs

Compression

15

Compression (2)

Algorithmes destructif : lossy compression algorithmes

Retirer systématiquement des échantillons Principe de phycoacoustique : supprimer le

son que l'auditeur ne peut pas percevoir et de bruits

16

Compression (3)

Fréquences audibles pour l'homme, de 20Hz à 20KHz, diminution raisonnable de la bande passante

L'effet masque: dans un groupe de frequences voisine ou identiques, on supprime lesquels avec beaucoup amplitude

Stéréo jointe: on enregistre la partie grave du spectre en monophonique. On fait 50% relativement à un enregistrement stéréomonophique

17

Moving Picture Expert Group : définit les standards de compression pour la vidéo et l’audio

Norme : ISO/IEC JTC1 SC29 WG11 Spécifications de 3 couches, appelés layers : du

niveau 1 au niveau 3, les algorithmes d’encodage sont de plus en plus complexes (Note : MP3 = MPEG-1 layer 3).

Point commun : l’utilisation conjointe d’un modèle psychoacoustique et d’une représentation fréquentielle du signal.

Famille MPEG

18

Famille MPEG (2)

10:1 … 12:1 pour 128 … 112 Kbps en stéréoconçu au départ pour un

bitrate très bas (ex : MP3)Layer 3

6:1 … 8:1 pour 256 … 196 Kbps en stéréo

compromis entre complexité et performance

Layer 2

4:1 pour 384 Kbps en stéréodestiné à la DCC (Digital Compact Cassette)

Layer 1

Taux de compression avec une qualité proche de celle du CD

19

• Figure : vue globale du codec MPEG/audio.

Codec MPEG/audio

20


Représentation fréquentielle

21

• Pourquoi une représentation fréquentielle? Avantage :

Une vision qualitative du signal. Inconvénient :

Le temps de calcul. Comment?

Le signal numérique temporel est découpé en segments de 26 ms (« frames »). On stocke le spectre fréquentiel de chaque frame.

Représentation fréquentielle (2)

22


Modèle phycoacoustique

23

• Pourquoi un modèle psychoacoustique? Constat : l’audition humaine est limitée:

Dans le domaine fréquentiel (20 Hz-20KHz). Par son seuil de sensibilité (intensité sonore). Par l’attention que le cerveau lui accorde.

Conséquence : des effets de masquage et des échantillons inaudibles, donc superflus!

Idée : pouvoir identifier les échantillons inaudibles afin de les supprimer.

Modèle phycoacoustique (2)

24

• Figure : l’être humain perçoit bien les fréquences proches de celle de la Voix, moins bien les autres!

• De plus :- Un son trop faible n’est

pas perceptible par l’oreille d’un humain, même attentif (courbe du bas).

- Au-delà d’une certaine intensité, le son n’est plus qu’une douleur (courbe du haut).

© Xin

g T

echn

olo

gy C

orp

oratio

n

Modèle phycoacoustique (3)

25

Modèle psychoacoustique (4)

• Figure : effet de masquage fréquentiel• L’oreille ne peut pas

distinguer un son faible si sa fréquence est trop proche d’un son plus fort.

• Attention, cette figure ne montre pas que la résolution en fréquence de l’oreille n’est pas la même pour toutes les fréquences !

26

Modèle psychoacoustique (5)

• Effet de masquage temporel Constat : les humains ont du mal à entendre un

son de faible intensité s’il devance (ou suit) de très près (5 ms environ) un son de forte intensité.

Idée : éliminer les échantillons proches temporellement d’un son plus fort qu’eux.

Remarque : n’est utilisé que dans « Layer 3 ».

27


L’allocation des octets

28

L’allocation des octets (2)

• Hypothèse : le débit binaire (« bitrate ») est supposé constant (vrai en mode CBR).

• Rappel : une frame a une durée fixe de 26 ms.• Déduction : le nombre de bits disponibles pour

coder les échantillons dans chaque frame est limité. Il faut les quantifier.

• Problème : la quantification va ajouter du bruit au signal (une erreur d’1 bit dans l’arrondi équivaut à ajouter 6 dB de bruit). Comment limiter ce bruit?

29

L’allocation des octets (3)

• Première partie de la solution : Calculer le rapport masque/bruit de chaque

sous-bande. Allouer juste ce qu’il faut de bits à chaque

sous-bande pour que le bruit engendré par la quantification de ses échantillons soit masqué par les sous-bandes voisines.

Si cela ne suffit pas : On sacrifie les fréquences les moins audibles.

30

Certaines frames peuvent être tellement riches (musicalement parlant) que les masques ne permettent pas d’éliminer de sous-bandes. Si le bitrate imposé est faible, on ne peut pas quantifier convenablement les intensités des sous-bandes sans introduire beaucoup de bruit dans le signal.

Une solution : utilisation d’espaces laissés « libres » dans d’autres frames.

Ce « réservoir d’octets » permet à l’encodeur de récupérer les espaces « libres » dans les frames précédentes pour y insérer les bits de la frame en cours.

Si on ne peut pas trouver ce réservoir, alors les données sont simplement perdues perte de qualité du signal.

La meilleure solution : utiliser un bitrate plus grand.

Le réservoir d'octets (Layer 3)

31


Encodage final

32

Le MP3 utilise la technique classique de l’algorithme d’Huffman ; Pas de perte d’information pendant cette étape. Permet de compresser jusqu’à 50%.

Vient en complément de l’encodage perceptif.

Le codage de Huffman (Layer 3)

33


Le décodage

34

Le décodage (2)

Opération moins complexe Inverse du codage. Mais pas d’analyse psychoacoustique.

Donc plus rapide :

35

LE MP3

36

Qu’est-ce que c’est?

MPEG-1/2 Audio Layer 3 Algorithme de compression audio réduisant

drastiquement la quantité de données nécessaires pour restituer l’audio

Dérivé du layer 2 par ajouts de nouveaux outils technologiques, de même qualité que lui mais à 128Kbps

Compression approximative de 1:4 à 1:12

37

Techniques de codage

Système de compression partiellement destructif

Tres forte réduction de la qualité Exploitation d’un modèle psycho-acoustique

de l’effet de masque Toutefois amélioration possible de la qualité

par utilisation d’un VBR ( paramètres du CD utilisés comme références)

38

L’entête d’une frame

2Emphasis (respects emphasis bit in the original recording; now largely obsolete)

1Original (off if copy of original, on if original)

1Copyright (on or off)

2Mode extension (used only with joint stereo, to conjoin channel data)

2Channel mode (stereo, joint stereo, dual channel, single channel)

1Private bit (on or off, allows for application-specific triggers)

1Padding bit (on or off, compensates for unfilled frames)

2Sampling rate frequency (44.1kHz, etc., determined by lookup table)

4Bitrate index (lookup table used to specify bitrate for this MPEG version and layer)

1Protection (if on, then checksum follows header)

2MPEG layer (Layer I, II, III, etc.)

2MPEG audio version (MPEG-1, 2, etc.)

11Frame sync

Length (in bits)

Purpose

Option 1 : la « joint » stéréo

1er constat : L’oreille humaine localise mal la provenance

spatiale des sons graves. Idée :

Couper le spectre en hautes et basses fréquences.

Coder les hautes fréquences en stéréo, les basses en mono.

40

Option 1 : la « joint » stéréo (2)

2eme Constat : le signal à droite et le signal à gauche peuvent

être proches Idée :

création d’un canal de milieu (L+R), et un canal de coté (L-R)

on parle de M/S (middle/side) stéréo Stéréo d’origine sera restaurée par le décodeur

41

Option 2 : Le CBR/VBR

CBR = Constant Bitrate : débit binaire constant (option par défaut).

VBR = Variable Bitrate : débit binaire variable. le bitrate varie alors dynamiquement en fonction de la

complexité du signal sur une « frame », afin de garantir toujours une qualité sonore optimale.

passage complexe augmentation du bitrate, et inversement.

42

Option 2 : Le CBR/VBR (2)

A qualité équivalente, les fichiers encodés en VBR sont plus petits.

Inconvénients : Pas lisibles par les décodeurs les plus anciens. Problème de « timing » lors du décodage (fonction

« seek » imprécise).

43

Les résultats(1)

Une minute d’un CD-audio (à une fréquence de 44.1 KHz, 16 bits, stéréo) ne prendra qu’un seul Mo en MP3.

Une chanson fait donc en moyenne 3 ou 4 Mo, ce qui rend son téléchargement possible par modem.

La décompression d’un fichier MP3 (i.e. la lecture) se fait en temps réel avec un P166,

Mais nécessite une grande partie des ressources système.

44

Les résultats (2)

Le format ne contient pas seulement les musiques mais aussi les metadata

Présence d’étiquettes enregistrées au format ID3

Évolutions : le mp3Pro

45

Autres formats de compression

MPEG-4 audio : 2x plus performant que MP3 bitrate de 64 kbps qualité proche du CD peut descendre jusqu’à 2kbps gère 5 canaux séparés son 3D, etc.

WMA (Windows Media Audio) : proche du MP3 (de 8 kbps à 128 kbps) mais format fermé taille : 1/3 d ’un fichier MP3 à bitrate égal encodage plus rapide

46

Autres formats de compression (2)

WMA (2)

-possibilité de protéger les fichiers de sortie dès l’encodage

-existe sous 4 formats:

*WMA standard

*WMA pro

*WMA lossless

*WMA voice


Ogg Vorbis : - Ogg + Vorbis

Licence GPL (ou encore LGPL) même catégorie que MPEG-1 layer 3(mais plus perfomant et pas

compatible), MPEG-4, … aucune protection

VQF (Vector Quantization Format) : Yamaha Wave 50 Mo 3.5 Mo à 96 kbps et 44,1 KHz 20 à 35 % plus léger que MP3 à bitrate égal encodage lent devrait être intégré au MPEG-4

48


AAC

- compression 2fois plus qu’un MP3

- Musique haute qualité sur le web

- Peut inclure jusqu’à 48 canaux

- LC-AAC , AAC+ (HE-AAC) …

- Format supporté dans l’iPod et l’iTunes

Comparaison

3 grandes catégories de format audio:

- les formats bruts : offrant les meilleurs qualités

- les formats compressés : offrant les meilleurs débits pénalisant plus ou

moins la qualité;

* différences des formats au sein même de ce format dues aux techniques utilisées et

- les formats de flux

Du côté de la Loi

Légal : l’utilisation d’un codec MP3.

Illégal : l’encodage et l’échange de fichiers MP3 sans

l’accord de l’artiste et versement de droits d’auteurs.

51

Autres formats Audio

52

Autres formats audio

• Les formats musicaux– Le MIDI– Les fichiers « Tracker »– Le multi-pistes

• Le Streaming

53

Le MIDI

• Introduction– MIDI = Musical Instrument Digital Interface– A la fois une interface physique et une norme– Avantage : taille des fichiers (~ 30ko)

54

Le MIDI (2)

• Description de l ’interface– Permet d ’établir une communication entre le langage du

musicien et celui des microprocesseurs– Tentative de reproduction des gestes du musicien

• ex : appui sur une touche de clavier Code machine– Fichier = description des actions

• ex : hauteur de la note, durée, …• Synthétiseur obligatoire• Explication de la taille réduite

55

Le MIDI (3)

• Définition matérielle– Interface série asynchrone à 31250 bauds– Connections DIN 5 broches

• MIDI IN• MIDI OUT• MIDI THRU

– Pour éviter les délais, longueur des câbles < 15m.– Branchement sur prise Joystick de la carte son

56

Le MIDI (4)

• Le protocole de communication– Les messages canaux

• 16 canaux (norme Roland)– Les messages systèmes

• Exclusifs (particuliers à chaque machines MIDI)• Communs (ex: se positionner à un endroit d ’un morceau)• Temps réel (ex: synchronisation des machines)

57

Le MIDI (5)

• Le standard GM (General MIDI)

Mapping Instruments

0=Acoustic Grand Piano1=Bright Acoustic Piano2=Electric Grand Piano3=Honky-tonk Piano4=Rhodes Piano5=Chorused Piano6=Harpsichord7=Clavinet ……………

120=Guitar Fret Noise121=Breath Noise122=Seashore123=Bird Tweet124=Telephone Ring125=Helicopter126=Applause127=Gunshot

Mapping Drums sur Canal 10

35=Acoustic Bass Drum36=Bass Drum 137=Side Kick38=Acoustic Snare39=Hand Clap40=Electric Snare

………………...

76=High Wood Block77=Low Wood Block78=Mute Cuica79=Open Cuica80=Mute Triangle81=Open Triangle

58

Le MIDI (6)

59

Le format « Tracker »

• Introduction– Taille de fichier ~500Ko pour 3 min– Principe du sampling– Analogie avec le MIDI– Problème : pas normalisé

• Quelques logiciels– FastTracker, Impulse Tracker, MadTracker ...

60

Le format « Tracker » (2)

61

Entre le MIDI et le Tracker : la norme Beatnik!!

L’édition Audionumérique.

63


Les fonctions de Base. L’équalisation. Les effets.

64


Le son Numérique ne peut pas être amélioré. La fréquence d’échantillonnage, le nombre de bits de quantification définissent sa qualité.

Cette dernière ne peut ensuite que diminuer suite aux manipulations que l’on réalise sur les fichiers (compression, conversion à d’autres formats, ...).

On peut cependant y appliquer diverses fonctions permettant de manipuler les fichiers sons.

65

L’édition Audionumérique:Les fonctions de base.

Les fonctions appliquées sur les fichiers sons sont réalisées par des processeurs DSP ( Digital Signal Processor ).

On trouve parmi les fonctions de base : La normalisation le changement de durée La conversion stéréo/mono et mono/stéréo reverse, etc...

66

L’édition Audionumérique:L’équalisation.

Elle est nécessaire, parce que la perception des sons varie en fonction des goûts et des humeurs de chacun.

Elle permet de renforcer ou d’atténuer certaines fréquences en ajoutant ou en enlevant quelques décibels.

L’édition Audionumérique:Les effets.

On désigne par effets tous les dispositifs de traitement du son.

Dans les grandes familles, on trouve :

- La réverbération- Le délai- Le chorus- Le Trémolo

- Le vocoder- Le noise gate- Le flanger- le phasing

68

L’édition Audionumérique:Démonstration

Conclusion

Bibliographie

[1] C. Grégoire, M. Guionneau, O. Le Blouch, Y. Yerro. Rapport par le cours Technologie Multimédia: L'audio. Novembre 2002.

[2] I. Roxin, D. Mercier. Multimédia: Les fondamentaux, introduction à la représentation numérique. Vuibert, Paris, 2004.

[3] J. Terrason. Les outils du multimédia. Armand Colin Éditeur. Paris, 1992.

71

Bibliographie (2)

[4] La norme MIDI : http://daffyduke.lautre.net/zik/midi_index.html

http://www.mp3-converter.com/mp3codec

[5] Article : «A tutorial on MPEG/audio compression», par Davis Pan

Première publication dans IEEE Multimedia Journal, numéro d’été 1995.

[6] Article : «Digital Audio Compression», par Davis Yen Pan

Première publication dans Digital Technical Journal, Vol. 5 No. 2, été 1993.

Bibliographie (3)

[7] Wikipédia : Digital Audio. http://en.wikipedia.org/wiki/Digital_audio. Dernière modification: le 17 septembre 2008.

[8] Wikipédia : Audio Compression (Data). http://en.wikipedia.org/wiki/Audio_compression_(data). Dernière modification : le 24 septembre 2008.

[9] La compression numérique du son. http://mao.audiofanzine.com/apprendre/dossiers/print_dossier,idossier,31.html. Dernière modification : le 18 octobre 2002.

[10] Wikipédia: Audio File Format. http://en.wikipedia.org/wiki/Audio_file_format. Dernière modification : le 11 septembre 2008.

[11] Le Son Numérique. http://www.commentcamarche.net/contents/audio/son.php3.

Bibliographie (4)

[12] Wikipédia : WaveForm audio format. http://fr.wikipedia.org/wiki/WAVEform_audio_format. Dernière modification : le 22 octobre 2008.

[13] Wikipédia : Audacity. http://fr.wikipedia.org/wiki/Audacity. Dernière modification : le 25 septembre 2008.

[14] Logiciel Audacity. http://audacity.sourceforge.net/.

Édition, codage et compression de l'audio et du son numérique par e. akakpo et c. brando...

Documents