Édition, codage et compression de l'audio et du son numérique par e. akakpo et c. brando...
TRANSCRIPT
Édition, codage et compression de l'audio et du son numérique
Par E. Akakpo et C. Brando
Cours Technologie MultimédiaCours Technologie Multimédia
Plan
La natureLa numérisation ou codageLa compression et formats d'audioLa famille MPEG/audioAutres formats audioL'édition
2
Nature : généralités
Le son est un phénomène physique, il se traduit par la variation de pression d'un milieu
Propriétés physiques Fréquence Célérité Amplitude et longueur d'onde
3
Fréquence: Nombre d’oscillations du signal sonore par secondes
Chez l'homme elle est de 20Hz à 20KHz
Les sons sont classés de la façon suivante:
Basses 20Hz à 300Hz
Médiums 300Hz à 1600Hz
Aigües 1600Hz à 20KHz
Nature : généralités (2)Propriétés physiques: Fréquence et célérité
Célérité: Il s'agit de la vitesse de l'onde sonore
4
L’Amplitude : Elle se mesure en décibels (dB).
On définit à: 0 dB, le seuil d’audibilité de
l’oreille Humaine. 120 dB, le seuil de douleur.
La longueur d’onde:Distance parcourue par l’onde en un cycle complet.
Elle se calcule en fonction du rapport : l = v/f .
Nature : généralités (3)Propriétés physiques: Amplitude et
longueur d'onde
5
Numérisation ou codage
Elle permet de transformer un signal sonore en fichier enregistré sur support numérique
Les données sonores sont numérisées en passant par: L'échantillonnage La quantification
6
Numérisation ou codage (2)L'échantillonnage
Il s’agit de la discrétisation du signal sonore analogique (continu).
Il se définit par sa fréquence, qui se calcule grâce au théorème de Nyquist-Shannon.
7
Numérisation ou codage (3)La quantification
C ’est le nombre de valeurs utilisées pour représenter l’information sous forme numérique. On parle aussi de résolution.
Elle est essentielle pour la qualité du son Si on utilise 16 valeurs, chaque échantillon
est codée sur 4 bits (24= 16)
8
Numérisation ou codage (4):Poids d'un fichier
K : taille du fichier en Kilo-octets F : fréquence d'échantillonnage en KHz Q : nombre d'octets utilisés pour coder le signal (16 bits = 2 octets) P : nombre total de pistes mono T : temps de l'enregistrement en secondes
K = P * F * Q * T
9
Bitrate : débit binaire d’un fichier. D (kb/s)= fe . nbCanaux . nbBitsQuantif
1024 Plus il est élevé, plus la qualité est bonne. Il porte une information importante dans le
domaine de l’internet:Ex : Pour lire un fichier son sur un site web par exemple il
faut que le débit connexion modem soit supérieure au bitrate.
Numérisation ou codage (5)
10
Numérisation ou codage (6):Pulse code modulation
Les principes de numérisation sont mentionnés sous la cadre de PCM (Pulse code Modulation)
C'est le format standard des sons numériques non compressés dans les ordinateurs : .AIF (Machintosh) .WAV (Windows)
11
Numérisation ou codage (7):Le wave
Format flexible pour garder plus ou moins tous les combinaisons d'échantillons
Il décode tous les sons, soit du son complexe ou du silence
Il se compose d'un en-tête de fichier, suivi des données.
12
Structure des fichiers WAVE simples.– Entête :
– Bloc Format :
« RIFF » taille_fichier «WAVE
« fmt »Taille du bloc
Format Information Nombres de canauxFréquence d’échantillonnage (Hz)
Débit_BinaireBlock Alignment Nb de bits de quantification
Numérisation ou codage (8):Le wave
13
Bloc Données :
« data »Taille du bloc
Données
Numérisation ou codage (9):Le wave
14
Un exemple : CD-Audio fe = 44,1 KHz son stéréo 2 canaux résolution de 16 bits: bitrate : 1376 kbps et
connexion modem RTC : 56 kbps Il y a plusieurs pour comprimer sans
sacrifiquer forcement la qualité: Algorithmes non destructifs Algorithmes destructifs
Compression
15
Compression (2)
Algorithmes destructif : lossy compression algorithmes
Retirer systématiquement des échantillons Principe de phycoacoustique : supprimer le
son que l'auditeur ne peut pas percevoir et de bruits
16
Compression (3)
Fréquences audibles pour l'homme, de 20Hz à 20KHz, diminution raisonnable de la bande passante
L'effet masque: dans un groupe de frequences voisine ou identiques, on supprime lesquels avec beaucoup amplitude
Stéréo jointe: on enregistre la partie grave du spectre en monophonique. On fait 50% relativement à un enregistrement stéréomonophique
17
Moving Picture Expert Group : définit les standards de compression pour la vidéo et l’audio
Norme : ISO/IEC JTC1 SC29 WG11 Spécifications de 3 couches, appelés layers : du
niveau 1 au niveau 3, les algorithmes d’encodage sont de plus en plus complexes (Note : MP3 = MPEG-1 layer 3).
Point commun : l’utilisation conjointe d’un modèle psychoacoustique et d’une représentation fréquentielle du signal.
Famille MPEG
18
Famille MPEG (2)
10:1 … 12:1 pour 128 … 112 Kbps en stéréoconçu au départ pour un
bitrate très bas (ex : MP3)Layer 3
6:1 … 8:1 pour 256 … 196 Kbps en stéréo
compromis entre complexité et performance
Layer 2
4:1 pour 384 Kbps en stéréodestiné à la DCC (Digital Compact Cassette)
Layer 1
Taux de compression avec une qualité proche de celle du CD
19
• Figure : vue globale du codec MPEG/audio.
Codec MPEG/audio
20
• Figure : vue globale du codec MPEG/audio.
Représentation fréquentielle
21
• Pourquoi une représentation fréquentielle? Avantage :
Une vision qualitative du signal. Inconvénient :
Le temps de calcul. Comment?
Le signal numérique temporel est découpé en segments de 26 ms (« frames »). On stocke le spectre fréquentiel de chaque frame.
Représentation fréquentielle (2)
22
• Figure : vue globale du codec MPEG/audio.
Modèle phycoacoustique
23
• Pourquoi un modèle psychoacoustique? Constat : l’audition humaine est limitée:
Dans le domaine fréquentiel (20 Hz-20KHz). Par son seuil de sensibilité (intensité sonore). Par l’attention que le cerveau lui accorde.
Conséquence : des effets de masquage et des échantillons inaudibles, donc superflus!
Idée : pouvoir identifier les échantillons inaudibles afin de les supprimer.
Modèle phycoacoustique (2)
24
• Figure : l’être humain perçoit bien les fréquences proches de celle de la Voix, moins bien les autres!
• De plus :- Un son trop faible n’est
pas perceptible par l’oreille d’un humain, même attentif (courbe du bas).
- Au-delà d’une certaine intensité, le son n’est plus qu’une douleur (courbe du haut).
© Xin
g T
echn
olo
gy C
orp
oratio
n
Modèle phycoacoustique (3)
25
Modèle psychoacoustique (4)
• Figure : effet de masquage fréquentiel• L’oreille ne peut pas
distinguer un son faible si sa fréquence est trop proche d’un son plus fort.
• Attention, cette figure ne montre pas que la résolution en fréquence de l’oreille n’est pas la même pour toutes les fréquences !
26
Modèle psychoacoustique (5)
• Effet de masquage temporel Constat : les humains ont du mal à entendre un
son de faible intensité s’il devance (ou suit) de très près (5 ms environ) un son de forte intensité.
Idée : éliminer les échantillons proches temporellement d’un son plus fort qu’eux.
Remarque : n’est utilisé que dans « Layer 3 ».
27
• Figure : vue globale du codec MPEG/audio.
L’allocation des octets
28
L’allocation des octets (2)
• Hypothèse : le débit binaire (« bitrate ») est supposé constant (vrai en mode CBR).
• Rappel : une frame a une durée fixe de 26 ms.• Déduction : le nombre de bits disponibles pour
coder les échantillons dans chaque frame est limité. Il faut les quantifier.
• Problème : la quantification va ajouter du bruit au signal (une erreur d’1 bit dans l’arrondi équivaut à ajouter 6 dB de bruit). Comment limiter ce bruit?
29
L’allocation des octets (3)
• Première partie de la solution : Calculer le rapport masque/bruit de chaque
sous-bande. Allouer juste ce qu’il faut de bits à chaque
sous-bande pour que le bruit engendré par la quantification de ses échantillons soit masqué par les sous-bandes voisines.
Si cela ne suffit pas : On sacrifie les fréquences les moins audibles.
30
Certaines frames peuvent être tellement riches (musicalement parlant) que les masques ne permettent pas d’éliminer de sous-bandes. Si le bitrate imposé est faible, on ne peut pas quantifier convenablement les intensités des sous-bandes sans introduire beaucoup de bruit dans le signal.
Une solution : utilisation d’espaces laissés « libres » dans d’autres frames.
Ce « réservoir d’octets » permet à l’encodeur de récupérer les espaces « libres » dans les frames précédentes pour y insérer les bits de la frame en cours.
Si on ne peut pas trouver ce réservoir, alors les données sont simplement perdues perte de qualité du signal.
La meilleure solution : utiliser un bitrate plus grand.
Le réservoir d'octets (Layer 3)
31
• Figure : vue globale du codec MPEG/audio.
Encodage final
32
Le MP3 utilise la technique classique de l’algorithme d’Huffman ; Pas de perte d’information pendant cette étape. Permet de compresser jusqu’à 50%.
Vient en complément de l’encodage perceptif.
Le codage de Huffman (Layer 3)
33
• Figure : vue globale du codec MPEG/audio.
Le décodage
34
Le décodage (2)
Opération moins complexe Inverse du codage. Mais pas d’analyse psychoacoustique.
Donc plus rapide :
35
LE MP3
36
Qu’est-ce que c’est?
MPEG-1/2 Audio Layer 3 Algorithme de compression audio réduisant
drastiquement la quantité de données nécessaires pour restituer l’audio
Dérivé du layer 2 par ajouts de nouveaux outils technologiques, de même qualité que lui mais à 128Kbps
Compression approximative de 1:4 à 1:12
37
Techniques de codage
Système de compression partiellement destructif
Tres forte réduction de la qualité Exploitation d’un modèle psycho-acoustique
de l’effet de masque Toutefois amélioration possible de la qualité
par utilisation d’un VBR ( paramètres du CD utilisés comme références)
38
L’entête d’une frame
2Emphasis (respects emphasis bit in the original recording; now largely obsolete)
1Original (off if copy of original, on if original)
1Copyright (on or off)
2Mode extension (used only with joint stereo, to conjoin channel data)
2Channel mode (stereo, joint stereo, dual channel, single channel)
1Private bit (on or off, allows for application-specific triggers)
1Padding bit (on or off, compensates for unfilled frames)
2Sampling rate frequency (44.1kHz, etc., determined by lookup table)
4Bitrate index (lookup table used to specify bitrate for this MPEG version and layer)
1Protection (if on, then checksum follows header)
2MPEG layer (Layer I, II, III, etc.)
2MPEG audio version (MPEG-1, 2, etc.)
11Frame sync
Length (in bits)
Purpose
Option 1 : la « joint » stéréo
1er constat : L’oreille humaine localise mal la provenance
spatiale des sons graves. Idée :
Couper le spectre en hautes et basses fréquences.
Coder les hautes fréquences en stéréo, les basses en mono.
40
Option 1 : la « joint » stéréo (2)
2eme Constat : le signal à droite et le signal à gauche peuvent
être proches Idée :
création d’un canal de milieu (L+R), et un canal de coté (L-R)
on parle de M/S (middle/side) stéréo Stéréo d’origine sera restaurée par le décodeur
41
Option 2 : Le CBR/VBR
CBR = Constant Bitrate : débit binaire constant (option par défaut).
VBR = Variable Bitrate : débit binaire variable. le bitrate varie alors dynamiquement en fonction de la
complexité du signal sur une « frame », afin de garantir toujours une qualité sonore optimale.
passage complexe augmentation du bitrate, et inversement.
42
Option 2 : Le CBR/VBR (2)
A qualité équivalente, les fichiers encodés en VBR sont plus petits.
Inconvénients : Pas lisibles par les décodeurs les plus anciens. Problème de « timing » lors du décodage (fonction
« seek » imprécise).
43
Les résultats(1)
Une minute d’un CD-audio (à une fréquence de 44.1 KHz, 16 bits, stéréo) ne prendra qu’un seul Mo en MP3.
Une chanson fait donc en moyenne 3 ou 4 Mo, ce qui rend son téléchargement possible par modem.
La décompression d’un fichier MP3 (i.e. la lecture) se fait en temps réel avec un P166,
Mais nécessite une grande partie des ressources système.
44
Les résultats (2)
Le format ne contient pas seulement les musiques mais aussi les metadata
Présence d’étiquettes enregistrées au format ID3
Évolutions : le mp3Pro
45
Autres formats de compression
MPEG-4 audio : 2x plus performant que MP3 bitrate de 64 kbps qualité proche du CD peut descendre jusqu’à 2kbps gère 5 canaux séparés son 3D, etc.
WMA (Windows Media Audio) : proche du MP3 (de 8 kbps à 128 kbps) mais format fermé taille : 1/3 d ’un fichier MP3 à bitrate égal encodage plus rapide
46
Autres formats de compression (2)
WMA (2)
-possibilité de protéger les fichiers de sortie dès l’encodage
-existe sous 4 formats:
*WMA standard
*WMA pro
*WMA lossless
*WMA voice
Autres formats de compression (3)
Ogg Vorbis : - Ogg + Vorbis
Licence GPL (ou encore LGPL) même catégorie que MPEG-1 layer 3(mais plus perfomant et pas
compatible), MPEG-4, … aucune protection
VQF (Vector Quantization Format) : Yamaha Wave 50 Mo 3.5 Mo à 96 kbps et 44,1 KHz 20 à 35 % plus léger que MP3 à bitrate égal encodage lent devrait être intégré au MPEG-4
48
Autres formats de compression (4)
AAC
- compression 2fois plus qu’un MP3
- Musique haute qualité sur le web
- Peut inclure jusqu’à 48 canaux
- LC-AAC , AAC+ (HE-AAC) …
- Format supporté dans l’iPod et l’iTunes
Comparaison
3 grandes catégories de format audio:
- les formats bruts : offrant les meilleurs qualités
- les formats compressés : offrant les meilleurs débits pénalisant plus ou
moins la qualité;
* différences des formats au sein même de ce format dues aux techniques utilisées et
- les formats de flux
Du côté de la Loi
Légal : l’utilisation d’un codec MP3.
Illégal : l’encodage et l’échange de fichiers MP3 sans
l’accord de l’artiste et versement de droits d’auteurs.
51
Autres formats Audio
52
Autres formats audio
• Les formats musicaux– Le MIDI– Les fichiers « Tracker »– Le multi-pistes
• Le Streaming
53
Le MIDI
• Introduction– MIDI = Musical Instrument Digital Interface– A la fois une interface physique et une norme– Avantage : taille des fichiers (~ 30ko)
54
Le MIDI (2)
• Description de l ’interface– Permet d ’établir une communication entre le langage du
musicien et celui des microprocesseurs– Tentative de reproduction des gestes du musicien
• ex : appui sur une touche de clavier Code machine– Fichier = description des actions
• ex : hauteur de la note, durée, …• Synthétiseur obligatoire• Explication de la taille réduite
55
Le MIDI (3)
• Définition matérielle– Interface série asynchrone à 31250 bauds– Connections DIN 5 broches
• MIDI IN• MIDI OUT• MIDI THRU
– Pour éviter les délais, longueur des câbles < 15m.– Branchement sur prise Joystick de la carte son
56
Le MIDI (4)
• Le protocole de communication– Les messages canaux
• 16 canaux (norme Roland)– Les messages systèmes
• Exclusifs (particuliers à chaque machines MIDI)• Communs (ex: se positionner à un endroit d ’un morceau)• Temps réel (ex: synchronisation des machines)
57
Le MIDI (5)
• Le standard GM (General MIDI)
Mapping Instruments
0=Acoustic Grand Piano1=Bright Acoustic Piano2=Electric Grand Piano3=Honky-tonk Piano4=Rhodes Piano5=Chorused Piano6=Harpsichord7=Clavinet ……………
120=Guitar Fret Noise121=Breath Noise122=Seashore123=Bird Tweet124=Telephone Ring125=Helicopter126=Applause127=Gunshot
Mapping Drums sur Canal 10
35=Acoustic Bass Drum36=Bass Drum 137=Side Kick38=Acoustic Snare39=Hand Clap40=Electric Snare
………………...
76=High Wood Block77=Low Wood Block78=Mute Cuica79=Open Cuica80=Mute Triangle81=Open Triangle
58
Le MIDI (6)
59
Le format « Tracker »
• Introduction– Taille de fichier ~500Ko pour 3 min– Principe du sampling– Analogie avec le MIDI– Problème : pas normalisé
• Quelques logiciels– FastTracker, Impulse Tracker, MadTracker ...
60
Le format « Tracker » (2)
61
Entre le MIDI et le Tracker : la norme Beatnik!!
L’édition Audionumérique.
63
L’édition Audionumérique.
Les fonctions de Base. L’équalisation. Les effets.
64
L’édition Audionumérique.
Le son Numérique ne peut pas être amélioré. La fréquence d’échantillonnage, le nombre de bits de quantification définissent sa qualité.
Cette dernière ne peut ensuite que diminuer suite aux manipulations que l’on réalise sur les fichiers (compression, conversion à d’autres formats, ...).
On peut cependant y appliquer diverses fonctions permettant de manipuler les fichiers sons.
65
L’édition Audionumérique:Les fonctions de base.
Les fonctions appliquées sur les fichiers sons sont réalisées par des processeurs DSP ( Digital Signal Processor ).
On trouve parmi les fonctions de base : La normalisation le changement de durée La conversion stéréo/mono et mono/stéréo reverse, etc...
66
L’édition Audionumérique:L’équalisation.
Elle est nécessaire, parce que la perception des sons varie en fonction des goûts et des humeurs de chacun.
Elle permet de renforcer ou d’atténuer certaines fréquences en ajoutant ou en enlevant quelques décibels.
L’édition Audionumérique:Les effets.
On désigne par effets tous les dispositifs de traitement du son.
Dans les grandes familles, on trouve :
- La réverbération- Le délai- Le chorus- Le Trémolo
- Le vocoder- Le noise gate- Le flanger- le phasing
68
L’édition Audionumérique:Démonstration
Conclusion
Bibliographie
[1] C. Grégoire, M. Guionneau, O. Le Blouch, Y. Yerro. Rapport par le cours Technologie Multimédia: L'audio. Novembre 2002.
[2] I. Roxin, D. Mercier. Multimédia: Les fondamentaux, introduction à la représentation numérique. Vuibert, Paris, 2004.
[3] J. Terrason. Les outils du multimédia. Armand Colin Éditeur. Paris, 1992.
71
Bibliographie (2)
[4] La norme MIDI : http://daffyduke.lautre.net/zik/midi_index.html
http://www.mp3-converter.com/mp3codec
[5] Article : «A tutorial on MPEG/audio compression», par Davis Pan
Première publication dans IEEE Multimedia Journal, numéro d’été 1995.
[6] Article : «Digital Audio Compression», par Davis Yen Pan
Première publication dans Digital Technical Journal, Vol. 5 No. 2, été 1993.
Bibliographie (3)
[7] Wikipédia : Digital Audio. http://en.wikipedia.org/wiki/Digital_audio. Dernière modification: le 17 septembre 2008.
[8] Wikipédia : Audio Compression (Data). http://en.wikipedia.org/wiki/Audio_compression_(data). Dernière modification : le 24 septembre 2008.
[9] La compression numérique du son. http://mao.audiofanzine.com/apprendre/dossiers/print_dossier,idossier,31.html. Dernière modification : le 18 octobre 2002.
[10] Wikipédia: Audio File Format. http://en.wikipedia.org/wiki/Audio_file_format. Dernière modification : le 11 septembre 2008.
[11] Le Son Numérique. http://www.commentcamarche.net/contents/audio/son.php3.
Bibliographie (4)
[12] Wikipédia : WaveForm audio format. http://fr.wikipedia.org/wiki/WAVEform_audio_format. Dernière modification : le 22 octobre 2008.
[13] Wikipédia : Audacity. http://fr.wikipedia.org/wiki/Audacity. Dernière modification : le 25 septembre 2008.
[14] Logiciel Audacity. http://audacity.sourceforge.net/.