théorie de l'information cours 11

34
Théorie de l’Information Cours 11 Julien Lavauzelle Université Paris 8 Master 1 ACC et CSSD – Théorie de l’Information 04/12/2020

Upload: others

Post on 17-Jun-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Théorie de l'Information Cours 11

Théorie de l’InformationCours 11

Julien LavauzelleUniversité Paris 8

Master 1 ACC et CSSD – Théorie de l’Information

04/12/2020

Page 2: Théorie de l'Information Cours 11

Plan

1. Cours : le cas des variables continuesGrandeurs informationnelles continuesCanaux de communication continus

2. TD

0/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 3: Théorie de l'Information Cours 11

Motivation

Jusqu’ici, on a formalisé l’information dans un contexte discret :

– les sources de messages sont modélisées par des variables aléatoires discrètes

– les canaux traitent des données numériques, quantifiées.

Dans la plupart des systèmes de communication, ce sont des signaux continus (eg. ondesélectromagnétiques, son) qui sont produits et transmis à travers des canaux bruités(câbles, air).

Dans ce cours :

– courte introduction à la théorie de l’information dans le domaine du continu

– liens avec ce qu’on a vu en discret

1/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 4: Théorie de l'Information Cours 11

Plan

1. Cours : le cas des variables continuesGrandeurs informationnelles continuesCanaux de communication continus

2. TD

1/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 5: Théorie de l'Information Cours 11

Variables continues

Rappels rapides de probabilités.

Pour (Ω, p) un espace probabilisé, on a∫

ω∈Ω p(ω) dω = 1.

Définition. Une variable aléatoire continue est une application X : Ω→ R.

– Sa fonction de répartition est F(x) = p(X ≤ x) ≤ 1. La fonction F est croissante,de limite 0 en −∞, et 1 en +∞.

– Si F est dérivable, on définit f = F′ la densité de probabilité de X et on a doncF(x) =

∫ x−∞ f (t) dt.

– L’ensemble X = x ∈ R, f (x) > 0 est le support de X.

– L’espérance de X est alors E(X) =∫ +∞−∞ tf (t) dt.

– La variance de X est alors E((X−E(X))2) =∫ +∞−∞ t2f (t) dt−

(∫ +∞−∞ t2f (t) dt

)2.

2/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 6: Théorie de l'Information Cours 11

Exemples et exercice

Exemple. La variable X : [a, b]→ R, donnée par f (x) = 1b−a , est dite uniforme sur le

segment [a, b]. Autrement dit on a F(x) = xb−a .

On a E(X) = 1b−a et V(X) = 0.

Exemple. La variable gaussienne G : R→ R suit une loi normale N (µ, σ) donnée par ladensité f (x) = 1

σ√

2πe−(x−µ)2/2σ2

.

On a E(G) = µ et V(G) = σ2.

Exemple. La variable exponentielle Y : R+ → R de paramètre λ > 0 est donnée par ladensité f (x) = λe−λx.On a E(Y) = 1

λ et V(Y) = 1λ2 .

Exercice. Vérifier que les densités f données ci-dessus vérifient∫

f = 1, et que les espé-rances et variances sont correctes.

3/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 7: Théorie de l'Information Cours 11

Entropie différentielle

Définition. L’entropie différentielle est

H(X) = −∫X

f (x) ln f (x) dx

Exemple. L’entropie différentielle de la variable uniforme sur [0, b] est

H(X) = −∫ b

0

1b ln 1

b dx = ln b .

On remarque que l’entropie différentielle d’une variable continue peut être négative (sib < 1 pour la loi uniforme), contrairement au cas discret.

Exercice.

1. Démontrer que la loi normale N (0, σ2) a pour entropie 12 ln(2πeσ2)

2. Démontrer que la loi exponentielle a pour entropie 1− ln λ.

4/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 8: Théorie de l'Information Cours 11

Entropie différentielle jointe et conditionnelle

Soient X, Y deux variables continues, de densités respectives fX(x) et fY(y), et de densitéconjointe f (x, y). La densité de probabilité de X | Y satisfait fX|Y(x | y) = f (x,y)

fY(y).

Définition.

1. L’entropie différentielle conjointe est

H(X, Y) = −∫∫

f (x, y) ln f (x, y) dxdy

2. L’entropie différentielle conditionnelle est

H(X | Y) = −∫∫

f (x, y) ln f (x | y) dxdy

Autrement dit on aH(X, Y) = H(X | Y) + H(Y)

Ces notions sont généralisables à n variables.

5/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 9: Théorie de l'Information Cours 11

Divergence KL et information mutuelle

Définition. La divergence de Kullback-Leibler entre deux densités de probabilité f et gest :

DKL(f || g) =∫ +∞

−∞f (t) ln

f (t)g(t)

dt

Pour que cette définition ait un sens, on doit imposer que le support de f est inclus dans lesupport de g.

Définition. L’information mutuelle entre X et Y est :

I(X ; Y) =∫∫

f (x, y) lnf (x, y)

fX(x)fY(y)dxdy

Remarque. On vérifie que

I(X ; Y) = H(X) + H(Y)−H(X, Y) = DKL(f || fXfY)

6/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 10: Théorie de l'Information Cours 11

Quelques propriétés

Lemme. Soit X et X = (X1, . . . , Xn) des variables aléatoires continues. On a :

1. H(X + c) = H(X) pour tout c ∈ R.

2. H(aX) = H(X) + ln |a| pour tout a 6= 0.

3. H(AX) = H(X) + ln |det(A)| pour tout A ∈ GLn(R).

Preuve. Notons f la densité de probabilité de X.

1. La densité de probabilité fc de X + c vérifie fc(t) = f (t− c). Puis

H(X + c) = −∫ +∞

−∞f (t− c) ln f (t− c) dt = −

∫ +∞

−∞f (t) ln f (t) dt = H(X)

2. Si a > 0, la densité fa de aX vérifie fa(t) = 1a f ( t

a ). Donc

H(aX) = −∫ +∞

−∞

1a f ( 1

a t) ln( 1

a f ( 1a t))

dt = −∫ +∞

−∞f (t) ln f (t) dt− ln 1

a

∫ +∞

−∞f = H(X)+ ln a

Si a < 0, on a Fa(t) = 1− F(t/a), donc fa(t) = − 1a f ( t

a ), et le raisonnement estsimilaire.

3. Même raisonnement qu’en 2., en utilisant le changement de variable induit par A.

7/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 11: Théorie de l'Information Cours 11

Quelques propriétés

Proposition. Soit f , g deux densités de probabilité telles que le support de f est inclusdans celui de g. Alors,

DKL(f || g) ≥ 0 ,

avec égalité si et seulement si f = g presque partout.

Preuve. La fonction u 7→ − ln(u) est convexe. Grâce à l’inégalité de Jensen, on obtient

DKL(f || g) =∫

f (t)×(− ln

g(t)f (t)

)dt ≥ − ln

(∫f (t)

g(t)f (t)

dt)

= − ln(1) = 0 .

Le cas d’égalité découle de celui de l’inégalité de Jensen.

On déduit :

Proposition. Soit X, Y deux variables aléatoires continues. Alors,

1. I(X ; Y) ≥ 0, avec égalité si et seulement si X et Y sont indépendantes,

2. H(X | Y) ≤ H(X), avec égalité si et seulement si X et Y sont indépendantes.

8/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 12: Théorie de l'Information Cours 11

Loi d’entropie maximale

Pour les variables discrètes, on pouvait borner l’entropie en fonction de taille de l’alphabetde X :

H(X) ≤ log2 |X | .

Dans le cas des variables continues, c’est la variance de X qui va jouer ce rôle.

Proposition. Soit X une variable aléatoire continue de variance V(X). Alors on a

H(X) ≤ 12

ln(2πeV(X)) ,

avec égalité si et seulement si X suit une loi normale.

Preuve. Comme H(X−E[X]) = H(X), on peut supposer que X est de moyenne nulle. Soitf la densité de probabilité de X et g celle de la loi normale de variance σ2 = V(X). Alors,

0 ≤ DKL(f || g) =∫

f ln fg = −H(X)−

∫f ln g

Or,∫f (t) ln

(1√

2πσ2e−t2/2σ2

)dt = − 1

2ln(2πσ2)

∫f (t) dt︸ ︷︷ ︸=1

− 12σ2

∫t2f (t) dt︸ ︷︷ ︸

=V(X)=σ2

=12

ln(2πeσ2) .

9/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 13: Théorie de l'Information Cours 11

Plan

1. Cours : le cas des variables continuesGrandeurs informationnelles continuesCanaux de communication continus

2. TD

9/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 14: Théorie de l'Information Cours 11

Modèle

Dans la plupart des systèmes de communication, des signaux continus (eg. ondesélectromagnétiques, son) sont transmis à travers des canaux bruités.

Z

X Ycanal

Dans un modèle simple, on supposera que

– les variables X et Z sont indépendantes (bruit blanc),

– le bruit est additif : Y = X + Z.

Dans la suite du cours, on va principalement étudier le cas du canal gaussien :

Z ∼ N (0, σ2)

On a alors un bruit additif blanc gaussien (additive white Gaussian noise, AWGN).

10/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 15: Théorie de l'Information Cours 11

Remarques

Lors de la transmission de signaux, il est techniquement impossible de donner uneprécision arbitraire/infinie aux valeurs transmises.

Cette limite se modélise par une borne sur la puissance nécessaire pour transmettre lesignal.

Si le signal provient d’une variable aléatoire X, on définit cette puissance comme :

P = E(X2) =∫ +∞

−∞t2f (t) dt

Informellement, plus la puissance P d’un signal est grande, plus il sera difficile de lequantifier précisément.

11/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 16: Théorie de l'Information Cours 11

Réduction au canal binaire symétrique

À puissance P fixée, on souhaite représenter le canal gaussien comme un canalnumérique discret.

Par exemple, supposons que l’on souhaite envoyer un message binaire uniforme à traversle canal.

Idée. On génère des signaux le plus « éloignés » possibles (par rapport à la puissance Pdisponible) pour être capable d’identifier le signal après passage dans le canal bruité :

– pour envoyer 0, on génère X constante égale à√

P,

– Pour envoyer 1, on génère X constante égale à −√

P.

Ensuite, on décode « au maximum de vraisemblance » :

– si Y = Z + X > 0 on décide que 0 a été envoyé,

– si Y = Z + X < 0 on décide que 1 a été envoyé.

Question. Quelle est la probabilité d’erreur de décodage en fonction de la variance σ2

du bruit et la puissance P ?

12/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 17: Théorie de l'Information Cours 11

Réduction au canal binaire symétrique

Question. Quelle est la probabilité d’erreur de décodage en fonction de la variance σ2

du bruit et la puissance P ?

P(erreur) =12

P(Y < 0 | X =√

P) +12

P(Y > 0 | X = −√

P)

=12

P(Z < −√

P | X =√

P) +12

P(Z >√

P | X = −√

P)

= P(Z >√

P) par symétrie et indépendance de X et Z

= 1−∫ √P/σ

−∞

1√2π

e−t2/2 dt

Remarque. Le rapport Pσ2 est appelé rapport signal

sur bruit (SNR : signal-to-noise ratio) et s’exprime sou-vent en décibel (dB) sous la forme 10 log2

Pσ2 .

13/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 18: Théorie de l'Information Cours 11

Capacité

Question. Quelle quantité d’information peut-on théoriquement transmettre à travers uncanal continu?

Définition. La capacité d’un canal X→ Y de puissance contrainte P est

max I(X ; Y) | E(X2) ≤ P

Z

X Ycanal

Plaçons nous dans le cas du canal additif où X et Z sont indépendantes. Alors, pour unesource X donnée, on a :

I(X ; Y) = H(Y)−H(Y | X)

= H(Y)−H(X + Z | X)

= H(Y)−H(Z | X)

= H(Y)−H(Z) .

14/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 19: Théorie de l'Information Cours 11

Capacité du canal gaussien

On suppose ici que le canal est gaussien, c’est-à-dire que Z suit une loi normale N (0, σ2).

Théorème (Shannon-Hartley). La capacité du canal gaussien de puissance contrainte Pest

12

ln(

1 +Pσ2

).

Preuve. On a I(X ; Y) = H(Y)−H(Z) et on sait que H(Z) = 12 ln(2πeσ2).

Il reste à majorer H(Y). Généralement on a H(Y) ≤ 12 ln(2πeV(Y)). Calculons une

majoration de la variance de Y.

On a V(Y) = E(Y2)−E(Y)2 ≤ E(Y2) (égalité possible si E(X) = 0). Par ailleurs,

E(Y2) = E((X + Z)2) = E(X2) + 2E(X)E(Z) + E(Z2) ≤ P + σ2 .

Donc,

I(X ; Y) = H(Y)−H(Z) ≤ 12

ln(2πe(P + σ2))− 12

ln(2πeσ2) =12

ln(

1 +Pσ2

).

On peut atteindre ce majorant en choisissant X qui suit une loi normale de variance P.

15/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 20: Théorie de l'Information Cours 11

Modulation

Pour transmettre un message x = (x1, . . . , xn) dans un canal continu, on construit unefonction fx(t) du temps t, que l’on envoie à travers le canal.

Choix de fx(t). On pourrait simplement choisir une fonction rectangulaire (constante égaleà xi par morceaux).

Mais cette fonction n’est pas continue =⇒ cela pose problème car les appareilsélectroniques filtrent les hautes fréquences.

On choisit donc d’encoder x comme une somme de sinusoïdes, dont les fréquences sontcontrolées par les xi :

fx(t) =n

∑i=1

A(xi) cos(2πω(xi)t) .

Ainsi, on contrôle les fréquences transmises. Ce procédé (plus complexe en réalité)s’appelle la modulation.

Question. Comment retrouver x à partir d’échantillons de fx(t) ?

16/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 21: Théorie de l'Information Cours 11

Théorème d’échantillonage

Question. Comment retrouver x à partir d’échantillons de fx(t) ?

Équivalent à un problème d’interpolation.

Étant donnée une fonction f : R→ C, on associe sa transformée de Fourier

F(ω) =1√2π

∫ +∞

−∞f (t)e−iωt dt

qui représente le spectre de fréquences de f . Alors

f (t) =1√2π

∫ +∞

−∞F(ω)eiωt dω

Théorème d’échantillonage (Nyquist-Shannon). Soit f (t) une fonction dont les fré-quences sont bornées par W (c’est-à-dire, F(ω) = 0 si ω > W). Alors, f (t) est déterminéepar ses échantillons si la période d’échantillonage ≤ 1

2W .

17/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 22: Théorie de l'Information Cours 11

Plan

1. Cours : le cas des variables continuesGrandeurs informationnelles continuesCanaux de communication continus

2. TD

17/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 23: Théorie de l'Information Cours 11

Exercice 1

Exercice.– Soit X = a, b et X, Y deux variables indépendantes sur X de même loi deBernoulli de paramètre λ. On note Z = (X, Y) la variable produit, définie sur X 2, de loiconjointe pXY.

Question 1. Calculer P(Z = z) pour tout z ∈ X 2.

Question 2. Quelle est l’entropie de Z ?

Question 3. Décrire le code de Huffman de source Z. On distinguera la forme de l’arbrebinaire associé selon la valeur de λ.

Question 4. Tracer le graphe de la longueur moyenne du code de Huffman en fonctionde λ. Sous quelle condition sur λ le code de Huffman est-il meilleur que le code delongueur fixe égale à 2?

Question 5. Décrire le code de Shannon-Fano de source Z. On donnera les longueursdes mots en fonction de λ.

Question 6. Sous quelle condition sur λ le code de Shannon-Fano est-il meilleur que lecode de longueur fixe égale à 2? On pourra s’aider d’un logiciel pour les résolutionsnumériques.

18/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 24: Théorie de l'Information Cours 11

Exercice 1

Exercice.– Soit X = a, b et X, Y deux variables indépendantes sur X de même loi deBernoulli de paramètre λ. On note Z = (X, Y) la variable produit, définie sur X 2, de loiconjointe pXY.

Question 1. Calculer P(Z = z) pour tout z ∈ X 2.

Question 2. Quelle est l’entropie de Z ?

Réponse 1. Si P(X = a) = P(Y = a) = λ, on a

z aa ab ba bbP(Z = z) (1− λ)2 λ(1− λ) λ(1− λ) λ2

Réponse 2. Comme X et Y sont indépendantes et de loi de Bernoulli de paramètre λ, on a

H(Z) = 2h(λ) = −2λ log2(λ)− 2(1− λ) log2(1− λ) .

19/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 25: Théorie de l'Information Cours 11

Exercice 1

Question 3. Décrire le code de Huffman de source Z. On distinguera la forme de l’arbrebinaire associé selon la valeur de λ.

Réponse 3. On suppose λ < 1/2 et on raisonnera symétriquement par rapport à 1/2 pourλ > 1/2.

À la première étape de l’algorithme de Huffman, les probabilités λ2 et λ(1− λ) sontsélectionnées. La nouvelle loi de probabilité obtenue est donc :

(λ2 + λ(1− λ) = λ, λ(1− λ), (1− λ)2) .

On distingue donc deux cas :

1. Si λ(1− λ) < λ ≤ (1− λ)2, alors on obtient l’arbre

aaab

ba bb

Ce cas intervient pour λ ≤ (1− λ)2, c’est-à-dire λ ≤ 3−√

52 .

2. Si λ(1− λ) < (1− λ)2 < λ, alors on obtient l’arbre

aa ab ba bb

20/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 26: Théorie de l'Information Cours 11

Exercice 1

Question 4. Tracer le graphe de la longueur moyenne du code de Huffman en fonctionde λ. Sous quelle condition sur λ le code de Huffman est-il meilleur que le code delongueur fixe égale à 2?

Réponse 4. Le code de Huffman a pour longueur moyenne ` = 2 si λ ∈ [ 3−√

52 , 1− 3−

√5

2 ].

Dans le cas contraire, on a une longueur moyenne

– ` = (1− λ)2 + 2λ(1− λ) + 3λ = 1 + 3λ− λ2 si λ < 3−√

52

– ` = λ2 + 2λ(1− λ) + 3(1− λ) = 3− λ− λ2 si λ > 1− 3−√

52 .

21/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 27: Théorie de l'Information Cours 11

Exercice 1

Question 5. Décrire le code de Shannon-Fano de source Z. On donnera les longueursdes mots en fonction de λ.

Question 6. Sous quelle condition sur λ le code de Shannon-Fano est-il meilleur que lecode de longueur fixe égale à 2? On pourra s’aider d’un logiciel pour les résolutionsnumériques.

Réponse 5. Le code de Shannon-Fano associé à Z a

– un mot de longueur d− log2(1− λ)2e,– deux mots de longueur d− log2 λ(1− λ)e,– un mot de longueur d− log2 λ2e.

Réponse 6. La longueur moyenne du code de Shannon-Fano associé à Z est

`(λ) = (1− λ)2d− log2(1− λ)2e+ 2λ(1− λ)d− log2 λ(1− λ)e+ λ2d− log2 λ2e .

L’analyse théorique est plus complexe à cause des d·e ... voyons ce que cela donne enpratique.

22/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 28: Théorie de l'Information Cours 11

Exercice 1

`(λ) = (1− λ)2d− log2(1− λ)2e+ 2λ(1− λ)d− log2 λ(1− λ)e+ λ2d− log2 λ2e .

23/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 29: Théorie de l'Information Cours 11

Exercice 2

Exercice.– Soit X = (Xn)n≥1 un processus binaire sans mémoire, dont les variables Xnsont uniformes. On note N la variable aléatoire comptant la longueur de la premièreplage de symboles identiques, c’est-à-dire telle que

XN+1 6= XN et ∀2 ≤ n ≤ N, Xn = Xn−1 .

On note XN = (X1, . . . , XN).

Question 1. Quelles valeurs prennent les variables N et XN ?

Question 2. Calculer P(N = n), P(XN = x | N = n) et P(XN = x) pour ces valeurs.

Question 3. Démontrer que :

1. H(XN) = 3,

2. H(XN | N) = 1 (et interpréter),

3. I(XN ; N) = 2.

24/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 30: Théorie de l'Information Cours 11

Exercice 2

Exercice.– Soit X = (Xn)n≥1 un processus binaire sans mémoire, dont les variables Xnsont uniformes. On note N la variable aléatoire comptant la longueur de la premièreplage de symboles identiques, c’est-à-dire telle que

XN+1 6= XN et ∀2 ≤ n ≤ N, Xn = Xn−1 .

On note XN = (X1, . . . , XN).

Question 1. Quelles valeurs prennent les variables N et XN ?

Exemple. Si X = (00000010101001.....), alors N = 6, XN+1 = 1 et XN = 000000.

Réponse 1. La variable N prend les valeurs n ∈N+.

La variable XN prend les valeurs0 . . . 0︸ ︷︷ ︸

i fois

et1 . . . 1︸ ︷︷ ︸

i fois

pour tout i ≥ 1.

25/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 31: Théorie de l'Information Cours 11

Exercice 2

Question 2. Calculer P(N = n), P(XN = x | N = n) et P(XN = x) pour ces valeurs.

Réponse 2. Pour tout n ≥ 1 on a

P(N = n) = ∑c∈0,1

P(X1 = c et . . . et Xn = c et Xn+1 = 1− c) = 2× 12n+1 =

12n .

Soit x = c . . . c︸ ︷︷ ︸`(x) fois

où c ∈ 0, 1.

On a alors P(XN = x | N = `(x)) = 12 car si N = `(x), les deux seuls valeurs

équiprobables pour XN sont x et son complément x.Pour n 6= `(x), on a bien sûr P(XN = x | N = n) = 0.Enfin,

P(XN = x) =+∞

∑i=1

P(XN = x | N = i)P(N = i) =12× 1

2`(x)=

12`(x)+1

.

26/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 32: Théorie de l'Information Cours 11

Exercice 2

Question 3. Démontrer que :

1. H(XN) = 3,

2. H(XN | N) = 1 (et interpréter),

3. I(XN ; N) = 2.

Réponse 3. On utilise les résultats de la Question 2.

1. H(XN) = −∑c∈0,1 ∑n≥1 P(X = cn) log2 P(X = cn) = 2 ∑n≥1n+12n+1 = 3.

2. H(XN | N) = ∑n≥1 P(X = n)H(XN | X = n) = ∑n≥11

2n × h(1/2) = ∑n≥11

2n = 1.

Interprétation : lorsque N est connu, il ne reste qu’un bit d’indétermination : la valeurprise par la plage de symboles identiques.

3. I(XN ; N) = H(XN)−H(XN | N) = 3− 1 = 2.

27/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 33: Théorie de l'Information Cours 11

Exercice 3

Exercice.– Soient X = (Xn)n≤N une séquence de variables aléatoires binaires. On défi-nit R = (Rm)m≤M, où les variables Rm sont à valeurs sur N+, comme la séquence deslongueurs de plages de symboles identiques dans X.

Par exemple, si X se réalise comme (1100010000111), alors R vaut (2, 3, 1, 4, 3).

Question 1. Démontrer que H(R, X0) = H(X).

Question 2. En déduire que H(X)−H(X0) ≤ H(R) ≤ H(X).

Réponse 1. Par définition, R et X0 sont construites de manière déterministe en fonction deX. Autrement dit, il existe une fonction déterministe g telle que (R, X0) = g(X).

D’après le principe de non-création d’information, on a donc

H(R, X0) = H(g(X)) ≤ H(X) .

Inversement, soit

f : (r1, . . . , rm, x0) 7→ (x0 . . . x0︸ ︷︷ ︸r1 fois

x0 . . . x0︸ ︷︷ ︸r2 fois

x0 . . . x0︸ ︷︷ ︸r3 fois

. . . . . . )

où x0 = 1− x0, c’est-à-dire x0 = 0 si x0 = 1, et inversement.

On observe que f (R, X0) = X. Ainsi, par le même principe de non-création d’information,on a H(X) ≤ H(R, X0).

28/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –

Page 34: Théorie de l'Information Cours 11

Exercice 3

Question 2. En déduire que H(X)−H(X0) ≤ H(R) ≤ H(X).

Réponse 2. On aH(R) ≤ H(R, X0) = H(X)

etH(X) = H(R, X0) ≤ H(R) + H(X0) .

29/31 J. Lavauzelle M1 – Théorie de l’Information– TI-11 –