theorie de l'information: chapitre 3

Upload: ferouk

Post on 05-Apr-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/31/2019 theorie de l'information: chapitre 3

    1/5

    Thorie de linformation

    1

    Chapitre 3 : Mesure de linformation

    Un message reu n'apporte de l'information que si son contenu n'est pas connu l'avance de

    son destinataire. Par exemple, si je connais le prochain bit recevoir, je n'ai pas besoin de le

    recevoir.

    On va supposer que l'ensemble de tous les messages possibles est fini. Alors fournir une

    information c'est lever l'incertitude l'issue d'une exprience alatoire.

    Cette incertitude peut varier pour un mme vnement si on a connaissance d'une autre

    information : pour 2 vnementsEet F, si

    - p(E/F) < p(E) alors l'incertitude surEaugmente si on sait que Fs'est ralis- p(E/F) =p(E) alorsEet Fsont indpendants, l'information apporte par Fn'influence

    pas l'incertitude sur la survenue deE

    - p(E/F) > p(E) alorsEdevient plus probable si on sait que Fs'est ralisL'ide de Shannon est de quantifier cette donne sachant que plus le contenu du message est

    rare plus l'information apporte est importante. A contrario, si on est sr de recevoir un

    certain message il n'apporte aucune information et la mesure de l'information apporte devra

    alors tre nulle.

    On voit alors qu'il y a un lien entre la probabilit de recevoir une information et la mesure que

    l'on veut en donner : ce lien que l'on cherche tablir doit respecter les ides ci-dessus.

    De plus on souhaite que la quantit d'information apporte par 2 vnements indpendants

    soit la somme des quantits d'information apportes par chacun.

    Rappel : siEet Fsont 2 vnements la probabilit conditionnelle est gale

    p(E/F) =p(E F) /p(F)

    Eet Fsont indpendants si et seulement si p(E F) =p(E)p(F) ce qui quivaut

    p(E/F) =p(E)

    3.1 Quantit dinformation

    Dfinition 2.1 Soit E un vnement. On appelle quantit d'information de E la valeur

    O p(E) est la probabilit de E

    On remarque que la fonction I vrifie bien les requis exprims plus haut : si p(E) diminue,

    I(E) augmente et si p(E) = 1 alors I(E) = 0.

    Le choix du logarithme en base 2 n'est pas anodin : dfinissons le bit (binary unit) comme la

    quantit d'information apporte par le choix entre deux valeurs quiprobables.

  • 7/31/2019 theorie de l'information: chapitre 3

    2/5

    Thorie de linformation

    2

    Donc, si on a une variable E qui prend deux valeurs quiprobables (par exemple pile ou face

    pour une pice non truque) alors la quantit d'information apporte par la ralisation de {E =

    pile} est de 1 bit par dfinition du bit. Et on a bien 1 = -log2 1/2

    L'unit de quantit d'information est le bit.

    Pour reprsenter une information de n bits, il faut alors n symboles binaires.

    Par exemple, si on 16 valeurs possibles quiprobables, alors une valeur a une quantit d'in-

    formation gal 4 et il faut 4 bits (binary digit) pour reprsenter toutes les valeurs. Mais ce ne

    sera pas toujours le cas si la distribution de probabilit est ingale.

    On montre maintenant que cette dfinition rpond l'additivit requise pour I.

    Proprit 2.1 Si E et F sont 2 vnements indpendants alors I(E F) = I(E) + I(F). La

    quantit d'informations apportes par 2 vnements indpendants est la somme de leurs

    quantits d'information respectives.

    preuve : I(E F) = -log2 p(E F) = -log2 p(E) p(F) = -log2 p(E) -log2 p(F) = I(E)+ I(F)

    Exemple 2.1 :

    Soit un jeu de 32 cartes dans lequel on effectue des tirages et les vnements

    E = {la carte tire est un valet de cur} et F = {la carte tire est un cur}

    On a pour E, p(E) = 1/32 et I(E) = 5, et pour F, p(F) = 1/4 et I(F) = 2.

    E et F ne sont pas indpendants car p(E/F) = p(EF) / p(F) = (1/32)/(1/4) = 1/8

    Cela nous mne dfinir l'information mutuelle pour 2 vnements.

    3.2 Information mutuelle

    On veut mesurer l'apport d'information de l'vnement F sur l'vnement E. Si la ralisation

    de F augment la probabilit de ralisation de E on veut que cette mesure soit positive et

    inversement si F augmente l'incertitude sur E cette mesure doit tre ngative. Enfin si les deux

    vnements sont indpendants cette mesure doit tre nulle.

    Dfinition 2.2 Soient E et F 2 vnements. L'information apporte par F sur E est dfini par

    Contrairement la quantit d'information, l'information mutuelle n'est pas toujours un rel

    positif.

  • 7/31/2019 theorie de l'information: chapitre 3

    3/5

    Thorie de linformation

    3

    On notera alors I(F E) = I(E, F) = I(F,E) et on l'appellera information mutuelle entre

    E et F.

    On remarque que si

    - I(E, F) > 0 alors la ralisation d'un des 2 vnements augmente la probabilit del'autre (diminue son incertitude)- I(E ; F) = 0 alors E et F sont indpendants, l'information mutuelle est nulle- I(E, F) < 0 alors la ralisation d'un des 2 vnements diminue la probabilit de l'autre

    (augmente son incertitude)

    - p(E F) = 0 alors la ralisation d'un des 2 vnements rend impossible la ralisationde l'autre et I(E, F) = -

    La proprit suivante tablit un lien entre la quantit d'information et l'information mutuelle.

    Proprit 2.3 I(EF) = I(E) + I(F) - I(E, F)

    3.3 Entropie

    3.3.1 Entropie d'une variable alatoire

    Prenons l'exemple d'un d. On voudrait connatre comme contenu d'information la valeur du

    d aprs un lancer. Soit alors X la variable alatoire valeurs dans {1, 2, 3, 4, 5, 6}. X peut

    prendre 6 valeurs et si le d n'est pas truqu, les valeurs sont quiprobables. Donc chaque

    valeur correspond une quantit d'information de 2,58 bits (= -log2(1/6))

    Mais supposons maintenant que le d soit truqu et que la valeur 6 sorte avec une probabilit

    0,5 et que les autres valeurs soient quiprobables. La quantit d'information pour chaque

    valeur n'est pas la mme et pour avoir une vision globale on peut tre intress connatre

    l'information moyenne soit l'esprance de I(X).

    Elle vaut ici :

    Dfinition 2.3 On appelle entropie de X l'esprance de I(X) note H(X).

    - H(X) est un rel positif comme I(X = x).- H(X) correspond au nombre moyen d'lments binaires pour coder les diffrentes

    valeurs de X.

    - H(X) n'est fonction que de la loi de probabilit de X, pas des valeurs prises par X.Exemple 2.2 : pour un jeu de 32 cartes, on dfinit la variable alatoire X par X = 0 si la carteest rouge, X = 1 si la carte est un pique et X = 2 si la carte est un trfle. On a alors

  • 7/31/2019 theorie de l'information: chapitre 3

    4/5

    Thorie de linformation

    4

    H(X) = -( log2 + log2 + log2 ) = + 2 + 2 = 1,5 bits

    Le rsultat suivant aura pour consquence de pouvoir mesurer l'efficacit d'un code

    Thorme 2.4 H(X) < = - log2 n si X prend n valeurs.

    H(X) = - log2 n si et seulement si X a une loi uniforme

    (c'est--dire p(X = x) = 1/n pour tout x).

    Proprit 2.5 L'entropie augmente lorsque le nombre de valeurs possibles augmente.

    3.3.2 Entropie conditionnelle

    Soient X; Y 2 variables alatoires discrtes.

    Dfinition 2.4 On appelle entropie de X conditionnelle Y = y

    On a alors :

    Dfinition 2.5 On appelle entropie de X sachant Y

    Enfin on dfinit l'entropie mutuelle comme l'entropie d'un couple de variables alatoires

    Dfinition 2.6 On appelle entropie mutuelle de X, Y

    Entropie de X sachant Y et entropie mutuelle sont deux valeurs positives. Le lien entre

    entropie mutuelle et conditionnelle est donne par

    Proprit 2.6 H(X, Y) = H(X) + H (Y/X) = H(Y ) + H(X/Y )

    Pour quantifier l'apport d'information X fournie par Y, on mesure la diffrence entre

    l'entropie de X (l'information moyenne de X) et l'entropie conditionnelle de X sachant Y, soit

    H(X)-H(X/Y).

    Il est facile de montrer que H(X)-H(X/Y) = H(Y)-H (Y/X) c'est--dire ce que Y apporte X

    est gal ce que X peut apporter Y .

  • 7/31/2019 theorie de l'information: chapitre 3

    5/5

    Thorie de linformation

    5

    En effet H(X)-H(X/Y ) = H(X,Y )-H(Y/X)-H(X=Y ) d'aprs la proposition prcdente.

    En l'appliquant de nouveau on dduit H(X) - H(X/Y) = H(Y) - H (Y/X).

    On peut montrer que cette quantit est gale l'esprance de I(X = x, Y = y) dfini plus haut

    comme information mutuelle.

    O I(X ; Y) est l'esprance de I(X = x, Y = y)

    On peut montrer aussi que cette esprance est toujours positive contrairement l'information

    mutuelle.

    Proprit 2.7 I(X; Y) >= 0

    Remarque : si X et Y sont indpendants alors I(X, Y) = 0.

    On dduit de ce rsultat

    Proprit 2.8 H(X/Y)