2012-13 Cours 06-Theorie-Information Entro
2012-13 Cours 06-Theorie-Information Entro
2012-13 Cours 06-Theorie-Information Entro
1
La théorie de l’information
Le théorème de la communication s’intéresse aux moyens de transmettre une
information depuis une source jusqu’à un utilisateur à travers un canal
Message
Perturbations
2
La théorie de l’information
o Le canal peut être une ligne téléphonique, une liaison radio etc…
Codage/décodage de
source/canal 3
Objectif du codeur de la source est de représenter la sortie de la source en une séquence
binaire, par exemple.
Codage Codage
Source
Source Canal
Canal
Décodage Décodage
Destinataire
Source Canal
4
Modélisation d’un source
Il est possible de classer les sources en deux catégories selon les signaux ou messages
qu’elles émettent :
o Les sources discrètes : disques optiques (Cd, DVD,…), les mémoires magnétiques
(disques durs, bandes,…).
Une source d'information émet en général un message non déterministe. D'un point
de vue signal ce ne peut être qu'un signal aléatoire et la modélisation mathématique
associée doit être stochastique ⇒ une information est un processus stochastique.
6
Source discrète sans mémoire
o Les symboles de l’alphabet de la source sont associés pour constituer un
message.
7
Quantité d’information émisse par la source
La quantité d'information d'un symbole 𝑥𝑘 de probabilité 𝑝𝑘 a été définie par Shannon
comme :
1
𝐼 𝑥𝑘 = − 𝑙𝑜𝑔 𝑝𝑘 = 𝑙𝑜𝑔
𝑝𝑘
Unités:
Dans la définition de la quantité d'information il n'a pas été précisé la base du logarithme utilisée et
c'est cette base qui définit l'unité.
o Base 2 : c'est celle historiquement choisie par Shannon qui est à l'origine de cette définition.
L'unité ainsi obtenue est le bit (ou Shannon).
o Base e : utilisation du logarithme Népérien (ou naturel). L'unité devient alors le nats (ou logon) ⇒
1 nats = 0,69315 bits (𝑙𝑛 𝑎 = 𝑙𝑛 2 . log2 𝑎 = 0,69315. log 2 (𝑎))
o Base 10 : En conformité avec le système décimal, la base 10 qui donne le dit (ou décit) comme
ln(𝑎) 𝑙𝑛 2 log2 𝑎
unité ⇒ 1 dit = 0,301 bits (log10 (𝑎) = = = 0,301. log 2 (𝑎)) 8
ln(10) ln(10)
Entropie d’une Source
Si on considère une source d’information 𝑆 qui sélectionne aléatoirement un symbole parmi
𝑁 éléments d’un alphabet (𝑠1 , … , 𝑠𝑁 ) de possibilités respectives 𝑃1 , … , 𝑃𝑁 , l’entropie de la
source est :
𝑁
𝐻 𝑆 = − 𝑃 log 2 𝑃 + 1 − 𝑃 log 2 (1 − 𝑃)
9
Entropie d’une Source
Exemple : Source binaire 0,1 . On a pour ′𝑂′ → 𝑃 et pour ′1′ → 1 − 𝑃
On peut constater qu’un élément binaire (bit) ne véhicule qu’un Shannon que lorsque
𝑃 = 0.5 (lorsque les états 0,1 sont équiprobables).
𝐻 𝑆 → 0 lorsque l’un des symboles devient très probable (fréquent) 10
Entropie d’une Source
1- Théorème de l’Entropie Maximale :
De façon plus générale, on peut démonter que 𝐻 𝑆 est une grandeur positive ou nulle
qui est maximale lorsque l’incertitude globale est la plus grande, c’est-à-dire lorsque
1
𝑃𝑘 =
𝑁
𝑁 1 1
0 < 𝐻 𝑆 < 𝐻𝐴 (𝑁) avec 𝐻𝐴 𝑁 = − 𝑘=1 𝑁 log 2 𝑁 = log 2 𝑁
Conséquences :
(Source binaire)
𝑁
𝑞𝑘 L’égalité ayant lieu lorsque ∀𝑘 𝑝𝑘 = 𝑞𝑘
𝑝𝑘 log 2 ≤0
𝑝𝑘
𝑘=1
Démonstration:
ln 𝑥 < 𝑥 − 1
12
Démonstration (suite):
On effectue la démonstration utilisant que ln 𝑥 < 𝑥 − 1, l'égalité étant obtenue pour
𝑞
𝑥 = 1. On pose 𝑥 = 𝑝𝑘 > 0
𝑘
𝑞𝑘 𝑞𝑘
ln ≤ −1
𝑝𝑘 𝑝𝑘
Multipliions par 𝑝𝑘 : 𝑞𝑘 𝑞𝑘
𝑝𝑘 ln ≤ 𝑝𝑘 − 1 = 𝑞𝑘 − 𝑝𝑘
𝑝𝑘 𝑝𝑘
Soit : 𝑁 𝑁 𝑁
𝑞𝑘
𝑝𝑘 ln ≤ 𝑞𝑘 − 𝑝𝑘
𝑝𝑘
𝑘=1 𝑘=1 𝑘=1
𝑁
𝑞𝑘
𝑝𝑘 ln ≤ 1−1
𝑝𝑘
𝑘=1
𝑁
𝑞𝑘
𝑝𝑘 ln ≤0
𝑝𝑘 13
𝑘=1
3- Relation avec la thermodynamique
Soit 𝑆 une source composé d’un alphabet de 𝑁 éléments (𝑠1 , … , 𝑠𝑁 ) avec les probabilités
𝑝1 , … , 𝑝𝑁 . On suppose que l’symbole 𝑠𝑘 est sectionné en deux sous-symboles 𝑠𝑘1 et 𝑠𝑘2 ,
de probabilités respectives 𝑝𝑘1 et 𝑝𝑘2 non-nulles telles que 𝑝𝑘 = 𝑝𝑘1 + 𝑝𝑘2
𝐻 𝑆′ > 𝐻 𝑆
14
Redondance d’une Source
Définition :
L’écart à l’unité du rapport entre l’entropie d’une source et l’entropie maximale (donnée par
la taille de son alphabet) est appelé la redondance :
𝐻 𝑆
𝑅 𝑆 =1−
𝐻𝐴 (𝑁)
La redondance permet d’apprécier l’usage que fait la source de son alphabet, c’est-à-
dire l’adéquation de cet alphabet au message livré par la source
15
Information & entropie conjointe de deux sources
Il est très fréquent dans la pratique que deux sources d’information diffusent des
messages presque identiques.
Si 𝑝(𝑥𝑖 , 𝑦𝑗 )est la probabilité jointe entre deux caractères alors la quantité d'information
conjointe est :
𝐼 𝑥𝑖 , 𝑦𝑗 = −log 𝑝 𝑥𝑖 , 𝑦𝑗
16
Entropie conjointe de deux sources
L'entropie jointe des deux sources est alors la quantité d'information moyenne conjointe
entre deux caractères de la source :
𝑁 𝑀
𝐻 𝑋, 𝑌 = − 𝑃 𝑥𝑖 , 𝑦𝑗 log 𝑃 𝑥𝑖 , 𝑦𝑗
𝑖=1 𝑗=1
𝑃 𝑥𝑖 , 𝑦𝑗 = 𝑃 𝑥𝑖 . 𝑃 𝑦𝑗
𝐻 𝑋, 𝑌 = 𝐻 𝑋 + 𝐻 𝑌
17
Entropie conjointe de deux sources
Cas où les deux sources sont dépendantes :
L’existence d’une compromis (ou relation) entre 𝑋 et 𝑌 implique que l’observation globale
de 𝑋, 𝑌 apporte moins d’information que la somme des informations apportées par les
observations séparées de 𝑋 et 𝑌
0 ≤ 𝐻 𝑋, 𝑌 ≤ 𝐻 𝑋 + 𝐻 𝑌
Démonstration:
On utilise l’inégalité de Gibbs où on définit : 𝑝𝑘 = 𝑃 𝑥𝑖 , 𝑦𝑗 et 𝑞𝑘 = 𝑃 𝑥𝑖 . 𝑃 𝑦𝑗
𝑁
𝑞𝑘
𝑝𝑘 log ≤0
𝑝𝑘
𝑘=1
𝑁 𝑀
𝑃 𝑥𝑖 . 𝑃 𝑦𝑗
𝑃 𝑥𝑖 , 𝑦𝑗 log ≤0
𝑃 𝑥𝑖 , 𝑦𝑗 18
𝑖=1 𝑗=1
𝑁 𝑀
𝑃 𝑥𝑖 . 𝑃 𝑦𝑗
Démonstration: 𝑃 𝑥𝑖 , 𝑦𝑗 log
𝑃 𝑥𝑖 , 𝑦𝑗
≤0
𝑖=1 𝑗=1
𝑁,𝑀
𝑖,𝑗=1 𝑃 𝑥𝑖 , 𝑦𝑗 log 𝑃 𝑥𝑖 . 𝑃 𝑦𝑗 − log 𝑃 𝑥𝑖 , 𝑦𝑗 ≤0
𝑁,𝑀
−𝐻 𝑋 −𝐻 𝑌 +𝐻 𝑋, 𝑌 ≤ 0
𝐻 𝑋, 𝑌 ≤ 𝐻 𝑋 +𝐻 𝑌
19
Quantité d'information mutuelle
C’est la quantité d’information partagée par 𝑋 et 𝑌
𝑰 𝑿, 𝒀 = 𝐻 𝑋 + 𝐻 𝑌 − 𝐻 𝑋, 𝑌
𝑁 𝑀
𝑁 𝑀
𝑃 𝑥𝑖 , 𝑦𝑗
𝐼 𝑋, 𝑌 = 𝑃 𝑥𝑖 , 𝑦𝑗 log
𝑃 𝑥𝑖 . 𝑃 𝑦𝑗
𝑖=1 𝑗=1
𝐼 𝑋, 𝑌 = 0
Cas où 𝑋 = 𝑌 :
𝑃 𝑥𝑖 , 𝑦𝑗 = 𝑃 𝑥𝑖 = 𝑃 𝑦𝑗
𝐼 𝑋, 𝑌 = 𝐻 𝑋 = 𝐻 𝑌
0 ≤ 𝐼 𝑋, 𝑌 ≤ 𝐻 𝑋 𝑒𝑡 0 ≤ 𝐼 𝑋, 𝑌 ≤ 𝐻 𝑌
21
Probabilité conditionnelle
(Probabilité de la indétermination)
Soient 𝑋 et 𝑌 deux évènements
Probabilité de 𝑋 conditionnellement à 𝑌
Probabilité de 𝑋 sachant 𝑌
𝑃 𝑥𝑖 , 𝑦𝑗 = 𝑃 𝑥𝑖 𝑦𝑗 𝑃 𝑦𝑗 = 𝑃 𝑦𝑗 𝑥𝑖 𝑃 𝑥𝑖 Probabilité
marginale
probabilité de 𝑋
probabilité mutuelle probabilités conditionnelles
23
Entropie Conditionnelle
L’entropie conditionnelle, définie à partir des probabilités conditionnelles s’exprime :
Quantité d’information qu’il reste à acquérir pour connaitre X, lorsque Y est connu
𝑁 𝑁
1
où 𝐻 𝑋|𝑦𝑗 = 𝑃 𝑥𝑖 |𝑦𝑗 𝐼 𝑥𝑖 |𝑦𝑗 = 𝑃 𝑥𝑖 |𝑦𝑗 log 2
𝑃 𝑥𝑖 |𝑦𝑗
𝑖=1 𝑖=1 24
Entropie Conditionnelle
Propriété :
L’entropie conditionnelle est inferieure ou égale à la quantité d’information apportée
par 𝑋, puisque la connaissance de 𝑌 réduit l’incertitude sur 𝑋 :
𝐼 𝑋, 𝑌 ≥ 0 𝐻 𝑋|𝑌 < 𝐻 𝑋
𝐻 𝑋 = 𝐻 𝑋|𝑌 + 𝐼(𝑋, 𝑌)
25
Entropie Conditionnelle
Démonstration :
• En vertu du théorème de Bayes, 𝑃 𝑥𝑖 , 𝑦𝑗 = 𝑃 𝑥𝑖 𝑦𝑗 𝑃 𝑦𝑗 = 𝑃 𝑦𝑗 𝑥𝑖 𝑃 𝑥𝑖
𝑃 𝑥𝑖 ,𝑦𝑗 𝑃 𝑥𝑖 𝑦𝑗 𝑃 𝑦𝑗 𝑥𝑖
= =
𝑃 𝑥𝑖 𝑃 𝑦𝑗 𝑃 𝑥𝑖 𝑃(𝑦𝑗 )
𝑁 𝑀
𝑃(𝑥𝑖 |𝑦𝑗 )
𝐼 𝑋, 𝑌 = 𝑃 𝑥𝑖 , 𝑦𝑗 log = 𝐻 𝑋 − 𝐻 𝑋|𝑌
𝑃 𝑥𝑖
𝑖=1 𝑗=1
𝑁 𝑀
𝑃 𝑦𝑗 𝑥𝑖
𝐼 𝑋, 𝑌 = 𝑃 𝑥𝑖 , 𝑦𝑗 log = 𝐻 𝑌 − 𝐻 𝑌|𝑋
𝑃(𝑦𝑗 ) 26
𝑖=1 𝑗=1
Information & entropie mutuelles
Diagrammes des Venn
Le diagramme de Venn résume, pour le cas de 2 variables aléatoires (𝑋, 𝑌), la définition de
l’information mutuelle ainsi que les relations entre les différentes entropies
𝐻 𝑋 𝐻 𝑋|𝑌 𝐻 𝑌|𝑋 𝐻 𝑌
Information apportée Entropie conditionnelle : Entropie conditionnelle : Information apportée
par l’observation de 𝑋 la connaissance de 𝑌 réduit la connaissance de 𝑋 réduit par l’observation de 𝑌
l’incertitude sur 𝑋 : l’incertitude sur 𝑌 :
𝐻 𝑋, 𝑌 27
Information & entropie mutuelles
Diagrammes des Venn
𝐻 𝑋 𝐻 𝑌
𝐻 𝑋|𝑌 𝐼 𝑋, 𝑌 𝐻 𝑌|𝑋
𝐻 𝑋, 𝑌
𝐼 𝑋, 𝑌 = 𝐻 𝑌 − 𝐻 𝑌|𝑋
= 𝐻 𝑋 − 𝐻 𝑋|𝑌
= 𝐻 𝑋, 𝑌 − 𝐻 𝑋|𝑌 − 𝐻 𝑌|𝑋 28
Canal binaire symétrique :
Information & entropie mutuelles
Lors de la transmission par un canal, nous souhaitons récupérer l'information
sans distorsion, autrement dit, l'alphabet de sortie du canal doit être le même que celui de
l'entrée.
Exemple :
• Considérons deux source binaires 𝑆 et 𝑅, correspondant à la source et au récepteur
• On dispose d’un canal qui doit transmettre des messages. Si nous appelons 𝒑 la
probabilité d'erreur nous pouvons schématiser le fonctionnement du canal par le
graphe suivant :
𝟏−𝒑
𝟎 𝟎
Source d'entrée 𝑆 𝒑 Source de sortie 𝑅
alphabet : { 0 , 1 } alphabet : { 0 , 1 }
𝒑
𝟏 𝟏
𝟏−𝒑
29
Canal binaire symétrique
Ce modèle de canal binaire sans mémoire est le plus simple. Ses alphabets d'entrée et
de sortie sont binaires. Ecrivons les données:
𝟏−𝒑
𝟎 𝟎
𝒑
𝒑
𝟏 𝟏
𝟏−𝒑
30
Canal binaire symétrique
31
Canal binaire symétrique
32
Canal binaire symétrique
33
Canal binaire symétrique
34
Canal binaire symétrique
Conclusions :
o Si 𝑃 = 0 ce qui veut dire pas d'erreur de transmission alors
𝐼 𝑋 ,𝑌 = 1
Similitude parfaite entre les deux sources, la transmission se passe bien :
𝐻( 𝑋 , 𝑌 ) = 1
1
o si 𝑃 = 2 trouble complète lors de la transmission. Dans ce cas
𝐼 𝑋 ,𝑌 = 0
Plus du tout de similitude entre les deux sources.
𝐻( 𝑋 , 𝑌 ) = 𝐻( 𝑋 ) + 𝐻( 𝑌 ) = 2
o Si 𝑃 = 1, à nouveau
𝐼( 𝑋 , 𝑌 ) = 1
Les deux sources sont à nouveau tout à fait semblables. Le fait qu'il y a dans ce cas
permutation du "0" et du "1" n'ayant pas d'importance.
35
N-Sources aléatoires
Conclusions :
o Ces résultats s’étendent à des 𝑛 − 𝑢𝑝𝑙𝑒𝑡𝑠 de sources aléatoires 𝑆1 , 𝑆2 , 𝑆3 … 𝑆𝑛
𝐻 𝑆1 , 𝑆2 , 𝑆3 … 𝑆𝑛 < 𝐻 𝑆1 + 𝐻 𝑆1 + ⋯ + 𝐻 𝑆𝑛
Exprimant le fait que la connaissance d’un nombre de plus en plus grande de sources
d’information 𝑆2 , 𝑆3 , 𝑆4 … 𝑆𝑛 diminue de plus en plus l’intérêt de l’information
apportée par 𝑆1
36