Cours (Niclos Courty)
Cours (Niclos Courty)
Cours (Niclos Courty)
multimdia
Nicolas Courty
Universit de Bretagne Sud, laboratoire Valoria
Nicolas.Courty@univ-ubs.fr
Cours IGA Mai 2014
Master 2 Informatique de lImage et des Rseaux
Introduction
Objectifs
Cours/TD (10h)
dnition des donnes multimedia
codage/compression/traitement de ces donnes
Application au codage des images
Indexation des images, base de donnes
Watermarking (si on a le temps)
Introduction
Donnes Multimdia
Introduction
Dnitions
Un document "multimdia" est compos de plusieurs mdia
Un mdium reprsente un type de donnes, reprsent avec
son propre codage et possdant sa propre smantique
exemples :
Texte : ASCII, Unicode, HTML, XML, etc.
Son : WAV, PCM (Pulse Coded Modulation), Mpeg Audio
(Layer 1, 2, 3), etc.
images : BMP (BitMap), GIF (Global Image Format), JPEG
(Joint Photographic Experts Group), PBM (Portable BitMap),
etc.
Vido : GIF89, MPEG (Moving Picture Experts Group), AVI,
MOV, etc.
Modlisation 3D : VRML (Virtual Reality Modeling
Language), FBX, Collada, etc.
Introduction
Dnitions
Un document multimdia comporte plusieurs mdia destins
tre traits (stocks/achemins/exploits) de manire
simultane.
exemples :
une page Web contient du texte (html), des images (jpg, gif,
png, ...), des squences sonores, des scripts...
un lm sur DVD contient une bande vido, une bande son, des
sous titres multilingues, etc.
une visite sur Google Earth : des mailages 3D (terrains), des
informations en couches (SIG), des photos, etc.
par abus de langage, on assimile souvent mdia et multimdia.
Introduction
Classes dapplications multimdia
Applications de prsentation dinformation
vido/audio la demande (pay-per-view)
vido/audio en diusion permanente : satellite, cble ...
courrier lectronique avec encapsulation MIME (Multipurpose
Internet Mail Extensions),
web, ...
Applications interactives et multi-participants
vido confrence
tl opration,
environnements virtuels persistants (Second Life par exemple)
jeux en rseaux, MMORPG...
Introduction
Classication des mdias
Mdias continus
Donnes transmises en ux. La prsentation des lments de
donnes transports dans le ux est assujettie des
contraintes temporelles prcises
par exemple :
tlphone : 1 chantillon de voix (cod sur 8 bits) prsent
tous les 1/8000 me de seconde, dbit requis : 64 Kbit/s
TVHD : 25 images par secondes, 8 Mbit par image, dbit
requis : 200 Mbit/s
Mdias discrets
pas de contraintes temporelles prcises, mis part des
contraintes de temps dacheminement global
par exemple, acheminement dune image sur une page web
Mdias mixtes
selon linteraction, on peut tre amen prsenter
linformation sous forme dun ux plus ou moins continu
exemple : images satellites sur Google Maps.
Introduction
Quelques rappels
Le processus de numrisation des direntes donnes fait appel 3
tapes :
chantillonnage
quantication
codage
Introduction
Echantillonnage
Lchantillonnage correspond au passage dun signal continu vers
une succession dlments discontinus ou discrets.
Introduction
Quantication
La quantication correspond lassociation entre les chantillons et
une valeur numrique ou une chelle de rfrence.
Introduction
Codage
Le codage consiste tablir une correspondance entre un ensemble
de dpart (plages de lchelle de mesure) et un ensemble darrive
compos de mots de code. Cette correspondance est
ncessairement une fonction injective.
Introduction
Bilan sur la numrisation
La discrtisation dun signal continu engendre forcment un
appauvrissement des donnes !
et ce quelque soit la nesse des oprations dchantillonnage
et de quantication
Cependant, les avantages du numrique sur lanalogique sont
nombreux :
le signal numrique est trs stable, facile dupliquer, etc.
le traitement dun signal numrique est un traitement
purement mathmatique, alors que dans le cas de lanalogique
il faut manipuler les signaux "physiquement",
le passage au numrique bien videmment permis la
naissance des rseaux et du web.
Introduction
codage/compression des mdias
dans la suite de ce cours on ne sintresse pas la
problmatique de la transmission des donnes multimdia
(problmatique rseau),
mais plutt au codage de ces donnes,
ainsi quaux possibilits de rduction de la taille de ces
donnes : compression,
et un certain nombre de traitements associs ces donnes
permettant leur utilisation dans des problmatiques concrtes.
Donnes
Thorie de la compression
Thorie de la compression de donnes
Donnes
Thorie de la compression
Dnitions
Soit un ensemble ni A, appel alphabet. Lalphabet binaire est
not 0, 1.
Un mot est un lment ni de A squence nie non vide de
A.
La taille dun mot w, note |w|, est le nombre dlments qui
le composent.
On appelle source une squence, potentiellement innie de
mots.
Donnes
Thorie de la compression
Compresseur
Soient deux sources I (source de dpart) et O la source darrive.
On appelle compresseur C une fonction qui associe tout
mot w de I un mot C(w) de O tel que [C(w)[ < [w[
lorsque la fonction C est injective, C
1
est appelle
dcompresseur.
Lecacit
C
dun compresseur C (pour un mot w) est
mesure par le ratio :
C
(w) =
[w[ [C(w)[
[w[
(1)
Un mot w est dit compactable (ou compressible) si
C
(w) > 0
Donnes
Thorie de la compression
Compresseurs
Intuitivement, lobjectif dun algorithme de compression est
dliminer la redondance dinformation prsente dans les donnes
On peut classer les compresseurs de deux manires distinctes :
ceux qui conservent linformation et ceux qui en liminent
ceux dont la compression possde une borne analytique et ceux
dont on la mesure empiriquement.
Donnes
Thorie de la compression
Redondance
La plupart des mdia que nous manipulons ne prsentent pas une
distribution uniforme de leurs symboles (ou de squences de
symboles). Exemples :
probabilit dapparition de lettres dans un texte, structures
grammaticales et syntaxiques, ...
probabilit davoir un pixel bleu dans une image de ciel, ...
probabilit davoir le mme pixel identique entre deux images
conscutives dune vido.
Donnes
Thorie de la compression
Comment quantier la redondance ?
La mesure de la redondance est lie la mesure de la quantit
dinformation
Exemple : on tire une boule au hasard dans un sac contenant 32
billes numrotes de 1 32. En combien de questions peut on
deviner quelle boule a t tire ?
Rponse
Recherche dichotomique
k = log
2
N = log
2
32 = log
2
2
5
= 5
(Hartley, 1928)
Donnes
Thorie de la compression
Comment quantier la redondance ?
La mesure de la redondance est lie la mesure de la quantit
dinformation
Exemple : on tire une boule au hasard dans un sac contenant 32
billes numrotes de 1 32. En combien de questions peut on
deviner quelle boule a t tire ?
Rponse
Recherche dichotomique
k = log
2
N = log
2
32 = log
2
2
5
= 5
(Hartley, 1928)
Donnes
Thorie de la compression
Comment quantier la redondance ?
La formule prcdente ne marche que si tous les vnements sont
quiprobables.
Soit X une exprience compose de n vnements possibles x
n
associs respectivement des probabilits p
n
avec
n
p
n
= 1.
Shannon dnit lentropie du systme H par :
Entropie
H(p
1
, p
2
, . . . , p
n
) =
n
i =1
p
i
log
2
(p
i
) (2)
Donnes
Thorie de la compression
Entropie
Notes : lentropie est une mesure associe la quantit
dinformations prsente dans une exprience. Elle peut sassimiler
au plus petit nombre de bits en moyenne pour coder une
information.
si toutes les probabilits sont gales (p
i
= p
j
, i , j ), on
retrouve la formule de Hartley
dans ce cas, lentropie est maximise
un ensemble de 2
n
symboles ncessitent n bits pour tre cods
si tous ces symboles sont quiprobables. Autrement, non.
cas de 2 vnements de probabilits p et 1 p :
H(p, 1 p) = p log
2
(p) (1 p) log
2
(1 p) (3)
Donnes
Thorie de la compression
Entropie
H(p, 1 p) = p log
2
(p) (1 p) log
2
(1 p)
Donnes
Techniques de compression de base
Techniques de compression basiques
Donnes
Techniques de compression de base
Une mthode simple : codage de chanes de caractre
On se propose le codage suivant :
chaque mot est compos par la suite des bits des lettres
conscutives
on ajoute un octet avec la convention suivante
le premier bit indique ou non une rptition
les 7 bits suivants indiquent le nombre de rptitions (si le
premier bit est 1) ou le nombre de caractres dirents
suivre.
soit les lettres M (0100 1101), I (0100 1001), S (0101 0011)
et P (0101 0000).
crire le mot MISSIPPI avec le codage suivant
compresser ce mot avec la technique prcdente. Conclure
mme question pour le mot MIIIIPP.
Donnes
Techniques de compression de base
Codage RLE (Run Length Encoding)
Le codage RLE (Run Length Encoding) aussi appel RLC (Run
Length Coding) utilise un principe similaire de comptage des
rptitions.
Principe : une rptition oooo...o devient !No, o
! indique le dbut dune rptition
N le nombre de rptitions,
o est le caractre rpt.
Exemples :
AAAABQEEEFFF (12 caractres) devient !4ABQ!3E!3F (11
caractres)
LOOOOOOOP (9 caractres) devient L!7OP (5 caractres)
Donnes
Techniques de compression de base
Autres exemples de codage basiques
Codage relatif. Lorsquon code de longues sries de valeurs
rapproches les premiers bits des mots de code sont souvent
identiques. Ne coder que la dirence permet de restreindre le
nombre de bits utiliser dans le codage.
Exemple :
note dun groupe de 6 tudiants :
12.3 9.7 13.4 12.8 10.2 10.7
102.3 0.3 3.4 2.8 0.2 0.7
gain ?
Donnes
Techniques de compression de base
Compression statistique
Donnes
Techniques de compression de base
Codage statistique
On a vu avec le calcul de lentropie que si les probabilits
doccurrence dvnements ne sont pas identiques, moins de bits
peuvent tre utiliss pour coder linformation. Comment ?
Avant tout, il est utile de distinguer dirents types de codage :
Codages de longueur xe : tous les mots de code ont le
mme nombre de bits
exemple : A - 000, B - 001, C - 010, D - 100
Codages de longueur variable : le nombre de bits varie dun
mot lautre
exemple : A - 0, B - 01, C - 10, D - 111
Donnes
Techniques de compression de base
Codage statistique
Codages prxes :aucun mot de code ne peut commencer un
autre mot de code
exemple : A - 0, B - 10, C - 110, D - 111
Codages dcodables sans ambiguts : une squence de
bits se dcode en un unique ensemble de mots de code
exemple : 00101111100100100 donne la squence 0 | 0 | 10 |
111 | 110 | 0 | 10 | 0 | 10 | 0
soit le mot : AABDCABABA
Donnes
Techniques de compression de base
Codage de Human
Codage de Human
Le codage de Human est un codage prxe qui permet dassocier
aux mots du langage les plus frquents le moins de bits possible
Problmes :
comment dnir la frquence des mots du langage ?
proprits statistiques inhrentes au mdium (ex : frquence
dapparition des lettres dans la langue franaise)
comptage empirique
une fois la table de frquence tablie, comment obtenir le
codage ?
algorithme de Human
Donnes
Techniques de compression de base
Codage de Human
Codage de Human
Le codage de Human est un codage prxe qui permet dassocier
aux mots du langage les plus frquents le moins de bits possible
Problmes :
comment dnir la frquence des mots du langage ?
proprits statistiques inhrentes au mdium (ex : frquence
dapparition des lettres dans la langue franaise)
comptage empirique
une fois la table de frquence tablie, comment obtenir le
codage ?
algorithme de Human
Donnes
Techniques de compression de base
Arbre de codage
Un arbre de codage pour un ensemble de mots S est un arbre
binaire qui vrie les proprits suivantes:
chaque branche est tiquete par 0 ou par 1,
chaque feuille est tiquete par un mot de S,
le code correspondant une feuille de S est le chemin parcouru
depuis la racine jusqu la feuille.
Donnes
Techniques de compression de base
Arbre de codage
Proprit
Tout code reprsentable par un arbre de codage est un code prxe
et inversement.
Donnes
Techniques de compression de base
Arbre de codage pondr
Arbre de codage pondr
Un arbre de codage pondr est un arbre dont les feuilles sont
pondres.
On dnit alors le poids de larbre T par la somme des longueurs de
ses chemins pondre par les poids correspondant, i.e. :
W(T) =
i
l
i
w
i
(4)
o l
i
dsigne la longueur du chemin pour se rendre la feuille i et
w
i
le poids de la feuille i.
Donnes
Techniques de compression de base
Arbre de codage pondr
Optimalit
Un arbre de codage pondr est dit optimal pour un ensemble S de
mots pondrs si son poids est le poids minimum de tous les arbres
de codage possibles pour S.
Pouvez vous trouver un codage plus optimal ?
Donnes
Techniques de compression de base
Algorithme de Human
Lalgorithme de Human permet de coder un jeu de donnes
pondres par leurs frquences ou leurs probabilits dapparition.
Principe :
lalgorithme part dune fort de mots de la source et les
regroupe deux deux jusqu obtenir un arbre de codage,
chaque tape, deux arbres de poids minimal sont "fusionns",
on obtient un codage prxe en numrotant chaque branche
par 0 ou 1.
Thorme
Larbre de codage pondr obtenu par lalgorithme de Human est
optimal
Donnes
Techniques de compression de base
Algorithme de Human
Lalgorithme de Human permet de coder un jeu de donnes
pondres par leurs frquences ou leurs probabilits dapparition.
Principe :
lalgorithme part dune fort de mots de la source et les
regroupe deux deux jusqu obtenir un arbre de codage,
chaque tape, deux arbres de poids minimal sont "fusionns",
on obtient un codage prxe en numrotant chaque branche
par 0 ou 1.
Thorme
Larbre de codage pondr obtenu par lalgorithme de Human est
optimal
Donnes
Techniques de compression de base
Algorithme de Human
Exercice
Coder le mot suivant laide de lalgorithme de Human :
ABRACADABRA
Quel est alors le taux de compression (avec et sans la table de
codage)?
Donnes
Techniques de compression de base
Algorithme de Shannon Fano
Cest une variante de lalgorithme de Human pour obtenir un
codage.
Principe :
on part de la table des frquences et on la divise en deux de
manire successive par dichotomie,
les deux partition sont choisies telles que les sommes des poids
des mots qui les constituent soient les plus proches possibles,
on obtient un codage prxe en numrotant chaque branche
par 0 ou 1.
Proprits
cet algorithme construit un codage prxe qui nest pas
forcment optimal.
Donnes
Techniques de compression de base
Algorithme de Shannon Fano
Cest une variante de lalgorithme de Human pour obtenir un
codage.
Principe :
on part de la table des frquences et on la divise en deux de
manire successive par dichotomie,
les deux partition sont choisies telles que les sommes des poids
des mots qui les constituent soient les plus proches possibles,
on obtient un codage prxe en numrotant chaque branche
par 0 ou 1.
Proprits
cet algorithme construit un codage prxe qui nest pas
forcment optimal.
Donnes
Techniques de compression de base
Algorithme de Shannon Fano
Exercice
Coder le mot suivant laide de lalgorithme de Shannon Fano :
ACBBCDECECBCEEECCCCABCECBDBDBD
Quel est alors le taux de compression ? Comparez avec le taux de
compression obtenu avec lalgorithme de Human
Donnes
Techniques de compression de base
Compression par dictionnaires
Donnes
Techniques de compression de base
Compression par dictionnaires
La compression par dictionnaire est fonde sur lanalyse des
rptitions de mots dans les donnes traiter. Contrairement aux
mthodes statistiques, les mots peuvent tre de longueur variable.
Principe
Les mots rpts sont stocks dans un dictionnaire et remplacs par
leur adresse dans le dictionnaire.
Donnes
Techniques de compression de base
Compression par dictionnaires
La compression par dictionnaire est fonde sur lanalyse des
rptitions de mots dans les donnes traiter. Contrairement aux
mthodes statistiques, les mots peuvent tre de longueur variable.
Principe
Les mots rpts sont stocks dans un dictionnaire et remplacs par
leur adresse dans le dictionnaire.
Donnes
Techniques de compression de base
Compression Lempel Ziv
Le schma de compression LZ (du nom de fondateurs Abraham
Lempel et Jacob Ziv) a t cr dans la n des annes 70
Toutes les variantes de cet algorithme construisent une table de
traduction de chanes de caractres partir dun texte compresser.
Soit S la source suivante :
turlututu
Donnes
Techniques de compression de base
Compression Lempel Ziv : tapes
1re tape :
la source est spare en mots de telle manire que chaque mot
soit la plus petite chane de caractres non observe jusqu
prsent.
dans LV78, le premier mot est le caractre vide
t u r l ut utu
Donnes
Techniques de compression de base
Compression Lempel Ziv : tapes
2me tape :
chaque mot est ensuite indexe.
le caractre vide est index par 0
t u r l ut utu
0 1 2 3 4 5 6
3me tape :
les sous chanes sont ensuite substitues par leur index
correspondant
0t 0u 0r 0l 2t 5u
Donnes
Techniques de compression de base
Compression Lempel Ziv : tapes
2me tape :
chaque mot est ensuite indexe.
le caractre vide est index par 0
t u r l ut utu
0 1 2 3 4 5 6
3me tape :
les sous chanes sont ensuite substitues par leur index
correspondant
0t 0u 0r 0l 2t 5u
Donnes
Techniques de compression de base
Compression Lempel Ziv : tapes
4me tape :
coder chaque caractre par son code ASCII,
coder chaque numro apparaissant dans le n-me bloc par
log
2
(n 1) bits.
1 2 3 4 5 6
t 0u 00r 00l 010t 101u
0 bit 1 bit 2 bits 2 bits 3 bits 3 bits
nb de bits initial = 9 8 = 72 bits
nb de bits nal = 6 8 + 1 + 2 + 2 + 3 + 3 = 59 bits
Donnes
Techniques de compression de base
Compression Lempel Ziv : tapes
4me tape :
coder chaque caractre par son code ASCII,
coder chaque numro apparaissant dans le n-me bloc par
log
2
(n 1) bits.
1 2 3 4 5 6
t 0u 00r 00l 010t 101u
0 bit 1 bit 2 bits 2 bits 3 bits 3 bits
nb de bits initial = 9 8 = 72 bits
nb de bits nal = 6 8 + 1 + 2 + 2 + 3 + 3 = 59 bits
Donnes
Techniques de compression de base
Compression Lempel Ziv : bilan
Thorme
Pour toute source texte avec des symboles 1, . . . , n indpendants,
alatoirement rpartis, avec des probabilits doccurrence
p
1
, . . . , p
n
, le nombre de bits ncessaires pour coder la source tends
vers son entropie:
E =
n
i =1
p
i
log
2
(p
i
) (5)
Optimalit asymptotique
La compression de Humann possde la mme proprit, mais
ncessite la table des frquences. La compression LZ atteInd le
mme but de manire asymptotique en une seule lecture de la
source.
Donnes
Techniques de compression de base
Compression Lempel Ziv : dcodage
Principe : construire itrativement un arbre de recherche des
index.
La racine est tiquete par 0,
chaque noeud est tiquet par un index,.
chaque branche est tiquete par une lettre.
Recherche : pour trouver le contenu dun index, prendre le chemin
depuis le noeud correspondant jusqu la racine.
Donnes
Techniques de compression de base
Compression Lempel Ziv : dcodage
Exercice
Dcoder le mot suivant :
A 0T 01B 11O 000B 001
Rponse : ATABABOBA
Donnes
Techniques de compression de base
Compression Lempel Ziv : dcodage
Exercice
Dcoder le mot suivant :
A 0T 01B 11O 000B 001
Rponse : ATABABOBA
Donnes
Techniques de compression de base
La famille LZ
LZ 78
Le traitement seectue sur tout le chier.
chaque chane rpte est stocke dans un dictionnaire et
remplace par son adresse,
la taille du dictionnaire est limite par le mode de codage
(16,32 ou 64 bits).
LZ 77
Le traitement seectue sur une fentre glissante.
chaque chane rpte dans la fentre est stocke dans un
dictionnaire et remplace par son adresse,
chaque chane qui disparat de la fentre est supprime du
dictionnaire.
Donnes
Techniques de compression de base
La famille LZ
LZW 84
Amlioration du LZ 78.
W comme Welch,
le dictionnaire dmarre avec lensemble des codes ASCII,
les tailles dadresse et le dictionnaire peuvent tre changes au
cours de la compression.
Encore plus loin
codage du dictionnaire par mthode statistique
Winzip, Pkzip, protocole modem V42Bis
Les lettres apparaissant chaque n de bloc peuvent tre
compresses par une mthode statistique
Arc, LHA
Images
Compression des images
Images
Compression des images
on sintresse un mdia dirent du texte et qui reprsente
un gros volume dinformation
les traitements statistiques norent dans ces cas quune
compression relativement faible :
pas dexploitation des redondances spatiales
pas dexploitation des redondances temporelles
pas dexploitation des redondances subjectives ou
psycho-sensorielles.
dans le cas des images, on peut se permettre de perdre une
partie des informations si la dgradation nest pas perceptible.
Images
Compression des images
on sintresse un mdia dirent du texte et qui reprsente
un gros volume dinformation
les traitements statistiques norent dans ces cas quune
compression relativement faible :
pas dexploitation des redondances spatiales
pas dexploitation des redondances temporelles
pas dexploitation des redondances subjectives ou
psycho-sensorielles.
dans le cas des images, on peut se permettre de perdre une
partie des informations si la dgradation nest pas perceptible.
Images
Compression des images
on sintresse un mdia dirent du texte et qui reprsente
un gros volume dinformation
les traitements statistiques norent dans ces cas quune
compression relativement faible :
pas dexploitation des redondances spatiales
pas dexploitation des redondances temporelles
pas dexploitation des redondances subjectives ou
psycho-sensorielles.
dans le cas des images, on peut se permettre de perdre une
partie des informations si la dgradation nest pas perceptible.
Images
Qualit de la compression
Qualit de la compression ?
On mesure la distorsion :
cest une distorsion visuelle dans le cas des images
avoir une erreur dans une zone homogne est problmatique
dirents critres quantitatifs existent pour mesurer cette
distorsion
EQM : Erreur moyenne quadratique
EQM =
1
n
c
n
l
n
c
i
n
l
j
(I
ori
(i , j ) I
comp
(i , j ))
2
(6)
o n
c
et n
l
sont respectivement le nombre de lignes et de colonnes.
Images
Qualit de la compression
Qualit de la compression ?
On mesure la distorsion :
cest une distorsion visuelle dans le cas des images
avoir une erreur dans une zone homogne est problmatique
dirents critres quantitatifs existent pour mesurer cette
distorsion
EQM : Erreur moyenne quadratique
EQM =
1
n
c
n
l
n
c
i
n
l
j
(I
ori
(i , j ) I
comp
(i , j ))
2
(6)
o n
c
et n
l
sont respectivement le nombre de lignes et de colonnes.
Images
Qualit de la compression
Qualit de la compression ?
On mesure la distorsion :
cest une distorsion visuelle dans le cas des images
avoir une erreur dans une zone homogne est problmatique
dirents critres quantitatifs existent pour mesurer cette
distorsion
PSNR : (Signal rapport bruit crte)
PSNR = 10 log
10
n
c
n
l
255
n
c
i
n
l
j
(I
ori
(i , j ) I
comp
(i , j ))
2
(7)
si limage est quantie sur 255 valeurs
Images
Qualit de la compression
Autres critres
Les valeurs typiques de PSNR pour des images de bonne qualit
varient entre 30 et 40 dB.
Il existe dautres critres pour mesurer la qualit de la compression :
critres statistiques,
critres smantiques,
critres psycho-visuels (ex : codage par ROI, Regions Of
Interest)
Images
Format de compression
Le codage GIF
Le format GIF (Graphic Interchange Format) est un format ancien
(1980).
limit 256 couleurs (codage sur 8 bits dun pixel)
compression sans perte, base sur LZW
recherche de motifs par balayage horizontal
une image avec des bandes verticales occupe plus despace que
la mme image tourne 90
!
adapt la compression dimages avec peu de couleurs et
beaucoup de zones homognes
fonctionne mal avec les images naturelles
Images
Format de compression
Le codage PNG
Le format PNG (Portable Network Graphics) est un format plus
rcent et de meilleure qualit.
accepte un codage des couleurs jusqu 48 bits
codage des composantes RVB sur 12 bits
plus une couche pour la transparence (canal alpha, A)
compression sans perte
libre de droits
tend remplacer GIF sur le web
Images
Format de compression
Compression avec pertes
Pour les images, il est acceptable de perdre de linformation pour
obtenir des taux de compression plus importants : codage avec
perte.
Espaces de transformation
Ces codages sont gnralement bass sur la transformation des
donnes de limage en un ensemble de coecients hirarchiss selon
leurs importances relatives :
DCT (Discrete Cosinus Transform) pour JPEG
DWT (Discrete Wavelet Transform) pour JPEG2000
Images
Format de compression
Le codage JPEG
Le codage JPEG a t tabli selon une norme dnie par un
groupe dexperts : le Joint Photographic Expert Group, en 1984
(nalise en 89). il est adapt aux photos naturelles.
la norme regroupait pour lpoque des contraintes fortes :
achage squentiel ou progressif des images dcompresses
compression avec et sans pertes
compression logicielle et matrielle possible
dcodage en temps rel 64 kbits/s
Les contraintes xes par les experts en terme de compression
taient pour une image code en 16 bits/pixel :
0,08 bit/pixel pour une image reconnaissable (ratio de 200:1)
0,25 bit/pixel pour une image de qualit moyenne (60:1)
0,75 bit/pixel pour une image de qualit excellente (20:1)
2,25 bits/pixel pour une image identique loriginale (7:1)
Images
Format de compression
Le codage JPEG
Le codage JPEG a t tabli selon une norme dnie par un
groupe dexperts : le Joint Photographic Expert Group, en 1984
(nalise en 89). il est adapt aux photos naturelles.
la norme regroupait pour lpoque des contraintes fortes :
achage squentiel ou progressif des images dcompresses
compression avec et sans pertes
compression logicielle et matrielle possible
dcodage en temps rel 64 kbits/s
Les contraintes xes par les experts en terme de compression
taient pour une image code en 16 bits/pixel :
0,08 bit/pixel pour une image reconnaissable (ratio de 200:1)
0,25 bit/pixel pour une image de qualit moyenne (60:1)
0,75 bit/pixel pour une image de qualit excellente (20:1)
2,25 bits/pixel pour une image identique loriginale (7:1)
Images
Format de compression
Le codage JPEG
Principe
Le principe du codage JPEG repose sur le ltrage des coecients
frquentiels de basse nergie dont la disparition naecte pas ou
peu la perception visuelle de limage
Le codage JPEG ne travaille pas sur les composantes RVB de
limage mais sur son quivalent YUV (Y : luminance, U :
chrominance rouge, V : chrominance bleue)
linformation de luminance tant (du point de vue du systme
perceptif humain) plus importante, un premier niveau de
compression est obtenu en divisant par 2 les matrices associes
aux composantes de chrominance.
Images
Format de compression
JPEG : compression
La premire tape, et cest une des caractristiques fortes de
JPEG, repose sur la dcomposition de limages en bloc de
8 8 pixels.
sensuit une tape de transformation base sur la DCT
une tape de quantication
puis une tape de codage
Images
Format de compression
JPEG : transformation DCT
La DCT est une transformation linaire proche de la transforme de
Fourier.
le noyau de projection pour la DFT est une exponentielle
complexe (soit des bases de sinus et cosinus)
dans le cadre de la DCT, ce noyau est (simplement) une base
de cosinus
les cocients de la transforme sont rels (et non pas
complexes)
la formule qui permet de transformer une image I (x, y) en sa
transforme T (u, v) est la suivante :
T(u, v) =
2
N
C(u)C(v)
N1
x=0
N1
y=0
cos
2N
u(2x + 1)
cos
2N
v(2y + 1)
I (x, y)
(8)
avec C(0) = 1/
2 et C() = 1 sinon.
Images
Format de compression
JPEG : transformation DCT
Dans le cas dun bloc de taille 8 8, les direntes fonctions de
bases qui reprsentent lespace transform sont au nombre de 64.
les fonctions en haut gauche reprsentent les basses
frquences spatiales
qui augmentent vers le coin infrieur droit du bloc
Images
Format de compression
JPEG : transformation DCT
Le principal avantage de la DCT est de pouvoir concentrer au
maximum linformation contenue dans un bloc au niveau des
coecients de basse frquence.
les coecients dcroient plus on sapproche du coin infrieur
droit
on se munit dun sens de parcours de ces coecients en
zig-zag pour les parcourir du plus au moins important
Images
Format de compression
JPEG : quantication
La quantication (codage des coecients) revient transformer
leurs valeurs en entier avec des valeurs entre 1 et 255
via lutilisation dune table de quantication
A lissu de cette tape, de nombreuses valeurs sont gales 0.
Cest la premire tape du codage o de linformation est perdue.
choix du niveau de compression
Cest le choix de la table de quantication (valeur plus ou moins
leves) qui guide le niveau de compression de limage
Images
Format de compression
JPEG : quantication
La quantication (codage des coecients) revient transformer
leurs valeurs en entier avec des valeurs entre 1 et 255
via lutilisation dune table de quantication
A lissu de cette tape, de nombreuses valeurs sont gales 0.
Cest la premire tape du codage o de linformation est perdue.
choix du niveau de compression
Cest le choix de la table de quantication (valeur plus ou moins
leves) qui guide le niveau de compression de limage
Images
Format de compression
JPEG : codage des coecients
Codage direntiel du coecient DC (Direct cosinsus) T(0,0)
le plus important
il est cod par dirence avec les autres coecients DC des
blocs prcdents.
Codage des 63 autres coecients AC (Adaptative cosinus)
codage par plage (type RLE)
sens de parcours en zig-zag
on termine par une dernire tape de codage de Hufman
codage des dirences de DC et des plages dAC sur toute
limage
Ainsi se termine la compression JPEG.
Images
Format de compression
JPEG : dcompression
La dcompression emprunte un chemin inverse symtrique au
prcdent schma de compression.
Le caractre progressif de lachage de limage est obtenu en
traitant squentiellement les coecients dans la reconstruction de
limage nale.
Images
Format de compression
JPEG 2000
La norme JPEG 2000 a t nalise en 2000. Elle est base sur la
transformation en ondelettes (DTW).
invente par Jean Morlet dans les annes 80
version discrte dveloppe par Stphane Mallat et Yves
Meyer.
elle consiste dcomposer une image en un ensemble de
sous-bandes, cest--dire des images de rsolution infrieure.
La transformation en ondelettes provient dune analyse
multirsolution de limage.
Les basses rsolutions reprsentent la forme grossire du signal
tandis que les hautes rsolutions encodent les dtails du signal
algorithme de compression de complexit en n
2
log(n).
Images
Format de compression
JPEG 2000 : DWT
Lavantage de la reprsentation multirsolution rside dans la
dualit contenu-frquence
contrairement la transforme de Fourier qui projette le signal
dans lespace des frquences, lanalyse multirsolution
reprsente le signal conjointement dans son espace rel et dans
son domaine frquentiel.
pour des signaux 2D comme les images, des proprits
topologiques (orientations, agencement du contenu) sont ainsi
conserves aprs la transformation multirsolution.
Le codeur prend ainsi en compte la redondance spatiale et
frquentielle de limage
Images
Format de compression
JPEG 2000 : schma de compression
La premire tape est une dcomposition de limages en blocs
de 64 64 ou 128 128 pixels, ainsi quun passage du RVB
en YCrCb
sensuit une tape de transformation base sur la DWT
puis une tape de quantication
et nalement une tape de codage
Images
Format de compression
Transforme en ondelettes en 1D
Les ondelettes de Haar sont dnies par le schma suivant :
s
k1
i
=
s
k
2i
+ s
k
2i +1
2
(9)
d
k1
i
=
s
k
2i
s
k
2i +1
2
(10)
Ce schma de dcomposition assure une dcomposition en niveau
de dtails.
donne lamplitude de la frquence un endroit donn
plus proche du schma perceptif humain
Images
Format de compression
Transforme en ondelettes 1D : exemple
Exemple (extrait de wikipdia) :
Nous avons donc comme donne originale :
Niveau 4 :s
4
0
s
4
1
s
4
2
s
4
3
s
4
4
s
4
5
s
4
6
s
4
7
s
4
8
s
4
9
s
4
10
s
4
11
s
4
12
s
4
13
s
4
14
s
4
15
= S
4
tape aprs tape, nous obtenons :
Niveau 3 : s
3
0
s
3
1
s
3
2
s
3
3
s
3
4
s
3
5
s
3
6
s
3
7
d
3
0
d
3
1
d
3
2
d
3
3
d
3
4
d
3
5
d
3
6
d
3
7
= S
3
, D
3
Niveau 2 :s
2
0
s
2
1
s
2
2
s
2
3
d
2
0
d
2
1
d
2
2
d
2
3
d
3
0
d
3
1
d
3
2
d
3
3
d
3
4
d
3
5
d
3
6
d
3
7
= S
2
, D
2
, D
3
Niveau 1 :
s
1
0
s
1
1
d
1
0
d
1
1
d
2
0
d
2
1
d
2
2
d
2
3
d
3
0
d
3
1
d
3
2
d
3
3
d
3
4
d
3
5
d
3
6
d
3
7
= S
1
, D
1
, D
2
, D
3
Nous obtenons nalement :
Niveau 0 :
s
0
0
d
0
0
d
1
0
d
1
1
d
2
0
d
2
1
d
2
2
d
2
3
d
3
0
d
3
1
d
3
2
d
3
3
d
3
4
d
3
5
d
3
6
d
3
7
= S
0
, D
0
, D
1
, D
2
, D
3
Images
Format de compression
Transforme en ondelettes en 2D
Les ondelettes de Haar sont dnies en 2D pour une image par 4
tapes :
1
moyennage des pixels de limage originale deux deux suivant
laxe horizontal : H(x) =
X
n
+X
n+1
2
2
calcul de lerreur entre limage originale et limage
sous-chantillonnes dans le sens horizontal : G(x) =
X
n
X
n+1
2
3
pour chacune des deux images intermdiaires, moyennage des
pixels deux deux suivant laxe vertical : H(y) =
Y
n
+Y
n+1
2
4
pour chacune des deux images intermdiaires, calcul de lerreur
suivant laxe vertical ; G(y) =
Y
n
Y
n+1
2
Images
Format de compression
Analyse multirsolution
Dune manire gnrale, lanalyse multirsolution suppose
lexistence :
dun ltre Low-pass L
a
qui ralise le sous-chantillonnage
dun ltre High-pass H
a
qui calcule des dirences
Images
Format de compression
JPEG 2000 : quantication
les sous-bandes de rsolutions suprieures (les plus grandes)
possdent un contenu qui est relativement pauvre
cest linverse pour les plus petites
la quantication sopre de manire linaire sur chaque
sous-bande
Reprsentation en sous-bandes de la transforme
Images
Format de compression
JPEG 2000 : codage des sous-bandes
le codage de chaque sous-bandes seectue par plan de bits
linformation importante (i.e. les bits de poids forts) seront
cods dans un premier temps
les dtails (i.e. les bits de poids faibles) sont cods aprs.
3 tapes :
codage des bits non nuls isols
codage des bits dont le bit parent est non nul
codage du reste des bits non nuls
Images
Format de compression
JPEG 2000 : choix
La compression par DWT permet davoir un codage autorisant de
choisir la fois la qualit de limage, mais aussi la rsolution cible.
qualit rsolution
Images
Format de compression
JPEG Vs JPEG2000
Complexit ?
la DCT dun bloc de 8 8 ncessite elle seule 4096
oprations complexes.
la DWT exige moins doprations, qui de surcrot sont plus
simples
Quait ?
la compression base sur DWT permet dobtenir des rsultats
qui sont gnralement meilleurs du point de vue perceptif
(moins dartefacts notamment)
autre intrt : le codage par DWT utilise le codage par rgions
Images
Format de compression
JPEG Vs JPEG2000
Lena :
image
originale
5125128
bits
= 2.097.152
bits
Images
Format de compression
JPEG Vs JPEG2000
Lena :
compression
jpeg
27 : 1
= 77.673 bits
Images
Format de compression
JPEG Vs JPEG2000
Lena :
compression
jpeg 2000
27 : 1
= 77.673 bits
Images
Bilan
Bilan codage des images
Dans le cas des images, la compression sans perte utilise les
mcanismes de base de la compression comme la compression
statistique ou par dictionnaire.
la compression avec perte est possible
tant que le systme perceptif visuel humain ne peroit pas
daltration visible
tant que la smantique de limage nest pas modie
Images
Bilan
Bilan format des images
Format compression Codage Progressif Transparence
BMP / 24 bits non non
TIFF / 32 bits non non
GIF sans perte 1 8 bits oui (entrelac) oui (GIF89a)
JPEG avec perte 24 bits oui non
PNG sans perte 8 48 bits oui oui (couche alpha)
Rcapitulatif (non exhaustif) des formats dimage bitmap
Vidos
Compression des images animes et
vido
Vidos
Le signal vido
Le signal vido
Sur un rcepteur de tlvision, une image est obtenue par balayage
lectronique rpt des lignes luminophores constituant les crans
cathodiques :
formats PAL ou SECAM : 625 lignes
PAL : Phase Alternation by Line, standard allemand de la n
des annes 60
SECAM : Squentiel couleur mmoire, standard franais
25 images par seconde (frquence du courant : 50 Hz)
format NTSC : 525 lignes
NTSC : National Television System Committee, standard
amricain et japonais, historiquement le premier (1953).
30 (29,97) images par seconde (frquence du courant : 60 Hz)
Vidos
Le signal vido
Tramage
Acher 20 images par seconde donne, du fait de la persistance
rtinienne, une impression de scintillement.
Une solution : le tramage
achage dune ligne sur deux
cest aussi la source dun certain nombre dartefacts visuels
dans le cas de mouvements rapides
Vidos
Le signal vido
Le signal vido
Au cours des annes 80, un standard apparat pour limiter le
dveloppement anarchique des formats vidos : CCIR 601,
renomm plus tard en Rec. 601.
celui-ci xe le nombre de points actifs par ligne 720 pour
tous les standards
mais dans la ralit, le nombre total de points par ligne pour
NTSC est 858 et 864 en PAL/SECAM
Un exemple de codage PAL :
625 lignes/image 864 points/lignes 25 images/seconde =
13500000 points/seconde
Mme chose pour NTSC :
525 lignes/image 858 points/lignes 30 images/seconde =
13500000 points/seconde
Vidos
Le signal vido
Le signal vido
Au cours des annes 80, un standard apparat pour limiter le
dveloppement anarchique des formats vidos : CCIR 601,
renomm plus tard en Rec. 601.
celui-ci xe le nombre de points actifs par ligne 720 pour
tous les standards
mais dans la ralit, le nombre total de points par ligne pour
NTSC est 858 et 864 en PAL/SECAM
Un exemple de codage PAL :
625 lignes/image 864 points/lignes 25 images/seconde =
13500000 points/seconde
Mme chose pour NTSC :
525 lignes/image 858 points/lignes 30 images/seconde =
13500000 points/seconde
Vidos
Le signal vido
Dbit thorique
En poursuivant le raisonnement prcdent, et en supposant quon
code chaque point par un triplet de valeurs codes sur un octet, on
obtient :
3 8 13500000 = 324000000 bits/seconde
soit un dbit de prs de 40 Mo/s !
Pour 90 min de lm, il faut alors :
90 60 40 = 210 Go
soit lquivalent de 44 dvd.
La compression de la vido est indispensable !
Vidos
Le signal vido
Une premire tape
Les standards comme Rec. 601 dnissent les paramtres du
codage de vido en mode composantes (Luminance et
Chrominance) plutt quen mode RGB
exploitation ecace des imperfections de la vision humaine
On constate quune rduction de 50% du volume des informations
de chrominance naecte pas la qualit de limage perue. On peut
mme rduire cette valeur jusqu 25%
si on associe la valeur 4 linformation de luminance, on peut
aecter les valeurs 2 ou 1 aux informations de chrominance
rouge et bleue.
daprs UIT-R Rec 601, les informations de luminance sont
donnes pour tous les pixels, et les informations de
chrominance sont donnes seulement pour un pixel sur 2
on le note 4 : 2 : 2
rduction de 33% de linformation
Vidos
Le signal vido
Un peu plus loin...
Le format dchantillonnage 4 : 2 : 2 est adapt la production
vido. Dans le contexte de la diusion, on trouve aussi les formats
4 : 1 : 1
25% de la chrominance rouge et bleue
et 4 : 2 : 0
50% de la chrominance rouge et bleue, mais seulement une
ligne sur deux
Vidos
Le signal vido
Formats IF
Jusqu prsent, on ne touchait pas la rsolution des images
(seulement lchantillonnage). Il existe des formats allgs,
notamment :
SIF (Source Input Format), balayage progressif et non
entrelac :
rsolution divise par 2 en 4 : 2 : 2
luminance : 352288, chrominance 176144, 25 images/s ou
luminance : 352 240, chrominance 176 120, 30 images/s
QSIF : (Quarter Source Input Format)
rsolution divise par 4 en 4 : 2 : 2
CIF : (Common intermediate Format)
objectif : permettre la diusion dans les zones 525 et 625
lignes tout en limitant le dbit ncessaire
base de la visio-confrence
Vidos
Le signal vido
Comparatif
325/50
PAL/SECAM
525/60
NTSC
CIF
Luminance 720x576 720x480 352x288
Chrominance 360x576 360x480 176x144
Format 4:2:2 4:2:2 4:2:0
Trames/s 50 60 30
Entrelac oui oui non
Rec.601 et CIF
Vidos
Le signal vido
Bilan
Dbit ncessaire pour CIF non compress :
(352 288 + 2 176 144) 8 bits/point 30
images/seconde = 36, 5 Mbit/seconde
La compression de la vido est indispensable !
Vidos
Techniques de compression
Techniques de compression
Vidos
Techniques de compression
Compresssion des squences vido
La compression dune squence dimages utilise :
les meilleures techniques de compression pour une image
simple
plus des techniques labores pour la redondance temporelle
dtection de mouvement
prdiction
Vidos
Techniques de compression
Principes de base
Le format MJPEG consiste stocker une succession dimages
encodes en JPEG (la norme MJPEG2000 fait appel la
compression JPEG2000)
les images sont stockes conscutivement dans le chier.
faible taux de compression global
lintrt du format MJPEG nest pas dans le taux de
compression mais dans la rapidit daccs aux images: accs
immdiat nimporte quelle image
Les techniques principales qui permettent de diminuer la
redondance temporelle dune squence sont le codage direntiel et
la compensation de mouvement. Ces techniques sont utilises par
les dirents algorithmes MPEG
Vidos
Techniques de compression
Principes de base
Le format MJPEG consiste stocker une succession dimages
encodes en JPEG (la norme MJPEG2000 fait appel la
compression JPEG2000)
les images sont stockes conscutivement dans le chier.
faible taux de compression global
lintrt du format MJPEG nest pas dans le taux de
compression mais dans la rapidit daccs aux images: accs
immdiat nimporte quelle image
Les techniques principales qui permettent de diminuer la
redondance temporelle dune squence sont le codage direntiel et
la compensation de mouvement. Ces techniques sont utilises par
les dirents algorithmes MPEG
Vidos
Techniques de compression
Codage temporel direntiel
Le codage temporel direntiel est un moyen de codage assez
naturel. Il part du constat que les deux images I
n
et I
n+1
successives sont fortement semblables et quil est plus avantageux
de coder I
n
puis I
n+1
I
n
Vidos
Techniques de compression
Compensation du mouvement
La technique de compensation de mouvement part du constat
quune squence est souvent compose de travelling ou dobjets et
personnages qui traverse le champ de la camra. De tels
vnements peuvent tre facilement modliss par la translation
dune portion de limage I
n
de la squence vers une autre portion
dune image I
n+1
de la squence
Il sut alors de coder la transformation T permettant dune
portion lautre.
Vidos
Techniques de compression
Dtection du mouvement
Il existe plusieurs manires de dtecter ces mouvements. La norme
MPEG repose sur la technique dite du Block Matching.
recherche dun block le plus proche (en rgle gnrale) au sens
de lerreur quadratique moyenne
arg min
t
x
,t
y
i ,j B
(I
n
(i , j ) I
n+1
(i + t
x
, j + t
y
))
2
(11)
le choix du domaine B est un des points cruciaux de
lalgorithme
compromis entre grand domaine, fort taux de compression
mais recherche plus lente
Vidos
Techniques de compression
Le codage MPEG
MPEG : Motion Picture Expert Group, runi dans les annes 90, a
travaill la normalisation de la distribution de contenu audio et
vido.
MPEG-1 est la premire version du systme de
compression/dcompression dni par le consortium MPEG, utilis
pour les lms sur CD (vido CD ou VCD).
Sur ce principe, Philips avait commercialis les lecteurs de salon CD-I, ce qui
constitua un chec commercial. Le VCD sest impos en Asie alors que
loccident restait dle au Laser-disc, procd analogique, jusqu la sortie du
DVD reposant sur MPEG-2. Les lecteurs de DVD peuvent lire les VCD.
Vidos
Techniques de compression
Le codage MPEG : principes
Les images codes de la squence sont dcomposes en trois types
dirents :
intra I qui seront codes sans prdiction et sans compensation
de mouvement par un algorithme de compression trs proche
de celui de JPEG.
prdites P qui seront prdites partir des images I ou P
prcdentes en utilisant une compensation de mouvement. La
dirence entre limage prdite et originale est galement
code.
bi-directionelles B galement prdites avec deux
compensations de mouvement, lune provenant dune image I
ou P passe, lautre provenant dune image I ou P future.
Comme pour les images P, la dirence entre limage prdite
et limage originale de la squence sera galement code.
Vidos
Techniques de compression
Le codage MPEG : principes
Relations de dpendances entre les images IPB :
La succession des images de type I,P et B forme un groupe
dimages (appele GOP pour Group Of Picture)
La premire image dun GOP est ncessairement une image I
on peut spcier un nombre dirent de B, de P an de
produire une suite adapte la vido quon compresse.
plus on allonge le GOP, plus on y met des trames B, plus la
qualit baisse, mais meilleur est le taux de compression.
Vidos
Techniques de compression
Le codage MPEG : structures
De part la structure des images codes (I, B et P), le chier
compress MPEG comporte deux catgories dinformations :
les informations images, qui sont les images I codes ou les
images derreur provenant des images P et B (codage
direntiel)
les informations mouvement, qui sont les vecteurs de
mouvement ncessaires la compensation de mouvement
note : les images dun GOP ne se suivent pas dans lordre
temporel, mais dans lordre ncessaire pour le dcodage : limage I
suivie des images P suivies des images B.
Cela ralentit fortement laccs une image alatoire puisque
par exemple pour dcoder une image B, il faut avoir dcod
limage I et/ou limage P dont dpend celle quon veut.
Vidos
Techniques de compression
Le codage MPEG : structures
Dans le systme MPEG, la structuration est faite ainsi :
chier mpeg = suite de GOP
GOP = suite dimages (frame)
image = suite de tranches (slice)
tranche = suite de macroblocs
macrobloc = 6 blocs 8x8 (4 blocs Y, 1 bloc Cr et 1 bloc Cb)
+ infos de mouvements
Vidos
Techniques de compression
Le codage MPEG : transport
Lors du stockage dans un chier ou de la transmission par un
rseau, toutes ces informations sont encapsules dans un format
de transport (transport stream) :
rassemble les informations provenant des compresseurs vido
(1 piste au moins) et audio (1 ou + pistes)
On appelle multiplexage cet assemblage des pistes et
dmultiplexage lopration inverse qui spare le chier ou ux rseau
en image et son. Ainsi, dans le chier rsultant, les donnes image
et audio sont entrelaces, ce qui permet de les jouer en parallle.
Vidos
Techniques de compression
Le codage MPEG : transport
Il existe deux formats de transport pour la compression MPEG :
le format TS (transport stream) qui ne contient pas
dinformations de type timecode (horloge pour dater les images
comme sur un camscope), utilis en transmission satellite,
le format PS (program stream) qui est utilis pour
lenregistrement sur DVD.
Pour faciliter la transmission sur rseau et le stockage dans un
chier, les donnes sont dcoupes en paquet de 188 octets, taille
correspondant dirents types de rseaux (ATM) et optimise par
rapport au taux derreur moyen. Certains paquets transportent la
vido, dautres transportent laudio. Chaque paquet est identi par
un nombre (PID paquet identier).
Vidos
Techniques de compression
Le codage MPEG : dirents formats
MPEG 1
La norme MPEG-1 est enregistre lISO (International
Organisation for Standardisation) sous le code ISO/IEC 11172. Elle
a t nalise en 1992.
Objectifs :
fournir de la vido et de laudio au taux de transfert dun CD
Les images des systmes 25 Hz mesurent 352x288 pixels et celles
des systmes 30 Hz mesurent 352x240 pixels (format CIF).
Vidos
Techniques de compression
Le codage MPEG : dirents formats
MPEG 2
La norme MPEG-2 est enregistre lISO sous le code ISO/IEC
13818, et a t nalise en 1996.
Objectifs :
compression de la vido de qualit tlvision un dbit de 4
6 Mbits/s
plus tardivement, intgrer a compression de la tlvision
haute dnition (TVHD)
MPEG-2 permet la compression dimages entrelaces (TV) l o
MPEG-1 ne traite que les images en mode progressif (beaucoup
plus dur). Cest le standard de la tlvision numrique.
Vidos
Techniques de compression
Le codage MPEG : dirents formats
MPEG 4
La norme MPEG-4 est enregistre lISO sous le code ISO/IEC
14496, et a t nalise dans sa version 2 en 1999. Objectifs :
coder de manire ecace des squences trs bas dbit
assurer une standardisation technologique tous les niveaux :
production, distribution et diusion
Principe :
MPEG-4 apprhende dsormais la vido selon une mthode
oriente objets : une scne devient alors une composition
dobjets mdias hirarchiss, chaque objet tant dcompos en
dirents paramtres.
Vidos
Techniques de compression
complments sur MPEG-4
MPEG-4 dcompose chaque scne en plusieurs objets mdias
hirarchiss (AVO, pour Audio-Video Objects):
images xes (arrire-plan)
des objets vido (objets en mouvement sans arrire-plan)
objets audio
scne audiovisuelle = composition dobjets audiovisuels selon un
script dcrivant leurs relations spatiale et temporelle.
Vidos
Techniques de compression
complments sur MPEG-4
Les notions lis aux GOP en MPEG-1 ou MPEG-2 stendent aux
GOV (Group of Video Object Planes) en MPEG-4. Les mcanismes
de compression communs aux normes MPEG, qui sont toutefois
gnraliss ici aux VOP.
DCT adapte la forme de lobjet vido
quantication + RLE + Human
On trouve galement des I-VOP (Intra-VOP), P-VOP
(Predicted-VOP) et B-VOP (Bidirectionnal-VOP)
Dans loptique de la vidoconfrence, des schmas spcialiss au
mouvement du corps et surtout du visage sont proposs pour
diminuer encore le ux des donnes.
Vidos
Techniques de compression
Divx ?
MPEG-4 apparat pour linstant comme le standard de la
visioconfrence et du multimdia mobile, dans son prol bas (10
images/s, dbit infrieur 64 Kbits/s)
MPEG-4 commence galement se faire un nom auprs du grand
public, grce son association au codec DivX;
en gros MPEG-2 + la modularit de dbit et de rsolution de
MPEG-4
Simplication : objet vido = ensemble de limage
lecacit du divx provient de la modularit dans la taille des
blocs
Vidos
Supports de la vido
Supports de la vido
Vidos
Supports de la vido
Le DV
(et ses variantes miniDV, DVCAM, DVCPro, microMV...)
Le DV (Digital Video) correspond la norme IEC-16884 (format
miniDV)
encore appel DV25 car elle spcie un dbit max de 25
Mbits/s.
enregistre en 4:2:0 en PAL ou en 4:1:1 en NTSC
Son codage respecte lorganisation MPEG-1 mais sans les images P
et B
sapparente plus au M-JPEG.
Le son est enregistr en PCM sans compression, de 32 48 kHz en
16 bits stro (meilleur quun CD audio).
Vidos
Supports de la vido
Le DVD
Le DVD (Digital Video Disc), renomm Digital Versatil Disc a t
dvelopp en 1995 par un consortium regroupant 10 constructeurs.
Il faut distinguer les DVD Audio, DVD vido (lecture sur
TV)et DVD-ROM, capable de stocker environ de 4.7 Go
(monocouche simple face) 17 Go (double couche double
face).
Le DVD supporte les normes MPEG-1 et MPEG-2, en CBR
(Constant Bit Rate) et VBR (Variable Bit Rate).
la rsolution est de 720x576 en PAL (x480 en NTSC).
Vidos
Supports de la vido
Structure dun DVD
Un DVD vido est constitu de plusieurs rpertoires.
le rpertoire video_TS correspond des donnes relatives la
vido
on y trouve les chiers :
VOB (Video OBjects), comprenant un ux MPEG-2 et le
multiplexage des pistes audio et sous-titres
IFO contenant les informations relatives la dure du lm, ses
pistes audio, le format dencodage ou le squenage des
chiers VOB
BUP de sauvegarde de ces derniers (au cas o ils seraient
illisibles).
Vidos
Supports de la vido
Les Video CD
On distingue deux formes : SVCD (Super Vido CD) et VCD
(Vido CD). Le SVCD est un compromis entre la qualit du DVD
et celle du VCD, le tout sur un support CD.
VCD : rsolution 352x288 et norme MPEG-1
SVCD : rsolution 576x480 (PAL) ou 480x480 (NTSC) et
MPEG-2, en CBR et VBR.
Le VCD est n en 1993 (le SVCD en 2000) pour faire tenir 1 heure
de vido sur un CD avec la mme interactivit (chapitrage)
quorent les CD audio. Les 2 chiers, vido MPEG-1 et audio
MPEG-1 Layer 2 stro 16 bits, sont multiplexs en 1 chier .dat.
Le dmultiplexage fournit un chier .mv1 et un autre .mp2.
Bases de donnes multimdia
Base de donnes multimdia
Bases de donnes multimdia
Indexation de donnes multimdia
Volume de donnes
Le dveloppement de la qualit des techniques de codages,
laugmentation des supports de stockage et lvolution des rseaux
ont gnr de nouveaux besoins et usages :
permettre un utilisateur davoir un aperu du contenu dun
ensemble important de documents mutlimdia,
dtecter et reconnatre certains lments et composantes de
ces documents,
retrouver des contenus selon dirents critres :
Exemples avec une recherche dimages :
recherche dune image spcique ou un ensemble dimages
avec une thmatique prcise
recherche dune ou plusieurs images contenant un lment ou
objet spcique
Bases de donnes multimdia
Indexation de donnes multimdia
Indexation
Il est souvent impossible de travailler directement sur la matire
multimdia brute
oprations de dcompression coteuses
volume de donnes trop important
Dans le domaine des bases de donnes, les entres sont
gnralement associes des index pour structurer et faciliter
laccs aux informations
structures donnes multidimensionnelles
avec ou non une smantique associe
L indexation de bases de donnes multimdia reprsente la
construction dun tel ensemble dindex
Bases de donnes multimdia
Indexation de donnes multimdia
Indexation
Il est souvent impossible de travailler directement sur la matire
multimdia brute
oprations de dcompression coteuses
volume de donnes trop important
Dans le domaine des bases de donnes, les entres sont
gnralement associes des index pour structurer et faciliter
laccs aux informations
structures donnes multidimensionnelles
avec ou non une smantique associe
L indexation de bases de donnes multimdia reprsente la
construction dun tel ensemble dindex
Bases de donnes multimdia
Indexation de donnes multimdia
Indexation de donnes multimdia
Dans le cas des donnes multimdia, lindex a une signication
particulire : il porte en lui une description synthtique de la
donne.
beaucoup plus petite (en gnral) que la donne elle-mme,
mais trs riche en informations.
Intuitivement on peut penser deux catgories :
indexation par du texte,
indexation par le contenu.
Bases de donnes multimdia
Indexation de donnes multimdia
Indexation par le texte
Indexation textuelle : que choisir ? Mots-cls, concepts, relations
entre les objets, signiant/signi ?
index : samoura, soleil, sabres,
japon, ...
Historiquement la plus ancienne, mais aussi la plus rpandue des
mthodes dindexation. Cependant, elle soure de nombreux
dfauts :
incompltude, ambigut, subjectivit,
internationalisation dicile,
dpendance au contexte,
annotation longue et laborieuse !
Bases de donnes multimdia
Indexation de donnes multimdia
Indexation par le contenu
Indexation par le contenu : extraire des donnes des descripteurs
la fois signicatifs et compacts qui seront utiliss pour la recherche
et la structuration
index : vecteur de donnes
(mesures, rsultats dalgorithmes,
...)
lindex est construit directement depuis les donnes
on dnombre de nombreuses mthodes toutes relatives un
type de mdium donn !
cependant, de nombreux lments smantiques sont absents de
ce type dindex
Dans lidal, il faut coupler les deux mthodes dindexation !
Bases de donnes multimdia
Indexation de donnes multimdia
MPEG-7
La norme MPEG-7 (n 2004) standardise la description et
lindexation de documents multimdia. Le format MPEG-7
comprend trois lments principaux :
un ensemble de descripteurs permettant la description des
contenus multimdia :
des descripteurs visuels (informations de couleur, texture,
forme ou mouvement, cf. la partie sur lindexation dimages)
des descripteurs audio (timbre, spectre, ou des lments plus
haut niveau comme la mlodie ou la parole)
Bases de donnes multimdia
Indexation de donnes multimdia
MPEG-7
un langage de description des contenus multimdia : DDL
(Description Denition Language), driv du XML.
des lments appels Description Schemes (DS), dnissant la
smantique et les relations entre descripteurs et entre DDL
les segments permettent de dnir la dcomposition
spatio-temporelles des mdias vido (image, plan, squences,
etc.)
les informations auteurs : ce qui permet de fournir des
informations bibliographiques sur un mdia (titre, auteur,
description libre, etc.)
Les informations physiques (principe de codage dun mdia,
taille, rsolution, etc.).
Le format MPEG-7 nest actuellement que trs peu utilis dans les
applications grand public
Bases de donnes multimdia
Indexation des images
Indexation des images
Bases de donnes multimdia
Indexation des images
Indexation des images
Lindexation des images est un domaine nouveau (> 2000) dont les
champs dapplication sont multiples :
applications scientiques :
bases dimages mdicales : comparaison de pathologies pour
des diagnostiques,
bases dimages zoologiques ou botaniques : cartographie des
espces,
bases dimages satellitaires, mto, etc.
audiovisuel (retrouver des photos, un plan, une squence
spcique, etc.)
authentication (visages, empreintes digitales, etc.)
art, sauvegarde du patrimoine : recherche encyclopdique,
bases duvres
...
Bases de donnes multimdia
Indexation des images
Descripteur, signature
Le contenu visuel de limage est extrait sous la forme dun
descripteur de limage
exemple : histogramme de couleur
On associe ce descripteur une mesure de similarit
exemple : intersection dhistogrammes
La signature de limage correspond une donne numrique
(vecteurs de valeurs le plus souvent) correspondant un ou
plusieurs descripteurs
exemple : un vecteur de 256 valeurs dans le cas de
lhistogramme
Cest lindex de limage
Bases de donnes multimdia
Indexation des images
Contraintes importantes
Le descripteur doit tre munis de proprits trs importantes, dont
notamment des proprits dinvariance
des transformations rigides du contenu (rotations,
translations, mise lchelle),
des changements de point de vue, de camra,
des changements dillumination,
aux occultations (partielles),
aux bruits (dacquisition, de quantication, de compression)
Les proprits dinvariance du descripteur dpendent nanmoins de
lapplication laquelle il est destin
certaines dirences doivent tre discriminantes !
exemple : invariance larrire plan ok si lon cherche
sabstraire du contexte
Bases de donnes multimdia
Indexation des images
Contraintes importantes
Le descripteur doit tre munis de proprits trs importantes, dont
notamment des proprits dinvariance
des transformations rigides du contenu (rotations,
translations, mise lchelle),
des changements de point de vue, de camra,
des changements dillumination,
aux occultations (partielles),
aux bruits (dacquisition, de quantication, de compression)
Les proprits dinvariance du descripteur dpendent nanmoins de
lapplication laquelle il est destin
certaines dirences doivent tre discriminantes !
exemple : invariance larrire plan ok si lon cherche
sabstraire du contexte
Bases de donnes multimdia
Indexation des images
Contraintes importantes
Le descripteur doit limiter sa dimension
Exemple1 500000 images dcrites par leurs histogrammes de
couleur (256 valeurs) = recherche dans un espace de
dimension 256 contenant 500000 points
Exemple2 500000 images dcrites par un ensemble de rgions
(20) dcrites par 20 paramtres = recherche dans un espace
de dimension 20 contenant 500000 20 points
On cherche en gnral le plus petit ensemble de grandeurs
invariantes
au/maldiction de la dimension (Curse of dimensionality)
Bases de donnes multimdia
Indexation des images
Contraintes importantes
Le descripteur doit limiter sa dimension
Exemple1 500000 images dcrites par leurs histogrammes de
couleur (256 valeurs) = recherche dans un espace de
dimension 256 contenant 500000 points
Exemple2 500000 images dcrites par un ensemble de rgions
(20) dcrites par 20 paramtres = recherche dans un espace
de dimension 20 contenant 500000 20 points
On cherche en gnral le plus petit ensemble de grandeurs
invariantes
au/maldiction de la dimension (Curse of dimensionality)
Bases de donnes multimdia
Indexation des images
types de bases dimages
La rsolution du problme dpend notamment du type de donnes
prsentes dans la base :
base gnrique :
contenu htrogne (bases grand public, archives gnralistes)
la recherche reste par nature approximative
base spcique
contenu spcique un domaine dapplication
exemples :empreintes, visages, plantes, ...
la recherche doit aboutir une rponse exacte (quil est
possible de vrier a posteriori)
Bases de donnes multimdia
Indexation des images
Exemple de bases dimages
Extrait dune base dimages de visages pour une application de reconnaissance de visages
Bases de donnes multimdia
Indexation des images
Classication des descripteurs dimage
Descripteur global de limage :
description approche de la totalit de limage
par exemple, histogramme de couleurs, informations de
texture, formes, ...
Descripteur local de limage :
description prcise de parties de limage
bas exemple pour la reconnaissance dobjets
sans modle : segmentation, dtection de points/zones
dintrt
Descripteur spcique :
le plus souvent en biomtrie
exemples : minuties en empreintes digitales, caractristiques
faciales
Bases de donnes multimdia
Indexation des images
Descripteurs globaux
Bases de donnes multimdia
Indexation des images
Signatures de couleur
Tout dabord le choix de lespace de reprsentation des
couleurs est trs important !
le choix de lespace de couleurs inue sur la mtrique
deux couleurs proches dans cet espace doivent tre proches du
point de vue perceptif
Exemple de lhistogramme
Pour chaque couleur, un histogramme de couleur est calcul
:
c C, h(c) =
1
MN
N
i
M
j
(I (i , j ) c) (12)
avec (x) = 0 si x ,= 0 et (0) = 1 (symbole de Kronecker).
Bases de donnes multimdia
Indexation des images
Comparaison de deux histogrammes ?
Commet comparer deux histogrammes ? Il est intressant de
revenir la dnition de la notion de similarit :
une dnition gnralise de la notion de distance
distance de Minkowski pour deux lments i et j vivant dans
des espaces de dimension d :
d(i , j ) =
q
[i
1
j
1
[
q
+[i
2
j
2
[
q
+ +[i
d
j
d
[
q
(13)
q = 1 distance de
Manhattan
q = 2 distance Euclidienne
q = inf distance Max
Bases de donnes multimdia
Indexation des images
Comparaison de deux histogrammes ?
Revenons nos deux histogrammes ?
dimension = nombre de couleurs dans lhistogramme
on peut alors utiliser nimporte quelle distance
mais aussi lintersection dhistogrammes
(H1, H2) =
i
min(H1
i
, H2
i
)
i
H2
i
(14)
Point positif : robuste certaines transformations de limage
Problme : deux histogrammes proches en distance peuvent
avoir des contenus smantiques compltement dirents !
Bases de donnes multimdia
Indexation des images
Comparaison de deux histogrammes ?
Revenons nos deux histogrammes ?
dimension = nombre de couleurs dans lhistogramme
on peut alors utiliser nimporte quelle distance
mais aussi lintersection dhistogrammes
(H1, H2) =
i
min(H1
i
, H2
i
)
i
H2
i
(14)
Point positif : robuste certaines transformations de limage
Problme : deux histogrammes proches en distance peuvent
avoir des contenus smantiques compltement dirents !
Bases de donnes multimdia
Indexation des images
Signatures de texture
Quest ce quune texture ?
ensemble de motifs disposs selon des schmas spatiaux
rguliers
un motif = sous-ensemble minimal, invariant, de pixels
Bases de donnes multimdia
Indexation des images
Signatures de texture
Comment caractriser une texture ?
Mthodes statistiques
la probabilit doccurence dun motif est plus lev pour une
texture donne
les mthodes statistiques cherchent valuer ces distributions
de probabilits
matrices de cooccurence
modles de Wood, Fractals, auto-rgrssifs ....
Mthodes frquentielles
la rptition de schmas spatiaux donne une distribution
spectrale particulire
variantes : transforme de Fourier circulaire (pour linvariance
aux rotations), de Mellin (pour linvariance au changement
dchelle)
Bases de donnes multimdia
Indexation des images
Signatures de forme
Comment caractriser une forme ?
Mthodes bases contour
mthodes structurelles : codage de chanes, polygones, courbes
paramtres (splines)
mthodes globales : primtre, nombre de trous, compacit,
descripteurs de Fourier
Mthodes bases rgion
mthodes structurelles : enveloppe convexe, axe mdian, ...
mthodes globales : surface, moments, ...
Bases de donnes multimdia
Indexation des images
Descripteurs de Fourier
linarisation du contour (courbures, distance au centre)
transforme de Fourier de cette srie termporelle
Bases de donnes multimdia
Indexation des images
Codage de Freeman
reprsentation structurelle du contour en chanes de code
4, 8 ou 16 orientations
Bases de donnes multimdia
Indexation des images
Descripteurs locaux
Les objectifs sont un peu dirents :
recherche de zones ou dobjets similaires
requtes partielles
Bases de donnes multimdia
Indexation des images
Descripteurs locaux
bass rgion
bass points dintrt
Bases de donnes multimdia
Indexation des images
Points dintrt
Un ensemble de points dintrts est extrait automatiquement de
limage, selon un certain nombre de critres variables :
Gradients levs, informations de contours riches
analyse frquentielle (ltres de Gabor par exemple), ...
A partir de ces points, une description locale est tablie
(descripteurs locaux) + une mesure de similarit entre ces
descripteurs.
Bases de donnes multimdia
Indexation des images
Points dintrt
Bases de donnes multimdia
Indexation des images
Points dintrt : intrts et inconvnients
Avantages :
recherche par parties ou dobjets
requte partielle guide par lutilisateur
robuste des transformations de limage
robuste, dans un certaine mesure, aux occultations
Inconvnients :
reste coteux en temps de recherche
(nombre dimages nombre de points dintrt) points dans
un espace de dimension = nombre dlments dans le vecteur
de description des points dintrts.
ncessite des mthodes de recherche adaptes !
Bases de donnes multimdia
Indexation des images
Algorithmes de recherche
Retrouver le plus rapidement possible les meilleurs candidats pour
une image ou une partie dimage donne
calcul de la distance avec tous les lments de la base
conserver les k voisins les plus proches (knn, k nearest
neighbors)
o les -proches voisins au sens de la distance
ncessite la plupart du temps un pr-dcoupage
(partionnement de la base)
mthodes de clustering, B-trees, BRep, k-means, etc...
Bases de donnes multimdia
Indexation des images
Focus sur deux mthodes de classication
Classication
Processus de hirarchisation et de regroupement dobjets en classes
supervise : on dispose de donnes dapprentissage
(exemples), on connait le nombre de classes lavance
non supervise : regroupement automatique des donnes en
amas ou groupes
On va tudier deux mthodes simples de classication supervise :
k Nearest Neighbors (kNN)
k means
Bases de donnes multimdia
Indexation des images
Mthodes kNN
Quon appelle aussi mthodes des k plus proches voisins (kPPV).
Approche trs simple
Pas dapprentissage simplement stockage des donnes
dapprentissage :
une donne de classe inconnue est compare toutes les
donnes stockes. On choisit pour la nouvelle donne la classe
majoritaire parmi ses k plus proches voisins.
rsultats performants
cependant la recherche est plutt lente : comparaison de
lindividu avec tous les exemples pour connatre les plus
proches voisins
Bases de donnes multimdia
Indexation des images
Mthodes kNN : algorithme
Notations :
( lensemble des classes
x
i
, c
l
lensemble des donnes dapprentissage x
i
et les classes
correspondantes c
l
(
(., .) est la mtrique utilise
Donnes : une nouvelle donne x
retourner la classe correspondante c
pour tous les x
i
faire
calculer (x, x
i
);
pour tous les k plus proches voisins de x faire
aecter c la classe la plus reprsente
Bases de donnes multimdia
Indexation des images
Illustrations
k = 1
k = 3
Bases de donnes multimdia
Indexation des images
Remarques
Lorsque k = 1, on obtient une quivalence avec un diagramme de
Voronoi
Que faire en cas dgalit ?
Augmenter la valeur de k de 1 pour trancher. Lambigut
peut subsister
Tirer au hasard la classe parmi les classes ambigues.
Pondrer des exemples par leurs distances au point x
Bases de donnes multimdia
Indexation des images
Mthodes k-means
La mthode des k-means est une mthode de classication
supervise trs utilise car trs simple et donnant des rsultats trs
satisfaisants. Les objectifs sont un peu dirents de la mthode des
kNN :
Soit un ensemble de points x
i
et un nombre de classes k xs
lalgorithme des k-means associe chaque point x
i
une classe
k, selon un mtrique donne.
Bases de donnes multimdia
Indexation des images
Algorithme des k means
Donnes : {x
i
} lensemble des donnes dapprentissage, k le nombre de classes
retourner lassociation de chaque {x
i
} avec une classe c
l
, l = 1, . . . , k
Initialiser la position des centres c
l
de manire alatoire;
tant que de nouvelles aectations sont eectues faire
aecter chaque x
i
un centre c
l
;
pour tous les c
l
faire
calculer le barycentre des points associs;
dplacer c
l
ce barycentre;
Bases de donnes multimdia
Indexation des images
Exemples
k = 2
Bases de donnes multimdia
Indexation des images
Exemples
k = 2
Bases de donnes multimdia
Indexation des images
Exemples
k = 2
Bases de donnes multimdia
Indexation des images
Exemples
k = 2
Bases de donnes multimdia
Indexation des images
Exemples
k = 2
Bases de donnes multimdia
Indexation des images
Exemples
k = 2
Bases de donnes multimdia
Indexation des images
Exemples
k = 2
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Exemples
k = 5
Bases de donnes multimdia
Indexation des images
Commentaires sur k-means
Forces
complexit limite : o(tkn), o n est le nombre dobjets, k est
le nombre de clusters, et t est le nombre ditrations.
Normalement, k, t n.
facile implmenter
Faiblesses
il faut spcier k
On ne peut pas dcouvrir les groupes non-convexes
Bases de donnes multimdia
Indexation des images
Commentaires sur k-means
On peut comprendre k-means en sappuyant sur la thorie de
linformation.
Dans ce contexte, on cherche encoder nos points avec perte mais
en minimisant lerreur. Chaque x
i
est alors reprsent par le centre
correspondant. On cherche donc minimiser:
min
i
(x
i
decode(encode(x
i
)))
2
(15)
Bases de donnes multimdia
Indexation des images
Commentaires sur k-means
Avec k-means, on reprsente chaque lment par son centre c
l
. Il
vient
decode(encode(x
i
)) = c
l
(16)
Et lerreur, ou distortion,sera alors minimise pour un ensemble
c
l
, l = 1, . . . , k donn.
On peut prouver mathmatiquement (comme vu en cours) que le
rsultat de lalgorithme est un minimum local de cette expression.
Bases de donnes multimdia
Indexation des images
Commentaires sur k-means
Convergence ?
Chaque itration amliore la solution globale
comme il nexiste quun nombre ni de partitionnement des
donnes, on montre alors que lalgorithme converge
systmatiquement.
Unicit de la solution ?
dpend de linitialisation puisque que la solution est un
minimum local.
Il peut tre protable dexcuter plusieurs fois lalgorithme et
de garder la solution minimisant la somme de toutes les
distances aux centres respectifs.
Bases de donnes multimdia
Indexation des images
Bilan classication
Il existe de nombreuses autres mthodes de classication :
dterministes : analyse linaire discrimante, machines
support de vecteurs (SVM), etc.
probabilistes : (probabilit dappartenance une classe)
classicateur Baysien, mixture de Gaussiennes, etc.
On sort largement de la porte de ce cours
Bases de donnes multimdia
Evaluation des mthodes de recherche dinformation
valuation des mthodes de recherche
Bases de donnes multimdia
Evaluation des mthodes de recherche dinformation
valuation des mthodes
Comment valuer la pertinence des mthodes de recherche ?
1
valuation directe avec les utilisateurs
subjective, longue, coteuse mettre en place
2
valuation automatique
partir dune vrit terrain
en gnral, on partitionne la base en classes de taille
quivalente sans ambiguts
mesures de performances :
courbes de prcision/rappel
Matrices de confusion
courbes ROC (Receiver Operating Characteristics)
Bases de donnes multimdia
Evaluation des mthodes de recherche dinformation
Courbes prcision/rappel
Le rappel :
nombre dlments retourns sur le nombre dlments
pertinents total
soppose au silence
La prcision :
nombre dlments pertinents retourns sur le nombre
dlments retourns total
en gnral le rappel est plus important que la prcision
Exemple de courbe prcision/rappel
Bases de donnes multimdia
Evaluation des mthodes de recherche dinformation
Matrices de confusion
Matrice de confusion :
par colonne : nombre doccurrences dune classe estime
par ligne : nombre doccurrences dune classe relle
Intrt : montrer rapidement si le systme parvient classier
correctement : la matrice de confusion parfaite se limite une
diagonale pure.
Vrit terrain
classe 1 classe 2
Prdites
Classe 1 Vrai positif Faux positif
Classe 2 Faux ngatif Vrai ngatif
Classication des rponses
Bases de donnes multimdia
Evaluation des mthodes de recherche dinformation
Dautres examples dindexation
Indexation vido
Indexation 3D
Indexation son
Bases de donnes multimdia
Evaluation des mthodes de recherche dinformation
indexation vido
Laugmentation conjonte de la production et des moyens de
sauvegarde des donnes vido rend disponible une grande quantit
dinformation
cependant, on ne sait pas ce quelles contiennent exactement
ou retrouver une information
exemple : quelques minutes aprs le dcs d?un personnage
public, les tlvisions prparent des programmes rtrospectifs
o trouver les extraits ?
les quipes de production passent des heures visionner tous
les contenus...
Bases de donnes multimdia
Evaluation des mthodes de recherche dinformation
indexation vido
Spcicit du problme
document audio-visuel = suite dimages + son
la dimension temporelle est importante
mouvements de camra
mouvements des objets prsents dans limage
segmentation temporelle implicite en plans
dtection automatique plus ou moins bien maitrise...
indexation au niveau des plans : cest la granularit de
lindexation vido
Bases de donnes multimdia
Evaluation des mthodes de recherche dinformation
indexation 3D
Dans ce cas, ce sont des informations gomtriques quil faut
pouvoir indexer.
comment caractriser une forme 3D ?
on retrouve un problme qui prexiste dans le cas 2D
2 possibilits : des descripteurs gomtriques (moments,
longueurs, courbures, etc...) ou frquentiels (transforme de
Fourrier)
il existe aussi des mthodes plus spciques, comme la
"squeletisation" dun maillage
graphes de Reeb
dune manire plus gnrale, il sagit dune caractrisation
topologique des surfaces
Bases de donnes multimdia
Evaluation des mthodes de recherche dinformation
indexation 3D
Exemple : graphe de reeb dun cheval (copyright Evasion, INRIA)
Bases de donnes multimdia
Evaluation des mthodes de recherche dinformation
indexation du son
An industrial-strength audio search Algorithm - A. L. C. Wang - 2003
http://www.ee.columbia.edu/dpwe/papers/Wang03-shazam.pdf
Tatouage numrique
Tatouage numrique
Tatouage numrique
Dnition du tatouage
Dnitions
Tatouage
Le tatouage numrique correspond laltration dun mdia par
ajout dun information :
gnralement en rapport avec le mdia,
gnralement de faon imperceptible
Stganographie
la stganographie est lart de dissimuler au sein dun support anodin
une information qui bien souvent est sans rapport avec le support. .
Cryptographie
La cryptographie est lart de rendre indchirable un message et
ceci de manire visible
Tatouage numrique
Dnition du tatouage
Tatouage visible et invisible
Tatouage visible et invisible de Lna
Tatouage numrique
Dnition du tatouage
Tatouage invisible
Secure Spread Spectrum Watermarking for Multimedia Ingemar J. Coxy, Joe Kiliany, Tom Leightonz,
Talal Shamoony, 1997
Tatouage numrique
Dnition du tatouage
Tatouage : motivations
On trouve aussi le terme watermarking pour dsigner le processus
de tatouage.
La problmatique du tatouage de documents numriques est ne de
la facilit de stockage, de copie et de redistribution des
donnes multimdia
la facilit dchange et de transport de ces donnes via les
rseaux.
Un des objectifs fondateurs est la protection des ayant droits de ces
donnes
le cryptage nest pas une solution acceptable car le contenu est
dius en clair.
Tatouage numrique
Dnition du tatouage
Tatouage : proprits
Les mthodes de tatouage sarticulent autour de proprits
fondamentales :
Invisibilit : lapparence et la smantique du mdium sont
conserves
Spcicit : le tatouage doit contenir susamment
dinformations pour tre clairement identi
Insparabilit (tatouage robuste) : le tatouage ne doit pas
pouvoir tre enlev de son support
et dans une certaine mesure rsister aux changements de
format
Adaptation aux transformations : le tatouage peut subir les
mmes transformations que son support
cette proprit allant de paire avec la rsistance aux attaques
Tatouage numrique
Dnition du tatouage
Tatouage : applications possibles
Plusieurs applications possibles aux mthodes de tatouage :
Contrle de diusion ou "Broadcast Monitoring" : la
marque permet didentier le support dius
identication immdiate du support
( + ) pas de problme de droit linsertion
( ) dgradation du support, mise en place dalgorithme
dinsertion (ct diusion) et de dtection (ct rception)
Tatouage numrique
Dnition du tatouage
Tatouage : applications possibles
Plusieurs applications possibles aux mthodes de tatouage :
Identication du propritaire ou "Copyright Identication" :
la marque permet didentier layant droit du support
( + ) moins voyant quun copyright classique
( + ) plus sr quun copyright classique
( ) pas visuellement identique au @date+nom, actuellement
pas de validit devant une cour de justice
( ) ventuellement des erreurs dextraction de la marque
( ) dicults pour lutilisateur de connatre layant droit sil
na pas le systme dextraction de la marque
Tatouage numrique
Dnition du tatouage
Tatouage : applications possibles
Plusieurs applications possibles aux mthodes de tatouage :
Preuve de proprit ou "Copyright Proof" : la marque
permet didentier un copyright mais pas de prouver que cest
rellement un ayant droit
( ) ncessite un organisme tiers de conance qui enregistre
le document et le copyright associ
( + ) solution technique : prouver que lon dtient loriginal
dun document
Tatouage numrique
Dnition du tatouage
Tatouage : applications possibles
Plusieurs applications possibles aux mthodes de tatouage :
Suivi de transaction ou "Fingerprinting" : la marque permet
didentier lacheteur du support (ou le transmetteur du
contenu..)
( + ) moins voyant que le tatouage visible
( + ) plus sr que le tatouage visible
( ) structure de traage dicile mettre en uvre.
Tatouage numrique
Dnition du tatouage
Tatouage : applications possibles
Plusieurs applications possibles aux mthodes de tatouage :
Authentication du support ou "Authentication" : la
prsence de la marque permet de savoir si le support est altr
ou non
quivalent la signature dune fonction de hashage (mais
intgre au document)
solution de tatouage "fragile" : utilisation de la marque
comme authentiant.
par exemple la signature est calcule sur les bits de poids fort
et insrer dans les bits de poids faibles
versions ventuellement locales
solution de tatouage "semi-fragile" : rsistance de la marque
des compressions avec perte.
Tatouage numrique
Dnition du tatouage
Tatouage : applications possibles
Plusieurs applications possibles aux mthodes de tatouage :
Contrle de copie ou "Copy Control" : la marque indique si
lutilisateur a le droit ou non de copier le mdium
par exemple, tatouer une information "never-copy" sur le
support et quiper tous les dcodeurs de ce type de document
relativement irraliste...
licence CSS avec les DVDs
Tatouage numrique
Dnition du tatouage
Tatouage : applications possibles
Plusieurs applications possibles aux mthodes de tatouage :
Contrle de priphrique : le priphrique ragit en fonction
de la marque
exemple : dcodeur Dolby FM : utilisation du dolby ou FM si
prsence ou non de la marque dans le support
Enrichissement ou "Enhancement": la marque contient des
informations additionnelles
exemple : dcodeur Dolby FM : utilisation du dolby ou FM si
prsence ou non de la marque dans le support
Tatouage numrique
Algorithmes de marquage dimages
Tatouage dimages
On sintresse dans la suite de ce cours au tatouage dimages.
Schma classique dun systme de tatouage :
Tatouage numrique
Algorithmes de marquage dimages
Modles de marquage
On distingue les algorithmes de marquage suivants :
marquage priv : le support originel est donn lextracteur
dans ce type de marquage, on compare loriginal au medium m
rcupr pour extraire la marque
marquage aveugle : lextracteur na pas connaissance du
medium originel m
seule la cl secrte de chirement lui est ncessaire pour
extraire la marque
marquage asymtrique : lextraction de la marque ne
ncessite pas la connaissance dun secret
tout le monde est capable de lire la ou les marques du medium
sans pouvoir les eacer
marquage sans cl ou alors par un tatouage avec cl secrte et
une extraction avec la cl publique correspondante
cryptographie asymtrique
Tatouage numrique
Algorithmes de marquage dimages
Modles dextraction
On distingue deux types dextracteurs de marques :
on passe lextracteur la marque m quon suppose avoir
marqu le support
celui-ci rpond par oui ou par non
ou par un indice de conance compris entre 0 et 1 dans le cas
dune extraction souple
il faut connatre lavance quelle marque on aurait faire
on ne passe pas de marque suppose lextracteur
charge lui de dterminer la ou les marques ventuelles
tatoues sur le medium
Tatouage numrique
Algorithmes de marquage dimages
Algorithmes de marquage
On sintresse maintenant aux algorithmes de marquage. Il est
possible de raliser une typologie de ces algorithmes selon plusieurs
critres :
la manire de slectionner les points (ou blocs) dans le
document hte qui porteront linformation cache
le choix dun espace de travail pour raliser lopration
denfouissement
soit dans le domaine spatial
soit dans le domaine transform : DCT, ondelettes,
Fourier-Melin
la stratgie utiliser pour coder linformation enfouir
(redondances, codes correcteurs)
la manire de mlanger intimement le message avec le signal
hte ou modulation
en rgle gnrale, une relation binaire entre les bits
Tatouage numrique
Algorithmes de marquage dimages
Algorithmes de marquage
On sintresse maintenant aux algorithmes de marquage. Il est
possible de raliser une typologie de ces algorithmes selon plusieurs
critres :
la manire de slectionner les points (ou blocs) dans le
document hte qui porteront linformation cache
le choix dun espace de travail pour raliser lopration
denfouissement
soit dans le domaine spatial
soit dans le domaine transform : DCT, ondelettes,
Fourier-Melin
la stratgie utiliser pour coder linformation enfouir
(redondances, codes correcteurs)
la manire de mlanger intimement le message avec le signal
hte ou modulation
en rgle gnrale, une relation binaire entre les bits
Tatouage numrique
Algorithmes de marquage dimages
Algorithmes de marquage
On sintresse maintenant aux algorithmes de marquage. Il est
possible de raliser une typologie de ces algorithmes selon plusieurs
critres :
la manire de slectionner les points (ou blocs) dans le
document hte qui porteront linformation cache
le choix dun espace de travail pour raliser lopration
denfouissement
soit dans le domaine spatial
soit dans le domaine transform : DCT, ondelettes,
Fourier-Melin
la stratgie utiliser pour coder linformation enfouir
(redondances, codes correcteurs)
la manire de mlanger intimement le message avec le signal
hte ou modulation
en rgle gnrale, une relation binaire entre les bits
Tatouage numrique
Algorithmes de marquage dimages
Algorithmes de marquage
On sintresse maintenant aux algorithmes de marquage. Il est
possible de raliser une typologie de ces algorithmes selon plusieurs
critres :
la manire de slectionner les points (ou blocs) dans le
document hte qui porteront linformation cache
le choix dun espace de travail pour raliser lopration
denfouissement
soit dans le domaine spatial
soit dans le domaine transform : DCT, ondelettes,
Fourier-Melin
la stratgie utiliser pour coder linformation enfouir
(redondances, codes correcteurs)
la manire de mlanger intimement le message avec le signal
hte ou modulation
en rgle gnrale, une relation binaire entre les bits
Tatouage numrique
Algorithmes de marquage dimages
Modication des bits de poids faible
les premiers algorithmes de tatouage inscrivent la marque dans les
bits de poids faible de la luminance de limage.
stganographie plutt que du watermarking
marque est trs facile modier ou enlever
la marque ne rsiste pas une compression jpeg o lajout
dun bruit blanc gaussien : pas du tout robuste
Marque visuel et correspondance avec un tableau de bits
Tatouage numrique
Algorithmes de marquage dimages
Technique du "Patchwork"
Il est possible damliorer la technique des bits de poids faible.
en rptant un grand nombre de fois le mme bit pour quune
tude statistique nous donne le bit marqu.
cependant une tude statistique des bits de poids faible de limage
renseigne le pirate sur lexistence du marquage....
La technique du patchwork rgle dans une certaine mesure ce
problme :
permet de dterminer labsence ou la prsence dune marque.
Pour chaque bit forc 1 par le tatouage, on force un autre
bit 0. Ainsi, les proprits globales statistiques de limage
sont inchanges ;
De plus, pour rendre cette marque invisible localement, on
utilise une cl qui va coder lemplacement des bits 0 et des
bits 1.
Tatouage numrique
Algorithmes de marquage dimages
Technique du "Patchwork"
Principe du marquage :
1
Slectionner grce une cl gnre alatoirement des
squences de n paires de pixels (zones de limage ou "patch")
2
Modier la luminance de chaque paire (p
i
, q
i
) en (p
i
, q
i
) de la
faon suivante
p
i
= p
i
+ 1 (17)
q
i
= q
i
1 (18)
Principe de la vrication : lextraction de la marque se fait alors
par un calcul de la somme des dirences entre les positions des
bits donns par la cl
1
Rcuprer toutes les n paires grce la cl secrte
2
calculer S =
n
i =1
(p
i
q
i
)
Tatouage numrique
Algorithmes de marquage dimages
Technique du "Patchwork"
Normalement, quand n est susamment grand :
S =
n
i =1
(p
i
q
i
) 0 (19)
Or, dans le cas de la prsence dune marque
S =
n
i =1
(p
i
q
i
) 2n (20)
Bilan : technique est plus robuste que le codage des bits de poids
faible
lajout dune forte redondance permet de compenser les eets
du bruit blanc additif.
Toutefois, ce marquage ne rsiste pas de petites dformations
gomtriques, ni mme la compression JPEG.
Tatouage numrique
Algorithmes de marquage dimages
Algorithme de Koch et Zhao
Algorithme se fondant sur le marquage dans le domaine frquentiel
Lide de base est dextraire un certain nombre de carrs de
8x8 pixels de limage
calculer la transforme discrte en cosinus (DCT) de ces blocs
marquer un bit sur les moyennes frquences correspondantes
la modication des basses frquences de limage la changerait
trop
les hautes frquences sont enleves par la compression JPEG
Il existe des variantes avec les ondelettes...
Tatouage numrique
Algorithmes de marquage dimages
Techniques dtalement de spectre
Utilis dans les tlcommunications militaires, ltalement de
spectre consiste envoyer un message sur un grand spectre de
frquences de telle manire que, toute frquence, la puissance du
signal mis soit infrieur au bruit.
localement, lmission est toujours imperceptible
cest en coutant sur lensemble du spectre dmission (avec la
connaissance du procd utilis) que lon pourra dtecter le
message mis
La plupart de ces mthodes reposent gnralement sur la
transforme de Fourrier.
Tatouage numrique
Algorithmes de marquage dimages
Techniques dtalement de spectre
Utilis dans les tlcommunications militaires, ltalement de
spectre consiste envoyer un message sur un grand spectre de
frquences de telle manire que, toute frquence, la puissance du
signal mis soit infrieur au bruit.
localement, lmission est toujours imperceptible
cest en coutant sur lensemble du spectre dmission (avec la
connaissance du procd utilis) que lon pourra dtecter le
message mis
La plupart de ces mthodes reposent gnralement sur la
transforme de Fourrier.
Tatouage numrique
Algorithmes de marquage dimages
Techniques dtalement de spectre
Tatouage numrique
Algorithmes de marquage dimages
Techniques dtalement de spectre
Exemple dencodage utilisant ltalement de spectre :
1
slectionner des blocs de bits, tous de la mme taille, de se donner une
suite pseudo-alatoire de la taille des blocs
2
rajouter tout bit dun bloc la marque XOR le bit correspondant de la
suite pseudo-alatoire
Gnralement les techniques base dtalement de spectre perdent toute leur
robustesse face des dformations gomtriques de limage.
des mthodes comme lanalyse fractale des images permettent de donner
des lments de rponse ces problmes
Tatouage numrique
Quelques attaques classiques
Attaques lies au signal
La plupart des attaques classiques pour retirer les marques
sattaquent au signal directement :
transformations spatiales, combinant ventuellement rotations,
translations, mise lchelle
Attaque par symtrisation de limage
Tatouage numrique
Quelques attaques classiques
Attaques lies au signal
La plupart des attaques classiques pour retirer les marques
sattaquent au signal directement :
Simulation dimpression puis scannerisation
Tatouage numrique
Quelques attaques classiques
Attaques lies au signal
La plupart des attaques classiques pour retirer les marques
sattaquent au signal directement :
Compression avec perte
Tatouage numrique
Quelques attaques classiques
Attaques lies au signal
Il existe des logiciels permettant de simuler ces attaques :
StirMark, unZign
Exemple de dformation gomtrique ralise avec le logiciel StirMark,
http://www.petitcolas.net/fabien/watermarking/stirmark/
Tatouage numrique
Quelques attaques classiques
Autres types dattaques
Les objectifs des attaques cryptologiques sont relativement
dirents :
retrouver les cls partir des images marques (attaque
chir seul)
partir de limage originelle galement (attaque clair connu)
On peut encore citer dautres types dattaque :
attaque par modication de marques (ajout dune ou
plusieurs autres marques dans le document)
attaque par mosaquage : limage nest plus gre dans son
intgralit mais comme la somme de plusieurs petits bouts de
celle-ci
Tatouage numrique
Quelques attaques classiques
Autres types dattaques
Les objectifs des attaques cryptologiques sont relativement
dirents :
retrouver les cls partir des images marques (attaque
chir seul)
partir de limage originelle galement (attaque clair connu)
On peut encore citer dautres types dattaque :
attaque par modication de marques (ajout dune ou
plusieurs autres marques dans le document)
attaque par mosaquage : limage nest plus gre dans son
intgralit mais comme la somme de plusieurs petits bouts de
celle-ci
Annexes
Bibliographie
Annexe
Quelques livres/cours ayant servi la cration de ce cours.
Ioan Roxin, Daniel Mercier.
Multimdia : les fondamentaux.
Vuibert, 2004.
P. Bas
Compression dimages et de squence vido
ENSERG, INPG, cours de M2
V.Gouet-Brunet.
Base de donnes multimdia.
CNAM, cours de M2 STIC
M. Chaumont.
Le Tatouage de documents numriques
LIRMM
Note sur les illustrations : la plupart des illustrations de ce cours, lorsquelles ne sont pas originales, ont
t intgres avec lautorisation de leurs auteurs.