Signal Son
Signal Son
Signal Son
THÈSE
pour l’obtention du
par
Jérôme Lebossé
Composition du jury
Rapporteurs : Myriam Desainte Catherine Professeur, Labri, Université de Bordeaux, France
François Pachet HDR, Sony CSL, Paris, France
Directeur : Luc Brun Professeur, Greyc Image, ENSICAEN, France
Examinateurs : Thierry Lecroq Professeur, LITIS, Université de Rouen, France
Jean-Claude Paillès Ingénieur, Orange Labs R&D, Caen, France
Marinette Revenu Professeur, GREYC Image, ENSICAEN, France
Je souhaite tout d’abord remercier avec insistance Luc Brun. Grâce à ses conseils avisés
et à son expérience, cette thèse a su s’orienter vers des chemins pertinents. Son aide, tant
d’un point de vue recherche que morale dans les périodes de doute, a été plus que précieuse
Je suis redevable envers Jean-Claude Pailles pour avoir pris en charge l’encadrement de
cette thèse à France Télécom ainsi qu’Yvan Rafflé pour avoir tout fait pour que cette thèse
soit acceptée dans les hautes sphère de France Télécom et sans qui rien n’aurait été possible.
Myriam Desainte Catherine et François Pachet ont accepté d’être rapporteurs de cette
thèse et c’est pour moi un très grand honneur et un motif de motivation supplémentaire.
Je suis reconnaissant envers Marinette Revenu qui, la première, a cru en moi au sein du
laboratoire Greyc Image de Caen et a eu un rôle essentiel dans ma candidature pour cette
thèse.
Je remercie mes collègues de France Télécom pour la très bonne ambiance quotidienne
qui y régnait et plus particulièrement Marie, Julien et Vincent qui ont partagé mon bureau
Enfin, je souhaite remercier mes parents pour leur soutien de toujours et pour m’avoir
Et je finirai par remercier ma femme, Céline, qui m’a apporté son aide totale et sans
qui les périodes de démobilisation d’après thèse auraient surement eu raison de ce mémoire.
C’est grace à toi que j’ai trouvé la motivation pour aller au bout de ce travail.
i
Remerciements
ii
La vraie musique suggère des idées analogues dans des cerveaux différents.
Charles Baudelaire
iii
iv
Résumé
L’objectif de ces travaux de recherche est de proposer une méthode fiable et robuste
cette méthode sont nombreuses puisque nous désirons une méthode avec un fort pouvoir
discriminant qui soit capable d’identifier un document audio parallèlement à sa lecture, qui
requière de faibles capacités de stockage et soit robuste vis à vis de certaines altérations du
signal.
Nous avons donc conçu une méthode d’identification de signaux audio basée sur l’extrac-
tion d’une empreinte. Cette empreinte permet de reconnaı̂tre un signal parmi un ensemble
de signaux caractérisés par leurs empreintes. Pour cela, l’empreinte est calculée à partir de
certaines propriétés du signal. L’originalité de notre méthode vient du fait que la plupart
des méthodes existantes se basent sur une analyse des fréquences. Or notre méthode se base
(onsets) à l’intérieur de celui-ci. Les mesures de similarité que nous proposons utilisent les
spécificités de nos empreintes pour identifier de façon précise des documents tout en conser-
Ce mémoire décrira les deux étapes conduisant à l’identification d’un extrait audio in-
connu, à savoir une première phase de calcul d’empreinte et une seconde de comparaison
de ces étapes sera démontrée à travers différents essais et comparée avec la référence en
matière d’empreintes audio. Nous conclurons sur l’intérêt de nos travaux et les perspectives
v
Résumé
vi
Abstract
This thesis aims at defining a reliable and robust identification method for audio docu-
ments and more particularly for musical ones. Our method has to satisfy many constraints :
It must be able to discriminate between close signals and to identify an audio document
during its reading by a player. It must also require low computational and storage costs and
We have based our identification method of audio signals on the computation of a small
hash of the signal called its fingerprint. This fingerprint captures essential properties of the
signal. It characterizes it and allows to identify a signal among a set. The originality of
our method comes from the fact that most of existing methods are based on an analysis of
the signal’s frequencies while our fingerprint is solely based on a temporal analysis of the
signal and on the detection of particular positions (called onsets) along it. The similarity
measures that we propose between fingerprints use the specific properties of our fingerprints
This thesis describes the two steps leading to the identification of an audio file : The
computation of the fingerprint and the comparison of an unknown fingerprint with a database
of fingerprints corresponding to known audio files. The efficiency of each of these steps is
evaluated by experiments and compared with the most known methods in this field. We
conclude this thesis by the insight of our work and the perspectives that it opens.
vii
Abstract
viii
Table des matières
Chapitre 1 Introduction
1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Description d’un document audio . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 La reconnaissance d’empreinte audio . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Les applications potentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 La DRM analogique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6 Les paramètres de reconnaissance . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7 Nos contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.8 Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
ix
Table des matières
x
8.3 Publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Bibliographie 101
xi
Table des matières
xii
Table des figures
3.7 Figure du haut : courbe de dissimilarité. Figure du bas : localisation des zones
de correspondances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1 Relations de dépendances entre les différentes notions utilisées par Haitsma
et Kalker. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Distance de Hamming entre l’empreinte d’un contenu et celle de son compressé 45
xiii
Table des figures
5.2 Comparaison des fonctions de score basées sur les équations 5.9 et 5.10 . . . . 65
5 et 6.25 ms) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.5 Score final obtenu à partir de 5 secondes d’extrait comparé avec la base de
données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
xiv
1
Introduction
méthode proposée est basée sur des empreintes de documents audio. Cette méthode cal-
cule une signature qui résume le signal audio et permet de le reconnaı̂tre parmi une base
notre méthode d’identification d’empreintes. Ce scénario pourrait être mis en œuvre pour
contrôler l’utilisation des documents audio et faire respecter les droit d’auteurs. Ce tra-
vail de recherche s’est déroulé dans le cadre d’une bourse CIFRE co-encadrée par Jean
Claude Paillès et Luc Brun appartenant respectivement aux laboratoires Orange Labs Caen
cette thèse. Nous introduirons ensuite la notion d’empreinte audio. Les applications poten-
Nous décrirons aussi les critères permettant de mesurer l’efficacité de nos travaux ainsi que
1
Chapitre 1. Introduction
Sommaire
1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1 Contexte
un enjeu social, culturel et économique majeur. Le fait que la musique suscite un intérêt
accessibles aux utilisateurs. Cette omniprésence a été grandement favorisée par les avancées
de diversité des types de lecteurs présents sur le marché. Cette prolifération de musique
numérique provoque dès lors de nouveaux enjeux et nécessite de nouvelles techniques d’or-
recherche de musique sont généralement basées sur les metadonnées associées à un docu-
ment (artiste, style, ....). Cependant, les metadonnées sont des informations qui peuvent être
mp3. Ces informations ne sont donc pas fiables et ne peuvent pas être utilisées pour décrire
efficacement un document. On peut alors décrire un document audio à partir de son contenu,
c’est à dire du signal, afin de le caractériser de manière efficace et pertinente. C’est pourquoi
2
1.2. Description d’un document audio
existe une ambiguı̈té entre les métadonnées éditoriales, dépendantes du contexte de création
du document (ex : artiste, album, maison de disque), les métadonnées culturelles liées à la
perception des auditeurs (ex : (( genre ))fourni aux moteurs de recherche), et les métadonnées
psychoacoustiques extraites à partir du signal (ex : tempo, rythme, énergie[47]). C’est pour-
quoi la description d’un document audio concerne un large panel de caractéristiques allant
descripteurs :
1. Les descripteurs de haut niveau font appel à la sémantique et ont, par conséquent,
modélisation de l’analyse du signal par un utilisateur. Les recherches sur ce sujet font
en déduire des groupes ou des généralisations (ex : styles de musique). Ces descrip-
l’apprentissage.
3. Enfin, les descripteurs de bas niveau caractérisent des propriétés calculées directement
à partir du signal mais n’ayant pas forcément d’interprétation évidente pour l’utili-
sateur (ex : énergie, spectre). Cela permet d’extraire une information pertinente et
propre à un contenu.
La reconnaissance d’empreinte est une méthode qui attribue à chaque document audio,
une courte signature (l’empreinte) le résumant. Cette technique extrait des caractéristiques
acoustiques d’un contenu audio pour les stocker dans une base de données. Ces caractéristiques
sont généralement des descripteurs de bas niveau. Quand un extrait audio inconnu est
3
Chapitre 1. Introduction
présenté à l’algorithme, celui-ci calcule ses caractéristiques acoustiques et les compare avec
celles de la base de données (Figure 1.1). Par l’utilisation d’une méthode de comparaison
appropriée, l’empreinte d’un document dégradé (ex : par compression) peut tout de même
être identifié comme étant une version dite (( co-dérivée )) [31] du document original dont la
signature est stockée dans la base de donnée. Deux empreintes sont dites co-dérivées si elles
ont été calculées à partir d’un même contenu ayant pu subir quelques altérations(bruit, com-
pression, coupures, ...). Notons que deux chansons d’un même auteur ne sont pas co-dérivées.
De même, une reprise d’une chanson n’est généralement pas un co-dérivé de l’original. La
extraites à n’importe quel moment. On calcule alors, pour cet extrait, une suite de valeurs
appelées (( sous-empreintes )). Si une suite de sous-empreintes stockée dans la base est suffi-
si la signature de celui-ci est stockée dans la base de données, et ce, même après altération
audio doit être vérifiée avant d’utiliser le document. Par exemple, les distributeurs de
4
1.5. La DRM analogique
Management des réseaux de distribution : Les distributeurs tels que radios ou télévision
doivent s’acquitter des droits d’auteur sur la plupart des documents. La technique
contenu musical diffusé à la radio où à la télévision afin de calculer ou vérifier l’acquit-
Surveillance des réseaux internet non protégés : Les réseaux d’échanges entre utili-
du disque a donc commencé à mettre en place des techniques de filtrage basées sur le
nom du document. Mais ce genre de mesure s’est vite trouvé limité. La recherche d’em-
preintes audio peut alors analyser les documents transitant sur ce type de réseaux non
protégés afin d’identifier les documents normalement soumis à des droits d’auteurs.
Gestion de droits d’auteurs : A la fin d’un échange sur réseau non protégé, l’utilisateur
travail est d’intervenir au sein de chaque appareil afin d’interdire la lecture de contenus
En effet, de nos jours, le téléchargement de fichiers est devenu un acte courant. Cepen-
dant, la majeure partie des téléchargements de fichiers multimédia concerne des documents
normalement soumis aux droits d’auteurs. Il est donc normal que les ayant droits de ces
Aussi, progressivement, des dispositions ont été créées afin de protéger l’ensemble de ces
protéger les droits d’auteurs en chiffrant les contenus et en n’autorisant qu’un accès et une
1 Digital Rights Management
5
Chapitre 1. Introduction
utilisation spécifique du document en fonction des droits associés, en limitant, par exemple,
Cependant, les techniques de DRM actuelles doivent faire face à des pirates ingénieux
trouvant sans cesse des moyens de contournement des protections. Ces techniques de contour-
nement peuvent être assez élaborées, par décryptage numérique des protections du contenu,
l’(( analog hole )). Ces contournements permettent donc de s’affranchir des protections DRM
associées à un contenu. Par conséquent, les DRM n’empêchent en rien l’apparition d’œuvres
Enfin même si les techniques de DRM étaient parfaitement efficaces, elles ne pourraient
pas protéger les œuvres produites avant la mise en place de ces techniques et donc déjà
échangées et copiées.
de la musique, parmi lesquels figurent les cinq grands groupes de l’industrie du disque (Uni-
versal Music, BMG, Sony Music, Warner Music et EMI) se sont regroupés pour créer un
consortium appelé la Secure Digital Music Initiative (SDMI [12], initiative de sécurisation
des musiques au format numérique). Le but de cette association était de définir des standards
distribution de contenus protégés sur Internet dans le respect des droits d’auteurs associés.
systèmes ayant été exposés. Ce système DRM a été mis en œuvre pour la première fois dans
La SDMI a aussi proposé une solution de protection à base de watermarking. Cette tech-
nique impose l’ajout d’une marque digitale (watermark) au contenu audio, sans altération si-
pose plusieurs problèmes. Le premier concerne le respect de la vie privée et des informations
personnelles car cette technique permet d’associer un utilisateur aux musiques qu’il achète
(tout comme la DRM). De plus, la marque ajoutée au contenu peut être, par des techniques
6
1.6. Les paramètres de reconnaissance
et permet sa lecture malgré les droits d’auteur. Cette solution censée prévenir le piratage
a été mise à l’épreuve en 2001 par un concours de piratage à l’initiative de SDMI et a été
Actuellement, pour lutter contre le piratage, la méthode qui prime est la dissuasion. Cette
méthode n’est pas technique. Elle consiste à condamner les personnes qui téléchargent des
contenus normalement soumis à des droits par de lourdes amendes, voir des peines de prison
avec sursis ou une coupure de la connexion ADSL. Même si les sites de vente de musique
en ligne permettent d’avoir accès à des contenus audio à moindre prix par rapport aux CD,
le piratage par échange sur réseaux Peer To Peer reste important. Il est donc nécessaire
Nous proposons, dans cette thèse, une solution alternative ou complémentaire aux DRM
afin de contrôler l’utilisation de documents audio et faire respecter les droits d’auteur :
l’ADRM (Analogic Digital Rights Management). Comme son nom l’indique, il ne s’agit plus
de gérer les droits de manière numérique mais analogique, par identification d’un docu-
ment audio à partir de ses caractéristiques perceptuelles. Cette donnée ne peut donc pas
être piratée ou modifiée sous peine de devoir détériorer le signal au point qu’il devienne
inécoutable.
Notre technique d’identification par empreinte serait donc la pierre angulaire d’un scénario
de contrôle de la lecture de contenus audio introduit sous forme de plug-in au sein de chaque
machine. Ce plug-in reprend le principe de l’empreinte digitale à l’entrée d’un hall pour
de la possession de l’original.
Les contraintes imposées à une méthode d’identification basée sur les empreintes dépendent
décrit un ensemble de propriétés qui font référence pour l’évaluation et la comparaison d’al-
7
Chapitre 1. Introduction
du fait qu’il ait été fortement compressé ou qu’il ait subi d’autres altérations (décalage
dans la base de données est équivalente à un refus de service. Cette propriété désigne
aussi la faculté d’identifier une chanson à partir d’un court extrait de quelques secondes
pris n’importe quand dans le signal original (granularity ou cropping). Ceci implique
variante aux transformations préservant le contenu. Cependant, elle ne doit pas per-
mettre de l’identifier s’il a été soumis à de fortes distorsions. C’est donc l’inverse de la
robustesse.
Complexité. C’est le coût de calcul requis pour l’extraction de l’empreinte, l’espace mémoire
requis pour stocker une empreinte ainsi que la complexité de recherche de l’empreinte
avec la robustesse, ce sont les manipulations du contenu nécessaires pour berner l’al-
Cependant, améliorer les performances vis à vis d’une contrainte peut parfois entraı̂ner
la chute de performance d’une autre. Par exemple, l’empreinte doit contenir suffisamment
d’information pour être discriminante mais doit, à l’opposé, avoir un faible coût de stockage.
toujours au détriment des autres. Pour notre application par exemple, il sera important
d’être robuste à la compression tout en étant capable de reconnaı̂tre une œuvre musicale à
8
1.7. Nos contributions
score d’identification. En effet après avoir analysé les méthodes existantes en matière de
caractérisation et d’identification audio, nous nous somme orienté vers une nouvelle ap-
proche pour la définition d’empreintes audio. Nous avons donc développé une méthode en
adéquation avec les contraintes de stockage, de robustesse et d’efficacité imposées par notre
application. Nous avons également étudié les méthodes de comparaison de chaı̂nes pour
nous orienter vers une technique qui soit adaptée à la variation de l’empreinte vis à vis des
altérations de contenu. Nous avons enfin proposé un scénario d’utilisation de cette tech-
Chapitre 2 - Propriétés d’un signal audio. Cette thèse introduit tout d’abord ce qu’est
un signal audio analogique ou numérique ainsi que les algorithmes les plus courants
de compression audio. Dans ce même chapitre, j’exposerai un état de l’art des princi-
Suivant l’application, nous remarquerons qu’un contenu audio peut très bien être ca-
perceptuelle.
Ainsi, les principales méthodes d’extraction d’empreinte seront tout d’abord exposées.
Nous décrirons ensuite les techniques d’identification de documents audio basées sur
la reconnaissance d’empreintes.
9
Chapitre 1. Introduction
Chapitre 4 - Empreinte audio. Dans ce chapitre, j’expliquerai tout d’abord les pistes
que nous avons étudié afin d’extraire une empreinte à partir d’un fichier audio. Puis
potentiellement proche sera présenté en premier lieu. Puis nous expliciterons les critères
utilisés pour savoir si cette empreinte correspond à un contenu audio connu du système.
étapes distinctes. Tout d’abors nous exposerons les expérimentations réalisées afin
Ces résultats seront comparés avec les méthodes existantes dans ces domaines.
avec l’objectif initial ainsi que des perspectives ouvertes par celui-ci.
10
2
Le Signal Audio
Comprendre les particularités de l’audition humaine, c’est mieux comprendre les réflexions
qui ont mené aux différentes techniques de traitement du signal audio comme par exemple
11
Chapitre 2. Le Signal Audio
Sommaire
2.1 Structuration d’un signal audio . . . . . . . . . . . . . . . . . . . 12
2.1.2 La numérisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Le son que nous entendons est le fruit de vibrations se propageant dans l’air et inter-
ceptées par notre capteur naturel, l’oreille, à la manière d’une parabole. Cependant, notre
appareil auditif ne perçoit les sons que s’ils sont compris dans une gamme de fréquences
allant de 20Hz à 20KHz environ. Plus précisément, la bande fréquentielle que capte le
mieux l’oreille humaine varie entre 2KHz et 6KHz puisque l’impression de l’intensité so-
nore diffère suivant la fréquence du signal sonore perçu. En effet, les niveaux de sensibilité
(seuil d’audition minimal) et de douleur (seuil maximal) ne sont pas constant et varient en
De plus, dans la partie centrale du champ d’audition où elle est la plus sensible, l’appareil
auditif humain arrive à déceler une infime variation de l’intensité du niveau sonore entre deux
sons séparés de seulement 3Hz. Cependant, la perception d’un signal audio de faible intensité
sera modifiée par la présence d’un autre signal audio très intense. Ce son de volume plus élevé
pourra même empêcher totalement la perception de sons de faible puissance sonore, c’est ce
que l’on appelle le phénomène de masquage (Figure 2.2). Ce phénomène se manifeste dans
12
2.1. Structuration d’un signal audio
une plage de fréquence autour du signal sonore intense (masquage fréquentiel) et pendant
plus courant est celui d’un avion passant au dessus d’un nid d’oiseaux. Cet évènement de
volume sonore très élevé empêche alors totalement la perception du chant d’oiseaux et se
prolonge quelques instants après le passage de l’avion le temps que notre oreille se réadapte
2.1.2 La numérisation
L’objectif de la numérisation d’un signal audio est de convertir ce signal en une séquence
de nombres binaires, pouvant être traités par informatique. Cela s’effectue en mesurant
l’amplitude de l’onde produite par le son à des intervalles de temps réguliers. On peut alors
Échantillonnage
signal à chaque échantillon. Ainsi, une séquence d’échantillons successifs donne une
représentation de la forme de l’onde de la même manière que les images d’un film
13
Chapitre 2. Le Signal Audio
fisant d’échantillons à chaque seconde. Comme on peut le voir dans la Figure 2.4,
la forme d’onde ainsi reconstruite sera différente de la forme d’onde d’origine. Afin
d’échantillonnage (nombre d’échantillons par seconde) doit être au moins égale à deux
fois la fréquence maximum composant le signal à numériser. Il faut donc définir une
14
2.1. Structuration d’un signal audio
bonne période d’échantillonnage qui permette de restituer toutes les fréquences du si-
gnal. Or, la fréquence maximale que puisse entendre une oreille humaine est de 20KHz.
La fréquence d’échantillonnage des CD audio doit alors être supérieure à 40KHz et est
Quantification
tude de chacun des échantillons du signal et à placer ces amplitudes sur une échelle
de valeurs à intervalles fixes (Figure 2.5). Cette échelle est définie suivant l’amplitude
maximale et minimale possible et divise cet écart d’amplitudes en une série de paliers
quantification sera alors égal à 2n , avec n le nombre de bits utilisés pour représenter
chaque échantillon. En ce qui concerne les CD audio, cette valeur est égale à 16 bits,
Par conséquent, le stockage d’une minute de signal audio stéréo, codé sur 2 octets par
Cependant, on ne peut interpréter ces signaux de façon simple. Le problème est donc de
trouver une manière de décrire leur comportement. Plus particulièrement, le son est com-
15
Chapitre 2. Le Signal Audio
ainsi que les fréquences dites harmoniques qui composent le signal sonore (Figure 2.6).
continue est la transformée de Fourier. Cette technique permet en effet de décrire la puissance
16
2.2. Caractérisation d’un signal audio
Un signal audio peut donc être caractérisé par ses propriétés temporelles et fréquentielles.
résoudre le problème posé par l’application ? )). Comme introduit en section 1.2, un signal
audio peut être caractérisé à partir de propriétés appartenant à différents domaines d’abs-
traction, acoustiques ou culturels par exemple. Une propriété acoustique signifie que cette
information est obtenue à partir de l’analyse du fichier audio sans référence à une informa-
tion textuelle [48]. Par conséquent, il s’agit d’une information obtenue à partir du signal.
Or, parmi les propriétés acoustiques du signal, il existe trois facteurs d’échelle permettant
décrivent un document audio dans sa totalité. Ce qui signifie que chacune de ses
propriétés ne peut être extraite qu’à partir de l’étude de toute la durée du signal audio.
Le genre, le rythme, ou encore l’humeur sont, par exemple, des descripteurs globaux.
On remarque que ces descripteurs ont une réelle signification pour un utilisateur et ne
nécessitent aucune connaissance spécifique. De plus, ces propriétés sont définies par
des termes linguistiques et non par des valeurs. En effet le genre peut avoir comme
genre de descripteur est très utilisé dans les catalogues des distributeurs ou moteurs
de recherche.
segmenter un signal audio par détection de texture ou ruptures ce qui permet de séparer
le signal en parties bien distinctes. Chaque partie ainsi extraite est classée dans une
17
Chapitre 2. Le Signal Audio
exemple utilisé pour segmenter les émissions radio en trois parties (voix-jingle-musique)
refrain).
Descripteurs Locaux : Les descripteurs locaux sont calculés à partir de quelques dixièmes
voir millisecondes du signal et ne sont en général compréhensibles que pour des experts.
taille.
notre connaissance, aucune application commerciale n’utilise encore ces descripteurs. Mais
nul doute que l’efficacité de ceux-ci s’améliorera dans les prochaines années grâce à l’attention
Les descripteurs globaux sont décrits par une valeur ou un terme unique à propos de la
totalité d’un titre musical. De plus, ils ne dépendent pas d’autres paramètres comme par
exemple, l’instant auquel l’information est calculée. Inversement, les descripteurs de niveau
intermédiaires sont calculés de façon régulière sur quelques secondes du signal. Ce genre de
descripteurs évoluant au cours du signal sont très utilisés pour gérer de larges collections de
titres. Le contour de l’enveloppe, ou l’extraction du pitch, peuvent par exemple être utilisés
18
2.3. Méthodes de compression
afin d’en extraire une structure et de trouver les répétitions de refrains ( [49]) dans le but
d’une manière syntaxique mais les résultats dépendent réellement de la méthode utilisée
Le timbre est probablement la propriété de bas niveau la plus difficile à définir et à ca-
ractériser [30]. La définition du timbre est vague. Il s’agit en fait de toute caractéristique
acoustique de bas niveau qui ne soit ni le pitch ni l’intensité. La perception du timbre est
domaine fréquentiel. Pour cette raison, la transformée de Fourier est un des outils les plus
utilisés dans l’analyse du timbre et de l’évolution temporelle d’un signal audio en général. Ce-
pendant, le spectre ou tout autre décomposition temps-fréquence ne peuvent pas être utilisés
en tant que descripteurs à cause de leur dimensionnalité élevée. C’est pourquoi l’extraction
du timbre est basée sur l’extraction de caractéristiques bas-niveau correspondant à des pro-
priétés perceptuelles. Les études psychoacoustiques ont mis en évidence certains paramètres
comme le taux de passages par zéro2 [26], le spectral centroı̈d[23], spectral loudness[33],
roughness[44] qui sont considérés comme des descripteurs de timbre. Les descripteurs à base
de MFCC3 [43, 9, 35] ont été très largement utilisés dans le domaine de la recherche d’infor-
mation musicale4 . Ces descripteurs ont d’abord été utilisés dans la reconnaissance de genre
et de voix et sont considérés comme des outils de base dans ces domaines.
Dans la section 1.6, nous avons introduit les notions de robustesse et d’invariance d’une
19
Chapitre 2. Le Signal Audio
du fait qu’il ait été altéré ou dégradé. Or, ceci est l’un de nos objectifs principaux. En effet,
notre application nous impose d’être capable de reconnaı̂tre un contenu musical dont on a
acquis les droits d’auteurs afin de pouvoir l’écouter, et ce, malgré l’influence de certaines
faire une copie de sauvegarde à faible espace de stockage. Il doit donc pouvoir, s’il le souhaite,
écouter la version compressée d’un contenu original. Notre méthode doit donc être robuste
On rappelle donc que les contraintes de restitution d’un signal analogique de bonne
qualité pour l’oreille humaine (Section 2.1.1) ont permis de définir le format standard de
D’après ces informations, une minute de musique sera alors stockée sur plus de 10 Mo.
Même avec les possibilités croissantes des médias de stockage, la compression reste inévitable
que ce soit pour stocker un nombre plus important de contenus sur un média de style CD
Parmi les techniques de compression de fichier audio, nous nous intéresserons ici aux
techniques dites destructrices. Une compression destructrice est une compression réalisée en
perdant de l’information. Cela signifie que si l’on décompresse le signal compressé à l’aide
d’une telle technique, on ne retrouvera pas le signal de départ. Parmi les techniques de
de l’oreille humaine (Section 2.1.1) qui ne distingue que les sons entre 20Hz et 20kHz avec
une sensibilité maximale entre 1kHz et 5kHz. Ainsi, la compression vise à analyser le signal
afin de déterminer les sons inaudibles en vue de les supprimer, d’où la notion de compression
MP3
5 Kilo Bits Par Seconde
20
2.3. Méthodes de compression
dibles en fonction de la courbe 2.1. C’est à dire que suivant le taux de compression, les
ex : F > 15kHz). Puis, le phénomène de masquage (Section 2.1.1) fait que certaines
plus intenses. De ce fait, ces fréquences inaudibles seront elles aussi supprimées. La
compression MP3 utilise aussi une technique appelée ”réservoir d’octets”. Certains pas-
sages d’une musique ne peuvent pas être compressés sans diminuer la qualité d’écoute.
Ainsi, un petit réservoir d’octets permet de ne pas compresser ces passages en utili-
sant les octets économisés lors de l’encodage de parties à un taux supérieur. De plus, la
compression MP3 utilise le fait qu’en dessous d’une fréquence donnée, l’oreille humaine
n’arrive pas à localiser la provenance du son. Ces fréquences seront alors enregistrées en
mum d’effets, c’est ce qu’on appelle le ”joint stereo”. La technique du Codage utilise le
fait que l’oreille humaine ne puisse pas distinguer la différence de fréquence entre deux
sons quasi identiques. Ainsi, si on a une suite de fréquences très proches, on ne codera
plus chaque fréquence, mais seulement la valeur de référence ainsi que le nombre de
d’un événement. Ainsi, une compression classique réduira la taille du fichier audio à
la hauteur de 1 : 12.
OGG
Ogg Vorbis est un format de compression avec perte. La différence principale avec le
MP3 réside dans le fait que ce dernier utilise des séquences de bits fixes pour coder
les passages audio. A l’inverse, Vorbis est un format à débit variable utilisant plus ou
moins de bits suivant les passages audio à compresser. Par exemple, un passage sans
important que des passages contenant de nombreuses fréquences aiguës. Ceci explique
par conséquent un meilleur taux de compression pour Vorbis mais une complexité et
21
Chapitre 2. Le Signal Audio
Il existe plusieurs normes de compression audio (MPEG1, MPEG2, ...). Ces normes
sont établies par des organismes de normalisation qui établissent des formats de com-
pression donnant parfois lieu aux dépôts de brevets. Parmi les autres formats audio
compressés, on trouve le mp3PRO, le WMA qui constituent les formats les plus connus
Pour résumer, un encodage MP3 à 64kbps réduit de 25 fois la taille du fichier audio mais
22
3
Identification de documents
audio
23
Chapitre 3. Identification de documents audio
Sommaire
3.1 Conception d’identifiants audio . . . . . . . . . . . . . . . . . . . 24
3.2.1 Distances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
dérivée des caractéristiques perceptuelles d’un extrait audio et qui permette de l’identifier.
Pour cela, les caractéristiques d’un ensemble de documents sont stockées dans une base
de données. Quand un extrait inconnu est présenté, ses caractéristiques sont calculées et
comparées avec celles présentes dans la base de données. Si la comparaison satisfait certaines
conditions dépendantes de la méthode utilisée, alors le document est identifié comme étant
l’analyse musicale d’un côté ainsi que l’indexation et la reconnaissance d’identifiants d’un
autre côté.
comparer la signature, l’architecture d’un tel système peut être divisée en deux modes
opératoires :
acoustiques d’un ensemble de contenus et calcule, pour chacun d’eux, une signature
document.
la compare avec celles de la base de données afin de retrouver une signature qui soit
24
3.1. Conception d’identifiants audio
au niveau des propriétés acoustiques utilisées pour caractériser le signal audio ainsi qu’au
de valeurs caractéristiques de l’extrait audio. Or, la plupart des méthodes se basent sur la
représentation fréquentielle du signal pour calculer ces valeurs, et plus particulièrement sur
la transformée de Fourier. Cependant, calculer une telle transformée sur le signal complet
n’apporte pas d’information temporelle sur les instants où interviennent les fréquences. Il est
donc nécessaire de diviser le signal audio en un ensemble d’intervalles temporels afin d’avoir
une représentation fréquentielle sur chacun de ces intervalles. Notons qu’appliquer la trans-
formée de Fourier discrète sur chaque intervalle revient à supposer que le signal est station-
naire sur celui-ci (ce qui n’est évidemment pas le cas). Pour chaque intervalle, les fréquences
composant le signal seront analysées afin d’en déduire une valeur de sous-empreinte. L’em-
preinte finale sera alors composée de la concaténation par ordre chronologique des valeurs
(( fenêtrage )). La plupart des méthodes de calcul d’empreinte audio se basent sur la sélection
d’intervalles par fenêtrage. L’idée est de diviser le signal en une succession de segments tem-
troncature revient à multiplier le signal x(t) par une fenêtre rectangulaire f(t) de durée T.
lution dans l’espace fréquentiel entre le spectre du signal et le spectre en sinus cardinal de la
fenêtre rectangulaire. Il en résulte alors une déformation du spectre causée par les ondula-
tions du sinus cardinal. Il est donc nécessaire de réaliser une troncature moins abrupte, afin
d’éviter ces effets indésirables appelés (( étalement spectral )). L’utilisation d’une fenêtre telle
que la fenêtre de Hamming rend les transitions aux bords de l’intervalle sélectionné plus
25
Chapitre 3. Identification de documents audio
En effet, il y a une perte d’information sur les fréquences aux transitions de deux fenêtres.
De plus, cela rend sensible le système aux altérations temporelles du contenu telles que
la suppression d’un peu du signal en début de piste. En effet, les intervalles seront alors
complètement décalés. Pour minimiser ces problèmes, les intervalles ne se succèdent plus
mais se chevauchent en partie, c’est ce que l’on appelle le recouvrement ou (( overlap )). La
figure suivante résume le principe de la division du signal audio en fenêtres (Figure 3.1).
système aux décalages temporels sans la supprimer totalement. Prenons par exemple un
mation des fréquences par transformée de Fourier sur une fenêtre de 40ms, on se base donc
sur 44x40 = 1760 échantillons du signal pour effectuer cette approximation. Dans ce cas,
un recouvrement d’un demi revient à sélectionner la nouvelle fenêtre avec 20ms de décalage,
du signal. Le calcul de la transformée de Fourier se basera alors toujours sur des fenêtres de
40ms mais dont seulement trois quart des échantillons seront identiques au calcul précédent.
Ce qui veut dire que 1320 échantillons seront identiques mais 440 seront différents. Ce type
de décalage induira des identifiant différents pour la majorité des méthodes d’identification
Une solution alternative, à priori moins sensible aux décalages, consiste à utiliser un en-
est par exemple utilisé lors de la détection du rythme des signaux audio. Cela se traduit
concrètement par la recherche du début (aussi appelé onset) ainsi que la durée de chaque
26
3.1. Conception d’identifiants audio
partie composant le signal donnant alors une représentation du tempo. La plupart de ces
méthodes sont basées sur la détection de changements significatifs dans une ou plusieurs pro-
priétés calculées le long du signal audio. Ils reposent donc sur un vecteur de caractéristiques
du signal. Par exemple, si le signal audio est analysé dans le plan temps-fréquence, une
changement brusque caractérisé par un onset. Si l’on considère la phase du signal comme
de la phase indiquera elle aussi un onset. L’utilisation de l’énergie du signal a montré son
efficacité dans le cadre de la détection d’onsets pour les signaux avec des changements de
notes à forte consonance percussive comme la batterie, puisque l’énergie présente alors un
fort gradient [24]. L’information de phase quant à elle permet de détecter les onsets dans
des signaux aux sources mixtes et aux transitions moins franches ([21, 25, 39, 51, 57]).
Ansi Klapuri [38] fut un des tout premiers à utiliser l’amplitude de l’enveloppe du signal
temporel afin d’y détecter des changements relatifs d’intensité. Hainsworth [28], plus tard,
a introduit une technique similaire mais basée non plus sur l’enveloppe du signal temporel
mais sur des mesures de distances entre l’énergie des bandes de fréquences résultantes de
la Transformée de Fourier. Puis Juan Pablo Bello [4] incorpora à cette méthode la prise en
Alonso [2, 3] propose une méthode basée sur la détection de changements brusques du
timbre et des harmoniques composant le signal. Pour cela, une transformée temps-fréquence
est appliquée au signal. Le plan fréquentiel est ensuite envoyé vers un filtre à réponse
impulsionnelle finie afin de diviser le plan fréquentiel en bandes. Les énergies des bandes
fréquentielles sont alors calculées afin d’obtenir un vecteur de pulsations périodiques corres-
pondant à la hauteur de l’énergie spectrale par bande. La détection des onsets est ensuite
L’algorithme développé par Dixon [17, 18] propose d’estimer le tempo et la durée du
rythme musical. Pour cela, la première étape de l’algorithme recherche le début de change-
ments brusques en trouvant des maxima locaux lors de l’analyse de l’amplitude de l’enveloppe
27
Chapitre 3. Identification de documents audio
entre deux évènements successifs et classifie ces intervalles en groupes de durées proches.
leur relations. Il obtient ainsi une liste ordonnée d’hypothèses de tempo du signal audio. Il
utilise finalement un système multi-agents afin de tester les différentes hypothèses de tempo
et trouver l’agent qui prédit au mieux le rythme par rapport au signal fourni.
Tzanetakis [56, 55] propose une méthode basée sur les ondelettes. Dans un premier
de la moitié de la fenêtre. Chaque fenêtre est alors décomposée, par transformée en onde-
lettes, en 5 bandes de fréquences. L’énergie moyenne de chaque bande est calculée afin de
chaque fenêtre afin de fournir une estimation du tempo. Le tempo final est défini par le
La détection de rupture peut également être effectuée en analysant le signal sur deux
intervalles situées respectivement avant et après un point que l’on suspecte d’être un point
de rupture. Si le signal sur chacun des intervalles est décrit par un ensemble de vecteurs, la
vecteurs décrivant le signal avant et après le point de rupture suspecté. Dans ce cadre, F.
Desobry et al. [15] ont proposé une technique extrêmement novatrice basée sur l’utilisation
de noyaux permettant de projeter l’ensemble des vecteurs sur la sphère unitaire d’un espace
de grande dimension. F. Desobry, utilise également un SVM une classe pour estimer pour
points ou la densité est supérieure à un seuil). Tout l’intérêt de cette méthode est que
28
3.1. Conception d’identifiants audio
densité de probabilité. On évite donc une tache souvent délicate et parfois un peu arbitraire.
La distance entre deux ensembles de vecteurs est finalement estimée à partir de la distance
entre leurs support de densité de probabilité sur la sphère. Notons que cette technique
permet de détecter des changement entre ensembles de vecteurs et est donc applicable à
Une fois le signal audio séparé en intervalles de temps consécutifs ou sélectionnés à des
tiques sur chaque intervalle afin d’en déduire une sous-empreinte. La plupart des méthodes
dans ce domaine se basent sur des transformées temps-fréquence standard, telle la trans-
formée de Fourier discrète (TFD) [20, 36] qui reste la plus utilisée. Pour autant, d’autres
transformées ont été testées telles la transformée en cosinus discret (DCT), la transformée
transformée en ondelettes (DWT) [13, 41]. A partir de l’espace temps fréquence obtenu,
l’idée est d’extraire des caractéristiques afin d’en déduire des sous-valeurs d’empreinte.
Dans ce but, de nombreuses méthodes ont été proposées. Une des plus répandue repose
sur l’utilisation des MFCC6 [43] pour analyser le spectre avec des bandes de fréquences
correspondant à l’appareil auditif humain. Les mesures de Spectral Flatness ont été mises
en oeuvre par Allamanche [1] car elles permettent d’estimer la qualité de la tonalité dans des
bandes de fréquence du spectre. Il en résulte une détection des transitions du signal audio.
Le signal est finalement caractérisé par une séquence de valeurs correspondant à la durée de
chaque tonalité.
D’autres, comme Li et Hou [41] ont mis en place un dispositif basé sur un algorithme de
extrait audio inconnu est caractérisé par les coefficients de sa transformée en ondelettes à
chaque résolution.
29
Chapitre 3. Identification de documents audio
Avery Wang [58] utilise la méthode des fenêtres recouvrantes pour calculer et analyser le
spectre de chaque intervalle temporel afin de trouver et marquer des maximum locaux dans
le spectre. Ces marques sont déterminées, comme les onsets, en recherchant des changements
brusques et définis par leur coordonnées temporelles et fréquentielles. Le spectre est alors
divisé temporellement et fréquentiellement pour créer des zones composées d’un nombre fixe
de marques. Ces zones, caractérisées par les positions et fréquences des marques qu’elles
contiennent, seront alors comparées à celles pré-calculées pour trouver des zones identiques.
Dans une autre approche, Frank Kruth [40] décrit une technique de génération de très
courtes signatures de signaux audio. Tout d’abord l’extrait est envoyé dans un filtre passe-
bande linéaire dans le but de simuler grossièrement les effets d’une éventuelle distorsion.
Ensuite, le signal temporel est décomposé en intervalles par utilisation de fenêtres recou-
vrantes. Pour chaque intervalle, l’énergie totale du signal est calculée afin de quantifier
d’en déduire un bit par fenêtre traduisant le signe de la différence d’énergie à l’instant t
avec l’énergie à l’instant t+1 : S(k) = sign(x(k + 1) − x(k)) (Figure 3.4). Pour résumer,
gnal appelé Analyse Discriminante de Distorsions7 . Ils proposent de se baser sur une trans-
30
3.1. Conception d’identifiants audio
d’abord, le signal audio est sous échantillonné à 11,025 KHz, converti en mono, et séparé
1
en intervalles de 23,2ms avec recouvrement de 2 sur lesquels ils appliquent une Transformée
Complexe Modulée (MCLT). Il en résulte alors pour chaque intervalle un vecteur de 128 va-
leurs décrivant le spectre avec une échelle logarithmique. Ils utilisent ensuite l’OPCA pour
jections du signal d’entré qui maximise le rapport signal sur bruit. Il est donc nécessaire
afin de créer un réseau de neurones qui extrait pour chaque intervalle un ensemble de ca-
ractéristiques robustes aux bruits appris. Après ces couches successives de traitement, on
obtient un vecteur de 64 valeurs décrivant 20 secondes de signal. Ce vecteur est généré toutes
les 243,6ms.
L’algorithme de Brück [6] applique une transformée de Fourier sur des fenêtres d’une
durée de 40ms avec un recouvrement de 1/2. La représentation spectrale est envoyée vers un
banc de 8 filtres passe-bandes entre 300 et 2000Hz. L’énergie de chaque bande est stockée
Parmi les article dont s’est inspiré Brück figure celui de Haitsma et Kalker[36]. Dans cet
31
Chapitre 3. Identification de documents audio
article, les auteurs utilisent des intervalles de 0,37 secondes avec un recouvrement de 31/32
pour découper le signal audio. La sortie de la transformée de Fourier appliquée sur chaque
intervalle est envoyée vers un banc de 33 filtres passe-bandes de fréquences de coupure fixées
entre 300 et 2000Hz (Figure 3.6). L’énergie de chaque bande fréquentielle est calculée en sor-
tie de chaque filtre. La valeur de sous-empreinte correspondant à chaque intervalle est définie
sur 32 bits. Cette séquence de bits, est définie à partir du signe des différences d’énergie cal-
culée entre deux bandes de fréquences consécutives d’un même intervalle ainsi qu’entre deux
entre deux bandes successives d’un même intervalle. La valeur du miene bit de l’intervalle n
1 Si ∆EB(n, m) − ∆EB(n − 1, m) ≥ 0
F (n, m) = (3.1)
0 Si ∆EB(n, m) − ∆EB(n − 1, m) ≤ 0
32
3.2. Comparaison et Reconnaissance d’identifiants audio
Dans chacun des cas, l’empreinte finale résulte de la concaténation des valeurs successives
de chaque intervalle pour former une séquence de valeurs que l’on va donc comparer avec la
3.2.1 Distances
Comme nous l’avons vu, certaines méthodes caractérisent les documents à l’aide de vec-
teurs de caractéristiques. On va alors employer une distance qui permet de comparer deux
vecteurs entre eux. Pour ce faire, on peut penser à la distance Euclidienne [59, 8] ou dans le
cas binaire, à la distance de Hamming [37]. Mihçak et al [45] proposent une mesure d’erreur
appelée Exponential Pseudo Norm qui selon eux est plus appropriée car elle accentue l’écart
entre les valeurs faibles et élevées de la distance facilitant ainsi distinction entre deux iden-
tifiants. Certaines méthodes [1] utilisent également une représentation compacte du modèle
33
Chapitre 3. Identification de documents audio
Bruck [6] calcule une différence filtre à filtre. Un indice de dissimilarité local est calculé par
somme des valeurs absolues des différences. Ils obtiennent ainsi une courbe de dissimilarité
entre deux documents (Figure 3.7). L’extraction des minimums de dissimilarité localise alors
les positions de correspondances. Ils utilisent finalement un nettoyage itératif afin de faire
Fig. 3.7 – Figure du haut : courbe de dissimilarité. Figure du bas : localisation des zones
de correspondances
Dans le cadre de l’identification de Vidéos, Hoad [32, 31] a proposé des distances entre em-
34
3.2. Comparaison et Reconnaissance d’identifiants audio
preintes basées sur la notion de distance d’édition. Une telle distance suppose de considérer
chaque empreinte comme une chaı̂ne définie sur un alphabet Σ. Ces chaı̂nes peuvent être
Une suite de transformations d’une chaı̂ne définit ce que l’on appelle une séquence
d’éditions [11] :
Définition 1. Séquence d’édition Une séquence d’édition S est définie comme une
Pour deux chaı̂nes structurellement proches, il existe ainsi une séquence d’édition de
faible coût alors que pour deux chaı̂nes dont la structure est très différente une séquence
La distance d’édition de deux chaı̂nes est définie comme le chemin d’édition de coût
Soit c une fonction de coût qui attribue à chaque opération d’édition s une valeur réelle
positive c(s). Le coût d’une séquence d’édition est défini comme la somme des coûts de
p
X
c(S) = c(si ) (3.2)
i=1
La distance d’édition entre deux chaı̂nes X et Y est alors définie comme le coût minimum
(3.3)
35
Chapitre 3. Identification de documents audio
par Hoad, les empreintes sont définies à partir de la détection d’images correspondant à
des changements de plans dans les vidéos. Ce problème reste délicat et un algorithme de
détection peut facilement détecter des images additionnelles ou ne pas détecter certaines
dans la distance d’édition permet de prendre naturellement en compte cette faiblesse des
trait inconnu avec les signatures pré-calculées stockées dans la base de données. Le but est
d’organiser les données afin de réduire le nombre de calculs de distance et par la même
de temps, plusieurs dizaines de minutes voir bien plus suivant la taille de la base de données
et la machine employée.
Dans la méthode par ondelettes pyramidales [60], cette méthode génère les coefficients
comparent les coefficients d’ondelette de niveau 6 par une distance Euclidienne (Figure 3.8).
Ensuite, ils classent par ordre croissant les distances obtenus. Ils conservent alors tous les
candidats dont la distance avec le signal inconnu est inférieure à la distance minimale calculée
multipliée par un certain facteur. Cela revient à conserver les identifiants dont la distance
est proche de la distance minimale trouvée. Puis, ils raffinent la recherche en ajoutant des
détails. Ils comparent donc les coefficients au niveau 5 du signal inconnu avec les candidats
rescapés de la recherche au niveau 6. Puis ainsi de suite, la méthode devient de plus en plus
sélective lorsque l’on passe au niveau inférieur et le nombre de candidats s’amenuise pour
Haitsma et Kalker [36] calculent un identifiant comme étant une suite des valeurs de 32
bits associées à chaque fenêtre du signal. Pour retrouver le bon signal, ils font l’hypothèse
36
3.2. Comparaison et Reconnaissance d’identifiants audio
qu’au moins une fenêtre de l’identifiant pré-calculé correspondant ne contiendra aucun bit
erroné. Ils proposent alors d’utiliser un index des valeurs possibles de 32 bits. Chaque entrée
dans l’index est associée à un où plusieurs documents ainsi que les positions dans le signal
Partant d’un extrait inconnu, ces valeurs de sous-empreintes sont calculées et recherchées
dans la table d’index afin de trouver une liste de signaux-positions. Ensuite, pour chaque
est sous un certain seuil déterminé de manière empirique, alors le document associé est
Les heuristiques des principales méthodes exposées dans ce chapitre sont résumées Tab. 3.1.
37
Chapitre 3. Identification de documents audio
38
4
Construction Robuste
d’Identifiants Audio
Dans ce chapitre, nous allons détailler les étapes qui nous ont conduit, à l’élaboration
d’une nouvelle empreinte de documents audio. Cette empreinte a été développée et a évolué
39
Chapitre 4. Construction Robuste d’Identifiants Audio
Sommaire
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1 Introduction
de compression du document audio. Il faut donc que notre méthode soit robuste aux
2. L’identification doit pouvoir être effectuée à partir d’un échantillon quelconque d’un
document audio.
Cette dernière contrainte est sans doute celle qui a la plus forte incidence dans le
choix des outils à utiliser pour l’identification. En effet, beaucoup de documents au-
dio sont assez similaires dans les premières secondes (silence, applaudissements...), par
conséquent, l’identification ne doit pas se baser uniquement sur le début d’une oeuvre.
L’identification d’un morceau doit donc pouvoir être effectuée soit à partir d’une po-
dans la base des morceaux connus, ce qui impose une synchronisation du calcul d’iden-
tifiants. Notre méthode doit donc être robuste à de tels décalages, ce qui nous a conduit
40
4.2. Analyse des fréquences
à rejeter l’ensemble (majoritaire) des méthodes présentant une fragilité pour ce type
d’altérations.
3. L’identification d’un morceau doit être effectuée en quelque secondes (environ 5s) et
doit nécessiter des ressources machine (temps de calcul, espace mémoire, espace disque)
Cette contrainte nous amène à privilégier une identification d’un document audio en
parallèle à sa lecture. Nous avons donc rejeté toutes les méthodes utilisant l’ensemble
d’un fichier audio pour l’identification. En effet, ces méthodes posent des problèmes
Notons qu’un temps de calcul trop long rendrait inopérante la gestion des droits. En
cause la pertinence du système DRM qui ne peut alors interdire la lecture qu’à partir
Notre première méthode de calcul de sous-empreinte est basée sur le même principe que
celle de Haitsma et Kalker [37] exposée en Section 3.1.2 (équation 3.1). Comme ces auteurs,
nous avons utilisé la technique des fenêtres recouvrantes afin de séparer le signal en une
succession d’intervalles de taille fixe. Puis, nous avons calculé le spectre de chaque intervalle
que nous avons ensuite décomposé en une suite de bandes de fréquences avec un espace-
plus répandu dans les réseaux P2P) engendre un taux d’erreur bit à bit de 9% et un taux
de valeurs de 32-bits similaires de seulement 24%. Ces tests ont été fait en comparant bit
à bit ou valeur entière avec valeur entière l’empreinte d’un signal audio et celle du même
aux deux signaux. L’empreinte du contenu compressé est en effet trop éloignée de celle de
41
Chapitre 4. Construction Robuste d’Identifiants Audio
l’original (24%). L’altération du signal par du bruit, une compression, ou une opération de
suppression réduit donc de manière drastique le nombre de valeurs identiques entre l’em-
preinte d’un document et celle du même document dégradé. Comme nous l’avons vu dans le
ming entre deux séquences de sous-empreintes. Cette stratégie impose toutefois de nombreux
Nous avons donc, dans un premier temps envisagé d’améliorer la robustesse de l’al-
(Figure 4.1) :
– La comparaison des énergies de deux bandes successives d’un spectre est sensible aux
erreurs qui peuvent se produire sur une seule bande. On observe alors le même in-
convénient qu’au point précédent entre deux valeurs basées sur l’énergie d’une même
bande.
EB(n,m)
EB(n,m+1)
F (n, m) F (n + 1, m)
Fig. 4.1 – Relations de dépendances entre les différentes notions utilisées par Haitsma et
Kalker.
Nous résolvons la première source d’erreurs en n’utilisant qu’un seul intervalle pour
chaque calcul de sous-empreinte. Ceci évite que l’extraction erronée des énergies de bandes
42
4.2. Analyse des fréquences
d’une sous empreinte ne perturbe la sous empreinte suivante. La seconde source d’erreur est
liée au fait que l’énergie d’une bande du spectre influe sur deux différences d’énergie entre
bandes. En effet, en utilisant les mêmes notations que dans dans la section 3.1.2, l’altération
de la mesure de l’énergie d’une seule bande (EB(n, m)) altère les valeurs de ∆EB(n, m − 1)
et ∆EB(n, m). Cette altération des bandes d’énergie peut être considérée comme la présence
d’un bruit aléatoire sur le signal EB(n, m)m∈{1,..,M } où M représente l’index de la dernière
bande d’énergie.
Si on suppose que le bruit est non corrélé entre les différents échantillons du signal
EB(n, m)m∈{1,..,M } , une méthode classique pour réduire l’influence du bruit consiste à rem-
placer chaque mesure EB(n, m) par une valeur moyenne de EB(n, m) fonction de m. Nous
définissons ainsi l’énergie moyenne S(n, m) d’une bande m, d’un intervalle n, comme la
m
1 X
∀m ∈ {1 . . . , M }, S(n, m) = EB(n, i)
m i=1
On remplace alors EB(n, m) par S(n, m) dans le calcul des différences d’énergies entre
bandes. Le mieme bit de la sous-empreinte associée à l’intervalle n (F (n, m)) est donc défini
par :
1
Si S(n, m) − S(n, m − 1) ≥ 0
F (n, m) =
0
Sinon
Notons que F (n, m) utilise uniquement les informations de l’intervalle n. Les erreurs ne
1
Pm 1
Pm−1
S(n, m) − S(n, m − 1) = m i=1 EB(n, i) − m−1 i=1 EB(n, i)
1 1
Pm−1
= m EB(n, m) − m(m−1) i=1 EB(n, i)
1
= m (EB(n, m) − S(n, m − 1))
Puisque nous utilisons simplement le signe de S(n, m) − S(n, m − 1), la formule précédente
43
Chapitre 4. Construction Robuste d’Identifiants Audio
1
Si EB(n, m) − S(n, m − 1) ≥ 0
F (n, m) =
0
Sinon
La sous-empreinte pour chaque intervalle n est alors définie par la concaténation des M
nos empreintes avec celles d’Haitsma et Kalker [37] (chapitre 6). L’empreinte du document
La figure suivante (Figure 4.2) montre, à gauche, l’empreinte d’un signal audio dit origi-
nal. L’axe horizontal correspond au nombre de bits pour chaque empreinte et l’axe verticale
représente le temps. De cette manière, nous pouvons visualiser les valeurs de sous empreintes
du signal avec F (n, m) = 0 représenté de couleur noir tandis que F (n, m) = 1 est représenté
en blanc. L’empreinte centrale correspond au même contenu ayant subi une compression au
taux usuel de 128Kbps. Ainsi, nous observons à droite la distance de Hamming entre ces
deux empreintes où les zones blanches correspondent à des bits différents entre les deux em-
preintes. On observe dans cet exemple une faible variabilité de l’empreinte lorsque le contenu
Nos expérimentations (Chapitre 6, Fig. 6.1) ont montré que la modification précédente de
vis à vis de la compression. Cependant, nous nous sommes également aperçu que l’extraction
d’empreinte était sensible aux décalages temporels. Ces décalages peuvent être induits par :
Cette sensibilité aux décalages temporels est dûe à l’utilisation de la méthode des fenêtres
En effet, La méthode de fenêtrage assure qu’un nombre fixe et suffisant d’intervalles est
sélectionné à partir d’un signal d’entrée. Cependant, la sélection d’une séquence d’intervalles
44
4.3. Segmentation temporelle
Fig. 4.2 – Distance de Hamming entre l’empreinte d’un contenu et celle de son compressé
contigus est sensible aux décalages temporels qui peuvent être appliqués au document (Sec-
tion 2). Cet inconvénient est atténué grâce au recouvrement entre fenêtres mais n’est pas
complètement résolu. D’un autre côté, les méthodes de segmentation, à base d’onsets par
exemple, sont moins sensibles à ces opérations mais ne garantissent pas que suffisamment
d’intervalles seront extraits dans un intervalle de temps imparti. En effet, pour détecter un
onset, il est nécessaire d’avoir une transition suffisamment nette entre deux parties disc-
tinctes du signal.
La figure 4.3 illustre l’emplacement des changements significatifs du signal audio détectés
par des techniques usuelles d’extraction d’onsets ou de tempo. On observe bien qu’il est
45
Chapitre 4. Construction Robuste d’Identifiants Audio
transitions, nous devons garantir une fréquence minimale de détection pour pouvoir garantir
une fréquence minimale de génération de sous empreinte. Ceci est indispensable pour garantir
une identification d’un signal audio en un temps imparti. Cependant, le nombre de transitions
détectées dans un temps donné dépend de l’allure du signal et est donc imprévisible. On ne
peut donc pas garantir a priori qu’un nombre minimal de transitions sera détecté dans un
L’idée de base de notre méthode est de combiner les avantages respectifs des méthodes
de fenêtrage et de détection :
Pour ce faire, la méthode proposée se base sur la définition d’un intervalle de temps
de durée déterminée pendant lequel l’enveloppe du signal est analysée afin de rechercher
l’instant qui le caractérise au mieux. Cela se traduit par l’algorithme suivant décomposé en
– Dans la première étape, un intervalle, appelé Intervalle d’Observation (Io ) est sélectionné
au début du signal afin d’étudier l’enveloppe du signal sur cet intervalle. La taille de
glissante le long du signal. Chaque intervalle Ie est affecté d’une énergie définie par
46
4.3. Segmentation temporelle
l’amplitude moyenne des échantillons sur l’intervalle. L’instant qui caractérise le mieux
Iemax )
est défini au même emplacement (centré) que l’intervalle Iemax . Cette intervalle Ic est
L’enveloppe du signal est donc analysée par sous-parties. Sur chacune de ces sous-parties
est calculée une valeur de sous-empreinte à la position d’énergie maximale. Nous garantissons
ainsi qu’une sous empreinte sera calculée sur chaque intervalle Io et nous synchronisons les
Notre heuristique de sélection du prochain intervalle Io (après Iemax ) apporte une plus
grande robustesse envers les décalages temporels par rapport aux stratégies de base qui
position de l’intervalle Iemax . En effet, en utilisant cette dernière stratégie, un Iemax situé à
la transition entre deux intervalles Io pourrait ne pas être détecté. De plus, notre stratégie
permet de détecter plusieurs intervalles Ie , avec des énergies proches, au sein d’un même
47
Chapitre 4. Construction Robuste d’Identifiants Audio
proche lui succèdent, ils correspondront aux maximum sur les intervalles Io suivants et
seront donc également détectés. Cette dernière propriété renforce la robustesse de notre
de sélectionner qu’un seul intervalle Ic pour chaque Io . Or, une dégradation du signal pourrait
échanger la sélection de deux Ie dont les énergies seraient proches et importantes. Notre
stratégie renforce donc aussi la robustesse envers d’autres types de dégradations. Elle renforce
A noter enfin que la distance entre deux intervalles Iemax successifs varie entre Ie et Io ,
de sous empreinte.
La Transformée de Fourier sur laquelle est basé notre calcul de la valeur de sous-empreinte
induit de nombreux calculs et est sensible aux altérations du signal. Ceci induit une varia-
bilité importante de notre empreinte en fonction des dégradations du signal. Or, notre pro-
cessus de segmentation audio est très fiable (Chapitre 6). Nous avons donc jugé qu’il n’était
pas utile de rajouter un second processus (la transformée de Fourrier) source potentielle
d’erreurs et avons décidé de baser notre empreinte uniquement sur l’information apportée
Nous avons donc défini une nouvelle méthode de calcul de la valeur de sous-empreinte
basée sur l’écart (en ms) entre les instants particuliers détectés entre deux sous empreintes.
Comme nous l’avons vu, cette valeur varie entre Ie et Io . Une sous empreinte peut donc
prendre Io − Ie valeurs. Étant donné un codage en 44KHz mono, il est nécessaire d’utiliser
14 bits pour coder cette information au lieu des 32 utilisés par la méthode précédente. On
a donc une réduction significative de l’espace nécessaire pour stocker une sous empreinte.
48
4.5. Conclusion
la méthode des fenêtres recouvrantes. La réduction est donc nettement plus importante que
14
le simple rapport 22 ≈ 23 .
4.5 Conclusion
Pour un faible espace de stockage, un Io élevé réduit le nombre de valeurs contenues dans
l’empreinte et donc stockées dans la base de données. A l’inverse, pour de grosses bases de
données gérant des milliers de documents, un intervalle Io plus réduit augmente le nombre
de valeurs calculées par seconde et donc la quantité d’information servant à discriminer les
signaux.
49
Chapitre 4. Construction Robuste d’Identifiants Audio
50
5
Appariement d’Identifiants
Audio
Nous avons présenté notre méthode de calcul d’empreinte dans le chapitre 4. Ces em-
preintes se présentent comme une suite de nombres entiers, chaque entier codant une distance
entre deux instants particuliers du signal. La prochaine étape consiste à comparer efficace-
ment l’empreinte d’un extrait inconnu et une base d’empreintes pré-calculées. Nous allons
donc développer ici le cheminement qui nous à conduit à l’élaboration de notre méthode
d’identification.
51
Chapitre 5. Appariement d’Identifiants Audio
Sommaire
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.2 Décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.2.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1 Introduction
La méthode que nous devons élaborer doit nous permettre de stipuler si une empreinte
correspondant au même contenu que le signal original est stockée dans la base ou si au-
cune empreinte n’est dérivée de l’extrait inconnu. Pour cela, lors de la comparaison, il
est nécessaire d’obtenir un score, une distance, ou une mesure de similarité permettant
de prendre cette décision. Or, retrouver l’empreinte la plus proche et décider si elle provient
d’un même contenu sont deux problématiques différentes. La première appelée indexation
consiste à retrouver l’empreinte ayant une plus faible distance ou un meilleur score, suivant
Il s’agit de fixer un seuil sur le critère de similarité. La position par rapport à ce seuil per-
mettra de savoir si deux empreintes proviennent d’un même contenu original. Cela implique
donc une contrainte forte sur le critère et le seuil utilisé afin de s’assurer :
1. que la distance maximale entre deux contenus co-dérivés sera inférieure au seuil et
2. que la distance minimale entre deux contenus différents (non co-dérivés) sera supérieure
au seuil.
Ces deux contraintes doivent bien sûr être satisfaites malgré d’éventuelles dégradations
(compression, décalages) qui peuvent affecter les signaux. Notons que ces deux contraintes
52
5.1. Introduction
Comme on l’a vu (Chapitre 3), la méthode utilisée par Haitsma et Kalker pour identifier
une empreinte se base sur une comparaison bit à bit par distance de Hamming. Cette distance
compare donc membre à membre deux suites de sous empreintes à partir d’une position com-
mune. Nos expérimentations (Section 6.2.2, Fig. 6.1) montrent que deux documents audio
de compression utilisé pour dégrader l’un des deux signaux. Malgré ce nombre important
de valeurs communes (largement supérieur a celui obtenu par les méthodes antérieures), ce
résultat ne permet pas une comparaison membre à membre de deux empreintes puisqu’une
mauvaise détection d’un intervalle Iemax revient, dans ce contexte, à décaler une des deux
comparant deux empreintes terme à terme (Burges, Bruck) présentent le même inconvénient.
un alphabet. Une empreinte peut alors être interprétée comme une chaı̂ne de caractères. Les
méthodes d’appariement de chaı̂nes (string matching) peuvent ainsi être appliquées afin de
calculer une distance entre deux chaı̂nes [14, 10]. Le principe de base de ces méthodes est de
calculer le degré de similarité entre deux chaı̂nes de caractères à partir du nombre minimum
la seconde. Chaque opération peut être pondérée afin d’établir des coûts adaptés au cadre
applicatif de la méthode.
De plus, si seul un court échantillon du signal d’entrée est utilisé pour calculer l’empreinte,
(ou coût d’édition) entre l’empreinte de cet extrait inconnu et une sous-séquence d’une des
d’alignement local .
du signal d’entrée est de taille k, une recherche exhaustive dans la base de données de
l’alignement de coût minimum serait accomplie en O(M kn) [14]. De ce fait, à cause du
large nombre M d’empreintes pouvant être stockées dans la base et de la valeur importante
de n dans le cadre de notre application, ce type de méthode est inutilisable car trop coûteux
53
Chapitre 5. Appariement d’Identifiants Audio
en temps de calculs.
de candidatures spontanées. Après les avoir toutes parcourues assez sommairement, seules
certaines d’entre elles sortent du lot grâce à certaines caractéristiques recherchées. Ensuite,
les candidats correspondant aux curriculum vitae sélectionnés seront conviés à un entretien
afin d’étudier de manière plus approfondie leur profil et évaluer leur candidature. Enfin, le
candidat restant ne sera pas celui ayant le meilleur profil, mais celui correspondant parfai-
Cette première phase, dite phase de filtrage doit nous permettre de juger rapidement de
la ressemblance entre une sous partie de l’extrait inconnu et n’importe qu’elle sous partie
de la base de données. Comme nous l’avons mentionné, il s’agit de définir un indice qui soit
simple et rapide à calculer tout en apportant une indication de similarité forte. Dans notre
cas, nous avons décidé de nous baser sur une méthode bien connue de la problèmatique de
et S2 .
Dans notre cas, les symboles de l’alphabet correspondent à une valeur de sous empreinte
codant l’espace temporel entre 2 instants particuliers du signal audio (sections 4.3 et 4.4).
54
5.2. Scores par quantité d’information
La plupart des méthodes de filtration par q-gram sont basées sur le théorème de Jokinen-
Ukkonen [34] :
sur un alphabet Σ. Supposons qu’une occurence de P puisse s’apparier avec T avec k erreurs.
une distance d’édition très basique qui n’est pas adaptée à notre application. La notion de
q gram restant cependant centrale dans celle-ci, nous avons struturé notre base de données
d’empreintes en fonction des q-grams. Dans le cadre d’un stockage des empreintes dans une
base de données [27] ceci peut être réalisé en définissant un index supplémentaire de q grams.
Cet index permet de retrouver efficacement, pour toute empreinte correspondant à un signal
d’entré, les empreintes de la base qui partagent avec celle-ci un nombre minimal de q-grams.
Dans le cadre d’une implémentation par fichiers, un codage sensiblement équivalent peut
tort une empreinte valide. Inversement, une valeur de q faible permet de se prémunir d’une
élimination abusive d’un bon candidat mais augmente également le nombre d’empreintes
acceptées à tort. Il faut donc définir une valeur de q qui minimise au mieux les taux de ((Faux
Acceptés)) et ((Faux Rejetés)). Flajolet [22] (dans le cas d’un modèle de Bernoulli uniforme)
et Szpankowski [54] (pour le modèle non uniforme) on démontré un résultat intéressant dans
ce cadre : pour un texte de taille n généré aléatoirement tout mot de longueur l < log(n/h)
apparait presque surement quand n tend vers l’infini. Le symbole h représente ici l’entropie de
55
Chapitre 5. Appariement d’Identifiants Audio
Renyi qui peut être mesurée par log(1/pmin ) avec pmin la probabilité minimale d’apparition
d’une lettre de l’alphabet. Si nous considérons une probabilité uniforme p = pmin = 2−14 et
des chaı̂nes de longeur 5300 (longueur moyenne dans notre base), nous obtenons un l égal
à 6.3. La valeur de q devrait donc a priori être supérieure à 7. Nos résultats expérimentaux
un bon compromis entre les faux acceptés et les faux rejetés. Ceci est certainement du au
5.2.2 Décision
Les expériences que nous avons menées nous ont montré que le filtrage de notre base
d’empreintes par q-gram était extrêmement efficace malgrè la taille (≈ 5300) et le nombre (≈
400) des empreintes de notre base. Nous pensons que cette efficacité est due essentiellement
à la taille de notre alphabet. En effet, si nous supposons que les empreintes sont générées par
mot de longueur n sera dans notre cas égal à (n − q + 1)2−14q ce qui est extrêmement petit
même pour n grand. A contrario, si on trouve un nombre élevé de q grams communs à deux
chaines, on peut en conclure que les deux chaines n’ont pas été générées par des processus
Supposons que nos empreintes sont générées par un processus aléatoire avec une distri-
bution uniforme pour chaque symbole et considérons la variable aléatoire Xq qui représente
le nombre de q grams communs à deux chaines. Étant donné une empreinte correspon-
dant au signal d’entrée et une empreinte de la base, nous mesurons une observation nq
nmin & . . . &Xmax = nmax où {min . . . , max} correspond à une plage de longueurs de
équivalent à Q(nmin , . . . , nmax ) = P (Xmin = nmin . . . &Xmax = nmax ) pour des chaı̂nes
de grande taille. La définition d’un tel score suppose au préalable une modélisation de la
formation des chaı̂nes et des q-grams afin d’évaluer P (Xmin = nmin . . . &Xmax = nmax ).
56
5.2. Scores par quantité d’information
5.2.2.1 Modélisation
Commençons par considérer le cas où seulement une longueur de q-gram est prise en
compte (Q(nq ) = P (Xq = nq )). Si l’on note par s la taille de l’alphabet, Nicodème [46] a
démontré que la loi de probabilité de Xq peut être approximée efficacement par un modèle
de balles et d’urnes où chacune des sq urnes est associée à une valeur possible de q-gram
dans s.
En effet, le nombre de q-grams qui se répètent au moins une fois dans une chaı̂ne de lon-
q-gram communs à ces deux chaı̂nes (sans répétition) correspond au nombre d’urnes conte-
nant simultanément des boules noires et blanches (collisions bicolores) après un lancé de m
de Poisson de Xq et une loi Gaussienne est toujours bornée. De plus, la loi de Xq converge
vers une Gaussienne quand les paramètres de la loi de Poisson tendent vers l’infini. On peut
(n −γ ) 2
1 − q σ2 nm
p(Xq = nq ) = √ e nm (5.1)
2πσnm
Sous cette approximation, estimer la loi de Xq revient à estimer γnm et σnm . Nicodème
Dans le cas d’une seule chaı̂ne, considérons φn (u) la probabilité qu’il existe u urnes sans
collisions après n lancés. Si nous considérons que le nombre de lancé n’est plus égal à n mais
9 la distance en variation totale entre deux variables entières positives aléatoires de fonction de probabilité
P
respectives fn et gn est la somme n |fn − gn |
57
Chapitre 5. Appariement d’Identifiants Audio
suit une loi de Poisson de paramètre z, la transformée de Poisson de φn (u) est définie par :
X z n −z X uk z n
ψ(z, u) = φn (u) e = e−z fn,k
n! n!
n≥0 n,k
où fn,k représente la probabilité qu’il existe k urnes sans collision après n lancés.
k n
Soit F (z, u) = ez ψ(z, u) = fn,k u n!z . Si l’on connait une forme analytique de
P
n,k
De même :
!
∂ ∂F (z, u) X X
2 zn X zn
u = k fn,k = m(2)
n =not m(2) (z) ⇒ m(2) n
n = n![z ]m
(2)
(z)
∂u ∂u u=1 n
n! n!
k n≥0
La moyenne γn et la variance σn2 du nombre d’urnes avec collisions s’en déduisent par :
γn
= m − µn
(5.2)
σn2 (2)
= mn − µ2n
Ce nombre moyen de collisions correpond aux nombres de q grams qui se répètent dans une
chaı̂nes de longueur n.
Y X
F (z, t, u) = epi (z+t) + (u − 1)(epi z + epi t − 1) = fkbc uk z b tc
0≤i≤sq −1 k,b,c
58
5.2. Scores par quantité d’information
existe k urnes sans collision bicolore après un lancé de b boules blanches et c boules noires.
m(2) = [z b tc ]b!c! ∂ ∂F
∂u u ∂u u=1
bc
On en déduit alors la moyenne γbc et l’écart type σbc de notre variable Xq en utilisant une
{1, . . . , sq }, pi n tend vers une constante θi quand n tend vers l’infini. Ceci revient à lier la
probabilité (pi ) d’occurence d’un q gram avec la longueur des chaı̂nes entre lesquelles on
cherche ces q grams. Ce postulat ne nous a pas semblé cohérent avec nos hypothèses et nous
avons préféré supposer une distribution uniforme de q grams. Ceci nous a conduit à formuler
la proposition suivante :
Proposition 1. En utilisant les mêmes notations que Nicodème, si on suppose que les q-
1
grams ont une distribution uniforme p = sq , avec s la taille de notre alphabet, la moyenne
2
γnm et la variance σnm du nombre Xq de q-grams communs entre deux chaı̂nes de longueurs
Comme dans notre cas s = 214 , nous obtenons γnm << 1 pour des valeurs usuelles de n
et m. La moyenne γnm peut donc être négligée par rapport à l’entier nq dans l’équation 5.1.
59
Chapitre 5. Appariement d’Identifiants Audio
Considérons maintenant des q-grams de taille i et j avec i > j entre deux empreintes.
Chaque i-gram induit donc la présence de i − j + 1 j-grams entre ces deux empreintes. Par
Notons que cette dernière relation est simplement une approximation du cas réel où les
différents q-grams ne sont pas indépendants. Cependant, cette approche est en adéquation
avec le modèle de balles et d’urnes introduit par Nicodème où les différents q-grams sont
P (A&B) = P (A|B)P (B), max − min fois sur Q(nmin , . . . , nmax ), on obtient :
max
Y
Q(nmin , . . . , nmax ) = p(Xi = ui )
i=min
Pmax
avec umax = nmax , umax−1 = nmax−1 − 2umax , ui = ni − j=i+1 αi,j uj et αi,j = i − j + 1.
L’expression − log2 (Q(nmin , . . . , nmax )) peut alors être écrite comme suit :
Pmax 1
Pmax u2i
− i=min log2 (p(Xi = ui )) = 2 log2 (e) i=min σi2
1
Pmax
+ 2 i=min log2 (2πσi )
que nous souhaitons uniquement trouver une approximation asymptotique de − log2 (Q(nmin , . . . , nmax )),
nous définissons notre score S(nmin , . . . , nmax ) entre deux empreintes de la manière sui-
vante :
60
5.2. Scores par quantité d’information
max max
X u2i 1 X
S(nmin , . . . , nmax ) = 2 = 2
u2i s2i (5.5)
i=min
σ i (mn) i=min
Où chaque σi a été remplacé par son terme de premier ordre nm s1i (equation 5.3)·
1
Comme ui << s, si nous mettons de côté le facteur mn , notre fonction score peut être
L’équation 5.5 fourni alors une mesure de la similarité entre deux empreintes qui permet
de pondérer les informations relatives aux nombres de q-grams pour différentes tailles de q.
Cependant, en pratique, à cause de la taille élevée de l’alphabet (s = 214 ), l’équation 5.5 peut
renvoyer une valeur dépassant les capacités de stockage des types de variables couramment
max
1 X
Sprat (nmin , . . . , nmax ) = u 2 bi (5.6)
(mn) i=min i
2
Où b < s est défini dans la partie expérimentations (section 6.3.2) de manière à être aussi
élevé que possible tout en évitant d’introduire des dépassements de mémoire. Notons que si
b est suffisamment élevé, l’idée consistant à calculer la valeur de (0, . . . , 0, nmin , . . . , nmax )
max
1 X
Sprat (I, D) = u 2 bi (5.7)
(mn)2 i=min i
où les nombres de q-grams (nmin , . . . , nmax ) entre I et D sont déduits de ces deux signatures
Comme le montrent les expériences que nous avons mené (Chapitre 6), si I correspond
au co-dérivé d’une signature D présente dans la base, Sprat (I, D) sera maximum parmi tous
les Sprat (I, D′ ), D′ appartenant à la base. L’équation 5.7 nous permet donc d’identifier un
contenu co-dérivé lorsque l’original est présent dans la base de données. Toutefois, il nous
faut également être capable de spécifier si une signature d’entrée correspond ou non au
61
Chapitre 5. Appariement d’Identifiants Audio
co-dérivé d’une signature de la base. Si l’on dénote notre base de données par B, on peut
associer à chaque signature I son plus grand score avec les signatures de la base :
Il pourrait être tentant de fixer un seuil sur Score(I) au delà duquel on considérerait que
le montre les expériences menées au chapitre 6, la grande diversité des signatures (et donc
des scores) ne nous permet pas de définir un tel seuil. En effet, il est possible de trouver des
Toutefois, nos expériences nous ont conduit à conclure que lorsque une signature I cor-
respond au co-dérivé d’un signal D de la base, Sprat (I, D) est nettement plus important
que n’importe quel score Sprat (I, D′ ) avec D′ ∈ B différent de D. Inversement, si aucune
signature D ∈ B ne correspond à un co-dérivé de I tous les scores Sprat (I, D) seront sensible-
ment équivalents. Ceci nous a amené a concevoir une règle de décision basée à la fois sur la
valeur du score maximal et sur la prédominance de celui-ci vis a vis du score immédiatement
Score(I)
Score(I) > S1 et > S2
Sprat (I, DI2 )
où S1 et S2 sont deux seuils fixés expérimentalement et Sprat (I, DI2 ) est le score immédiatement
inférieur à Score(I) parmi tous les scores obtenus dans la base de données.
communs entre deux chaı̂nes ne fournit pas une mesure suffisamment discriminante pour
identifier un contenu co-dérivé à partir d’un simple seuil. Nous nous sommes donc intéressé
à d’autres mesures de distances. Dans le contexte de reconnaissance d’empreintes [32, 31], les
62
5.3. Score par distance d’édition
égales si la différence entre celles-ci est inférieure à un certain seuil. Cette première
propriété permet d’introduire une certaine flexibilité dans la comparaison des em-
preintes en considérant par exemple deux sous empreintes comme similaires si elles
prié pour les problèmes nécessitant de prendre en compte l’addition ou l’oubli de va-
leurs de sous-empreinte entre deux contenus co-dérivés. Dans notre cadre, cela revient
à anticiper le fait que la méthode de segmentation puisse détecter des pics additionnels
ou au contraire oublier certain pics entre deux signaux co-dérivés. Ces pics additionnels
ou manquant induisent des valeurs d’intervalle Iemax erronées entre deux empreintes
de contenu co-dérivé.
Des séquences de symboles similaires entre deux chaı̂nes peuvent donc être identifiées
en calculant une distance d’édition entre ces deux séquences. A partir de la définition d’un
alphabet, la distance d’édition est souvent définie par l’affectation d’un score positif pour
une substitution, insertion ou suppression de symbole et un score nul lorsque deux symboles
correspondent. Cette notion de coût affecté aux opérations d’édition de chaı̂ne peut être
utilisée pour définir une fonction de similarité. Dans ce cas, l’apparition de deux symboles
identiques se voit gratifiée d’un coût positif tandis que les opérations de suppression ou
insertion entrainent un coût négatif. Une telle fonction de score S peut par exemple être
S(i − 1, j − 1) + α Si si = sj
0,
S(i, j) =
(5.9)
max S(i, j − 1) − β, sinon
S(i − 1, j) − β
Où si et sj correspondent aux deux symboles de rang i et j des deux empreintes com-
63
Chapitre 5. Appariement d’Identifiants Audio
Dans cet exemple, le score de similarité obtenu en localisant le score maximal de la dernière
Cible
Requête 20 3 12 23 15 3 18 21 7 5
3 0 5 0 0 0 5 0 0 0 0
12 0 0 10 3 0 0 0 0 0 0
23 0 0 3 15 8 1 0 0 0 0
15 0 0 0 8 20 13 6 0 0 0
18 0 0 0 1 13 6 18 11 4 0
21 0 0 0 0 6 0 11 23 16 9
A partir d’une telle fonction de score, une longue séquence de correspondances suivie
par une séquence de non-correspondances peut fournir le même résultat que deux chaı̂nes
alternant symboles identiques et différents. Par exemple, le score entre deux suites abxy et
abuv fournira la même score que celle entre axby et aubv. Ce comportement est du à l’ajout
l’autre chaı̂ne.
dérivées partagent de longues séquences de symboles avec peu de symboles erronés. Notre
fonction de score doit donc favoriser les longues séquences de symboles identiques entre
deux chaı̂nes. Nous avons défini à cette fin une fonction de score pondérée au comportement
non-linéaire. La méthode la plus simple pour réaliser une telle fonction consiste à définir
S(i, j) comme une fonction affine de S(i − 1, j − 1) (dans le cas d’une correspondance) ou
matrice de score est donc pondérée par le score de la case précédente afin de permettre une
augmentation du score plus franche lors de longue suites de symboles et donc favoriser les
64
5.3. Score par distance d’édition
αS(i − 1, j − 1) + β Si si = sj
0,
S(i, j) = (5.10)
1
γ max S(i, j − 1) − β, sinon
S(i − 1, j) − β
condition 1 < γ < α afin que le score décroisse plus doucement quand un symbole différent
est rencontré qu’il n’augmente pendant une séquence de symboles identiques. Ce comporte-
ment est mis en évidence sur la figure 5.2(a). Le score résultant de la mise en correspondance
Pn−1 n
d’une chaı̂ne de longueur n avec elle même est égal à β i=0 αi = β αα−1 −1
(Figure 5.2(b)).
Le score défini par l’équation 5.10 peut être calculé en O(nm) où n et m représentent les
(a) Alternance de mises en correspondances et de sup- (b) Une Suite de correspondances suivi d’une suite de
pressions. suppressions.
Fig. 5.2 – Comparaison des fonctions de score basées sur les équations 5.9 et 5.10
Dans notre cas, la comparaison d’une empreinte inconnue avec la totalité de la base de
données peut être réalisée par des méthodes d’alignement local [31] basées sur notre fonc-
tion de score (équation 5.10). Cependant, à partir d’une empreinte inconnue de taille n et
N empreintes de taille m stockées dans la base de donnée, une telle recherche exhaustive
nécessiterait O(N nm) opérations. Nous avons donc repris la notion de filtrage par q-gram
déjà utilisée dans la section 5.2.2. Toutefois, le théorème de Jokinen-Ukkonen [34](section 5.2.2)
sur lequel est basée cette approche ne s’applique pas à la croissance/décroissance polynomiale
de notre fonction de score. Plutôt que de compter simplement le nombre de q-grams com-
muns à deux chaı̂nes, notre algorithme associe à chacun de ces q gram les sous séquences
65
Chapitre 5. Appariement d’Identifiants Audio
commençant sur celui-ci dans chacune des deux chaı̂nes (Figure 5.3). Chaque q-gram est
alors pondéré par un score défini par l’équation 5.10 et calculé entre deux sous-empreintes
contenant le q-gram.
une empreinte stockée dans la base de données D. Ce q-gram apparaı̂t aux indices i1 , . . . , ip
les deux empreintes sur une suite de symboles de taille m, le score associé à QD,I est alors
défini par :
p X
X q
score(QD,I ) = S(I[ik , ik + m], D[jl , jl + m]) (5.11)
k=1 l=1
Où S(I[ik , ik + m], D[jl , jl + m]) correspond à notre fonction de score calculée entre les
deux empreintes sur une longueur m à partir des index ik et jl . L’alphabet de l’empreinte
étant très large (214 ), p et q appartiennent à {0, 1} pour la plupart des empreintes de la base
à une seconde de signal, en fonction de notre taux de calcul de sous-empreinte (Chapitre 6).
Le score codant la similarité entre une empreinte d’entrée I et une empreinte de la base
D peut alors être défini comme la somme des scores des q-grams communs à I et D :
X
score(I, D) = score(QD,I ) (5.12)
QD,I ⊂D
Les empreintes obtenant les scores les plus élevés calculées par notre méthode de fil-
trage sont alors considérées comme des candidates potentielles aux contenus co-dérivés. Nos
dans la base de données, est toujours celle obtenant le meilleur score. Ceci permet de re-
66
5.3. Score par distance d’édition
trouver une empreinte co-dérivée quand elle existe. Cependant, une méthode d’identification
doit aussi être capable de décider si un extrait inconnu possède ou non un contenu co-dérivé
stocké dans la base de données. A partir d’un score attribué à chaque empreinte, il faut alors
1. Le score le plus bas obtenu par tout couple d’empreintes co-dérivées doit être au dessus
de ce seuil
2. Le meilleur score obtenu par tout couple d’empreinte non co-dérivée doit être inférieur
au seuil
Un tel seuil permet a priori de décider si l’extrait inconnu correspond au co-dérivé d’un
signal audio stocké dans la base de données. Cependant, comme le montre le chapitre 6, le
meilleur score obtenu par deux empreintes non co-dérivées est supérieur au plus mauvais
score obtenu entre deux empreintes co-dérivées. Il n’existe donc pas de seuil satisfaisant les
deux contraintes précédentes. Toutefois, le score défini par l’équation 5.12 classe toujours
en première position l’empreinte co-dérivée quand elle existe. On se retrouve donc avec
un problème similaire à celui rencontré dans la section 5.2.2 et on peut comme dans cette
dernière section envisager de définir un score basé sur le rapport entre le meilleur et le second
Nous avons toutefois privilégié une autre approche. En effet, le fait que notre méthode
de filtrage ne fournisse pas une règle de décision valide est principalement dû à la faible
l’équation 5.12 nous permet d’isoler l’empreinte co-derivée si elle existe nous pouvons définir
1. Filtrer rapidement la base de données à l’aide de l’équation 5.12 pour extraire l’em-
2. Concevoir un critère de décision basé sur un nouveau score éventuellement plus coûteux
sens de l’équation 5.12. Soit également les deux indices imax et jmax dans I et D tels que :
67
Chapitre 5. Appariement d’Identifiants Audio
2. S(I[imax , imax +m], D[imax , imax +m]) (équation 5.10) est maximum parmi tous les cal-
culs de score effectués lors de l’évaluation de Score(I[imax , imax +q−1]) (équation 5.11).
vement en imax et jmax . Son score au sens de l’équation 5.10 entre les deux sous-chaı̂nes de
I et D de longueur m est maximum. C’est à dire qu’il est le plus élevé parmi tous les calculs
de score de longueur m à partir de q grams communs de I et D. Notre score final est basé
sur une comparaison sur une durée M >> m des empreintes I et D aux positions imax et
où M est une constante supérieure à m. Les expériences menées au chapitre 6 confirment
qu’un choix adéquat de M permet d’obtenir un score suffisamment discriminant pour décider
68
6
6.1 Introduction
Nous avons présenté dans les chapitres précédents nos méthodes de calcul et de compa-
raison d’empreintes pour l’identification de fichiers audio. Dans ce chapitre, nous mesurerons
tion. Les premiers résultats évalueront notre méthode de calcul d’empreinte introduite dans
le chapitre 4. Chacune des étapes ayant conduit à l’algorithme final sera évaluée afin de
juger les gains induits par nos améliorations successives. Nous comparerons également ces
résultats avec des méthodes concurrentes. Dans un second temps, nous évaluerons notre
nouvelle méthode de comparaison d’empreinte sur une base de données d’empreintes pré-
calculées. La capacité d’identifier un fichier audio induite par nos méthodes de comparaisons
69
Chapitre 6. Analyse des résultats
Sommaire
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Pour faire ces expérimentations, nous avons utilisé un ensemble de documents de genres
très divers qui représentent 24h de signal sonore. Certains morceaux de musiques sont
représentés par une version studio ainsi qu’une version live. Ils sont donc considérés comme
des documents différents. Pour évaluer la robustesse des empreintes, nous avons soumis tous
aussi subi des décalages temporels par ajout de segments de silence ou d’autres signaux
Les tailles des intervalles Ie et Io ont été respectivement fixées à 1 et 100 millisecondes.
Ces valeurs offrent un bon compromis entre la taille et la robustesse des empreintes. En
effet, Io égal à 100ms permet d’avoir suffisamment d’échantillons pour trouver un intervalle
Ie significatif sur cette période tout en assurant un nombre de valeurs calculées par secondes
suffisant pour, par la suite, reconnaı̂tre tout morceau à partir d’un extrait de quelques
70
6.2. Évaluation de la robustesse de l’empreinte
secondes. Quand à Ie , sa taille doit être suffisamment petite pour correspondre à la détection
d’un point particulier du signal tout en restant suffisamment importante pour caractériser
signal audio Te égal à 44100kbps, le taux moyen d’intervalles Iemax détectés sur l’ensemble
de la base de données est égal à 21, 9 intervalles par seconde. L’écart type de cette mesure
est égal à 3, 5. Les valeurs minimales et maximales de détection d’intervalles Iemax trouvées
sur notre base sont respectivement égales à 18 et 34 valeurs de sous-empreinte par seconde.
De plus, à partir de ces valeur d’intervalles prédéfinies, la valeur maximale Vmax d’une
sous-empreinte est définie par Vmax = (Io − Ie ) ∗ Te = 4365.9ms. Cela permet de déduire
qu’une valeur de sous empreinte peut être codée et stockée sur 13 bits. Si l’on reprend notre
taux moyen de sous-empreintes détectées et calculées par seconde soit 21,9, on en déduit
que la taille nécessaire pour stocker une empreinte correspondant à une minute de signal est
D’un autre côté, la méthode de Kalker et Haitsma, la principale référence dans ce do-
maine, utilise des intervalles de 370 ms avec un taux de recouvrement de 31/32, ce qui cor-
respond à une valeur de sous-empreinte calculée toutes les 11, 56 ms. Comme nous l’avons vu
dans la section 3.1.2, cette méthode calcule un ensemble de différences inter filtres stockées
dans une empreinte de 32 bits. L’espace de stockage nécessité par cette méthode pour stocker
l’empreinte d’une minute de signal est donc égal à (60/0.01156) ∗ 32 = 20, 7 Ko/min.
Par conséquent, notre méthode introduit un gain d’espace de stockage d’environ 90%
par rapport à la méthode de Kalker et Haitsma. Ces résultats ont été confirmés lors de nos
nombre de bits requis par le stockage d’une sous empreinte (soit 14) divisé par le nombre de
minutes de documents sonores utilisées pour calculer ces empreintes (le résultat obtenu est
Définissons Ti comme étant l’ensemble des intervalles du signal si servant à calculer son
71
Chapitre 6. Analyse des résultats
nombre est égal au nombre de fenêtres glissantes utilisées. Avec notre méthode, ce nombre
est égal au nombre d’intervalles Iemax détectés par notre méthode de segmentation.
A partir d’un signal audio si , définissons aussi SPi ⊂ Ti l’ensemble d’intervalles détectés
à la même position dans le signal si et une version dégradée de ce signal. En nous basant sur
étant détectés à la même position si la distance qui sépare ces instants est inférieure à
0, 25ms. Considérons de plus, l’ensemble SVi ⊂ SPi des instants particuliers ayant la même
Si l’on applique une dégradation à un contenu musical, plusieurs mesures peuvent nous
Cette quantité, qui revient à évaluer les performances de notre algorithme de segmen-
où |.| dénote le cardinal de l’ensemble et N le nombre de fichiers audio contenus dans
la base de données
de sous-empreinte peut être mesurée, pour chaque signal si , par le ratio entre la valeur
de SVi et SPi . Nous mesurons donc parmi les instants correctement détectés le taux de
au contenu. La valeur moyenne de ce ratio sur toute la base de donnée est définie par :
N
1 X |SVi |
RR = (6.2)
N i=1 |SPi |
72
6.2. Évaluation de la robustesse de l’empreinte
mentation. Une mesure combinant ces deux étapes peut alors être défini en calculant,
pour chaque signal si , le ratio entre SVi et Ti . Cette valeur correspond donc au taux
d’invariance global de notre méthode de calcul d’empreinte. Elle est définie par :
N
1 X |SVi |
T RR = (6.3)
N i=1 |Ti |
La méthode de Kalker et Haitsma [37] utilise des fenêtres glissantes et ne comporte pas
d’étape de segmentation. La seule mesure de performance applicable dans ce cas est donc le
Les fichier musicaux de notre base de données ont été encodés à 705 Kbps. Les taux de
compression utilisés peuvent alors être définis par le nombre de bits par secondes servant à
encoder les fichier ou le ratio par rapport à l’encodage du document original. Les encodages
utilisés pour nos expérimentations sont 48, 64, 96, 128, 192 et 256 Kbps ce qui correspond
à une compression de 14.7, 11.02, 7.35, 5.5, 3.67 et 2.75% du fichier original.
Nous avons tout d’abord comparé la méthode d’Haitsma avec notre première méthode
inspirée de celle-ci ainsi qu’avec notre proposition finale. La figure suivante montre le taux
(équation 6.3) obtenu par la méthode d’Haitsma, calculée en fonction de différents taux
de compression. Le taux de reconnaissance obtenu par cette méthode oscille alors entre 5 et
pressé. Précisons encore que pour cette méthode, aucune méthode de segmentation n’est
appliquée. Par conséquent, cette courbe montre un taux de reconnissance total inférieur à
30% pour un taux de compression usuel voir plutôt faible. Cet taux décroit significativement
première idée de calcul d’empreinte basée sur une amélioration de la comparaison de filtre
fréquentiels (Section 4.2). Cette courbe monte à 62% pour un encodage à 256Kbps et décroı̂t
73
Chapitre 6. Analyse des résultats
jusqu’à 34% pour 48Kbps. Cette courbe ne prend pas en compte l’algorithme de segmen-
tation et compare les empreintes calculées entre deux contenus co-dérivés lors d’instants
Cette courbe permet donc de comparer efficacement la méthode d’Haitsma avec notre
observer que cette première proposition obtenait déjà un taux de reconnaissance plus im-
(Section 4.3). Comme nous l’avons expliqué, nous considérons ici le taux d’intervalles de
haute énergie correctement détectés, c’est à dire à la même position dans le signal original
variant de 93% pour une compression à 256Kbps à seulement 80% pour une compression
48Kbps en passant à 87% pour un taux de compression de 128Kbps. Nous avons aussi
observé que lorsqu’un instant est mal détecté, il entraı̂ne une légère succession d’instants
(environ 3 à 4) faussement détectés le temps pour l’algorithme de se recaler sur des instants
74
6.2. Évaluation de la robustesse de l’empreinte
De plus, cette courbe montre l’efficacité de notre méthode de segmentation, qui permet
d’obtenir un très faible taux d’instants mal détectés (pas plus de 20%). En effet, cette
méthode se base sur des propriétés moins sensibles à la compression que d’autres parties du
signal moins pertinentes. C’est ce résultat qui nous a mis sur la voix de notre proposition
finale. En effet, pourquoi ajouter à cela une seconde étape rajoutant elle aussi une perte
et robuste ?
Nous avons donc défini nos valeurs de sous empreinte comme étant l’écart entre deux
instants détectés. Cela revient à considérer cette courbe de taux de segmentation comme
étant sensiblement égale au taux de reconnaissance total obtenu par notre proposition finale
valeur de sous-empreinte erronées de seulement 20% dans le pire des cas considéré.
Les fichiers utilisés précédemment ont aussi été soumis à un autre type de dégradation.
Cette dégradation est appelée (( décalage temporel )). Ce type de dégradation peut intervenir
de différentes manière :
coupure de parties : en effet, un morceau de musique peut être reformaté et ainsi subir
de titre live ou encore, lors de passages à la radio, de suppression de solo guitare trop
insertion : il n’est pas rare non plus qu’un morceau de musique comporte des séquences
musicales qui ne lui appartiennent pas, c’est le cas de morceaux techno par exemple où
une chanson peut être interrompue pour laisser place à un extrait ou un son particulier,
mais encore des chansons passées à la radio interrompues en pleine écoute par un jingle.
prise intantannée : c’est un cas particulier du premier cas. Ici, le fait de calculer l’em-
preinte en cours de lecture est simulée par le fait de couper une partie du début, de
75
Chapitre 6. Analyse des résultats
Par conséquent, le calcul d’empreinte doit être le plus invariant possible aux décalages
temporels afin que l’empreinte calculée permette de reconnaı̂tre le contenu co-dérivé malgré
cette altération.
Dans un premier temps, nous avons testé le degré d’invariance vis à vis des décalages
Fig. 6.2 – Taux de valeurs identiques entre un original et sa version décalée (de 1, 2, 3, 5 et
6.25 ms)
notre méthode vis à vis des décalages temporels. On rappelle en effet que cette méthode a
finale, revient alors à calculer le comportement global de notre méthode puisque notre calcul
de sous-empreinte est basé sur l’efficacité de cette segmentation. Nous pouvons alors obser-
ver un taux de segmentation légèrement inférieur à 100%, mais supérieur à 99%, lorsqu’un
76
6.2. Évaluation de la robustesse de l’empreinte
décalage temporel est inséré au début d’un extrait musical. Ce léger écart est simplement la
conséquence du temps requis par notre méthode pour se resynchroniser sur un instant signi-
ficatif du signal, c’est à dire quelques valeurs de sous-empreinte. Une fois l’empreinte d’entrée
resynchronisée par rapport à l’original, peu importe la durée du décalage introduit, le taux
d’instants détectés reste constant. Cette constatation est resté vraie lorsque nous avons in-
troduit un blanc de durée plus importante (10, 25, et 50ms). Nous pouvons en conclure
que la taille du décalage n’influe pas sur la resynchronisation ni sur la segmentation d’après
synchronisation. Nous pouvons aussi en déduire que la resynchronisation, une fois le blanc
erronées sont nécessaires pour ensuite se resynchroniser). L’autre courbe de cette Figure 6.2
référence. Nous pouvons observer que cette technique souffre d’une baisse significative de son
taux de sous-valeurs identiques dès lors qu’un décalage est introduit (de 100 à 70% pour un
décalage d’1ms). Cette courbe reflète aussi une décroissance importante lorsque la taille du
décalage augmente pour enfin atteindre un taux de sous-valeurs identiques de 33% lorsque
le blanc inséré au début est de 6, 25ms. Ces performances sont dues à leur méthode à base
de fenêtre recouvrante, méthode figée qui atténue les conséquences d’un décalage temporel
Dans un second temps, nous avons soumis notre méthode de segmentation aux autres
types de décalages temporels afin de confirmer les premiers résultats. Nous avons utilisés des
avons aussi inséré des extraits d’autres morceaux de musique ou encore supprimé des parties
au milieu d’un même signal sonore. Peu importe le type de dégradation temporelle introduite,
lorsqu’il s’agit de cours échantillons provenant d’autres documents musicaux par exemple,
cela n’influe que sur la durée de ce signal étranger, lui même obtenant des valeurs de sous-
empreintes identiques à son original si celui-ci est contenu dans la base de données. Lorsqu’il
début du processus de calcul d’empreinte sont faussement extraites avant que l’algorithme
77
Chapitre 6. Analyse des résultats
d’empreinte revient à fausser quelques valeurs extraites puis se resynchroniser sur un instant
Nous pouvons donc conclure que notre méthode de segmentation offre une réponse effi-
de cours extraits de 5s dans les documents audio de la base de données. Ces extraits ont
alors été compressés à 128kbps, cette dégradation étant la plus commune appliquée aux
documents audio numériques transitant sur l’Internet. Nous avons enfin calculé l’empreinte
Avant d’exposer les performances de nos méthodes pour un taux d’identification quel-
conque, il convient d’apporter la preuve de la pertinence des q-grams. Nous utilisons pour
cela les extraits compressés à 128 kbps des morceaux présents dans la base. Soit C cet en-
semble d’extraits. Pour chaque empreinte compressée e ∈ C nous avons sélectionné les trois
empreintes de la base de score le plus élevé (au sens de l’équation 5.8). Ces empreintes sont
respectivement notées s1 (e), s2 (e) et s3 (e). Pour tout rang i ∈ {1, 2, 3} on définit également
Notons que pour chaque version compressée le fichier original est toujours présent dans
la base. Nous comparons donc une empreinte de signal non compressé avec sa version com-
pressée. Dans cette expérience l’empreinte de la version originale à toujours été celle obtenant
le meilleur score au sens de l’équation 5.8. L’empreinte s1 (e) correspond donc dans tous les
cas à l’empreinte originale de e. Les empreintes min1 (resp. max1 ) correspondent donc aux
78
6.3. Identification d’empreinte
empreintes compressées les plus éloignées (resp. proche) de leur original (toujours au sens
de l’équation 5.8).
didate )). On peut donc interpréter son score comme le score qui serait obtenu si on avait
enlevé le fichier original de notre base de données. Dans ce dernier cas, la version compressée
de notre empreinte ne devrait pas être reconnue. L’empreinte max2 représente dans ce cadre
la deuxième permet d’évaluer de combien une empreinte se détache du reste de la base (en
La table 6.1 présente différentes mesures sur les q grams obtenues en comparant chaque
empreinte compressée avec l’ensemble de la base. Les groupements de lignes 1er , 2e , 3e représentent
les mesures calculées entre les empreintes e ∈ C et respectivement s1 (e), s2 (e) et s3 (e). Pour
chaque groupement i :
– la ligne (i,moy), représente le nombre moyen de q-grams entre les empreintes com-
3 4 5 6 7 8 9 10 11 12 13 14
1er min 91 6 0 2 0 1 0 0 1 0 0 0
moy 120 13 3.65 1.54 1.15 0.81 0.55 0.46 0.33 0.34 0.24 0.21
max 124 4 3 0 0 0 1 0 0 0 1 1
2e min 0 0 0 0 0 0 0 0 0 0 0 0
moy 74 9.2 2.19 0.17 0.03 0 0 0 0 0 0 0
max 180 40 7 4 1 2 0 0 0 0 0 0
3e min 0 0 0 0 0 0 0 0 0 0 0 0
moy 48 5.5 0.96 0.09 0.01 0 0 0 0 0 0 0
max 233 25 5 1 0 2 0 0 0 0 0 0
Tab. 6.1 – Longueur Q et nombre N de q-grams partagés entre l’extrait inconnu et ceux de
la base de données. Le premier correspond à l’original, le second et troisième correspondent
aux meilleurs faux positif.
Les lignes (1re , min) et (2e , max) de la table 6.1 montrent que pour chaque valeur de q on
peut toujours trouver deux empreintes compressées s et s′ tel que le nombre de q gram
entre s et son co-dérivé classé premier est plus petit que le nombre de q − grams entre s′
79
Chapitre 6. Analyse des résultats
et l’empreinte classée seconde (qui ne correspond donc pas à un co-dérivé). Ce type résultat
interdit de distinguer les contenu co-dérivé uniquement sur le nombre de q grams communs.
Notons toutefois que le nombre moyen de q-grams partagés par deux co-dérivés est nettement
supérieur à celui obtenu avec les candidats classés second et troisième. Le nombre moyen
de q-grams de taille q est ainsi représenté sur la figure 6.3 pour une meilleure visibilité de
Fig. 6.3 – Nombre et taille de q-grams en commun entre un extrait compressé et les em-
preintes de la base ayant obtenus les meilleurs scores, le co-dérivé arrivant toujours premier
candidat
La courbe du haut ( ) de la Figure 6.3 correspond à la ligne (1re , moy) de la table 6.1. Le
nombre de q-grams d’un co-dérivé décroı̂t légèrement lorsque la taille de q augmente tout en
aux nombre de q gram moyen des secondes et troisièmes empreintes. On remarque que le
nombre de q-grams est significativement inférieur a celui obtenu par les contenus co-dérivés
originels. L’information portée par les q grams est donc pertinente pour notre problématique
d’identification. On peut également noter que la longueur de q-grams partagés entre deux
empreintes non co dérivées n’excède jamais un certaine taille (qmax = 8) alors que lorsque
80
6.3. Identification d’empreinte
l’on compare l’empreinte d’un extrait avec l’empreinte de son co-dérivé, cette taille est
largement dépassée.
Nous avons montré dans la section précédente l’intérêt des q-grams et leur potentielle
capacité à discriminer une empreinte co-dérivée. Fort de ces résultats, nous avons appliqué
notre première méthode d’identification basée sur la quantité d’information apportée par
les q-grams (Section 5.2). Pour cela, nous avons utilisé nos mêmes extraits de 5 secondes
compressés que nous avons comparé avec chaque empreinte de la base de données. Pour
chacune de ces empreintes, nous avons calculé son score suivant l’équation 5.6. Comme nous
l’avons déjà expliqué, la taille de notre alphabet est de s = 214 . Cependant, pour éviter des
dans l’équation 5.6 a été fixée à 5. Cette valeur expérimentale correspond à la valeur la plus
élevée qui nous permette d’ éviter le problème de dépassement précédemment cité dans tous
les cas.
Nous avons ensuite calculé les scores à partir de l’équation 5.6 pour des tailles de q-grams
allant de qmin = 4 à qmax = 20. La table 6.2 représente les scores calculés entre l’empreinte
compressée et les quatre empreintes de la base ayant obtenues les meilleurs scores. Comme
dans le cas précédent (Section 6.3.1), l’empreinte co-dérivée à toujours été celle obtenant le
meilleur score. Pour chaque candidat, nous représentons sur la première partie de la table 6.2
les scores minimum, moyens et maximums. La seconde partie représente les ratios des scores
Comme le montre ce tableau, le score moyen obtenu par un contenu co-dérivé est lar-
gement supérieur aux scores obtenus par les autres contenus. Cependant, le score minimum
obtenu par le contenu co-dérivé dans un cas peut être inférieur à un score d’un contenu
différent obtenu dans un autre cas. Par conséquent, une règle de décision uniquement basée
81
Chapitre 6. Analyse des résultats
sur l’utilisation d’un seuil pour départager les candidats est impossible puisqu’on ne peut
facilement être positionné en considérant non plus les scores mais les ratios. entre les scores.
Ce phénomène est du au fait que lorsque une empreinte possède un contenu co dérivé dans
la base, le score entre celle-ci et son co dérivé va dominer nettement les autres scores. Inver-
sement lorsque aucun co dérivé n’est présent dans la base, tous les scores sont sensiblement
équivalents.
Nous rappelons que pour réaliser ces expérimentations, 5 sec de signal audio ont été
calculées. Notre méthode de reconnaissance (Section 5.3) a été mise en oeuvre pour identifier
chaque empreinte. Notons que pour ces tests, chaque empreinte a un contenu co-dérivé dans
La première étape de notre algorithme consiste à rechercher les positions des q-grams
communs aux deux empreintes et à calculer pour chaque q gram un score local de potentielle
correspondance (équation 5.11). La somme de ces scores est ensuite calculée afin de réaliser
notre étape de filtrage (équation 5.12). L’empreinte avec le score le plus élevé est alors
sélectionnée et toutes les autres sont filtrées. La position dans les deux chaı̂nes ayant donné
lieu à un score d’édition maximal sur des sous chaı̂nes de longueur m sera utilisée comme
point de synchronisation entre les deux chaı̂nes pour calculer une distance sur des sous
chaı̂nes de taille plus importante. Les expérimentations ont montré qu’une taille minimale
souplesse. Les valeurs de α,γ et β ont été respectivement positionnées à : α = 1.5 ; γ = 1.1 ;
β = 20.
82
6.3. Identification d’empreinte
Nous avons relevé dans la Table 6.4 les scores et ratios obtenus par les 3 meilleures
empreintes de la base de données en fonction de l’extrait inconnu identifié. Les scores mi-
nimums, moyens et maximums y sont indiqués. L’empreinte ayant obtenu le meilleur score
est, dans chaque cas, celle correspondant au contenu co-dérivé. Par conséquent, le second
score obtenu revient à simuler le fait de ne pas avoir de contenu co-dérivé dans la base de
données. Il s’agit dont du meilleur faux positif. Comme le montre cette table, le score du
co-dérivé est toujours plus élevé que ceux obtenus par les autres empreintes. Cependant, les
cases (Min, 1er ) et (Max, 2e ) mettent en évidence le fait que le meilleur score obtenu par
un faux positif peut être dans un cas, encore supérieur à celui obtenu par un co-dérivé dans
un autre cas. Ce dernier point ne permet donc pas de vérifier la présence d’un co-dérivé
dans la base de données. De plus, les rations (M in, 1er /2e ) et (M ax, 2e /3e ) montrent que
contrairement aux scores par quantité d’information (Section 6.3.2, Tab 6.2) ces ratios ne
permettent pas de caractériser un contenu co-dérivé. Nous nous trouvons face à 2 cas :
Quoi qu’il en soit, la conclusion est qu’à partir de cette étape, seule l’empreinte ayant obtenu
le meilleur score nous intéresse. Reste à décider s’il s’agit ou non d’un contenu co-dérivé. Pour
cela, nous utilisons notre q-gram repère, c’est à dire la sous chaı̂ne de longueur q comune
aux deux chaı̂nes I et D à partir des positions i et j telles que S(I[i, i + m], D[j, j + m]) est
maximum parmi tous les scores calculés pour évaluer les équations 5.11 et 5.12. Nous allons
calculer à partir de ces positions une distance d’édition sur un durée plus importante de 5
secondes (équation 5.13). Afin de démontrer l’efficacité de cette mesure, nous donnons dans
le tableau 6.5, les scores des trois meilleures empreintes au sens du score. Encore une fois
le contenu co-dérivé est classé premier tandis que les deux autres empreintes correspondent
Candidats Ratios
Scores 1er 2e 3e 1er /2e 2e /3e
Min 100000 0 0 1980 0
Mean 3.1015 16 3 8.1014 4
Max 5.1017 2800 590 5.1016 300
Fig. 6.5 – Score final obtenu à partir de 5 secondes d’extrait comparé avec la base de données
L’objectif de cette technique est ainsi de creuser l’écart des scores entre co-dérivé et faux
83
Chapitre 6. Analyse des résultats
positifs afin de pouvoir définir un simple seuil qui soit discriminant. Cet objectif est atteint
comme le montre les scores des cases (Min, 1ier ) et (Max, 2nd ). Le score obtenu par un
co-dérivé est en effet désormais toujours très largement supérieur au meilleur faux positif.
Un seuil défini entre le score minimal d’un co-dérivé et le score maximal du meilleur faux
positif permet donc d’établir une règle de décision simple et efficace afin de décider de la
présence d’un document audio co-dérivé dans la base de données. Par exemple, un seuil de
50.000 suffit pour identifier à 100% un extrait inconnu si un contenu co-dérivé est présent
dans la base de données ou bien, le cas échéant, confirmer que cet extrait est bien inconnu
du système.
84
7
droits
7.1 Introduction
l’usage de contenus sur un terminal dit (( conforme )). Ces règles comprennent l’acceptation
ou le refus de jouer un contenu, le stockage et la copie d’un contenu, ainsi que son échange
vers un autre terminal. Ces contenus peuvent alors provenir de différentes sources identifiées
qui sont : Internet, un réseau local, un média (CD, DVD, cartes, ...). Ces moyens de contrôle
contiennent des techniques de DRM mais peuvent ne pas se limiter à ces techniques.
Le but est d’offrir un système où les techniques actuelles de DRM collaboreraient avec de
reposeraient sur la détermination d’un identifiant unique pour chaque document multimédia
parties du contenu. Cette méthode ainsi que son comportement face aux tests réalisés ont
Cette technique d’identification reconnaı̂t un document original à partir d’un court ex-
85
Chapitre 7. Un scénario pour la gestion des droits
par DRM aurait été inefficace ou contournée. Le vocable ADRM a ainsi été choisi pour
représenter les deux aspects du contrôle : Analogiques basés sur l’identification du contenu,
et techniques de DRM.
86
7.2. Cadre de confiance
Sommaire
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.4 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.5 Prototypage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
L’ADRM opère dans le contexte défini par le TCG, le Trusted Computing Group, l’in-
sieurs grands acteurs du secteur informatique, et non phonographique, dont IBM, Hewlett-
Packard et Intel afin de proposer une méthode de certification universelle pour la sécurisation
machine, se charge de vérifier la conformité des éléments matériels et logiciels qu’elle utilise
au regard d’une liste d’outils préalablement définie. Les applications de cette technologie
sont nombreuses. Elle peut permettre de contrôler l’utilisation qui est faite d’un logiciel
cracks, ou de logiciels en contradiction avec les impératifs de droits d’auteur en traquant les
Cela permet de considérer un cadre matériel et logiciel au sein duquel ne pourraient être
utilisés que des logiciels conformes ayant satisfait les conditions de leur homologation et
donc de leur installation, comme par exemple l’acceptation d’une brique logicielle pour la
vérification des droits d’auteurs avant et/ou pendant la lecture d’un contenu (ADRM). Ce
cadre interdit donc tout logiciel pirate, de lecture ou de copie de contenu, qui ne répondrait
87
Chapitre 7. Un scénario pour la gestion des droits
pas aux conditions de mise en oeuvre de notre plug-in de gestion de l’utilisation de documents
Comme il l’a été précisé, notre proposition de gestion de documents audio s’appuie sur
notre méthode de reconnaissance basée sur le contenu lui-même, le signal audio. Le principe
est celui d’une liste blanche de documents audio dont l’utilisateur aurait acquis les droits,
cette liste étant stockée sur la machine de l’utilisateur et exportable sur chacun de ses
document est dérivé de l’un de ceux figurant dans la liste et dont on a acquis les droits, si non,
on arrête la lecture. C’est le fingerprinting. Cette technique est, comme son nom l’indique,
comparable au principe de contrôle d’accès d’un bâtiment qui se baserait sur l’empreinte
digitale des individus ayant l’autorisation d’y accéder. Il s’agit donc ici bien d’identification
et non d’authentification.
Comme nous l’avons vu, cette technique étant la pierre angulaire du système, elle im-
plique certaines exigences. Tout d’abord, le calcul de l’empreinte se doit d’être le plus in-
variant possible aux altérations du signal telle la compression afin de pouvoir être reconnu
efficacement. L’algorithme doit respecter d’autres contraintes pour permettre son intégration
sur un ordinateur familial voir un téléphone mobile. La vitesse d’exécution des étapes de
calcul de l’empreinte ou de reconnaissance doit être la plus rapide possible pour pouvoir être
réalisées en parallèle à la lecture. La taille de l’empreinte doit être la plus réduite possible
pour son stockage sur un ordinateur ou encore un mobile. Enfin, l’identification d’un mor-
ceau de musique par rapport à son empreinte doit intervenir à partir d’un court échantillon
du signal (environ 5sec) pris à n’importe quel moment de la lecture du signal. Enfin, et
d’un document dont l’empreinte est dans la base de données est équivalent à un refus de
service. Par conséquent, le taux de mauvais refusés se doit d’être extrêmement bas. Or nous
avons vu que notre technique, tant au niveau de l’algorithme de calcul de l’empreinte que
de la méthode utilisée pour identifier les extraits, satisfait l’ensemble de ces pré-requis et
88
7.4. Description
apporte une réelle amélioration de l’existant sur ces points. En effet, nous sommes main-
tenant capables de dire si les quelques secondes de musique que notre lecteur multimédia
est en train de jouer correspondent à un des documents présents dans notre liste blanche
de fichiers acquis légalement ou bien s’il s’agit d’un document inconnu pour la machine et,
7.4 Description
La figure 7.1 ci-dessous détaille ces modes de contrôle en fonction des différents types de
contenus reçus par un terminal conforme protégé par ADRM. Les tests que le terminal doit
faire avant d’accepter ce contenu sont de deux types, d’un côté les test DRM classiques et
signé un CD normal ayant un fichier de signature (donc qui reste lisible sur tout équipement
de lecture de CD classique). Cette signature est calculée par une autorité sur idf, et hash du
contenu originel.
Dans le cas a), le terminal fait l’acquisition d’un contenu acheté sur un serveur de distri-
bution de musique en ligne par le biais d’internet. Le contenu acheté et dont on a acquis les
89
Chapitre 7. Un scénario pour la gestion des droits
droits est protégé par des techniques de type DRM afin de contrôler les échanges et copies
de ce contenu. Lors de cette acquisition, la signature du document est aussi fournie afin
que l’identifiant calculé sur le contenu du document puisse être ajouté au cache interne du
terminal.
Le cas b) présente l’échange à partir d’un appareil conforme vers un autre terminal (par
internet, réseau local, flash, ...). Cet échange est régis par des technique de DRM classiques
Le cas c) montre l’import d’un contenu vers le terminal. Ce type d’import peut provenir
Le contenu est protégé par une DRM classique (pouvant donc provenir d’un autre termi-
nal du réseau local), on revient alors au cas a) Le contenu n’est pas protégé, on va chercher
Cas 1 : il existe sur le média un fichier signature. Il s’agit de ce que l’on appelle un CD
signé. La signature contient les empreintes des fichiers audio contenu sur le CD. On accepte
alors la lecture et si c’est la première lecture de ce média, les identifiants de chaque document
Cas 2 : Le cd ne contient pas de fichier signature mais est reconnu comme étant un CD
original produit par une maison de disque homologuée et acheté légalement sur le marché
comme original, son contenu peut être lu et s’il s’agit de sa première lecture, les identifiants
Cas 3 : L’ISRC n’est pas présent, il s’agit donc d’un CD gravé à partir de MP3. Lors de
la lecture d’un document contenu sur ce CD, son identifiant sera alors calculé et comparé
avec ceux contenus dans la liste blanche du terminal. Si l’identifiant est reconnu comme
lecture continu. Si on ne reconnaı̂t pas l’identifiant parmi ceux du cache, c’est qu’aucun
original de ce document n’a été lu par le terminal, donc aucune preuve de possession de
La lecture d’une copie bit à bit d’un original non régis par des DRM sera alors vérifiée
par le contrôle de la Burst Cutting Area qui est une section proche du centre du CD ou
90
7.5. Prototypage
DVD où des informations ne peuvent être écrites que par un laser de haute puissance. Par
conséquent, un graveur classique ne pourra écrire dans cette zone du CD ce qui permettra
7.5 Prototypage
Afin de montrer la validité de ces concepts nous avons construit un démonstrateur. Celui-
ci à été réalisé en collaboration avec Yves Feuillet de France Telecom qui a conçu le squelette
du player audio.Pour ce démonstrateur, on a voulu un design de player qui soit proche d’un
numérique. Si on coche la case (( contenu licencié )), on simule le fait que le contenu choisi
secondes à peine, la signature est calculée et sauvegardée. Si on lit ensuite une version
Par contre, si on tente de lire un autre contenu que celui ou ceux dont la signature a été
le cadre de la gestion des droits numériques avec pour résultat la gestion et le contrôle de
91
Chapitre 7. Un scénario pour la gestion des droits
92
8
Conclusion et perspectives
93
Chapitre 8. Conclusion et perspectives
Sommaire
8.1 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
8.2.1 Améliorations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
8.2.2 Utilisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
8.3 Publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.1 Contributions
Le but de cette thèse était de définir une méthode d’identification de contenus audio qui
soit à la fois légère (en termes de temps de calcul et de capacité disque) et qui présente
un faible taux de faux négatifs. Nous avons établi un état de l’art des diverses méthodes
de ces mesures définit une empreinte qui caractérise le signal. Nous avons étudié plusieurs
pistes et plus particulièrement une étude spatio-fréquentielle utilisant des mesures déduites
de la transformée de Fourrier sur de courtes fenêtre prises le long du signal (Section 4.2).
Cependant, nous avons observé qu’il était plus rapide d’utiliser uniquement une description
temporelle et que cette seule propriété apportait finalement de meilleurs résultats qu’une
utilisation combinée de propriétés fréquentielles et temporelles. Nous avons donc défini une
méthode de détection d’intervalles de haute énergie dans le signal et construit notre em-
preinte comme la concaténation des écarts entre ces pics de haute énergie (Section 4.3).
Cette segmentation contrainte du signal induit des empreintes présentant une très forte
94
8.1. Contributions
produites est inférieure d’un facteur au moins 10 aux empreintes basées sur des fenêtres glis-
santes. Ce type d’empreinte n’est pas robuste aux altérations qui accélèrent ou ralentissent
un signal. Toutefois, très peu d’internautes téléchargeant des fichiers illégaux appliquent de
telles dégradations qui modifient de façon importante le signal et donc la qualité d’écoute
Le seconde étape consiste à comparer une empreinte avec une base de données. Nous
avons proposé deux méthodes. La première (Section 5.2) est basée sur un score qui approxime
deux empreintes. Cette méthode est très efficace pour indexer des documents puisque dans
toutes nos expériences le score entre un document original et un document dégradé est
toujours supérieur au score établi entre ce même document original et un document différent
(non co-dérivé). Cette propriété garantit que le document original, s’il est présent dans la
base sera celui obtenant le meilleur score. Toutefois, ce score n’est pas suffisant pour identifier
un document puisque le score entre deux documents co-dérivés peut être inférieur au score
entre deux documents qui ne le sont pas. On ne peut donc pas fixer un seuil sur le score
peut toutefois identifier tout de même des document en considérant non pas les scores mais
le rapport des scores entre le premier et le second document de la base classés par ordre
croissant.
Cette première expérience nous a conduit à conclure qu’un simple comptage des q-grams
bien qu’ extrêmement utile, n’était pas suffisant pour identifier des contenu co-dérivés. Nous
avons donc élaboré une nouvelle méthode (Section 5.3) qui combine l’indexation par q-grams
à une nouvelle distance d’édition entre chaı̂nes. Cette distance permet de favoriser de longues
nous avons menées nous ont montré que cette méthode classe toujours premier un document
co-dérivé et que l’écart entre deux contenu co-dérivés et deux contenus qui ne le sont pas
est suffisamment important pour que l’on puisse facilement positionner un seuil permettant
95
Chapitre 8. Conclusion et perspectives
8.2 Perspectives
concernent d’une part les améliorations que l’on peut apporter à notre méthode d’identifi-
cation et d’autre part les nouvelles applications industrielles qui pourraient être imaginées
8.2.1 Améliorations
travail avait été initié lors d’un projet d’école d’ingénieur mais n’a pas assez abouti. Il s’agi-
rait de combiner notre technique de filtrage par q-grams avec une indexation de la base de
données en fonction de ces mêmes q-grams. Pour une taille de q-gram fixée (disons 5), une
table des valeurs possible de ces q-grams serait construite afin d’accéder plus rapidement aux
étudiées afin, d’améliorer encore les résultats de l’identification par appariement de chaı̂nes.
notre méthode de segmentation vis a vis de dégradations spécifiques. Enfin, les résultats ob-
tenus étant réellement très encourageants une utilisation sur une base de données contenant
des millions de documents ainsi qu’une mise en oeuvre au sein d’un dispositif portable nous
8.2.2 Utilisations
ont déjà été cités en introduction de ce mémoire. Cependant, d’autres applications pour-
raient voir le jour. En effet, une vidéo contenant une bande son, notre technique pourrait
être utilisée pour identifier une vidéo à partir de sa bande sons. Elle pourrait aussi collaborer
avec une technique d’extraction d’empreintes vidéo basée image afin de définir une empreinte
96
8.3. Publications
image-audio qui décrive parfaitement un document vidéo. Nous pourrions également étudier
l’identification). Une application de ces techniques pourrait par exemple consister à insérer
une base de données associant sons-objets dans un téléphone portable afin d’apporter une
aide aux personnes sourdes ou malentendantes. Ainsi, les sons de la vie quotidienne, ap-
pareils ménagers ou bruits extérieurs, pourraient faire vibrer le téléphone portable et ainsi
la personne pourrait lire à l’écran que tel objet a émis tel bruit. Les applications possibles
d’une telle adaptation sont tellement variées qu’il est difficile de les énumérer. Cependant, si
les empreintes et les fonctions de scores que nous avons proposées sont suffisament flexibles
pour être adaptées au cadre de la classification , cette thèse pourait servir de socle commun
à de nombreuses applications.
8.3 Publications
Jérôme Lebossé, Luc Brun and Jean Claude Pailles, ”A Robust Audio Fingerprint Ex-
Jérôme Lebossé, Luc Brun and Jean Claude Pailles, ”A Robust Audio Fingerprint’s Based
Jose Miguel Benedi, Ana Maria Mendonca and Joan Serrat, LNCS, Volume I, number 4477,
Jérôme Lebossé, Luc Brun et Jean Claude Pailles, ”Fingerprint audio robuste pour la
97
Chapitre 8. Conclusion et perspectives
Jérôme Lebossé, Luc Brun et Jean Claude Pailles, ”Identification de signaux audio par
98
8.3. Publications
Brevet :
Présentations :
obtenus.
Présentation à la journée thématique du GdR ISIS sur la protection des données mul-
timédia. ”Contrôle de l’utilisation de documents audio dans le respect des droits d’auteurs
99
Chapitre 8. Conclusion et perspectives
100
Bibliographie
based identification of audio material using mpeg-7 low level description. Proc. Of the
[2] M. Alonso, B. David, and G. Richard. Tempo and beat estimation of musical signals,
2004.
[3] M. Alonso, G. Richard, and B. David. Extracting note onset from musical recordings,
2005.
[4] J. Bello, C. Duxbury, M. Davies, and M. Sandler. On the use of phase and energy
for musical onset detection in the complex domain. IEEE Signal Procesing letters,
C. Meek, M. Mellody, and W. Rand. Musart : Music retrieval via aural queries, 2001.
[6] J. Bruck, S. Bres, and D. Pellerin. Construction d’une signature audio pour l’indexation
[7] C. Burges, D. Plastina, J. Platt, E. Renshaw, and H. Malvar. Using audio fingerprinting
[8] C. Burges, J. Platt, and S. Jana. Distorsion discriminant analysis for audio fingerprn-
ting. IEEE Transactions on Speech and Audio Processing, 11(3) :165–174, 2003.
[9] P. Cano, E. Batlle, H. Mayer, and H. Neuschmied. Robust sound modeling for song
101
Bibliographie
[10] W. Chang and T. Marr. Approximate string matching and local similarity. In M. Cro-
5th Annual Symposium, volume 807 of Lecture Notes in Computer Science, pages 259–
[11] C. Charras and T. Lecroq. Handbook of Exact string matching algorithms. King’s
[13] M. Covell and S. Baluja. Known audio detection using waveprint : spectrogram finger-
[14] M. Crochemore and W. Rytter. Text algorithms. Oxford University Press, 1995.
[15] F. Desobry, M. Davy, and C. Doncarli. An online kernel change detection algorithm.
[17] S. Dixon. Automatic extraction of tempo and beat from expressive performances, 2001.
[19] P. Doets, M. Gisbert, and R. Lagendijk. On the comparison of audio fingerprints for
[21] D. Duxbury, M. Sandler, and M. Davies. A hybrid approach to musical note detection.
In Proc. of Digital Audio Effects Workshop (DAFx), pages 33–38, Hamburg, Germany,
2002.
[22] P. Flajolet. Random tree models in the analysis of algorithms. In Performance, pages
171–187, 1987.
[23] B. Gajic and K. Paliwal. Robust feature extraction using subband spectral centroid-
histograms, 2001.
102
[24] M. Goto. An audio-based real-time beat tracking system for music with or without
parison of audio tempo induction algorithms. IEEE Transactions on Speech and Audio
[26] F. Gouyon, F. Pachet, and O. Delerue. the use of zerocrossing rate for an application
[28] S. Hainsworth and M. Macleod. Onset detection in musical audio signals. In Proceedings
sounds, 2003.
[30] P. Herrera, X. Serra, and G. Peeters. Audio descriptors and descriptor schemes in the
[31] T. Hoad. Video Representations for Effective Rettrieval From Large Collections. PhD
[32] T. Hoad and J. Zobel. Video similarity detection for digital rights management. In
[33] O. Izmirli. Using a spectral flatness based feature for audio segmentation and retrieval,
2000.
[34] P. Jokinen and E. Ukkonen. Two algorithms for approximate string matching in static
[35] B. Juang. Speech, acoustics and audio processing for multimedia, 1997.
[36] T. Kalker and J. Haitsma. A highly robust audio fingerprinting system. In Proceedings
[37] T. Kalker and J. Haitsma. A highly robust audio fingerprinting system. In Proceedings
103
Bibliographie
[39] A. Klapuri, A. Eronen, and J. Astola. Analysis of the meter of acoustic musical signals,
2005.
[40] F. Kurth. A ranking technique for fast audio identification. In Proceedings of the
[41] Y. Li and Y. Hou. Search audio data with the wavelet pyramidal algorithm. In Inf.
[42] D. Liu, L. Lu, and H. J. Zhang. Automatic mood detection from acoustic music data,
1998.
[43] B. Logan. Mel frequency cepstral coefficients for music modelling. In Proc. of the Int.
[44] M. F. Mckinney. Features for audio and music classification. In Proceedings of the
[45] M. Mihçak and R. Venkatesan. A perceptual audio hashing algorithm : a tool for robust
2001.
[46] P. Nicodeme. Q-grams analysis and urn models. In Proceedings of Discrete Random
[49] G. Peeters. Toward automatic music audio summary generation from signal analysis,
2002.
[51] E. Scheirer. Tempo and beat analysis of acoustic musical signals, 1998.
104
[54] W. Szpankowski. Asymptotic properties of data compression and suffix trees. IEEE-
[55] G. Tzanetakis, G. Essl, and P. Cook. Audio analysis using the discrete wavelet trans-
[56] G. Tzanetakis, G. Essl, and P. Cook. Automatic musical genre classification of audio
2002.
[57] C. Uhle and J. Herre. Estimation of tempo, micro time and time signature from per-
[60] L. Ying. Search audio data with wavelet packet best base and pyramidal algorithm.
[61] A. Zils and F. Pachet. Extracting automatically the perceived intensity of music titles,
2003.
105
Bibliographie
106
9
Annexe
2
9.1 Calcul de la moyenne γbc et de la variance σbc
ar bs
r!s!
Démonstration :
P+∞ 1
eaz+bt = n=0 n! (az + bt)n
P+∞ 1
Pn
= n=0 n! k=0 Cnk (az)k (bt)n−k
1
[z r ts ]eaz+bt = r r s
(r+s)! Cr+s a b
ar bs
= r!s!
m−1
F (z, t, u) = Πi=0 epi (z+t) + (u − 1)(epi z + epi t − 1)
107
Chapitre 9. Annexe
1
pi = p = , ∀i ∈ {0 . . . , m − 1}
m
et F (z, t, u) s’écrit :
m
F (z, t, u) = ep(z+t) + (u − 1)(epz + ept − 1)
On a donc :
m−1
∂F = m ep(z+t) + (u − 1)(epz + ept − 1) (epz + ept − 1)
∂u
d’où :
∂F | = mep(m−1)(z+t) (epz + ept − 1)
∂u u=1
= mept(m−1)+z + mepz(m−1)+t − mep(m−1)(z+t)
En utilisant le fait que F est issue d’une double Poissonisation, nous obtenons la définition
On obtient donc :
γbc = m − µbc
108
2
9.1. Calcul de la moyenne γbc et de la variance σbc
1
γbc ≈ bcp − bc(c + b − 2)p2 + O(p3 )
2
2 (2) (2)
σbc = mbc − µ2bc avec mbc = b!c![z b tc ]m(2) (z, t)
où :
∂ ∂F (z, t, u) ∂F (z, t, u) ∂ 2 F (z,t,u)
m(2) (z, t) = u |u=1 = |u=1 + |u=1
∂u ∂u ∂u ∂u2
im−2
∂ 2 F (z,t,u) 2 h p(z+t)
∂u2 = m(m − 1) ept + epz − 1 e + (u − 1)(ept + epz − 1)
Donc :
1 ∂ 2 F (z,t,u) 2
m(m−1) ∂u2 |u=1 = (ept + epz − 1) ep(m−2)(z+t)
−2ep(m−2)z+p(m−1)t − 2ep(m−2)t+p(m−1)z
∂ ∂F (z, t, u)
∂u u |u=1 = mept(m−1)+z + mepz(m−1)+t − mep(m−1)(z+t)
∂u
+m(m − 1)ep(m−2)(z+t) + m(m − 1)ep(m−2)z+t
109
Chapitre 9. Annexe
(2)
mbc = mpc (m − 1)c + mpb (m − 1)b − mpb+c (m − 1)b+c + m(m − 1)pb+c (m − 2)b+c
(2)
pmbc = (1 − p)c + (1 − p)b − (1 − p)b+c + (m − 1)(1 − 2p)b+c
p2 (2)
1−p mbc = p(1 − p)c−1 + p(1 − p)b−1 − p(1 − p)b+c−1 + (1 − 2p)b+c
De plus :
1 2
µ2bc = (1 − p)c + (1 − p)b − (1 − p)b+c
p2
On a donc :
(2)
p2 σbc
2
= p2 mbc − p2 µ2bc
c−1 b−1 b+c−1 b+c b c
p(1 − p) + p(1 − p) − p(1 − p) + (1 − 2p) + (1 − 2p) + (1 − 2p)
= (1 − p)
b+c b c c b
+2(1 − p) − 2(1 − p) (1 − 2p) − 2(1 − p) (1 − 2p)
2
− (1 − p)c + (1 − p)b − (1 − p)b+c
2 1
σbc ≈ bcp − (3cb2 + (3c2 − 4c)b)p2 + O(p3 )
2
110
Index
Échantillonnage, 13 Numérisation, 13
Échantillonnage, 13
Alignement local, 53
quantification, 15
Analog hole, 6
7
Poissonisation, 57
Appariement de chaı̂nes, 53
q-gram, 55
Co dérivé, 4
Quantifiation, 15
Collision, 57
Bicolores, 57 Recouvrement, 26
Compression, 20
Séquence d’édition, 35
Descripteurs audio Secure Digital Music Initiative (SDMI), 6
de bas niveau, 3, 19 Segmentation, 26
de haut niveau, 3, 18 Shannon (Théorème de), 14
de niveau intermédiaire, 3, 18 Sous-empreinte, 4, 29
Digital Right Management (DRM), 5
Taux
Distance d’édition, 63
de reconnaissance, 72
Empreinte, 3
de reconnaissance total, 72
Sous empreinte, 29
de segmentation, 72
Masquage, 12
111