Emiya 2008 These
Emiya 2008 These
Emiya 2008 These
Valentin Emiya
Thèse
présentée pour obtenir le grade de docteur
Valentin EMIYA
Transcription automatique de la musique
de piano
Remerciements
Remerciements 3
Notations 15
Introduction 17
1 État de l’art 23
1.1 Motivations et questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1.1 La transcription : information, variables et organisation . . . . . . . 23
1.1.2 Quelles méthodes pour la transcription ? . . . . . . . . . . . . . . . . 24
1.1.3 Pourquoi se restreindre au piano ? . . . . . . . . . . . . . . . . . . . 24
1.2 Estimation de hauteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2.1 Perception de la hauteur . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2.2 Méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3 Estimation de fréquences fondamentales multiples . . . . . . . . . . . . . . . 29
1.3.1 Estimation itérative des fréquences fondamentales . . . . . . . . . . . 30
1.3.2 Estimation jointe des fréquences fondamentales . . . . . . . . . . . . 31
1.3.3 Estimation de la polyphonie . . . . . . . . . . . . . . . . . . . . . . . 32
1.4 Systèmes de transcription automatique . . . . . . . . . . . . . . . . . . . . . 32
1.4.1 Approches à base de paramétrisation et d’heuristiques . . . . . . . . 33
1.4.2 Approches avec apprentissage préalable . . . . . . . . . . . . . . . . 34
1.4.3 Approches avec apprentissage en ligne . . . . . . . . . . . . . . . . . 35
1.4.4 Approches bayésiennes . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.4.5 Traitement de l’information de haut-niveau . . . . . . . . . . . . . . 39
1.5 Transcription automatique de piano . . . . . . . . . . . . . . . . . . . . . . 39
1.5.1 Éléments de physique du piano, caractérisation des sons . . . . . . . 39
1.5.2 Systèmes de transcription de piano . . . . . . . . . . . . . . . . . . . 45
1.6 Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6 Évaluation 125
6.1 Méthodes d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.1.2 Évaluation subjective des erreurs typiques de transcription . . . . . . 129
6.1.2.1 Principe du test et protocole . . . . . . . . . . . . . . . . . 129
6.1.2.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.1.3 Critères perceptifs d’évaluation . . . . . . . . . . . . . . . . . . . . . 132
6.1.3.1 Extraction des coefficients de pondération . . . . . . . . . . 133
6.1.3.2 F-mesure perceptive . . . . . . . . . . . . . . . . . . . . . . 134
6.1.3.3 PTD perceptive . . . . . . . . . . . . . . . . . . . . . . . . 135
6.1.3.4 Application à l’évaluation subjective de transcriptions mu-
sicales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.2 Base d’évaluation MAPS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
6.2.1 Vue d’ensemble de la base . . . . . . . . . . . . . . . . . . . . . . . . 138
6.2.2 Contenu détaillé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
6.2.2.1 ISOL : base de notes isolées et autres extraits monophoniques140
6.2.2.2 RAND : base d’accords tirés aléatoirement . . . . . . . . . 140
6.2.2.3 UCHO : base d’accords usuels . . . . . . . . . . . . . . . . 141
6.2.2.4 MUS : base de morceaux de musique . . . . . . . . . . . . . 141
6.2.3 Dispositif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.3 Évaluation des algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.3.1 Estimation de fréquences fondamentales multiples . . . . . . . . . . . 145
6.3.2 Système de transcription . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
ANNEXES 161
Bibliographie 179
8 TABLE DES MATIÈRES
Notations
, Définition
#E Cardinal de l’ensemble E
⊗ Convolution circulaire
Acronymes
F0 fréquence fondamentale
Introduction
Pour l’être humain, le son n’a essentiellement d’intérêt qu’en tant que porteur de sens,
et non comme vibration physique. La voix parlée porte le langage, la musique une intention
artistique et les sons ambiants une image du milieu environnant. Le fonctionnement physio-
logique sous-jacent est hautement élaboré et notre compréhension du processus partielle. Il
en est de même des capacités actuelles à reproduire cette analyse via l’outil informatique :
sur bien des points, ses capacités n’égalent pas celles de l’être humain lorsqu’il s’agit de
reconnaissance de la parole ou des instruments de musique à partir du son, pour ne citer
que ces exemples. Dans cette thèse, nous nous intéressons au cas de la musique, et plus
particulièrement de la musique de piano, pour lequel nous chercherons à extraire les notes
jouées présentes dans un son en utilisant les outils informatiques et de traitement du signal.
La transcription de la musique
Nous appellerons transcription musicale une description symbolique de l’exécution d’un
morceau de musique. Dans cette acception, transcrire consiste à analyser le son enregistré
ou entendu pour en extraire des informations, c’est-à-dire le contenu faisant sens. Alors que
dans le domaine voisin du traitement de la parole, la transcription d’une conversation ou
d’un discours a pour but d’extraire les mots et phrases énoncés, la transcription musicale
aura avant tout pour objectif d’estimer les notes jouées et leur paramètres : leurs hauteurs,
instants d’attaque, durées, et éventuellement des informations de plus haut niveau telles
que les figures rythmiques, la mesure ou l’armure.
Avant de rentrer dans le détail des travaux de cette thèse, il faut par ailleurs noter que
dans un contexte musical, le terme de transcription peut également désigner une forme
d’arrangement consistant en la ré-écriture d’une partition pour une instrumentation autre
que l’originale : la réduction pour piano d’une pièce symphonique (comme celles de Liszt
des symphonies de Beethoven) ou une orchestration (telle que celle réalisée par Ravel des
Tableaux d’une exposition pour piano de Moussorgski) sont des exemples de transcriptions
au sens d’arrangement. Dans cette thèse, nous écarterons ce sens du mot transcription
pour ne garder que celui faisant référence au passage d’un enregistrement à une description
symbolique.
inexistant. La difficulté croît ensuite sur plusieurs plans : augmentation de la complexité des
mélodies, des rythmes et du contenu tonal/atonal, dictées à plusieurs voix, dictées d’accord,
etc. Si cet apprentissage constitue une forme d’éducation de l’oreille du musicien qui lui
est ensuite utile en situation de jeu, celui-ci rencontre d’autres occasions spécifiques de
transcrire la musique qu’il entend. Le musicien de jazz est ainsi souvent amené à transcrire
des solos, séquences improvisées pour lesquelles il n’existe pas de partition préalable, et en
situation de jeu, doit avoir une oreille suffisamment entraînée pour reconnaître et suivre
sur le vif les tonalités jouées par les musiciens qui l’entourent.
La transcription devient automatique lorsqu’elle est réalisée non plus par un être hu-
main mais par un programme informatique. Dans ce cadre, la pièce à transcrire se présente
comme un fichier son – de type .wav ou .mp3 par exemple – et la transcription générée
prend la forme d’un fichier MIDI ou équivalent, approprié pour la représentation et le
stockage de l’information extraite.
travaux, établissant ainsi les spécificités de notre approche. L’état de l’art à proprement
parler comportera ensuite quatre parties principales : la présentation de la problématique
de l’estimation de hauteur, avec son ancrage dans la perception et les principes d’estimation
les plus répandus ; la description des approches d’estimation de fréquences fondamentales
multiples, module souvent central dans la transcription automatique ; un panorama des
nombreux systèmes de transcription automatique proposés depuis une trentaine d’années ;
enfin, dans le cadre de la transcription automatique de piano, un aperçu de la physique
de l’instrument et des systèmes de transcriptions déjà proposés. Le chapitre se terminera
par une série de questions qui posent notre problématique et auxquelles nous souhaiterions
répondre.
Le chapitre 2 abordera la question de la caractérisation spectrale de sons de
piano pour la transcription. Après avoir présenté quelques modèles sinusoïdaux utiles par
la suite pour décrire le contenu des sons, nous nous intéresserons à deux aspects spécifiques
du piano – la distribution inharmonique des fréquences de ses partiels et la modélisation
de l’enveloppe spectrale des notes – et à la modélisation du bruit. Nous proposerons alors
des modèles et des algorithmes adaptés à l’instrument et à la tâche de transcription.
Dans le chapitre 3, nous nous intéresserons à l’estimation de fréquences fonda-
mentales dans un contexte particulier rencontré avec le piano : la double contrainte d’une
fenêtre d’analyse courte et d’un registre étendu. De manière générale, l’utilisation d’une
petite fenêtre d’analyse est un défi lorsque l’on analyse des signaux audio, qu’ils soient
de musique ou de parole, en raison de leur pseudo-stationnarité et du compromis temps-
fréquence auquel on est rapidement confronté. Ces conditions d’analyse difficiles sont
largement réunies dans le cas du piano où la musique peut être véloce, et les notes alors
très courtes, alors que les fréquences fondamentales s’étendent, du grave à l’aigu, sur une
des plus grandes tessitures que l’on puisse rencontrer. Dans ce cadre, nous proposerons
une méthode d’estimation de notes isolées qui offre des performances satisfaisantes sur
l’ensemble de la tessiture (fréquences fondamentales comprises entre 27, 5 et 4200 Hz, soit
71 /4 octaves) en utilisant une fenêtre d’analyse de 60 ms (contre 93 ms en général).
Dans le chapitre 4, nous développerons une méthode d’estimation de fréquences
fondamentales multiples reposant sur des modèles paramétriques d’enveloppe spectrale
des notes (modèle autorégressif) et du bruit (modèle à moyenne ajustée). Ces modèles
s’intègrent dans un cadre statistique à partir duquel nous proposons une résolution à base
de maximum de vraisemblance. La technique proposée repose sur une estimation jointe des
fréquences fondamentales multiples dans le domaine spectral et comporte l’estimation du
degré de polyphonie (nombre de notes).
Dans le chapitre 5, nous proposerons un système complet de transcription automa-
tique de la musique de piano. Nous y adopterons une stratégie de transcription liée aux
spécificités du piano et de son répertoire. Il en résultera un cadre dans lequel le signal est
segmenté en fonction des attaques détectées. Chaque segment sera ensuite analysé grâce à
un modèle de Markov caché dans lequel la méthode d’estimation de fréquences fondamen-
tales multiples du chapitre 4 est utilisée. Le système de transcription permettra d’analyser
tout morceau de piano enregistré dans des conditions usuelles, tous styles confondus, avec
des limites raisonnables, que nous détaillerons, en termes de polyphonie, de vélocité, et de
tessiture.
Le chapitre 6 sera consacré à l’évaluation des transcriptions automatiques. La ques-
tion a été approfondie selon deux axes. Nous nous intéresserons tout d’abord aux méthodes
d’évaluation, et proposons en particulier un raffinement des métriques usuelles. L’étude par-
tira du constat des limites des systèmes d’évaluation courants et s’appuiera sur les résultats
21
d’un test perceptif pour proposer une pondération des erreurs typiques. Nous verrons éga-
lement comment déterminer dans quelle mesure une métrique d’évaluation donnée remplit
effectivement sa fonction. Dans la deuxième partie du chapitre, nous détaillerons le contenu
d’une base de données que nous avons constituée spécifiquement pour l’estimation de fré-
quences fondamentales multiples et la transcription automatique de la musique de piano.
Elle regroupera des séries de notes isolées, d’accords aléatoires et d’accords typiques, et de
morceaux de musique, en faisant varier plusieurs paramètres tels que les nuances, les durées,
ou l’utilisation de la pédale forte. Les enregistrements proviennent d’un piano ayant un
dispositif d’entrée et sortie MIDI et de logiciels de synthèse de qualité, permettant dans les
deux cas de disposer de références très précises sur le contenu des fichiers. Dans la dernière
partie de ce chapitre, nous évaluerons notre algorithme d’estimation de fréquences fonda-
mentales multiples et notre système de transcription et proposerons une analyse détaillée
et comparative des résultats.
Pour terminer ce mémoire de thèse, notre conclusion établira un bilan de nos contribu-
tions avant de proposer quelques perspectives.
22 Introduction
23
Chapitre 1
État de l’art
avec
H
X
sf0 ,a,ϕ (t) = 2ah cos (2πhf0 t + ϕh ) (1.6)
h=1
Les paramètres du modèle sont les amplitudes réelles positives a , (a1 , . . . , aH ) et les
phases initiales ϕ , (ϕ1 , . . . , ϕH ) sur [0; 2π[ des composantes, la fréquence fondamentale
f0 , et la variance σw2 du bruit. Si l’on observe le signal sur un nombre entier de périodes
T −1
T 1 X
L 2
x|a, ϕ, f0 , σw 2
= − log 2πσw − 2 (x (t) − sf0 ,a,ϕ (t))2 (1.7)
2 2σw
t=0
On montre alors (cf. annexe B.1 (p. 173)) que la solution au sens du maximum de
vraisemblance revient à maximiser la fonction
H
X
f0 7→ |X (hf0 )|2 (1.8)
h=1
Dans le domaine temporel, l’autocorrélation du signal, dont une étude de référence a été
établie par Rabiner [1977], est la méthode temporelle élémentaire pour l’estimation de la
29
hauteur, étant donnée sa place dans l’explication de la perception de la hauteur. Wise et al.
[1976] justifient par ailleurs son utilisation via le principe de maximum de vraisemblance
d’une façon très similaire à celle présentée précédemment dans le cas spectral.
Comme dans le cas précédent avec la somme spectrale et le produit spectral, de nom-
breuses méthodes temporelles peuvent être interprétées comme des variantes de l’autocor-
rélation. C’est en particulier le cas de plusieurs approches qui partent de l’autocovariance
comme transformée de Fourier inverse du périodogramme, et qui proposent de substituer
d’autres fonctions au périodogramme. En prenant le logarithme du module de la transfor-
mée de Fourier, on obtient ainsi le cepstre [Noll, 1967], alors qu’en modifiant son exposant,
quadratique à l’origine, Indefrey et al. [1985] et Tolonen et Karjalainen [2000] étudient
les conséquences d’une telle compression. Ross et al. [1974] comparent l’autocorrelation
et l’AMDF (Average Magnitude Difference Function), de Cheveigné et Kawahara [2002]
montrent ensuite la relation qui les unit et développent l’estimateur de hauteur YIN, et
Klapuri [2005, 2008] s’appuie sur le principe d’autocorrélation en modifiant complètement
l’étape d’inversion de la transformée de Fourier.
Pour conclure cette partie, nous pouvons nous pencher sur les limites d’une classifica-
tion des méthodes d’estimation de hauteur en deux classes, les méthodes temporelles et
spectrales. Considérons une fonction temporelle g(t) comme l’autocorrélation ou le cepstre,
s’exprimant comme la tranformée de Fourier inverse d’une quantité spectrale S(f ), qui est
l’estimée du périodogramme pour l’autocorrélation ou le logarithme de l’amplitude du
spectre pour le cepstre : on a g(t) = F −1 [S(f )]. On peut alors dire que g(t) mesure
donc la présence de pics régulièrement espacés dans S(f ), ou encore que, selon une vision
« pattern matching », g(t) mesure la similarité de S(f ) avec le motif e2iπf t périodique
de période 1t . On peut ainsi avoir des interprétations fréquentielles de méthodes tempo-
relles. Cette vision unificatrice de l’approche temporelle et fréquentielle reste discutable,
car s’il y a des cas où elle s’applique très bien, comme celui de Klapuri [2005] dont nous
avons que la méthode temporelle s’interprète aussi sous forme spectrale, il existe aussi des
moyens de tirer parti d’une méthode temporelle et d’une méthode fréquentielle de façon
complémentaire [Peeters, 2006].
une hauteur unique revient à détecter la plus petite périodicité d’un signal, on ne peut
transposer la méthode dans le cas de hauteurs multiples, détecter « plusieurs périodicités »
n’ayant pas de sens. De même, d’un point de vue spectral, estimer la fréquence fondamen-
tale d’un peigne harmonique ne présente pas d’ambiguïté, alors qu’une somme de peignes
harmoniques peut être associée à plusieurs ensembles de fréquences fondamentales (on a
par exemple la liberté d’ajouter les octaves) et donne lieu au mieux à un problème arith-
métique non trivial [Klapuri, 1998], et au pire, dans le cas de l’octave par exemple, à un
problème mal posé. Ainsi, deux difficultés liées aux rapports harmoniques entre fréquences
fondamentales se conjuguent dans le cas de l’estimation de fréquences fondamentales mul-
tiples. La première, héritée du cas monophonique, est la tendance à confondre la véritable
fréquence fondamentale avec les fréquences fondamentales en rapport harmonique. La se-
conde s’ajoute à la première dans le cas polyphonique : il s’agit non seulement de pouvoir
choisir entre deux notes (ou davantage) en rapport harmonique, mais également d’être
capable de déterminer si les deux notes sont présentes simultanément.
Il apparaît donc que poser le problème de l’estimation de fréquences fondamentales
multiples est une tâche délicate qui consiste à caractériser le mélange obtenu à partir de
plusieurs notes avec toutes les ambiguïtés que l’opération de mélange peut introduire, et
avec une nouvelle dimension à traiter, le degré de polyphonie. Nous allons maintenant voir
comment les nombreux travaux qui s’y sont consacrés abordent la question, en continuant
de s’appuyer sur le caractère harmonique des notes, et en exploitant plus en profondeur
d’autres informations, en particulier la notion d’enveloppe spectrale.
Une telle approche nécessite la réalisation de quatre tâches : la sélection d’une note
prédominante dans le signal, l’estimation de sa contribution, sa soustraction au signal et
l’évaluation de la condition d’arrêt. La sélection d’une note prédominante repose souvent
sur un critère énergétique, qui correspond parfois à une méthode d’estimation conçue pour
le cas monophonique. Par exemple, le maximum du produit spectral (cf. équation (1.3))
31
Figure 1.3 – Spectral smoothness : le lissage de l’enveloppe spectrale (trait épais) permet
d’estimer la contribution d’une note (trait fin) (Source : Klapuri [2003]).
est un bon candidat. Une fois la fréquence fondamentale prédominante estimée, les autres
tâches constituent le véritable défi introduit lors du passage de la monophonie à la poly-
phonie. L’estimation du signal correspondant à la fréquence fondamentale sélectionnée et
sa soustraction se font en général approximativement, car le recouvrement spectral entre
les notes ne permet pas de séparer complètement la contribution de la note à extraire du
reste du mélange. Une solution consiste à exploiter l’information portée par l’enveloppe
spectrale, courbe qui relie, dans le domaine fréquentiel, les amplitudes ou les énergies
des partiels d’une note. Le principe de spectral smoothness (régularité de l’enveloppe spec-
trale) introduit par Klapuri [2003] fait référence. Il permet d’estimer cette contribution en
s’appuyant sur le caractère régulier de l’enveloppe spectrale des notes de la majorité des
instruments. Une hauteur n’est plus caractérisée uniquement en fonction de l’énergie des
partiels pris individuellement, mais également selon une contrainte d’énergie relative entre
partiels. De cette façon, en cas de recouvrement spectral, l’amplitude ou l’énergie d’un
partiel est déterminée comme une valeur moyenne ou médiane des amplitudes des par-
tiels d’ordres voisins. Les amplitudes ainsi estimées (cf. figure 1.3) sont alors soustraites.
Yeh et al. [2005] reprennent ce principe et y ajoute une contrainte d’enveloppe tempo-
relle régulière. Par ailleurs, la qualité du résiduel est améliorée par Klapuri [2008] qui le
calcule à chaque itération en utilisant le signal original, plutôt que le résiduel obtenu à
travers les itérations précédentes, et en lui soustrayant les contributions réestimées de l’en-
semble des notes extraites successivement. Une soustraction partielle permet également de
ne pas soustraire totalement la contribution estimée, afin d’éviter que le résiduel soit trop
« creusé ».
Enfin, la condition d’arrêt est en général difficile à élaborer et fait intervenir un seuil
sur l’énergie ou le rapport signal à bruit dans le résiduel (cf. partie 1.3.3).
proximative, comme le montrent les taux de soustraction introduits [Klapuri, 2003, 2008].
Le résiduel obtenu à chaque itération est donc imparfait : il peut comporter des compo-
santes parasites provenant de candidats mal soustraits ou au contraire avoir été privé de
composantes lors d’une soustraction trop importante. Cela est sans doute inévitable lorsque
l’on veut estimer un candidat prédominant en l’absence d’informations sur le résiduel. Es-
timer les hauteurs de façon conjointe peut alors sembler plus efficace.
Cependant, au premier abord, l’approche jointe ne peut être appliquée avec une poly-
phonie élevée : sa complexité est importante en raison du grand nombre de combinaisons de
fréquences fondamentales à examiner. En effet, s’il y a N notes potentielles et une polypho-
nie maximale Pmax , l’estimation itérative consistera à chercher une note parmi N à chaque
itération, impliquant au maximum N Pmax évaluations, alors que l’estimation
P max Njointe
devra
tester toutes les combinaisons de 1, 2, . . . , Pmax notes parmi N , soit Pp=0 p . Une telle
complexité (2 dans le cas Pmax = N ) reste abordable pour des polyphonies faibles [de Che-
N
veigné et Kawahara, 1999] mais n’est pas envisageable dans le cas de la musique en général.
Le cadre des approches bayésiennes (cf. partie 1.4.4 (p. 36)) offre des stratégies plus effi-
caces pour converger vers la solution. Une autre possibilité est d’estimer conjointement la
contribution des N notes par moindres carrés [Bello et al., 2006].
les représentations de mi-niveau (cf. partie 1.1.1 (p. 23)). À travers cette première
étape, la forme d’onde du signal est analysée pour obtenir une représentation mettant
en valeur des informations caractéristiques du signal telles que son contenu fréquen-
tiel. Dans un second temps, les techniques de niveau intermédiaire qui, à partir de
l’analyse précédente, traitent le problème, c’est-à-dire l’estimation des notes dans le
cas présent ;
– le problème des fréquences fondamentales en rapport harmonique et du recouvrement
spectral entre notes ;
– la question de l’estimation des notes à partir de l’intégration temporelle du contenu
fréquentiel du son ;
– la définition de la transcription automatique et des éléments à transcrire : de la note à
l’instrument, en passant par la tonalité, la mélodie, le tempérament, les instruments
percussifs, etc.
Les nombreux systèmes proposés après celui de Moorer ont traité le problème de la
transcription automatique en essayant de supprimer progressivement les hypothèses res-
trictives de Moorer. Nous décrivons ici les idées principales de ces systèmes, dont la diver-
sité des approches et des techniques nous a conduit à un classement en quatre catégories :
les approches reposant sur une paramétrisation et des heuristiques pour la détection de
fréquences fondamentales, les approches avec un apprentissage hors-ligne de modèles, les
approches avec un apprentissage en ligne de modèles, et les approches bayésiennes.
Figure 1.4 – HMM pour la reconnaissance de notes : chaîne de Markov (en haut) et
densité de probabilité des observations par états (en bas). (Source : Ryynänen et Klapuri
[2005])
simplification qu’elle propose. Grâce à cette division en deux tâches distinctes, la décision
s’appuie sur un nombre restreint de paramètres, et sur un modèle de note à trois états :
l’attaque caractérisée par une forte variation de saillance, le sustain pour lequel la saillance
est élevée, stable et l’écart de fréquence fondamentale faible, et le silence dans les autres
cas (cf. figure 1.4).
D’autres approches à base de paramétrisation et d’estimation de hauteur ont été éla-
borées. L’idée est déjà présente dans les travaux de Moorer [1975]. Martin [1996] pro-
pose un système de décision à plusieurs couches hiérarchisant l’information sur une échelle
bas-niveau/haut-niveau, avec une influence mutuelle des diverses couches. Raphael [2002]
propose une structure de HMM que l’on retrouve chez Ryynänen et Klapuri [2005]. La
décomposition en deux couches – analyse fréquentielle et suivi temporel – est également
adoptée dans le système de Poliner et Ellis [2007], dont la paramétrisation se fait cette fois
par des SVM (Support Vector Machine, machines à vecteurs supports), et qui repose donc
sur un apprentissage préalable.
Figure 1.5 – Profil temps-fréquence du modèle de source HTC (Source : Kameoka et al.
[2007])
Alors que les modélisations bayésiennes présentées jusqu’ici analysent des trames suc-
cessives de signal sans transformation temps-fréquence, et peuvent donc être qualifiées à
ce titre de méthodes temporelles, la modélisation de Kameoka et al. [2007] utilise comme
observation une représentation temps-fréquence quadratique, obtenue à partir d’une trans-
formée en ondelettes de Gabor. Il ne s’agit pas à proprement parler d’une modélisation
bayésienne, mais elle s’en rapproche par son formalisme statistique et l’introduction de lois
a priori sur certains paramètres. Dans cette modélisation, on considère que la transfor-
38 1. État de l’art
Nous voyons qu’un autre intérêt des approches bayésiennes décrites ci-dessus réside dans
le modèle additif de notes qu’elles proposent pour les mélanges polyphoniques. Nous
avons constaté dans la partie 1.3 qu’il n’est pas évident de séparer des sources qui se
recouvrent à la fois temporellement et fréquentiellement, et que cela donne lieu à des
approximations, en particulier dans les méthodes d’estimation itératives ou lorsque l’on
travaille sur des représentations temps-fréquence quadratiques (NMF, etc.) ne prenant
donc pas en compte l’information de phase. De ce point de vue, l’approche bayésienne
temporelle permet une décomposition et une estimation des amplitudes et des phases des
composantes sans approximation. Quant à la méthode de Kameoka et al. [2007], elle repose
sur une représentation temps-fréquence énergétique, et ne peut donc être qu’approximative,
mais elle explicite cette approximation. Les contributions de chaque source k sont calculées
comme une proportion mk (t, x) de l’énergie W (t,P x) du signal à l’instant t et à la fréquence
x, avec la contrainte de conservation de l’énergie k mk (t, x) = 1. mk (t, x) est alors estimé
comme le rapport P q′kq(t,x) entre l’énergie du modèle de la source k en ce point temps-
k k′ (t,x)
fréquence et la somme des énergies de tous les modèles de sources. Il est intéressant de
noter que ce rapport est analogue à la réponse du filtre de Wiener construit en considérant
qk (t, x) comme la densité spectrale de puissance de la source k, à une différence près :
la réponse fréquentielle du filtre de Wiener serait P q′kq(t,x) , entraînant une proportion
k k′ (t,x)
2
d’énergie mk (t, x) égale à P q′kq(t,x) , soit le carré de la proportion utilisée dans la
k k′ (t,x)
modélisation HTC. Cette différence provient de la contrainte de conservation de l’énergie
dans le cas HTC alors que le filtrage de Wiener assure l’égalité entre le signal original et
la somme des signaux des sources estimées.
Cette description des méthodes bayésiennes nous amène à revenir sur le problème de la
modélisation de l’enveloppe spectrale. Les contraintes utilisées, telles que la décroissance
exponentielle des amplitudes des partiels, fixent un modèle très approximatif, loin de la
réalité des sons d’instruments de musique en général et de piano en particulier (cf. la des-
cription de ces sons dans la partie 1.5.1). On peut ainsi opposer ces modèles paramétriques
d’enveloppe spectrale aux méthodes adaptatives comme le principe de spectral smooth-
ness de Klapuri [2003] et aux modèles figés contenus dans les dictionnaires, et souligner la
difficulté de la modélisation de l’enveloppe spectrale.
39
des partiels est relativement complexe. Elle présente des battements qui ne semblent pas
corrélés entre partiels.
1
0.5
0.5
x(t)
x(t)
0 0
−0.5
−0.5
−1
0 1 2 3 4 0.16 0.18 0.2 0.22 0.24
t (s) t (s)
(a) Forme d’onde entière (b) Zoom sur une partie de la forme d’onde
∂2y ∂2y
ρ = T (1.9)
∂t2 ∂x2
où y est le déplacement selon la direction transverse, ρ la densité linéique, T la tension, x
la position le long de la corde et t le temps, pour laquelle les solutions ont pour fréquences
les multiples de la fréquence fondamentale (en supposant que les extrémités de la corde
sont en appui). La fréquence fondamentale f0 s’exprime en fonction de la longueur L
de la corde, de ρ et de T :
s
1 T
f0 , (1.10)
2L ρ
Les cordes de piano étant caractérisées par une tension et une raideur importantes, on
ne peut leur appliquer les résultats précédents. Pour une corde avec raideur, l’équation de
41
la corde devient
3 4
où h ∈ N∗ , β , π64T
Ed
L est le coefficient d’inharmonicité et f0 est la fréquence fonda-
mentale définie par l’équation (1.10) pour la corde sans raideur.
0 5 10 15 20
fh/f0
Le coefficient d’inharmonicité est propre à chaque piano [Young, 1952] et à chaque note,
avec des coefficients de l’ordre de 10−4 dans le grave à 10−2 dans l’aigu. L’inharmonicité
est suffisamment faible pour ne pas perturber la perception d’une hauteur à l’écoute d’un
son de piano. Elle a en revanche un certain nombre de conséquences non négligeables.
Ainsi, accorder un piano repose notamment sur les battements créés entre une note et son
octave. Le tempérament du piano [Schuck et Young, 1943; Martin et Ward, 1954; Lattard,
1993; Conklin Jr., 1996b] intègre donc les écarts entre partiels dus à l’inharmonicité. Il
en résulte un étirement de la répartition des fréquences fondamentales : celles des notes
graves sont en-deçà du tempérament égal, tandis que celles de notes aiguës sont au-delà.
L’écart des fréquences de partiels par rapport à une distribution harmonique est également
loin d’être négligeable si l’on veut localiser ces partiels. Par exemple, avec un coefficient
d’inharmonicité égal à 10−3 , le 13e partiel se retrouve à la fréquence du 14e partiel d’une
répartition harmonique de même fréquence fondamentale (cf. figure 1.7). Estimer le co-
efficient d’inharmonicité [Rauhala et al., 2007] se révèle donc utile voire nécessaire pour
caractériser la hauteur d’une note de piano. Aussi, comme nous le verrons en détail dans la
partie 1.5.2 (p. 45), la plupart des systèmes de transcription automatique de piano prennent
en compte l’inharmonicité.
y(x, t = 0) = 0 (1.15)
∂y
(x, t = 0) = V0 δ(x − αL) (1.16)
∂t
Par projection de y(x, t = 0) sur la base des modes propres, la condition (1.15) donne
∀n, An = 0 (1.17)
et
V0 sin nπα
∀n, Bn = √ (1.18)
2Lf0 nπ
Ces amplitudes de partiels sont représentées sur la figure 1.8, après normalisation par
√ V0 .
2Lf0
α = 0.12195
0
−10
−20
Amplitude (db)
−30
−40
−50
−60
−70
0 5 10 15 20 25
Ordre des partiels
Figure 1.9 – Domaine de validité des modèles d’excitation des cordes, avec les notes en
abscisse et les fréquences des partiels en ordonnée (Source : Hall et Askenfelt [1988]).
– au-delà de la ligne « Pulse Rise », une autre pente de −6dB/oct s’ajoute (soit
−12dB/oct) car l’élasticité du marteau devient importante devant une élasticité cri-
tique ;
– pour les notes aiguës, un modèle où la masse du marteau est supérieure à celle de la
corde donne une pente de −12dB/oct dès les premiers modes.
Il convient de préciser que les amplitudes des partiels ainsi modélisées ne sont valables
que pour la vibration du chevalet et qu’à l’instant de frappe. En effet, avant d’être perçu, le
son subit des transformations successives, modélisables sous forme de filtrages et produites
lors de la transmission à la table d’harmonie, du rayonnement et de la propagation dans le
milieu ambiant. Quant aux phénomènes qui suivent l’instant de frappe, ils sont maintenant
examinés à travers l’étude de l’évolution des partiels.
Autres partiels
Seuls les modes transverses, c’est-à-dire dont le déplacement est dans un plan orthogonal
à l’axe de la corde, ont été considérés jusqu’à présent. Ils sont responsables du caractère
pseudo-harmonique du son. Les modes longitudinaux (ou de compression) des cordes sont
également excités et audibles [Conklin Jr., 1996a,b; Fletcher et Rossing, 1998; Galembo
et Askenfelt, 1999; Bank et Sujbert, 2005], ainsi que des modes dits « fantômes » [Conk-
lin Jr., 1997]. Ces partiels ont des fréquences qui ne font a priori pas partie de la distribu-
tion pseudo-harmonique relative à la note. Ils agissent donc plutôt comme des fréquences
45
Pédales
Le pédalier du piano à queue comporte traditionnellement trois pédales. Celle de droite,
la pédale forte, relève les étouffoirs, laissant l’ensemble des cordes libres. Il en résulte une
légère modification du son et la possibilité pour l’instrumentiste de laisser sonner une note
après avoir relâché la touche. Le son produit lorsque cette pédale est enfoncée a été étudié,
sur un plan perceptif [Martin et Ward, 1954] et physique [Fletcher et al., 1962; Lehtonen
et al., 2007], plusieurs phénomènes ayant été mis en avant. Le principal est un rehaussement
du bruit de fond dû à la vibration de l’ensemble des cordes. Celles-ci ne sont pas excitées
directement par les marteaux mais elles vibrent néanmoins, soit par sympathie avec les
notes jouées, soit en fonction des bruits impulsionnels transmis par le piano (relèvement
des étouffoirs, chocs des marteaux, etc.). Les autres effets observés par Lehtonen et al.
[2007] concernent une modification de l’évolution des partiels. Leur amplitude a tendance
à décroître moins rapidement lorsque la pédale est enfoncée. L’explication proviendrait du
couplage entre une corde jouée et l’ensemble des cordes, ces dernières dissipant davantage
l’énergie transmise lorsqu’elles sont étouffées. La part plus importante de couplages non
dissipatifs expliquerait également l’augmentation des battements observés avec la pédale
enfoncée, tout comme un affaiblissement du phénomène de double décroissance.
La pédale du milieu, dite tonale ou de soutien, permet de tenir les notes jouées au
moment où elle est enfoncée, en gardant les autres étouffées. Il n’y a à notre connaissance
aucune étude à son sujet susceptible de nous intéresser, probablement du fait de sa simili-
tude avec la pédale forte et d’une utilisation plus réservée à un contexte d’étude qu’à une
interprétation musicale. La pédale de gauche, dite una corda, déplace latéralement le bloc
constitué du clavier et des marteaux afin que toutes les cordes ne soient pas frappées. Le son
obtenu en est ainsi modifié et sa production est évoquée dans plusieurs travaux [Weinreich,
1977; Fletcher et Rossing, 1998; Bank, 2000].
et Sandler, 2005a].
La détection d’attaques semble être également un critère largement répandu. Il peut
faire l’objet d’un module dédié [Barbancho et al., 2004; Marolt, 2004; Monti et Sandler,
2002] ou d’un état de HMM [Raphael, 2002].
Comme dans la majorité des systèmes de transcription polyphonique, l’enveloppe spec-
trale constitue une source d’information importante. Il est assez rare de trouver des sys-
tèmes qui n’utilisent pas cette information [Raphael, 2002; Monti et Sandler, 2002]. L’ap-
prentissage préalable de l’enveloppe des notes se retrouve dans les systèmes performants
de Marolt [2004] et Poliner et Ellis [2007]. Les systèmes d’apprentissage en ligne [Bello
et al., 2006; Vincent et al., 2008] ont en plus l’avantage de disposer de dictionnaires adap-
tés au morceau à transcrire. Ces systèmes avec apprentissage souffrent néanmoins de deux
défauts : les variations de l’enveloppe spectrale au cours du temps, notamment en raison
des battements, et, pour les systèmes avec apprentissage préalable, les différences entre les
enveloppes spectrales apprises et celles rencontrées par la suite.
Enfin, signalons qu’à notre connaissance, seul le système de Barbancho et al. [2004]
prend en compte la pédale forte pour réaliser une transcription.
1.6 Problématiques
À la lumière de cet état de l’art, voici maintenant les différentes questions que nous
traiterons dans cette thèse.
Quelles sont les conséquences de l’inharmonicité des sons de piano sur la tâche
de transcription ?
Ce paramètre entraîne une augmentation de la complexité des modèles et des systèmes
puisque les fréquences des partiels sont déterminées par deux paramètres, le coefficient
d’inharmonicité et la fréquence fondamentale. Dans quelle mesure ce paramètre supplé-
mentaire est-il une contrainte et introduit-il une incertitude sur la fréquence des partiels ?
L’inharmonicité peut-elle être au contraire utilisée à profit pour identifier des notes jouées
simultanément ?
47
Chapitre 2
Ce chapitre est consacré à la caractérisation des spectres de sons de piano, dans la pers-
pective de l’estimation de la hauteur des notes. À ce titre, quatre aspects seront étudiés
distinctement. Nous aurons tout d’abord besoin d’identifier les composantes sinusoïdales
des sons. La modélisation du contenu tonal fera donc l’objet de la première partie. Pour
faire le lien entre les composantes estimées et les notes présentes, nous devrons étudier la
distribution des fréquences des partiels d’une note. Cette question est d’un intérêt par-
ticulier dans le cas du piano du fait de l’inharmonicité caractéristique des sons. Nous y
consacrerons la deuxième partie, où nous présenterons nos travaux sur l’estimation de
l’inharmonicité et sur l’impact d’une telle caractérisation. La troisième partie aura pour
thème la modélisation de l’enveloppe spectrale des sons de piano pour la transcription.
Nous avons vu l’intérêt, voire la nécessité de prendre en compte l’enveloppe spectrale pour
l’estimation de fréquences fondamentales multiples. Dans cette optique, nous proposerons
une modélisation de type autorégressif de cette enveloppe spectrale et un cadre statistique
approprié. Enfin, nous nous pencherons sur la question de la modélisation du bruit dans
la dernière partie.
la suite.
Le modèle de McAulay et Quatieri [1986] est fondateur dans le champ de la
modélisation sinusoïdale à court terme des signaux audio. Proposé à l’origine pour des
signaux de parole, il est également très utilisé pour les signaux de musique. Il consiste à
considérer qu’une trame de longueur N d’un signal x (t), avec t ∈ J0; N −1K, est modélisable
par une somme de K sinusoïdes, les trois paramètres de la k e sinusoïde étant son amplitude
ak > 0, sa fréquence fk > 0 et sa phase initiale ϕk ∈ [0; 2π] :
K
X
x (t) , 2ak cos (2πfk t + ϕk ) (2.1)
k=1
où les αk ∈ C∗ sont les amplitudes complexes (de module l’amplitude réelle et d’argument
la phase initiale).
Dans ce modèle, les amplitudes et les fréquences sont constantes sur la durée de la
trame. Le modèle permet néanmoins de modéliser des signaux présentant des modulations
en amplitude et en fréquence, à condition que ces variations soient suffisamment lentes
pour pouvoir être négligées sur la durée d’une trame. Dans ce cas, les auteurs proposent
un algorithme pour relier les composantes détectées d’une trame à la suivante, sur la base
d’une distance entre leurs fréquences et de la possibilité qu’une sinusoïde puisse apparaître
ou disparaître.
L’apport du modèle de Serra et Smith [1990] sur le modèle précédent réside dans
l’introduction explicite d’un bruit additif. La partie bruit ne peut être ignorée qu’en pre-
mière approximation et l’estimation de la partie non sinusoïdale a par la suite donné lieu
à des études approfondies [d’Alessandro et al., 1998a; David et al., 2006]. En reprenant les
notations précédentes, le signal est cette fois défini par
K
X
x (t) , 2ak cos (2πfk t + ϕk ) + b (t) (2.3)
k=1
où b (t) désigne la partie bruit. Le bruit est alors défini comme un processus stochastique,
en l’occurrence le résultat du filtrage d’un bruit blanc par un filtre, variant temporellement,
permettant de contrôler la forme de la densité spectrale de puissance du bruit. Nous aurons
l’occasion de reprendre ce modèle de bruit pour l’estimation de fréquences fondamentales.
Pour ces modèles, l’estimation des paramètres se fait en général dans le domaine spec-
tral. Considérons par exemple une trame de signal [x (0) , . . . , x (N − 1)] de longueur N et
sa transformée de Fourier discrète X (νk ) définie par
N
X −1
X (νk ) , x (n) w (n) e−i2πνk n (2.5)
n=0
51
k
où νk = K est la k ème des K fréquences considérées (avec K ≥ N ) et w est une fenêtre
de pondération au choix de l’utilisateur. Le choix de w permet d’ajuster l’étalement spec-
tral, et en particulier le compromis entre la largeur du lobe principal des composantes
sinusoïdales et le niveau des lobes secondaires. Le nombre K de fréquences correspond à
l’échantillonnage désiré de la transformée de Fourier continue à temps discret. On parle
de zero-padding lorsque K > N , c’est-à-dire lorsque l’échantillonnage fréquentiel est ainsi
augmenté. Pour aller plus loin en se rapprochant du cas continu et trouver la valeur du
spectre à une fréquence f , Serra et Smith [1990] et Abe et Smith [2005] tirent parti d’une
interpolation quadratique du spectre en considérant les trois fréquences discrètes les plus
proches de f et les valeurs du spectre associées. Plus précisément, l’interpolation donne des
résultats optimaux si elle est effectuée sur le logarithme de l’amplitude du spectre, et en
utilisant une fenêtre de pondération gaussienne. Cette technique est particulièrement utile
lorsqu’il s’agit de localiser les sinusoïdes comme des maxima du spectre (cf. figure 2.1) et
nous l’utiliserons par la suite, en particulier pour estimer finement le coefficient d’inhar-
monicité d’une note.
50
45
40
X(f) dB
35
Figure 2.1 – Détail d’un spectre autour d’une sinusoïde de fréquence 0, 03 : le maximum
est estimé par interpolation des trois points les plus proches.
avec
K
X
s (t) = αk zkt (2.7)
k=1
L’algorithme ESPRIT permet d’estimer les pôles zk . On suppose pour cela que le signal
est défini pour t ∈ J0; N − 1K, en choisissant une longueur de trame N impaire, avec
n = N 2+1 . On définit alors la matrice de données
x(1) . . . x(n − 1)
x(0)
. ..
x(1)
x(2) . . .
X, .. . (2.8)
. . . . .
. . . .
x(n − 1) . . . . . . x(N − 1)
La matrice de covariance C , n1 E XX † , où X † désigne le conjugué hermitien de X,
a K valeurs propres supérieures à σb2 et N − K valeurs propres égales σb2 . On estime C par
la matrice d’autocorrélation empirique Ĉ = n1 X̂ X̂ H , où X̂ est la réalisation de X que l’on
observe. Les K vecteurs propres associés aux K plus grandes valeurs propres sont calculés
puis regroupés dans une matrice W , de dimensions n × K. On en extrait les matrices W↑
et W↓ en ne gardant respectivement que les (n − 1) dernières et les (n − 1) premières lignes.
On prouve que W↑ et W↓ satisfont la propriété dite d’invariance rotationnelle W↑ = W↓ Φ,
où Φ est une matrice K × K dont les valeurs propres sont égales aux pôles {z1 , . . . , zK }.
La matrice Φ est estimée par moindres carrés : Φ = W↓+ W↑ , où W↓+ est la pseudo-inverse
de W↓ . Les pôles sont ensuite estimés en diagonalisant Φ.
L’intérêt de cet algorithme est qu’il n’est pas limité par le compromis temps-fréquence
que l’on rencontre avec la transformée de Fourier discrète. On peut donc en particulier
estimer des fréquences très proches l’une de l’autre. Une fois les pôles obtenus, l’estimation
des amplitudes complexes s’effectue par moindres carrés :
+
1 ... 1
α̂1 x(0)
.. ẑ11 ... ẑK1
..
. = .. .. .. . (2.9)
. . .
α̂K x(N − 1)
ẑ1N −1 . . . ẑK
N −1
0 60
Périodogramme
Filtrage médian 40
−50 Modèle AR de bruit
20
dB
dB
−100 0
−20
−150
−40
−200 −60
0 2000 4000 6000 8000 10000 0 2000 4000 6000 8000 10000
f (Hz) f (Hz)
(a) Spectre du signal avant blanchiment et estima- (b) Spectre du signal après blanchiment.
tion du niveau de bruit.
Figure 2.2 – Blanchiment du bruit (Sol 2 (196 Hz) de piano analysé sur 93 ms, niveau de
bruit estimé avec un filtrage médian de longueur 500 Hz environ et un filtre AR d’ordre
20).
L’expression (2.12) est donc bien une approximation de (2.11), présentant l’avantage de
s’exprimer en fonction de la fréquence du premier partiel, observée sur le spectre, plutôt que
de la fréquence fondamentale, légèrement différente et non observée. Pour plus d’exactitude,
cet avantage étant en outre minime, nous ne considérerons que l’expression (2.11) dans la
suite de ce document. Ce choix n’est pas déterminant : par exemple, pour f0 = 196 Hz
(sol 2) et β = 2.10−4 , la différence de fréquence est de l’ordre de 0, 6 Hz pour les partiels
autour de 7000 Hz.
Par ailleurs, en inversant l’équation (2.11), nous établissons l’expression du nombre
maximal H de partiels dont les fréquences sont comprises entre 0 et la fréquence de Nyquist
fs
2 :
f v u 2
s u
H= t q (2.17)
2f0 fs2
1 + β f2 + 1
0
le nombre
Q de partiels. Un peigne harmonique optimal, obtenu en maximisant la fonction
2
f0 7→ H h=1 |X(hf0 )| a également été représenté. Le peigne inharmonique optimal parvient
à sélectionner correctement les 17 premiers partiels sur un total de 37 partiels. À partir
du 18e ou 19e (env. 3600 Hz), ses branches ne s’apparient plus aux lobes principaux. En
comparaison, et alors que l’inharmonicité est relativement faible (environ 2.10−4 ), le peigne
harmonique optimal ne parvient pas à se superposer aux partiels au-delà du 12e (2500 Hz),
malgré une compensation sur la fréquence fondamentale (197, 9 Hz, soit 3 Hz de plus
qu’avec le peigne inharmonique).
Cet exemple montre que même si l’introduction d’une inharmonicité moyenne améliore
l’adéquation entre modèle de spectre et données, le gain est limité en raison des écarts,
dus à des différences de facture, entre les valeurs moyennes β̃ (f0 ) et l’inharmonicité réelle.
Il convient alors de mesurer les coefficients d’inharmonicité au cas par cas et de quantifier
ces erreurs.
−1.5
−2
´
log β̃(f0 )
³ −2.5
−3
−3.5
−4
20 40 60 80 100 120
f0 (échelle MIDI)
200 Spectre
Peigne harmonique: fb0 = 198Hz
150
Peigne inharmonique: fb0 = 195Hz, β̃(fb0 ) = 2.4e − 004
100
X(f) (dB)
50
−50
−100
−150
0 1000 2000 3000 4000 5000 6000 7000 8000
f (Hz)
avec
fj2
xj , h2j , yj , , a , f02 β, b , f02 (2.19)
h2j
En d’autres termes, il existe une relation linéaire entre les données yj et xj . La pente b
a
et l’ordonnée à l’origine bb obtenues par régression linéaire conduisent alors à une estimation
p
fb0 = bb et βb = ab .
b
b
Cependant, nous avons supposé qu’à chaque fréquence fj était associé un ordre de
partiel hj connu. Le calcul de hj pose en pratique une difficulté : d’après (2.11), son
expression étant
f v u 2
j
hj , u ur (2.20)
f0 t fj2
1 + 4β f 2 + 1
0
57
où [.] désigne l’arrondi à l’entier le plus proche, il présuppose la connaissance de (f0 , β). Des
valeurs approximatives de (f0 , β) induisent des erreurs pour les ordres hj élevés, comme
illustré sur la figure
2.4(a),
où l’on voit le placement initial des points (xj , yj ) en choi-
sissant le couple fb0 , β̃ fb0 = 195, 2, 4.10−4 obtenu précédemment avec une courbe
d’inharmonicité moyenne, et la droite associée. Les points sont alignés jusqu’au 25e partiel
(h2j = 625), avant que l’estimation de l’ordre des partiels soit erronée : globalement, la ré-
gression linéaire mène alors à un résultat faussé. Afin d’éviter ce phénomène, une solution
consisterait à choisir plusieurs valeurs a priori de (f0 , β) et à effectuer plusieurs régres-
sions à partir de cette grille pour ne garder que l’optimale (au sens de l’erreur quadratique
moyenne par exemple). Nous proposons une autre solution moins coûteuse qui s’appuie
sur le fait que plus la connaissance des paramètres f0 et β est précise, plus le premier
ordre erroné intervient pour un ordre élevé. Il suffit de ne considérer d’abord que les pre-
mières fréquences, dont le calcul des ordres est fiable, pour estimer des valeurs plausibles
de (f0 , β), puis d’itérer le processus en incluant davantage de fréquences et en recalculant
les ordres. C’est ce qui est réalisé par l’algorithme 2.1, illustré sur la figure 2.4(a) où l’on
constate un alignement des points et une régression corrects.
4
x 10
6 Points initiaux
Loi initiale
Points estimés
Points sélectionnés
Loi estimée
5.5 Changement d’ordre des points
200 Spectre
Maxima détectés
5 150 Peigne inharmonique: fb0 = 196Hz, βb = 1.6e − 004
fj2 /h2j
100
X(f) (dB)
50
4.5
0
−50
4
−100
−150
0 500 1000 1500 0 1000 2000 3000 4000 5000 6000 7000 8000
h2j f (Hz)
fj2
(a) Régression linéaire dans le plan h2j , h2
. (b) Représentation du peigne inharmonique.
j
Le peigne résultant (figure 2.4(b)) s’ajuste parfaitement sur le spectre et la totalité des
37 partiels a été correctement identifiée. L’optimisation a pu se faire malgré la présence de
quelques pics spectraux parasites qui apparaissent sur les figures 2.4(a) et 2.4(b).
Entrées: Fréquences des partiels potentiels {fj }j=1,...,jmax , valeurs initiales de fréquence
fondamentale f0i et d’inharmonicité β i , nombre minimal de partiels Hmin pour réaliser
une régression
{Initialisation}
f0 ← f0i
β ← βi
H ← Hmin
Pour j ∈ J1; jmax K
hj ← h (fj , f0 , β) {via équation (2.20)}
Fin Pour
{Itérations}
Tant que H ≤ # {hj }j=1,...,jmax
{Sélection
n des fréquences} o
J ← j0 ∈ J1; jmax K / # {hj / hj ≤ hj0 }j=1,...,jmax ≤ H {Sélection des H premiers
ordresdistincts présents}
q
J ← j0 ∈ J / j0 = arg min fj − hj f0 1 + βh2j {En cas d’occurrences multiples
j∈J
hj =hj0
d’un ordre, sélection de la fréquence la plus proche de la fréquence théorique}
{Estimation des paramètres}
Pour j ∈ J
fj2
xj ← n2j , yj ← n2j
Fin Pour
+
a
← [xj , 1]j∈J [yj ]j∈J
b
√
f0 ← b, β ← ab
Pour j ∈ J1; jmax K {Mise à jour des ordres}
hj ← h (fj , f0 , β) {via équation (2.20)}
Fin Pour
H ←H +1
Fin Tant que
Sorties: f0 , β
Algorithme 2.1: Régression sur la loi d’inharmonicité
59
Cette fonction est particulièrement bien appropriée ici car elle présente des maxima très
marqués. Les techniques d’optimisation numérique classiques 1 peuvent être appliquées en
raison de la régularité de cette fonction, localement, sur les domaines de variations de f0 et
β. Cette régularité est due aux lobes principaux de X autour de chaque partiel, et dont la
multiplication dans (2.21) crée un maximum local au niveau de la fréquence fondamentale
et de l’inharmonicité optimales. La figure 2.5 montre l’allure de ce produit spectral en deux
dimensions autour de son maximum. Alors que la fonction est un peu plus régulière dans le
cas d’un signal synthétique composé uniquement de sinusoïdes aux fréquences théoriques
des partiels (figure 2.5(a)) que dans le cas d’un son réel contenant des sinusoïdes parasites
et du bruit (figure 2.5(b)), l’estimation donne des résultats satisfaisants dans les deux cas.
ΠX (f0 , β) (dB) ΠX (f0 , β) (dB)
ln (β)
−8.5 0 −8.5
−500
−9 −500 −9
−1000
192 194 196 198 200 192 194 196 198 200
f0 f0
X(f) (dB)
100 50
50 0
0 −50
−50 −100
−100 −150
0 1000 2000 3000 4000 5000 6000 7000 8000 0 1000 2000 3000 4000 5000 6000 7000 8000
f (Hz) f (Hz)
Figure 2.5 – Optimisation du produit spectral par rapport à f0 et β sur un signal synthé-
tique (à gauche) et sur un son réel (à droite, même signal que sur la figure 2.3(b)). Dans
chaque cas, le produit spectral est calculé et maximisé localement (en haut) pour aligner
le peigne avec le spectre (en bas).
codage par exemple). Pour ce faire, nous appliquons les méthodes d’estimation précédem-
ment étudiées sur des enregistrements de notes isolées de piano, sur toute la tessiture.
Chacune permet d’estimer un peigne correspondant aux partiels présents, et nous cher-
chons à quantifier l’adéquation du peigne avec le signal, c’est-à-dire la validité du modèle
et la performance de la méthode d’estimation utilisée. Les résultats sont établis pour les
modèles et méthodes suivants :
– estimation d’un peigne harmonique (inharmonicité nulle) ;
– estimation d’un peigne d’inharmonicité moyenne β̃ (f0 ) ;
– estimation d’un peigne inharmonique par régression sur la loi d’inharmonicité (mé-
thode 1) ;
– estimation d’un peigne inharmonique par optimisation du produit spectral en deux
dimensions (méthode 2).
Une fois les paramètres de fréquence fondamentale et d’inharmonicité estimés par une
méthode donnée, les fréquences des partiels sont obtenues par l’équation (2.11) (p. 54) puis
utilisées pour calculer les amplitudes associées par moindres carrés sur le signal original. Le
résiduel est alors déduit en soustrayant le signal estimé au signal original. Le signal estimé
contient donc les partiels qui ont été correctement identifiés, alors que le résiduel contient
à la fois les partiels mal estimés et le reste du signal (bruit ambiant, bruits impulsionnels,
modes longitudinaux). Un rapport signal à bruit (RSB), ratio entre l’énergie du signal
estimé et du bruit résiduel, est ensuite calculé pour déterminer l’efficacité de la méthode.
La figure 2.6 représente les résultats obtenus. Ils proviennent de l’analyse de sons de
7 pianos (extraits de la base présentée dans la partie 6.2 (p. 138)), avec trois nuances
différentes, soit 21 sons par note, et 1848 sons au total. Chaque analyse est réalisée sur une
trame de 93 ms, échantillonnée à 16 kHz et prise 50 ms après l’attaque. L’optimisation du
produit spectral a été effectuée sur une grille 25 × 25 pour des valeurs logarithmiquement
réparties de la fréquence fondamentale sur un demi-ton et du coefficient d’inharmonicité
sur un intervalle allant d’un tiers à trois fois l’inharmonicité moyenne β̃ (f0 ) de la note.
Un algorithme d’optimisation numérique (fonction fminsearch sous Matlab) est ensuite
appliqué pour affiner la valeur maximale obtenue sur la grille.
6 4
4 3
RSB (dB)
RSB (dB)
2 2
0 1
Modélisation harmonique
Inharmonicité moyenne βe (f0 )
−2 0
Méthode 1: régression
Méthode 2: max. produit spectral
−4 −1
30 40 50 60 70 80 90 100 30 40 50 60 70 80 90 100
f0 (MIDI) f0 (MIDI)
(a) Résultats par note. (b) Résultats moyennés sur une octave glissante.
Figure 2.6 – Rapport signal à bruit obtenu pour la séparation du contenu pseudo-
harmonique et du bruit résiduel de notes de piano avec plusieurs méthodes d’estimation
de la fréquence fondamentale et de l’inharmonicité. Pour plus de clarté, les résultats lissés
sur une octave sont également représentés.
Alors qu’il n’était pas évident d’évaluer a priori le gain d’une prise en compte de
l’inharmonicité dans nos modèles, nous voyons maintenant que l’amélioration du RSB en
utilisant les méthodes 1 et 2 est significative. Dans le milieu du registre, ces méthodes
61
Contrairement à ce que son nom peut faire croire, le processus harmonique ne désigne
pas forcément une entité périodique, présentant une distribution harmonique de fréquences.
Pour éviter toute confusion, il est utile de préciser que dans cette appellation consacrée,
le terme harmonique fait référence aux sinusoïdes qui composent le signal, sans hypothèse
sur leurs fréquences.
Définition et propriétés
Le processus harmonique désigne un modèle dans lequel le processus observé s(n) est
une somme de H sinusoïdes, dont les amplitudes complexes sont des variables aléatoires :
H
X
s(n) = αh e2iπfh n (2.22)
h=1
62 2. Paramétrisation spectrale des sons de piano
En particulier, dans le cas où les fréquences des composantes sont les multiples d’une
même fréquence fondamentale f0 (par exemple si fh = hf0 ), les maxima de la partie
réelle de la covariance sont situés aux multiples de la période fondamentale f10 . On peut
ainsi déduire les estimateurs de fréquence fondamentale à base d’autocorrélation tels que
YIN [de Cheveigné et Kawahara, 2002].
Par ailleurs, soulignons que γs (k) n’étant pas sommable, le processus n’a pas de densité
spectrale de puissance.
Ainsi, pour h ∈ J1; HK, si pour tout h′ ∈ J1; HK les fréquences fh est fh′ sont suffi-
samment espacées (ou de manière équivalente si N est assez élevé) pour que l’on puisse
h ) 2
négliger W (fh − fh′ ) devant W (0), alors S(f 2
W (0) est un estimateur sans biais de σh .
et
( t
S , S(0), . . . , S NN−1
S = W α avec (2.29)
[W ]f,h , W (f − fh )
2
σ1 0 0
α étant un vecteur gaussien de loi N (0, Σ) avec Σ , 0 . . . 0 , s et S sont des
0 0 σH 2
borné par rg (Σ) = H < N , leur déterminant est nul. Ces deux vecteurs n’ont donc pas de
densité de probabilité.
−50 −50
dB
dB
−100 −100
σ2
σ2 |A(e2iπf )|2
|αh |2 |αh |2
−150 −150
0 0.1 0.2 0.3 0.4 0.5 0 0.1 0.2 0.3 0.4 0.5
f (fréquence réduite) f (fréquence réduite)
(a) (b)
– des données peuvent être amenées à manquer. Par exemple, un morceau ne présente
a priori pas l’ensemble des notes du piano de manière exhaustive.
Une telle modélisation ne garantit donc pas que l’on puisse déterminer la solution du
problème inverse ainsi posé. Aussi, il semble plus réaliste d’utiliser un modèle plus simple.
Plusieurs solutions sont envisageables. Apprendre un dictionnaire d’enveloppes spectrales
ou temporelles de partiels est une méthode qui présente l’inconvénient d’être insensible,
et donc peu robuste, à la variabilité que nous venons de décrire. Pour la même raison,
nous évitons l’utilisation d’une loi a priori sur les amplitudes comme ceux décrits dans la
partie 1.4.4.
La modélisation d’une enveloppe spectrale par un filtre autorégressif (AR) est largement
répandue dans le cas de la voix [Atal et Hanauer, 1971]. On peut alors interpréter ce filtre
et ses pôles comme un modèle physique du conduit vocal et de ses résonances. Dans le
cas du piano, une modélisation AR ne traduit pas un tel caractère physique. Elle présente
cependant l’intérêt de bien modéliser une enveloppe lisse avec un ordre faible, et d’être
assez générique. Elle définit ainsi un cadre pour modéliser une notion équivalente à la
spectral smoothness [Klapuri, 2003].
La méthode par prédiction linéaire [Makhoul, 1975] permet d’estimer les paramètres
2
σ , a1 , . . . , aP d’un processus AR d’ordre P tel que défini dans l’annexe A.2.1 (p. 165) en
résolvant les équations de Yule-Walker pour minimiser l’erreur de prédiction. En notant R
la matrice de Toeplitz dont l’élément (m, n) est la valeur R (m − n) d’une autocorrélation
t
empirique R et a , σ12 , − σa12 , . . . , − aσP2 , les équations de Yule-Walker s’écrivent
H
1 X
R (k) , 2 |X (fh )|2 cos (2πfh k) (2.31)
H
h=1
L’estimation AR par la méthode précédente souffre alors d’un défaut : dans le domaine
spectral, le spectre observé est un échantillonnage de la réponse fréquentielle du modèle
AR au niveau des fréquences des partiels ; il en résulte un repliement dans le domaine
temporel, affectant en particulier la fonction d’autocorrélation utilisée lors de la résolution.
Ce phénomène a été étudié par El-Jaroudi et Makhoul [1991] qui ont montré comment
intégrer ce repliement pour modifier les équations de Yule-Walker. La relation (2.30) devient
alors
b aa
Ra = R (2.32)
Badeau et David [2008] proposent une convergence encore plus rapide en redéfinissant
la suite a(n) par
l’opérateur P (a), facultatif si l’on ne cherche pas une solution causale stable, faisant cor-
respondre à tout modèle de paramètre a un modèle causal stable également solution (en
inversant les modules des pôles situés à l’extérieur du cercle unité). Dans l’absolu, cette
technique est plus rapide à condition que le coût lié à l’application de P soit faible, c’est-
à-dire lorsque l’ordre du modèle AR est faible (le coût est a priori cubique en l’ordre du
modèle AR).
La figure 2.8 illustre cette méthode sur deux exemples, pour lesquels le ratio entre le
nombre de composantes sinusoïdales et le nombre de pôles est égal à 8 et à 2 respective-
ment. Dans les deux cas, l’estimation obtenue en prenant en compte le repliement temporel
est meilleure que l’estimation traditionnelle. Lorsque le nombre de partiels diminue, l’esti-
mation se dégrade relativement peu.
La méthode s’applique naturellement à un son de piano en considérant que les ampli-
tudes des partiels coïncident avec un échantillonnage très clairsemé de la densité spectrale
de puissance empirique du processus AR. Le caractère régulier de l’enveloppe spectrale est
alors relativement bien modélisé par un processus AR, comme illustré sur la figure 2.9.
Nous disposons ainsi d’un modèle d’enveloppe spectrale, voisin de celui couramment uti-
lisé pour la parole, qui présente l’avantage de bien modéliser la variabilité des spectres
rencontrés tout en introduisant une contrainte de régularité.
90 1 90 1
1 120 60 0.5 120 60
150 0.5 30 150 0.5 30
0.5
Signal x(t)
Signal x(t)
0 180 0 0 180 0
−0.5 210 330 210 330
−1 240 300 −0.5 240 300
270 270
0 500 1000 0 500 1000
t (échantillons) Pôles t (échantillons) Pôles
20 20
0 0
Signal Signal
DSP (dB)
DSP (dB)
Modèle Modèle
−20 −20
Estim. préd. lin. Estim. préd. lin.
−40 Estim. Badeau’08 −40 Estim. Badeau’08
−60 −60
0 0.1 0.2 0.3 0.4 0.5 0 0.1 0.2 0.3 0.4 0.5
Fréquence réduite Fréquence réduite
(a) Estimation avec 80 composantes complexes (b) Estimation avec 20 composantes complexes
60
Spectre
50 Enveloppe spectrale
Amplitudes
40
30
20
dB
10
−10
−20
−30
−40
0 2000 4000 6000 8000 10000
f (Hz)
Figure 2.9 – Exemple d’estimation d’enveloppe spectrale AR sur un son de piano : les
fréquences des partiels ont été présélectionnées pour extraire leurs amplitudes (croix) et
estimer le modèle AR.
68 2. Paramétrisation spectrale des sons de piano
est
Qb
X
B (z) , bk z −k (2.40)
k=0
avec b0 = 1.
Nous réalisons l’estimation des paramètres du modèle par la méthode suivante, qui a
le mérite d’être particulièrement rapide. Écrivons l’autocorrélation du processus MA (cf.
équation (A.42) p. 170) sous la forme
rb = B b (2.41)
avec
t
E [xb (t) xb (t)] E [xb (t) xb (t + Qb )]
rb , h i ,..., h i (2.42)
2
E xb (t) E xb (t)2
b0 b1 . . . bQb
0 b0 . . . bQb −1
B,. . .. (2.43)
.. .. ... .
0 ... 0 b0
b , (b0 , . . . , bQb )t (2.44)
La résolution rapide bb b
de B b = rbb en b par élimination récursive dans
le système trian-
gulaire (coût en O Qb ) permet d’éviter l’inversion classique (en O Q3b ) de la matrice B
2
et rend chaque itération peu coûteuse. La convergence a été observée pour une vingtaine
d’itérations. L’estimation σc2 de σ 2 est ensuite obtenue en fonction de l’autocovariance
b b
empirique γ̂ (m) prise en 0 :
69
c2 , γ̂ (0)
σ (2.45)
b PQb 2
k=0 bk
Un exemple d’estimation est représenté sur la figure 2.10. Un modèle MA réel d’ordre
20 a été généré de façon aléatoire puis estimé à partir d’une réalisation du processus sur
N = 1024 points.
20
10
0
dB
−10
−20
Modèle
−30 Périodogramme
Estimation
−40
0 0.2 0.4 0.6 0.8 1
Fréquences réduites
2.5 Conclusion
Au terme de ce chapitre, nous sommes en mesure de caractériser les sons de piano pour
l’estimation de hauteur. Cette caractérisation intervient sur quatre axes : la modélisation
du signal comme une somme de sinusoïdes et de bruit ; l’identification et la localisation
fréquentielle précise des partiels de sons de piano ; la modélisation de l’enveloppe spectrale ;
et enfin la modélisation du bruit. Nous disposons ainsi d’une palette d’outils que nous allons
utiliser dans les deux prochains chapitres pour l’estimation de fréquences fondamentales.
70 2. Paramétrisation spectrale des sons de piano
71
Chapitre 3
3.1 Introduction
Nous avons vu dans le chapitre 1 (partie 1.2.2 (p. 26)) que les méthodes élémentaires
pour l’estimation de hauteur s’appuient sur des considérations temporelles ou spectrales.
Dans le premier cas, il s’agit d’analyser les périodicités de la forme d’onde – par exemple via
l’ACF [Rabiner, 1977], l’AMDF [Ross et al., 1974] ou le cepstre [Noll, 1967]) – alors que dans
le second, le principe sous-jacent est la détection d’un peigne harmonique [Schroeder, 1968].
Appliquées à des sons réels, ces méthodes s’avèrent limitées par divers facteurs : présence de
bruit, stationnaire ou non, écart par rapport à l’harmonicité supposée, non-stationnarité
des composantes, large tessiture, variabilité des timbres et des enveloppes spectrales, et
bien sûr, présence de plusieurs hauteurs simultanées dans les mélanges polyphoniques. Les
erreurs typiques offrent un bon aperçu des difficultés rencontrées et des défauts de chaque
approche. Les méthodes temporelles ont tendance à commettre des erreurs de sous-octave –
un signal T -périodique étant également 2T -périodique – alors que les approches spectrales
sont sujettes à des erreurs d’octave – l’énergie d’un peigne de fréquence fondamentale f0
donnant lieu à la détection d’un peigne de fréquence fondamentale 2f0 . Par ailleurs, les
deux types d’approches sont sensibles à la taille de la tessiture, aux variations des timbres
72 3. Estimation à court terme de hauteur simple sur un registre étendu
K
X
Ry (τ ) = 2a2k cos (2πνk τ ) + δ(τ )σb2y (3.2)
k=1
Le modèle de son que l’on considère n’est pas stationnaire en raison notamment de
la présence de facteurs d’amortissement (équation (3.1)), qui font varier l’amplitude des
sinusoïdes entre le début et la fin de la trame (dans l’équation (3.1), les amplitudes en
début et en fin de trame étant respectivement |αk | et |αk | edk (Na −1) ). Pour construire une
fonction temporelle d’estimation de hauteur en nous inspirant du cas SSL ci-dessus et en
intégrant les modulations d’amplitude, nous proposons de calculer la puissance de chaque
composante sur une trame (cf. figure 3.1) et de considérer, à puissances égales, l’autocorré-
lation d’un processus SSL équivalent. Nous définissons ainsi une fonction temporelle R(τ )
pour l’estimation de fréquence fondamentale à partir des paramètres estimés par l’analyse
HR :
K
X
R(τ ) , pk cos (2πfk τ ) (3.3)
k=1
(
|αk |2 si |zk | = 1
pk , |αk |2 1−|zk |2Na (3.4)
Na 1−|zk |2 sinon
k)
avec τ > 0, fk = arg(z
2π étant la fréquence normalisée de la composante k, et pk sa
puissance. Pour simplifier cette expression, le dirac en 0 correspondant au bruit a été
supprimé car nous ne considérons que la partie signal.
Pour un son légèrement inharmonique, l’écart fréquentiel par rapport au cas parfai-
tement harmonique a pour conséquence d’atténuer les pics de R(τ ) aux multiples de la
74 3. Estimation à court terme de hauteur simple sur un registre étendu
Amplitude
Sinusoı̈de amortie
Envelope temporelle
√
pk
0 200 400 600 800 1000
Échantillons
période fondamentale. Pour prendre en compte l’inharmonicité des sons de piano (cf. par-
tie 2.2 (p. 53)), nous considérons le phénomène comme le résultat de l’étirement d’un
spectre harmonique, comme illustré sur la figure 3.2, et appliquons l’opération inverse.
Pour ce faire, l’ensemble des fréquences estimées {fk , k ∈ J1; KK} est transformé en un
ensemble de fréquences {gf0 ,k , k ∈ J1; KK}, avec
fk
gf0 ,k , p (3.5)
1 + β (f0 ) h2 (f0 , fk )
où β (f0 ) est le coefficient d’inharmonicité moyenne représenté en fonction de la fréquence
fondamentale sur la figure 2.3(a) (p. 56). L’utilisation d’une valeur moyenne d’inharmoni-
cité est suffisante dans notre cas pour obtenir des résultats satisfaisants, comme nous le
verrons lors de l’évaluation de notre algorithme.
L’estimation de l’ordre du partiel h (f0 , fk ) relatif à la fréquence fk a pour expression
(cf. équation (2.20) p. 56)
v
fk u 2
h (f0 , fk ) = u ur (3.6)
f0 t fk2
1 + 4β (f0 ) f 2 + 1
0
Par cette opération, les fréquences gf0 ,k des partiels sont des multiples de la fréquence
fondamentale f0 . En remplaçant les fréquences fk par leurs corrections g 1 ,k dans l’équa-
τ
1
tion (3.3), nous en déduisons une fonction temporelle Rinh (τ ) qui est maximale pour τ = f0
dans le cas de sons de piano :
K
X
Rinh (τ ) , pk cos 2πg 1 ,k τ (3.7)
τ
k=1
2500
2000
1500
f ,k
0
g
1000
500
0
0 1000 2000 3000 4000
fk
XK √ (f −fk )2
E
S(f ) , √ k e− 2σ2 (3.8)
k=1
2πσ
Par ailleurs, nous avons remarqué que les résultats étaient améliorés en supprimant
toutes les fréquences en-deçà d’une fréquence de coupure passe-haut fixée à 100 Hz en
raison de l’impédance au niveau du chevalet [Fletcher et Rossing, 1998] qui crée des écarts
significatifs de fréquence avec la loi d’inharmonicité dans le grave, là où les poids wf,h des
motifs spectraux sont précisément les plus importants.
76 3. Estimation à court terme de hauteur simple sur un registre étendu
−3
x 10
3
S(f)
1
0 2 3
10 10
−3
x 10
4
U (f)
inh
0 2 3
10 10
−3
x 10
10
R (1/f)
5
inh
−5 2 3
10 10
−5
x 10
2
R (1/f) U (f)
inh
0
inh
−1 2 3
10 10
f (Hz)
Figure 3.3 – Exemple d’analyse d’un Ré 2 (147 Hz) de piano sur 60 ms : de haut en
bas, sur une échelle fréquentielle logarithmique, spectre paramétrique,
fonction d’estima-
1
tion spectrale Uinh (f ), fonction d’estimation temporelle Rinh f , fonction combinée pour
l’estimation de la hauteur.
tion des fréquences fondamentales étant logarithmique dans le cas du tempérament égal,
nous choisissons d’échantillonner le support fréquentiel de recherche des fréquences fon-
damentales suivant Nf points logarithmiquement espacés sur l’intervalle de recherche. La
liberté de choisir cet échantillonnage constitue un avantage de taille car nombre de mé-
thodes ne permettent pas naturellement ce découpage logarithmique (cf. de Cheveigné et
Kawahara [2002]; Peeters [2006]). En effet, les méthodes temporelles sont contraintes par
un échantillonnage linéaire de l’axe des temps, qui a pour effet un manque de précision
dans les hautes fréquences fondamentales et une résolution inutilement fine dans les basses
fréquences fondamentales. À l’inverse, les méthodes reposant sur une analyse de Fourier
présentent un découpage linéaire de l’axe des fréquences, avec les inconvénients opposés.
Dans les deux cas, l’approche doit souvent faire intervenir une interpolation de la fonction
d’estimation pour atteindre, de façon limitée, la précision nécessaire.
Avec une mise en œuvre sous Matlab et un processeur cadencé à 2, 4GHz, le traitement
d’une trame de 60 ms nécessite environ 6, 5 s. La phase d’estimation des paramètres dure
environ 1 s. Environ 95% du temps restant sert au calcul de l’estimateur spectral et pourrait
être optimisé en C pour obtenir une mise en œuvre efficace.
Na h i
r(τ ) = DFT−1 |DFT [s]|2 (3.13)
Na − τ
le facteur NN a
a −τ
étant la correction du biais ; l’estimateur spectral Uinh (f0 ) est obtenu en
remplaçant le spectre paramétrique par le module de la transformée de Fourier discrète du
signal, avec un zero-padding de 8Nf points ; le support temporel de r(τ ) est transformé
en support fréquentiel par interpolation tel que le décrit Peeters [2006] ; la hauteur est
finalement estimée en maximisant le produit des deux fonctions sur le support fréquentiel
commun. La seconde méthode utilisée est l’algorithme YIN [de Cheveigné et Kawahara,
78 3. Estimation à court terme de hauteur simple sur un registre étendu
40
30
20
10
0
30 40 50 60 70 80 90 100
MIDI
60
YIN (moy.: 11,0%)
50
40
30
20
10
0
30 40 50 60 70 80 90 100
MIDI
Figure 3.4 – Taux d’erreurs par note, moyennés sur une octave, pour deux durées d’analyse
différentes. Résultats pour la méthode présentée et, à titre comparatif, pour deux autres
méthodes : un algorithme similaire mais non paramétrique et non HR, et l’algorithme YIN.
Le taux d’erreur moyen sur tout le registre figure entre parenthèses dans la légende.
Il est intéressant de se pencher sur les erreurs typiques commises, que nous traitons
dans le cas de l’analyse sur 60 ms. Lorsqu’ils se trompent, les algorithmes ont logiquement
tendance à surestimer les fréquences fondamentales basses et à sous-estimer les aiguës.
Environ 18% des erreurs commises par chaque méthode sont des erreurs d’octave ou de
sous-octave. Dans le cas de la nôtre, les autres erreurs correspondent à des intervalles
de tous types, avec seulement 5% d’erreurs de demi-ton, alors que ce taux atteint 10%
avec les deux autres méthodes. Les erreurs de YIN sont plutôt sous-harmoniques (13% à
l’octave inférieure, 8% à la 19e inférieure). Ainsi, bien que le nombre d’erreurs harmoniques
et sous-harmoniques de notre algorithme soit réduit, il reste visiblement difficile d’éviter
ce genre d’erreurs. En revanche, le faible taux d’erreurs de demi-ton montre l’efficacité
de la méthode, alors que les autres algorithmes souffrent d’un manque de précision, dans
l’aigu, dû à leur approche temporelle. Enfin, nous avons constaté que la prise en compte de
l’inharmonicité contribuait à faire baisser le taux d’erreurs global de 4, 9 à 4, 4% (soit 10%
d’erreurs en moins). L’amélioration se situe plutôt dans le registre grave : le taux d’erreur
sur l’intervalle MIDI J21, 37K passe ainsi de 16, 6 à 14, 1%.
3.4 Conclusion
La méthode présentée pour l’estimation de fréquences fondamentales parvient à des
taux d’erreurs significativement meilleurs que l’état de l’art dans le contexte d’une fenêtre
d’analyse courte et d’une tessiture étendue. L’analyse à Haute-Résolution, l’utilisation
conjointe d’une méthode temporelle et d’une méthode spectrale, ainsi que l’approche pa-
ramétrique contribuent à réduire le nombre d’erreurs, en particulier les erreurs typiques
d’octave, de sous-octave et de demi-ton, et à rendre la méthode robuste à ces conditions
d’analyse peu favorables.
80 3. Estimation à court terme de hauteur simple sur un registre étendu
81
Chapitre 4
Estimation de fréquences
fondamentales multiples
4.1 Problématique
Observons la transformée de Fourier discrète d’un mélange de deux notes dont les
fréquences fondamentales sont en rapport harmonique. À titre d’illustration, un exemple
de deux notes à la quinte est présenté sur la figure 4.1. Plusieurs types de coefficients
spectraux sont visibles :
1. les coefficients correspondant à un pic isolé, comme ceux relatifs aux trois premiers
partiels sur la figure 4.1 ; l’amplitude du partiel associé est alors mesurable directe-
ment et de façon fiable ;
2. les coefficients issus d’un recouvrement de plusieurs partiels, dont les fréquences coïn-
cident exactement (pic autour de 800 Hz sur la figure 4.1) ou approximativement (pic
autour de 2400 Hz) ; il est alors plus difficile d’estimer les amplitudes de chaque com-
posante compte tenu des interférences dues à la phase de leurs spectres ;
3. les coefficients situés dans le lobe principal autour d’un pic ;
4. les coefficients à des fréquences éloignées de tout pic, résultant du bruit de fond et
des lobes secondaires.
82 4. Estimation de fréquences fondamentales multiples
f (Hz)
0 1000 2000 3000 4000 5000
0
−50
dB
−100
Spectre
MIDI 60
MIDI 67
−150
Figure 4.1 – Spectre de deux notes à la quinte. Recouvrement des partiels du Do 3 (note
MIDI 60) dont l’ordre est un multiple de 3 avec les partiels du Sol 3 (note MIDI 67) dont
l’ordre est un multiple de 2 (son enregistré sur un piano Bechstein D 280).
Nous proposons alors une approche statistique pour l’estimation de fréquences fonda-
mentales multiples qui s’appuie sur les principes suivants :
– l’information relative aux notes et au bruit est concentrée dans des ensembles dis-
tincts de coefficients spectraux (les pics relatifs à une note, les coefficients résiduels
pour le bruit) ;
– en cas de recouvrement spectral, certains coefficients portent l’information provenant
de plusieurs composantes, dont il s’agit d’estimer les contributions ;
– les notes de piano ont une enveloppe spectrale relativement lisse, que nous modé-
liserons par un modèle autorégressif (AR), tel que nous l’avons décrit dans la par-
tie 2.3.2 (p. 63) ; l’utilisation d’un modèle paramétrique permet ainsi un certain
nombre de développements analytiques ;
– le bruit sera modélisé par un processus à moyenne ajustée (MA), tel que nous l’avons
décrit dans la partie 2.4 (p. 66). N’ayant pas de pôles, ce modèle présente l’avantage
de ne pas être adapté aux sinusoïdes contenues dans un bruit résiduel mal estimé et
d’être à ce titre discriminant lorsqu’il s’agit, comme dans le cas présent, de distinguer
les partiels du bruit.
La démarche, illustrée sur la figure 4.2, consiste alors à estimer les paramètres des
différents modèles et à maximiser une fonction de détection par rapport aux mélanges de
notes possibles.
Nous définissons dans un premier temps le modèle de son utilisé pour l’estimation de
fréquences fondamentales multiples puis expliquons le principe de l’estimation. Dans un
souci de lisibilité, les variables aléatoires introduites sont en général notées de la même
manière que leurs réalisations. Les densités de probabilité sont également notées de façon
simplifiée (py (y) ou p (y)) lorsque le contexte ne laisse pas d’ambiguïté.
83
Trame de signal
Prétraitement
avec
q
(p)
fh , hf0,p 1 + βp h2 (4.3)
En utilisant le modèle de la partie 2.3 (p. 61), nous introduisons ensuite un modèle
autorégressif d’enveloppe spectrale de paramètre
θp , σp2 , Ap (z) , (4.4)
composé d’une puissance σp2 et d’un filtre unitaire d’ordre Qp et de réponse Ap (z), tel que
défini dans l’annexe A.2.1 (p. 165). La valeur de Qp est choisie suffisamment faible par
rapport au nombre de partiels pour que l’enveloppe spectrale soit lisse, et suffisamment
élevée pour bien modéliser les enveloppes rencontrées en pratique : Qp = Hp /2 constitue
un bon compromis, que nous utiliserons (la moitié des Qp pôles ont des fréquences po-
sitives, l’autre moitié étant leurs conjugués). Il est important de remarquer que nous ne
définissons pas une enveloppe spectrale mais un modèle d’enveloppe spectrale. L’enveloppe
spectrale, c’est-à-dire les amplitudes des partiels, est alors une réalisation de ce modèle.
Nous définissons les amplitudes complexes des partiels en tant que variables aléatoires
complexes gaussiennes indépendantes telles que pour h ∈ J1; Hp K,
σp 2
(p)
αh ∼ N 0, 2 (4.5)
(p)
Ap e2iπfh
84 4. Estimation de fréquences fondamentales multiples
Signaux temporels
x(t) mélange observé
xb (t) bruit
xp (t) note p
eh,p (t) partiel h (note p)
Variables de trame
Cp = (f0,p , βp) F0 et inharmonicité (note p)
θp = σp2 , Ap paramètres AR d’enveloppe spectrale (note p)
αh,p amplitude du partiel h (note p)
θb = σb2 , B paramètres MA de bruit
Cp
θp
αh,p
θb xb (t) x(t)
t ∈ J0; N − 1K
Ainsi, le signal de la note p est le processus harmonique (cf. partie 2.3.1 (p. 61)) résultant
de la somme de Hp partiels e1,p , . . . , eHp ,p
Hp
X
xp (t) , 2Re eh,p (t) (4.6)
h=1
Hp
X (p) (p)
= 2Re αh e2iπfh t (4.7)
h=1
Hp
X (p) (p) (p)∗ (p)
Xp (f ) = αh W f − fh + αh W ∗ f + fh (4.8)
h=1
C , (C1 , . . . , CP ) (4.9)
θ , (θ1 , . . . , θP ) (4.10)
(p) (p)
Pour p ∈ J1; P K, α(p) , α1 , . . . , αHp (4.11)
α , α(1) , . . . , α(P ) (4.12)
P
X
x (t) , xp (t) + xb (t) (4.14)
p=1
(4.15)
Prétraitement (blanchiment)
Périodogramme |X (f )|2
Estimation
Estimation
Estimation des paramètres MA
des paramètres AR
des amplitudes σbb2 , B
b du modèle de bruit
σbp2 , A
cp des modèles
c1 , . . . , α
α cP
d’enveloppes spectrales
p ∈ J1; P K
Lp σbp2 , A
cp L σb2 p Lb σb2 , B
b
b Lb σb2b
p ∈ J1; P K p ∈ J1; P K
C ∈ Ce
Accord estimé : Cb
En considérant tous les mélanges comme étant équiprobables, c’est-à-dire que la fonc-
tion C 7→ p (C) est constante 1 , on a
p (x|C) p (C)
Cˆ = arg max
C∈C p (x)
= arg max p (x|C) (4.18)
C∈C
1. Dans un contexte musical, il est possible de traiter le cas où C n’est pas distribué selon une loi
uniforme et de généraliser l’approche présentée.
88 4. Estimation de fréquences fondamentales multiples
avec
cas du piano. Dans l’hypothèse où l’on limite par exemple la P tessiture à Q = 60 notes et
la polyphonie à Pmax = 6, le nombre de combinaisons atteint PPmax Q 6
=0 P ≈ 56.10 et reste
une taille d’espace à explorer trop élevée. De plus, les fréquences fondamentales des notes
composant un mélange peuvent également varier, en raison de l’incertitude sur l’accordage
du piano, augmentant ainsi la taille de l’espace estimée précédemment. Cette complexité
algorithmique inhérente aux méthodes d’estimation conjointe de fréquences fondamentales
est bien connue et a déjà été évoquée dans la partie 1.3.2 (p. 31). Pour l’amener à un
niveau convenable, nous proposons de réduire le nombre de notes possibles à travers une
étape préliminaire de sélection de notes candidates. En outre, nous verrons que cette étape
permet d’estimer précisément les valeurs de fréquence fondamentale et d’inharmonicité
des notes sélectionnées. Il faudra ensuite s’assurer que le coût de chaque évaluation de la
vraisemblance p (x|C) est suffisamment faible pour permettre ces évaluations sur l’ensemble
restreint Ce des mélanges formés de notes candidates.
Pour sélectionner les candidats, nous utilisons le produit spectral normalisé (par le
nombre de partiels) dont l’expression en décibels est
H(f0 ,β) 2
1 Y p
ΠX : (f0 , β) 7→ 10 log X hf 1 + β (f ) h2 (4.29)
0 0
H (f0 , β)ν
h=1
91
100 100
dB
50 50
0 0
−50 −50
40 50 60 70 80 90
f0 (MIDI)
Figure 4.5 – Sélection de notes candidates par le produit spectral normalisé ΠX (f0 ).
Exemple sur un La♭ 3 (MIDI 68).
Comme nous l’avons vu dans la partie 2.2.2 (p. 55), la méthode est particulièrement effi-
cace et rapide pour estimer précisément la fréquence fondamentale et l’inharmonicité. L’es-
timation reste bonne dans le cas d’un mélange de notes. Nous fixons en pratique
P lenombre
de candidats à Nc = 9. Le nombre de mélanges passe alors de 56.106 à PPmax Nc
=0 P = 466,
pour Q = 60 et Pmax = 6 (nous verrons dans la partie 6.3.1 (p. 145) les performances de
cette sélection de candidats).
92 4. Estimation de fréquences fondamentales multiples
4.4.1 Principe
P
Y
p (α|θ, C) = p α(p) |θp , Cp (4.30)
p=1
D’après le modèle donné par l’équation (4.5) (p.83), la log-vraisemblance à maximiser est
(p) (p)
Lp σp2 , Ap , ln p α1 , . . . , αHp |σp2 , Ap (4.31)
Hp
X (p) 2
c2 = 1
σ
(p) 2
α Ap e2iπfh
(4.33)
p h
Hp
h=1
93
1 X 2iπf (p) 2
Hp
+ ln Ap e h (4.34)
2
h=1
Hp
=c+ ln ρ (Ap ) (4.35)
2
avec
1 X (p) 2
Hp
Hp
c,− ln 2πe − ln αh (4.36)
2 2
h=1
1
QHp (p) 2 2iπf (p) 2 Hp
h=1 αh Ap e
h
ρ (Ap ) , 2 (4.37)
1 PHp (p) (p) 2
2iπfh
Hp h=1 αh Ap e
L’optimisation consiste donc à maximiser le terme ρ (Ap ), c étant constant par rapport
à Ap . ρ (Ap ) est le rapport de la moyenne géométrique et de la moyenne arithmétique
d’une quantité spectrale. Ce rapport est couramment appelé platitude spectrale, et mesure
la blancheur de la quantité concernée. C’est un réel compris entre 0 et 1 qui atteint sa valeur
maximale lorsque les données sont égales à une constante, et des valeurs plus
faibles si elles
(p) 2
(p) 2 2iπf
ne sont pas « plates ». La platitude spectrale mesurée ici est celle de αh Ap e h ,
(p) 2
c’est-à-dire des amplitudes αh après filtrage par Ap (z), soit l’inverse du filtre du modèle
d’enveloppe. ρ (Ap ) mesurant ainsi la capacité de Ap (z) à blanchir les amplitudes, le filtre
cp (z) optimal est celui qui modélise au mieux les amplitudes. Badeau et David [2008] ont
A
montré que la solution optimale était justement fournie par l’algorithme présenté dans la
partie 2.3 (p. 61). Il suffit donc d’appliquer cette méthode d’estimation afin d’obtenir une
estimation optimale des paramètres du modèle autorégressif d’enveloppe
spectrale de la
(p) 2 (p) 2
note à partir de l’observation des carrés des amplitudes α1 , . . . , αHp de ses partiels.
(p)
αh ∼ N (0, vp,h ) (4.38)
avec
σp2
vp,h ,
(p) 2
(4.39)
2iπfh
A
p e
C’est cette information que nous allons utiliser pour estimer les amplitudes. Nous com-
mençons par analyser le cas le plus général, pour lequel nous construisons l’estimateur
d’une amplitude en prenant en compte l’influence de toutes les composantes présentes,
puis expliquons comment simplifier les calculs en ne considérant que les composantes dont
le recouvrement spectral est significatif.
Dans le cas général, nous pouvons réécrire le modèle de son x comme une somme de
K sinusoïdes et de bruit :
K
X
x(t) = αk e2iπfk t + b(t) (4.40)
k=1
avec
αk ∼ N (0, vk ) (4.41)
P
X
K=2 Hp (4.42)
p=1
Cette réécriture permet de passer des couples d’indices (p, h) relatifs aux notes et aux
partiels à un seul indice k. L’hypothèse déjà évoquée sur le rapport signal à bruit per-
met par ailleurs de négliger les coefficients spectraux du bruit aux fréquences considérées.
Cette hypothèse permet de simplifier les calculs et est en pratique vérifiée puisque nous ne
considérerons que les fréquences fk relatives à des pics spectraux.
Nous observons la transformée de Fourier discrète X de x sur une trame de longueur
N , avec une fenêtre de pondération w(n) :
K
X
X (f ) = αk W (f − fk ) (4.43)
k=1
Estimation des αk
Dans le cas de notre modèle, pour 1 ≤ k0 ≤ K, l’estimateur linéaire α̂k0 de αk0 en
fonction de X (fk0 ), optimal au sens de la minimisation de l’erreur quadratique moyenne
est
W ∗ (0) vk0
α̂k0 = PK X (fk0 ) (4.44)
k=1 |W (fk0 − fk )|2 vk
La démonstration des équations (4.44) et (4.45) figure en annexe B.2 (p. 174).
second ordre. Il en résulte une démarche similaire pour trouver l’estimateur linéaire opti-
mal. Les résultats sont également comparables, dans la mesure où le « gain » trouvé dans
les expressions (4.44) et (4.47) est un rapport de deux quantités quadratiques relatives à
la source que l’on estime et au signal observé. Ces quantités correspondent aux propriétés
statistiques du second ordre des modèles : densité spectrale de puissance dans le cas du
filtrage de Wiener, et variances dans celui du processus harmonique.
La différence entre les deux approches réside dans le fait que le filtrage de Wiener
s’applique dans le cas stationnaire et en présence de densités spectrales de puissance alors
que dans notre cas, nous cherchons à modéliser le phénomène de recouvrement, dû à une
analyse à court terme et à l’étalement spectral qui en résulte, absent du cas précédent.
Ainsi, notre approche répond à un problème d’estimation des amplitudes, différent d’une
problématique de filtrage (lors de l’utilisation d’un filtre de Wiener pour la séparation de
sources par exemple).
−50 −50
dB
dB
−100 −100
Périodogramme du mélange Périodogramme du mélange
σ12 σ22
|A1 (e2iπf )|2
(modèle) |A2 (e2iπf )|2
(modèle)
−150 (1) 2 −150 (2) 2
|αh | |αh |
(1) (2)
|α̂h |2 (estimation) |α̂h |2 (estimation)
−200 −200
0 0.1 0.2 0.3 0.4 0.5 0 0.1 0.2 0.3 0.4 0.5
Fréquences réduites Fréquences réduites
Figure 4.6 – Estimation des amplitudes avec recouvrement spectral sur un signal synthé-
(1) (2)
tique représentant deux notes. Les fréquences fondamentales f0 et f0 des deux notes sont
en rapport d’octave et l’estimation est faite sur une observation de N = 2048 échantillons.
Pour chaque note, les amplitudes (cercles) sont générées à partir du modèle d’enveloppe
spectrale (traits noirs) via les équations (4.38) et (4.39). Les croix représentent l’estimation
de ces amplitudes (équation (4.44)).
le cas lorsque la distance |fk0 − fk | est petite devant la largeur du lobe principal de w et
que la variance vk de l’amplitude de la composante parasite est de l’ordre de grandeur de
vk0 : il y a alors recouvrement spectral. À l’inverse, il est possible de négliger l’influence des
composantes dont la fréquence est éloignée. En revenant au problème initial de l’estimation
(p)
des amplitudes des partiels, nous définissons l’estimateur de αh par
d W ∗ (0) vp,h
(p) (p)
αh , P ′ X fh (4.48)
(p ) (p) 2
(p′ ) (p)
fh′ −fh <∆w
W fh′ − fh vp′ ,h′
d (p) (p) b
Pour p ∈ J1; P K et h ∈ J1; Hp K, les estimations αh de αh et θp de θp sont alors
(p)(i) (i)
définies comme les valeurs respectives des suites αh et θp après un certain nombre
d’itérations. La convergence de l’algorithme n’est pas prouvée mais a été constatée et l’on
peut voir que la technique s’apparente à l’algorithme EM [Dempster et al., 1977] dans sa
manière de considérer des variables latentes – les amplitudes et les enveloppes – et des
observations – les coefficients spectraux.
Le fonctionnement de l’algorithme est illustré sur les figures 4.7 et 4.8. Lorsque l’on
analyse un signal à partir d’un modèle de note seule, les amplitudes des partiels sont
directement accessibles à partir du spectre. Il n’y pas lieu de réaliser plusieurs itérations :
une seule estimation AR suffit. C’est le cas sur les figures 4.7(a), 4.7(b), 4.7(d), 4.8(a)
et 4.8(b). Dans les trois premiers cas, le modèle considéré correspond à la note contenue
dans le signal ; l’enveloppe spectrale et les amplitudes des partiels sont alors correctement
estimés. Lorsque l’on cherche les paramètres d’un modèle de mélange de plusieurs notes
(figures 4.7(c) et 4.7(e)), l’algorithme itératif permet de prendre en compte le recouvrement
spectral. Dans le cas d’une quinte (figure 4.7(c)), les partiels isolés de chaque note assurent
une bonne estimation des deux enveloppes spectrales, permettant à leur tour d’estimer les
98 4. Estimation de fréquences fondamentales multiples
60
Spectre
50 θ̂1
(1)
40 α̂h
30
20
10
dB
0
−10
−20
−30
−40
−50
0 2000 4000 6000 8000 10000
f (Hz)
60 60
Spectre Spectre
50 θ̂1 50 θ̂1
(1) (1)
40 α̂h 40 α̂h
θ̂2
30 30 (2)
α̂h
20 20
10 10
dB
dB
0 0
−10 −10
−20 −20
−30 −30
−40 −40
−50 −50
0 2000 4000 6000 8000 10000 0 2000 4000 6000 8000 10000
f (Hz) f (Hz)
(b) Mi♭ 4 (622 Hz) analysé par un modèle de Mi♭ 4. (c) Mélange La♭ 3 (415 Hz) + Mi♭ 4 (622 Hz) analysé
par un modèle de La♭ 3 + Mi♭ 4.
60 60
Spectre Spectre
50 θ̂1 50 θ̂1
(1) (1)
40 α̂h 40 α̂h
θ̂2
30 30 (2)
α̂h
20 20
10 10
dB
dB
0 0
−10 −10
−20 −20
−30 −30
−40 −40
−50 −50
0 2000 4000 6000 8000 10000 0 2000 4000 6000 8000 10000
f (Hz) f (Hz)
(d) La♭ 4 (831 Hz) analysé par un modèle de La♭ 3. (e) Mélange La♭ 3 (415 Hz) + La♭ 4 (831 Hz) analysé
par un modèle de La♭ 3 + La♭ 4.
60 60
Spectre Spectre
50 θ̂1 50 θ̂1
(1) (1)
40 α̂h 40 α̂h
30 30
20 20
10 10
dB
0 dB 0
−10 −10
−20 −20
−30 −30
−40 −40
−50 −50
0 2000 4000 6000 8000 10000 0 2000 4000 6000 8000 10000
f (Hz) f (Hz)
(a) La♭ 3 (415 Hz) analysé par un modèle de La♭ 2 (b) La♭ 3 (415 Hz) analysé par un modèle de La♭ 4
(208 Hz). (831 Hz).
60
Spectre
θ̂1
(1)
40 α̂h
θ̂2
(2)
α̂h
20
dB
−20
−40
−60
0 2000 4000 6000 8000 10000
f (Hz)
Figure 4.8 – Estimation des amplitudes α cp et des enveloppes spectrales θbp lorsque le
modèle de mélange ne correspond pas au contenu du son.
100 4. Estimation de fréquences fondamentales multiples
amplitudes des partiels qui se recouvrent. L’estimation est plus difficile mais donne des
résultats intéressants lorsqu’il s’agit d’une octave, cas pour lequel seule la note la plus
grave possède des partiels isolés.
Avec les exemples de la figure 4.8, nous nous penchons sur le comportement de l’algo-
rithme lorsque le modèle considéré ne correspond pas aux notes contenues dans le signal.
La figure 4.8(a) représente le cas d’un modèle à l’octave inférieure de la véritable note : les
amplitudes estimées sont alternativement dans le bruit et sur une composante sinusoïdale.
Le modèle d’enveloppe estimé est alors sous-optimal, une enveloppe AR d’ordre faible ne
permettant pas de modéliser une alternance de coefficients spectraux faibles et forts. En
particulier, la platitude spectrale ρ (Ap ) obtenue (équation 4.37) est faible : le modèle a
alors peu de chance d’être sélectionné, au profit du modèle associé à la véritable note. Dans
le cas d’une erreur d’octave (figure 4.8(b)), l’enveloppe spectrale est certes bien estimée,
mais un partiel sur deux reste dans le résiduel. Dans le dernier exemple (figure 4.8(c)), le
signal contient une note unique alors que l’on essaie de le modéliser par cette note et son
octave. L’algorithme itératif parvient à détecter des amplitudes négligeables pour la note
absente, les amplitudes des partiels d’ordre pair de la note grave ne laissant pas présager
l’octave.
où ∆w désigne la largeur d’un lobe principal de la fenêtre w (∆w = N4 pour une fenêtre de
Hann). Cette approximation est asymptotiquement valable, lorsque N → +∞, c’est-à-dire
101
lorsque le nombre d’éléments supprimés du vecteur d’observation est petit devant la taille
de ce vecteur. L’expression de la log-vraisemblance (4.50) devient 3
2
#Fb 2 1 X 2iπf 2 1 X 1 Xb (f ) 2
Lb σb , B ≈ − ln 2πσb − ln B e − 2 (4.52)
2 2 2σb N B (e2iπf )
f ∈Fb f ∈Fb
60
40
20
dB
−20
−40
60 60
40 40
20 20
dB
dB
0 0
−20 −20
−40 −40
(b) Estimation avec le modèle Mi♭ 2 (156 Hz, sous- (c) Estimation avec le modèle Mi♭ 4 (622 Hz, oc-
octave). tave).
Figure 4.9 – Exemple d’estimation des paramètres du modèle de bruit sur un Mi♭ 3
(311 Hz).
103
toute note qui n’est pas un sous-harmonique, la modélisation MA n’est pas adaptée : les
paramètres estimés modélisent mal les données et la vraisemblance associée, faible, permet
de rejeter ce modèle qui ne correpond pas à la véritable note. On remarque par ailleurs
que les coefficients spectraux attribués à du bruit sont parfois des lobes secondaires de
partiels. Le phénomène n’est cependant pas gênant en pratique car l’enveloppe spectrale
du « bruit » résultant, qui inclut les lobes secondaires, conserve les qualités de régularité
déterminantes pour notre modèlisation.
Nous voyons ainsi à travers la modélisation des spectres de notes et du bruit résiduel
que les données sont bien modélisées lorsque l’on sélectionne le modèle de mélange original
(figures 4.7(a) (p. 98) et 4.9(a) par exemple), tandis qu’un des modèles au moins – celui de
spectre de note ou celui de bruit – permet de rejeter le mélange testé (figures 4.8(a) (p. 99)
et 4.9(b) pour la sous-octave, 4.8(b) (p. 99) et 4.9(c) pour l’octave).
où les paramètres de forme kσp2 et kσ2 et d’échelle Eσp2 et θE 2 ont été fixés empiriquement
b
b
Nous ne souhaitons pas introduire d’information supplémentaire via une loi a priori
sur les filtres normalisés Ap et B. Une solution consisterait à considérer une loi non infor-
mative [Gelman et al., 2004], par exemple de densité constante, associée à une distribution
uniforme des pôles du filtre AR et zéros du filtre MA dans le disque ouvert de rayon unité.
Nous allons voir dans la section 4.7 que nous pouvons tout simplement nous passer de ces
lois a priori non informatives dans l’estimation de la vraisemblance p (x|C).
par rapport à tous les mélanges possibles C ∈ C, e mais que le calcul de cette intégrale n’était
b, α
pas réalisable en pratique. Par ailleurs, si l’on note Θ b, θb1 , . . . , θc b
P , θb l’estimation des
paramètres pour un mélange C, on ne peut se contenter de remplacer la maximisation
de (4.62) par celle – toujours par rapport à C – de la fonction
XP X P
b
ln p x, Θ|C = b b
Lp θp + Lb θb + ln p σ c2
c2 + ln p σ
p b
p=1 p=1
P
X
+ ln p A b
cp + ln p B (4.63)
p=1
P
X P
X
L̃x (C) , w1 L̃p θbp /P + w2 L̃b θbb + w3 ln p σ c2 − µ P
c2 /P + w4 ln p σ
p b pol
p=1 p=1
(4.64)
où L̃p et L̃b θbb sont des versions « corrigées » de Lp et Lb , w1 , w2 , w3 , w4 sont les coef-
ficients de pondération et µpol est une pénalité sur la polyphonie P . Les corrections et la
pondération introduites visent à rendre les valeurs de L̃x (C) comparables lorsque C varie :
l’estimation de fréquences fondamentales est alors obtenue en maximisant la fonction de
détection C 7→ L̃x (C).
105
avec
La fonction g ne dépend plus que de deux nombres, l’ordre du modèle n (C) et la taille de
l’observation #x. De plus, le logarithme de g est linéaire en n (C), avec une pente différente
d’un critère à l’autre. C’est alors cette expression (équation (4.69)) qui est maximisée par
rapport à C pour estimer le modèle le plus vraisemblable.
En pratique, les critères sont en général exprimés, de manière équivalente, comme la
minimisation d’une expression de la forme
avec
G , −2 ln g (4.71)
Lp
L̃p , − µenv Hp (4.73)
Hp
Lb
L̃b , − µb #Fb (4.74)
#Fb
La fonction Hp 7→ µenv Hp (resp. #Fb 7→ µb #Fb ) peut être vue comme une correction
L Lb
de la pente de Hpp (resp. #F b
) en fonction de Hp (resp. #Fb ). Les paramètres µenv et µb
107
200 6000
Lp
Lb
0 4000
−200 2000
50 100 150 1000 1500 2000
5 2.6
#Fb
Hp
Lp
Lb
0 2.4
−5 2.2
50 100 150 1000 1500 2000
4 3
− µb #Fb
− µenv Hp
2
2.8
0
−2 2.6
#Fb
Lb
Hp
Lp
−4
50 100 150 1000 1500 2000
Hp #Fb
P
X P
X
L̃x (C) , w1 L̃p θbp /P + w2 L̃b θbb + w3 ln p σ c2 − µ P
c2 /P + w4 ln p σ
p b pol
p=1 p=1
(4.77)
où w1 , w2 , w3 , w4 sont les poids des vraisemblances normalisées et des densités a priori sur
σp2 et σb2 , et µpol est une correction d’ordre relative à la polyphonie P . Les sommes des
log-densités L̃p et ln p σ c2 sont normalisées par P selon le même principe que pour la
p
normalisation de Lp et Lb par Hp et #Fb . Par ailleurs, les log-densités a priori sur les
filtres Ap et B ont été supprimés, en leur imposant un poids nul, car elles ne portent pas
d’information utile (ou, de manière équivalente, en considérant p (Ap ) et p (B) constantes).
Dans l’expression (4.77), les coeffcients sont fixés de manière empirique à
w1 , 8, 1.10−1 (4.78)
w2 , 1, 4.104 (4.79)
2
w3 , 6, 2.10 (4.80)
w4 , 5, 8 (4.81)
µpol , 25 (4.82)
La fonction L̃x (C) obtenue peut alors être utilisée comme fonction de détection pour
l’estimation des fréquences fondamentales multiples. Le principal mérite de la normalisation
est de proposer une solution homogène, en terme de dimensions. Ce problème se pose dès
lors que le nombre d’observations varie, comme c’est le cas ici. Quant à l’efficacité – au
sens commun du terme – de ces approximations, nous verrons qu’elle est en pratique bonne
lors de l’évaluation de l’algorithme (partie 6.3).
200
w1 (L̃1 + . . . + L̃P )/P
0 w2 L̃b
w3 (L(σ12 ) + . . . + L(σP2 ))/P
w4 L(σb2 )
−200 −µpol P
−400
0 20 40 60 80 100
−1500
L̃
−2000
0 20 40 60 80 100
80
MIDI
60
40
0 20 40 60 80 100
Figure 4.11 – Log-vraisemblance pondérée pour un La♭ 3 (note MIDI 68) : en haut, les
cinq composantes pondérées (un décalage vertical a été introduit dans un souci de confort
visuel) ; au milieu, la log-vraisemblance pondérée, somme des composantes pondérées ; en
bas, les notes correspondantes. Sur les trois graphiques, les abscisses représentent l’indice
des mélanges testés, triés par ordre décroissant selon leur log-vraisemblance pondérée. Seuls
les 100 premiers mélanges sur les 466 testés sont représentés. Le mélange estimé est surligné
sur la figure du bas (premier mélange, à gauche, composé de la note 68).
réalisée sur une trame de 93 ms (soit 2048 points échantillonnés à 22050 Hz). Le temps de
calcul sur un ordinateur du commerce est de l’ordre de 150 fois le temps réel. L’algorithme
est donc plus coûteux que certains tels que celui de Klapuri [2006] mais ce coût reste
raisonnable (en particulier si l’on considère le coût de l’approche naïve de l’estimation
jointe, sans sélection de candidats, discutée plus haut). La partie la plus coûteuse est
l’estimation des paramètres du modèle qu’il faut réaliser pour les 466 mélanges à tester.
Elle a été mise en oeuvre en C alors que le reste du programme est mis en œuvre en Matlab.
110 4. Estimation de fréquences fondamentales multiples
4.9 Conclusion
Nous avons décrit un algorithme d’estimation de fréquences fondamentales multiples
adapté aux sons de piano en construisant un modèle de son, en détaillant des méthodes
pour estimer les paramètres du modèle et en proposant une fonction d’estimation du mé-
lange de notes le plus vraisemblable. L’approche, de nature spectrale, prend en compte
l’inharmonicité des sons, considère conjointement les notes en supposant que leurs enve-
loppes spectrales sont régulières et propose une modélisation du recouvrement entre les
spectres. L’ensemble s’intègre dans un cadre statistique, la décision sur l’estimation des
fréquences fondamentales multiples présentes étant prise à partir d’une approximation de
la vraisemblance des observations étant donné un mélange de notes. Les performances
de cet algorithme sont mesurées dans la partie 6.3.1 (p. 145) et des perspectives sur ces
travaux sont dressées dans la partie 6.4 (p. 159).
112 4. Estimation de fréquences fondamentales multiples
113
Chapitre 5
Système de transcription
Nous avons vu dans le chapitre 4 comment estimer les hauteurs des notes présentes
dans une trame de signal donnée. Un mode de transcription élémentaire consiste à appliquer
l’algorithme sur des trames successives pour obtenir les hauteurs présentes dans un morceau
entier en fonction du temps. Il s’agit alors d’une transcription de « bas-niveau » dans la
mesure où elle ne considère pas les notes comme des entités : le résultat obtenu n’est qu’une
fragmentation des notes selon le tramage d’analyse. Dans ce chapitre, nous utiliserons la
méthode d’estimation de fréquences fondamentales multiples présentée précédemment et
introduirons les mécanismes nécessaires pour élaborer des notes à partir d’une analyse
par trames. Après avoir détaillé notre problématique dans la partie 5.1, nous montrerons
comment les modèles de Markov cachés offrent un cadre approprié pour suivre les mélanges
de hauteurs et en déduire des notes. Le système de transcription complet sera finalement
capable d’analyser l’enregistrement d’une pièce pour piano solo et d’en estimer les notes,
c’est-à-dire leur hauteur, leur instant d’attaque et leur durée.
Une version antérieure des travaux présentés ici a fait l’objet d’une publication [Emiya
et al., 2008].
dans le répertoire pour piano solo, un ensemble de morceaux [Krueger, 2008] a été analysé
en extrayant le nombre de notes présentes simultanément. Chaque niveau de polyphonie
trouvé est représenté sur la figure 5.1, en proportion de la durée totale des 232 pièces de la
base utilisée. La polyphonie varie généralement entre 0 (silence) et 10, avec une moyenne
à 4, 5. Grâce à la pédale forte, un pianiste peut produire plus de dix notes simultanément,
le maximum relevé dans la base de morceaux, lors d’une montée chromatique rapide, étant
de 60 notes.
10
0
0 10 20 30 40 50 60
Polyphonie
Symphonies Beethoven
Symphonies
Piano Chopin
Piano
Piano Beethoven
Mus. Chambre Beethoven
Mus. Chambre
0 10 20 30 40 50 60
Débit moyen (notes/s)
Figure 5.2 – Débit moyen de notes en fonction de plusieurs formations classiques (musique
de chambre sans piano, piano solo, musique symphonique), tous compositeurs confondus
et pour quelques compositeurs emblématiques. Les limites trouvées sont représentées par
les zones pleines, les quartiles par les traits. Les statistiques ont été calculées par rapport
au débit moyen des mouvements de chaque morceau.
faciliter la transcription. Dans un contexte musical le plus large possible, le début d’une note
(voire d’un événement musical si l’on considère les musiques qui n’utilisent pas seulement
des notes comme matériau, mais par exemple des bruits) survient soit de manière disconti-
nue dans le cas d’une note détachée, soit de manière davantage continue, par exemple lors
de passages liés ou de glissandi joués par des vents, des cordes frottées ou chantés [d’Ales-
sandro et al., 1998b]. Les notes de piano contrastent avec cette diversité puisqu’elles ne
peuvent commencer que par une attaque, plus ou moins franche. Nous pouvons ainsi sim-
plifier la tâche de caractérisation du début des notes en nous concentrant sur ce genre
d’attaques et en excluant toute forme de continuité entre deux notes successives. La nature
percussive des sons et l’absence de modulation fréquentielle significative nous permettent
même d’aller plus loin : le contenu sonore dans un segment compris entre deux attaques
consécutives se compose d’une ou plusieurs notes, toutes présentes au début du segment,
de fréquences fondamentales constantes le long du segment et pouvant éventuellement se
terminer, de manière indépendante les unes des autres, au cours de ce laps de temps. Cette
évolution relativement simple exclut en particulier l’apparition d’une note à l’intérieur du
segment, ainsi que tout phénomène de type vibrato ou glissando.
de calculer le SEF. Les attaques sont ensuite détectées comme les maxima de la fonction
de détection, extraits en utilisant un seuil adaptatif, comme illustré sur la figure 5.3.
8000
6000
f (Hz)
4000
2000
0
0 1 2 3 4 5 6 7 8
t(s)
0.5
0
Forme d’onde
−0.5 Fonction de détection
Seuil de détection
Attaques détectées
−1
0 1 2 3 4 5 6 7 8
t (s)
Figure 5.3 – Exemple de détection des attaques sur un extrait d’España-Tango, Op. 165
d’I. Albéniz : en haut, spectrogramme de l’extrait, et, en bas, forme d’onde avec fonction
de détection.
Dans toute la suite, nous appellerons segment l’intervalle de taille variable compris
entre deux attaques consécutives, et qui sera décomposé en trames de durée fixe.
x1 x2 xu xU
C1 C2 Cu CU
Figure 5.4 – Processus de génération des observations par HMM : entre deux attaques, la
suite des mélanges de notes forme une chaîne de Markov, dont les états (cachés) permettent
de générer les trames de signal observées.
Le dénominateur pouvant être supprimé sans changer le résultat de la fonction arg max, il
vient :
U
Y U
Y
Cˆ1 . . . CˆU = arg max p (C1 ) p (Cu |Cu−1 ) p (xu |Cu ) (5.6)
C1 ...CU u=2 u=1
Cette équation représente précisément l’optimisation qui est réalisée dans le cadre de
l’utilisation de HMM. À condition de définir et de pouvoir calculer chacun des termes de
l’expression à maximiser, nous pouvons alors trouver la suite Cˆ1 . . . CˆU grâce à l’algorithme
de Viterbi [1967]. La vraisemblance d’une observation étant donné un état, p (xu |Cu ), cor-
respond à la vraisemblance pondérée définie, sous forme logarithmique, pour l’estimation de
fréquences fondamentales multiples par l’équation (4.77) (p. 108). Les deux autres termes
restent maintenant à définir : il s’agit des probabilités initiales notée p (C1 ) (probabilité de
se trouver dans l’état C1 dans la première trame) et des probabilités de transition notées
p (Cu |Cu−1 ) (probabilité de passer de l’état Cu−1 à l’état Cu ).
où les valeurs de la fonction p 7→ πi (p) seront fixées par une phase d’apprentissage, comme
l’explique la prochaine partie.
La probabilité de transition d’un mélange C à un mélange C ′ est ensuite définie comme
suit :
– pour 2 ≤ u ≤ U , l’apparition d’une note dans la trame u est interdite du fait de la
définition même d’un segment comme étant délimité par deux attaques consécutives ;
nous en déduisons que p (C ′ |C) , 0 si C ′ n’est pas un sous-ensemble de C ;
– en conséquence, la seule transition possible depuis l’état « silence » (C = ∅) est vers
lui-même : p (∅|∅) , 1 ;
– dans les autres cas (C ′ ⊂ C), les transitions depuis C sont possibles vers C lui-même
(C ′ = C) ou vers un sous-ensemble strict C ′ (il y a alors extinction des notes qui ont
disparu de C). Nous choisissons de ne faire dépendre la probabilité de transition que
du nombre de notes dans les accords C et C ′ . Cette probabilité, notée λ (#C, #C ′ ),
est fixée par la phase d’apprentissage détaillée dans la prochaine partie.
119
−3
x 10 Probabilités initiales
11
log (λ (p, p′ ))
10
0
9 0
8 −0.5
1
7
2 −1
πi (p)
6
3
p
5
−1.5
4 4
−2
3 5
−2.5
2
6
1
0 1 2 3 4 5 6 0 2 4 6
Polyphonie p p′
(a) Apprentissage des probabilités initales (b) Apprentissage des probabilités de transition
Figure 5.5 – Résultat de l’apprentissage des paramètres des HMM pour Nc = 9 notes
candidates et un polyphonie maximale Pmax = 6.
max
PX
Nc
πi (p) = 1 (5.8)
p
p=0
de passage d’une polyphonie p à une polyphonie p′ à partir de toutes les trames dont la
polyphonie est p. Les résultats de cet apprentissage sont représentés sur la figure 5.5(b).
Pour chaque mélange de polyphonie p, la probabilité de l’ensemble des transitions possibles
doit valoir 1. Les transitions étant possibles vers tout sous-ensemble de cet accord, nous
obtenons
p
X p
∀p ∈ J0; Pmax K, λ(p, p′ ) = 1 (5.9)
p′
p′ =0
HH C′ Do4
Mi4 Mi4 Mi4 Mi4 Mi4 HH ∅ Do4 Mi4
C H
H Mi4
∅ 1 0 0 0
Do4 Mi4 Do4 Mi4 Do4 Mi4 Do4 Mi4 Do4 Mi4
Do4 .17 .83 0 0
Mi4 .17 0 .83 0
1ère trame 2ème trame 3ème trame Dernière frame Do4 Mi4 .07 .06 .06 .80
(a) Estimation de la séquence d’états : la matrice de transi- (b) Matrice de transition : probabilité de
tion étant creuse, les transitions depuis un état ne sont pas transition d’un accord C à un accord C ′ .
possibles vers tous les autres états mais uniquement vers les
états relatifs à des sous-ensembles du mélange de départ.
Figure 5.6 – Exemple de transcription d’un segment par HMM : dans un souci de lisibilité,
seules deux notes (Do 4 et Mi 4) ont été sélectionnées. La ligne en gras et en pointillés
représente le chemin estimé : le mélange {Do 4, Mi 4} est détecté, le Do 4 se termine à la
trame 3 alors que le Mi 4 dure jusqu’à l’avant-dernière trame du segment.
1. Si la perception de l’intensité a été largement étudiée dans le champs de la perception des sons en
général, peu de travaux s’y sont intéressés dans le cas de la transcription automatique. Citons tout de
même Marolt [2004] qui évalue l’intensité d’une note en fonction de l’énergie de son premier partiel et
[Klapuri et Davy, 2006, p. 8 et 172] qui mentionnent l’utilisation d’une échelle logarithmique appliquée au
niveau RMS (Root Mean Square) estimé.
122 5. Système de transcription
90
80
Notes (MIDI)
70
60
50
40
0 5 10 15 20 25 30
t (s)
(a) Original.
90
80
Notes (MIDI)
70
60
50
40
0 5 10 15 20 25 30
t (s)
(b) Transcription (et original, en noir).
90
80
Notes (MIDI)
70
60
50
40
0 5 10 15 20 25 30
t (s)
(a) Original.
90
80
Notes (MIDI)
70
60
50
40
0 5 10 15 20 25 30
t (s)
(b) Transcription (et original, en noir).
5.3 Conclusion
Dans ce chapitre, nous avons décrit la conception d’un système de transcription opéra-
tionnel pour l’extraction des notes contenues dans un enregistrement de piano. Le système
est capable d’estimer conjointement le niveau de polyphonie, dans la limite de 6 notes
simultanées, et d’identifier les notes présentes. Il utilise l’algorithme d’estimation de fré-
quences fondamentales multiples présenté précédemment et assure le suivi des mélanges
de notes par modèles de Markov cachés. Les performances et résultats du système seront
analysés au chapitre 6.
125
Chapitre 6
Évaluation
Nous nous intéressons maintenant aux résultats pratiques obtenus avec notre système.
Si l’évaluation d’un système de transcription constitue une démarche nécessaire, la tâche
n’en est pas moins complexe, comme nous le montrerons ici. L’évaluation met en jeu deux
composantes : les critères d’évaluation et la base d’évaluation. Toutes deux doivent
être fixées pour pouvoir établir et comparer les performances de plusieurs systèmes.
En pratique, par manque de consensus sur les méthodes d’évaluation et parce que les
bases de données appropriées sont rares, la plupart des auteurs préfèrent utiliser une base
et des critères qui leur sont propres, avec lesquels ils réalisent une évaluation compara-
tive de plusieurs systèmes. En espérant contribuer à faciliter et enrichir cette étape, nous
aborderons ici l’évaluation en développant la question des critères d’évaluation, puis propo-
serons une base de données adaptée à l’évaluation des tâches de transcription automatique
et d’estimation de fréquences fondamentales multiples, dans le cas du piano.
Nous terminerons ce chapitre par une évaluation détaillée et comparative de nos algo-
rithmes d’estimation de fréquences fondamentales multiples et de transcription, en utilisant
les outils et sons élaborés.
Ces travaux ont partiellement fait l’objet d’une publication [Daniel et al., 2008]. Par
ailleurs, une première comparaison détaillée de résultats sur l’estimation de fréquences
fondamentales multiples de sons de piano a été présentée par David et al. [2007].
Évaluation qualitative
Certains auteurs se contentent d’illustrer la présentation de leur système à l’aide de
quelques exemples de transcription [Moorer, 1975; Martin, 1996; Rossi, 1998; Walmsley
126 6. Évaluation
et al., 1999; Smaragdis et Brown, 2003; Cemgil et al., 2006; Davy et al., 2006]. Ils montrent
ainsi le type de résultats auquel on peut s’attendre. L’avantage de ce type d’évaluations
réside dans la possibilité de mettre en avant quelques erreurs typiques, comme les erreurs
d’octave ou les notes répétées, et de les relier à la technique utilisée. En revanche, elles ne
donnent pas de résultats sur un nombre significatif de transcriptions, et ne proposent pas
d’évaluation quantitative ou comparative.
Critères quantitatifs
Les critères quantitatifs constituent le type d’évaluation le plus largement répandu. Ils
consistent à compter le nombre de détections correctes et d’erreurs, en fonction desquels
plusieurs taux sont calculés. Ce système d’évaluation n’est toutefois pas unifié. Certains
effectuent le décompte dans chaque trame analysée [Plumbley et al., 2006; Poliner et Ellis,
2007] alors que d’autres s’appuient sur les notes [Dixon, 2000; Marolt, 2004; Bello et al.,
2006; Ryynänen et Klapuri, 2005; Bertin et al., 2007; Vincent et al., 2008]. Dans ce dernier
cas, la définition d’une note correctement estimée dépend d’un seuil de tolérance sur la
fréquence fondamentale (le demi-ton en général, cf. correspondance entre fréquence fonda-
mentale et notes dans l’annexe C (p. 177)), sur l’instant d’attaque (50 ms pour Bello et al.
[2006]; Vincent et al. [2008], 70 ms pour Dixon [2000], 128 ms pour Bertin et al. [2007],
150 ms pour Ryynänen et Klapuri [2005]) et éventuellement sur l’instant d’extinction de
la note. Enfin, plusieurs systèmes concurrents sont proposés, avec des critères légèrement
différents.
Un premier système d’évaluation quantitative est utilisé sur la base d’un décompte par
note [Bello et al., 2006; Ryynänen et Klapuri, 2005; Bertin et al., 2007; Vincent et al.,
2008], par trame Plumbley et al. [2006]; Poliner et Ellis [2007], ou des deux [International
Music Information Retrieval Systems Evaluation Laboratory, 2007]. On détermine d’abord
l’ensemble TP des notes correctement estimées (true positive), l’ensemble FP des notes
ajoutées (false positive, ou fausses alarmes), et l’ensemble FN des notes oubliées (false
negative). En fonction des cardinaux de ces ensembles, on définit alors deux critères com-
plémentaires, le rappel (recall ) r et la précision (precision) p [Van Rijsbergen, 1979] :
#TP
r, (6.1)
#TP + #FN
#TP
p, (6.2)
#TP + #FP
Le rappel donne la proportion de notes correctes parmi les notes originales alors que
la précision donne la proportion de notes correctes parmi les notes transcrites. Les deux
critères peuvent être synthétisés en un seul pour obtenir une note globale, par exemple via
la F-mesure f [Van Rijsbergen, 1979] définie par
rp
f ,2 (6.3)
r+p
De manière relativement équivalente, on peut également définir une note globale a,
appelée score [Dixon, 2000] ou accuracy [Poliner et Ellis, 2007; Bertin et al., 2007], par
#TP
a, (6.4)
#TP + #FN + #FP
1
= 2 (6.5)
f −1
127
Un autre système d’évaluation quantitative, utilisé par Raphael [2002]; Poliner et Ellis
[2007] et de façon plus simplifiée par Kameoka et al. [2007], repose non plus sur deux mais
sur trois critères complémentaires : les taux de notes manquantes, de notes substituées, et
de fausses alarmes (dont la définition diffère du cas précédent). Le décompte s’effectue par
trame et les trois critères sont définis par
PT
max (0, #FNt − #FPt )
Emiss , t=1 PT (6.6)
t=1 (#TPt + #FNt )
PT
min (#FPt , #FNt )
Esubs , Pt=1 T
(6.7)
t=1 (#TPt + #FNt )
PT
max (0, #FPt − #FNt )
Efa , t=1 PT (6.8)
t=1 (#TPt + #FNt )
(6.9)
où T est le nombre de trames et TPt , FNt et FPt désignent respectivement l’ensemble des
notes correctes, des notes oubliées et des notes ajoutées dans la trame t. Un taux d’erreur
global est alors
PT
t=1 max (#FPt , #FNt )
Etot , P T
(6.10)
t=1 (#TP t + #FN t )
(6.11)
où ton
n et tn sont les couples d’instants, respectivement d’attaque et d’extinction, pour
off
les notes originale et transcrite d’indice n. Le taux de recouvrement moyen (MOR, mean
overlap ratio) o est ensuite obtenu en prenant la moyenne des taux de recouvrement de
toutes les notes transcrites :
N
1 X
o, on (6.13)
N
n=1
pas associée à une application musicale particulière, et où elle permet d’examiner plusieurs
taux d’erreurs de base, tels que la précision et le rappel. En revanche, lorsqu’il s’agit de la
transcription de morceaux de musique, l’évaluation objective semble insuffisante, puisque la
qualité musicale d’une transcription n’est pas en rapport direct avec ce type de décompte.
Par exemple, la qualité d’une transcription est en général jugée meilleure lorsque les er-
reurs sont des oublis plutôt que des ajouts. Par ailleurs, l’aspect rythmique et le contexte
harmonique sont déterminants pour évaluer la gravité d’une erreur, comme le montrent les
études sur l’influence de la tonalité [Bigand et al., 1999].
En considérant la problématique de l’évaluation des résultats en général, un parallèle
peut être dressé entre le problème posé pour la transcription et les pratiques répandues dans
les domaines du codage audio ou vidéo et de la séparation de sources. Comme illustré dans
le tableau 6.1, on peut considérer que les métriques utilisés actuellement pour l’évaluation
des transcriptions correspondent à un niveau 0 d’évaluation, au même titre que des critères
de rapport signal à bruit (SNR) en codage, des métriques légèrement plus détaillées comme
le rapport signal à interférences (SIR), le rapport signal à artéfacts (SAR) et le rapport
signal à distortion (SDR) utilisés en séparation de sources [Vincent et al., 2006]. De ce point
de vue, les travaux dans le domaine du codage ont menés à des systèmes d’évaluation plus
évolués. Le test d’écoute est ainsi considéré comme la méthode d’évaluation optimale et est
utilisée comme ultime critère. Le protocole étant difficile à mettre en oeuvre matériellement
et financièrement, des travaux sont menés pour proposer des métriques dites « objectives »
qui permettent de remplacer les jugements subjectifs [Winkler, 2005; Huber et Kollmeier,
2006; Creusere et al., 2008]. Elles permettent ainsi une évaluation de qualité intermédiaire,
entre l’évaluation que nous qualifions de niveau 0 et l’évaluation de qualité optimale par
des sujets.
Figure 6.1 – Test 1 : pour chaque paire de sons, le sujet désigne celui provoquant la plus
grande gêne.
Figure 6.2 – Échelle subjective de gêne en fonction des erreurs typiques : les croix re-
présentent les valeurs trouvées, les barres l’intervalle de confiance à 90% obtenu par une
méthode de bootstrap [Efron et Tibshirani, 1993] (les intervalles ne sont pas centrés sur
les valeurs BTL car la distribution des données n’est pas forcément gaussienne).
6.1.2.2 Résultats
remplacement est plutôt causée par la note ajoutée que par la note omise. Les faibles
valeurs obtenues pour les suppressions confirment cette hypothèse, qui est couramment
remarquée lors des travaux sur la transcription automatique : il vaut mieux oublier une
note qu’en ajouter une, le résultat étant en général subjectivement meilleur.
Les résultats relatifs aux erreurs temporelles montrent que celles sur l’attaque sont
plus gênantes que celles sur la durée. Les sujets semblent même insensibles à la majorité
de ces dernières. La nature de l’instrument utilisé est une explication probable : les sons de
piano, caractérisés par leurs oscillations libres ont une fin moins perceptible que des sons
d’instruments à oscillations entretenues. De ce point de vue, les résultats de ce test ne sont
pas généralisables à tous les instruments.
Enfin, une analyse complémentaire des résultats montre deux tendances qui ne sont pas
visibles sur la figure 6.2. La première est que les résultats obtenus avec les musiciens et les
non-musiciens sont similaires. La seconde est que les échelles séparées pour chaque mor-
ceau donnent également des résultats comparables, à l’exception de l’extrait de Debussy,
pour lequel les erreurs de suppression sont plus faibles et celles de durée plus élevées,
probablement en raison du tempo relativement faible.
Rempl. aléat.
0.3 Insert. octave
Insert. quinte
0.2 Insert. aléat.
0.1
−50 0 50 100 150
Échelle perceptive
Attaque
Durée
0.2
1 - MOR
0.1
0
−150 −100 −50 0 50
Échelle perceptive
Figure 6.3 – Exemples de différences entre évaluations objective et subjective : les résultats
perceptifs sont confrontés à la la quantité 1−F-mesure (en haut, pour des insertions et des
remplacements à MNR= 33%) et au taux de recouvrement moyen (MOR, en bas, pour les
modifications de durée et d’instants d’attaque). Chaque type d’erreur est représenté avec
un tracé et une couleur propres, quel que soit le taux d’erreur (la tendance de celui-ci est
d’augmenter de gauche à droite et de bas en haut), d’où la présence de plusieurs ellipses
de même tracé. L’incertitude selon chaque dimension est représentée par les dimensions
des ellipses. Les ellipses n’étant pas disposées selon une courbe croissante, la F-mesure et
le MOR ne sont pas représentatifs de l’échelle perceptive.
Lorsque l’on compare les résultats perceptifs du test et ceux obtenus avec des méthodes
d’évaluation objective introduites dans la partie 6.1.1, les deux types d’évaluation diffèrent
sur certains points. La figure 6.3 en explicite quelques-uns. Ainsi, les modifications d’octave,
de quinte et de hauteur aléatoire ont la même F-mesure alors que la gêne générée est
133
L’extraction des coefficients commence par une étape de normalisation entre 0 et 1 des
résultats du test. Nous sélectionnons ensuite ceux dont le MNR vaut 33%, et les moyennons
dans le cas des insertions et remplacements. Nous obtenons ainsi une réduction des erreurs
typiques à 6 critères représentatifs 1 à intégrer dans les métriques, et dont les coefficients
de pondérations associés figurent dans le tableau 6.2. Ces coefficients ont été normalisés
de telle sorte que
3 6
1X X
αi + αi = 1 (6.14)
3
i=1 i=4
car les erreurs d’octave, de quinte et d’autres hauteurs sont des fausses alarmes complé-
mentaires.
Critères Poids
Octave α1 = 0, 1794
Quinte α2 = 0, 2712
Autres intervalles α3 = 0, 2941
Suppression α4 = 0, 2475
Durée α5 = 0, 0355
Instants d’attaque α6 = 0, 4687
1. Le critère sur la nuance a été éliminé car les résultats obtenus ne sont pas satisfaisants, probablement
en raison de la difficulté de modéliser une échelle de perception des nuances. La fragmentation n’est pas
utilisée non plus car elle était difficilement intégrable dans les métriques.
134 6. Évaluation
1 1 1 1 −1
f= × + × (6.15)
2 p 2 r
#TP
= (6.16)
#TP + 2 #FP + 21 #FN
1
Les erreurs, de deux types – FP et FN –, y sont comptabilisées avec des poids identiques
égaux à 12 . En introduisant cette mesure, Van Rijsbergen [1979] a étudié l’hypothèse de
pondérer différemment ces deux types d’erreurs grâce à un coefficient α ∈ [0; 1] tel que
−1
α 1−α
f= + (6.17)
p r
#TP
= (6.18)
#TP + α#FP + (1 − α) #FN
#TP
fpercept , P6 (6.19)
#TP + i=1 αi wi #Ei
#TP
apercept , P6 (6.20)
#TP + 2 i=1 αi wi #Ei
1
= 2 (6.21)
fpercept − 1
L’extraction des erreurs à partir des fichiers MIDI du morceau original et de la trans-
cription s’effectue selon l’algorithme 6.1.
135
Figure 6.4 – Test 2 : le sujet attribue aux transcriptions un score (nombre positif).
2 4 1 2
1 1 2 4 4
Gêne
1
0.5 3
3 3
R R R
0
Bach Debussy Mozart
Figure 6.5 – Résultat de l’évaluation de transcriptions. Les traits noirs indiquent les
valeurs moyennes, les barres grises l’étalement des réponses selon les sujets. Les chiffres
font référence aux différents systèmes de transcription (rendus anonymes pour éviter de
présenter les résultats comme ceux d’une comparaison de systèmes), et ’R’ désigne la
référence.
chacun. Pour chaque extrait, l’une des cinq transcriptions est en réalité l’original, afin de
contrôler la cohérence des résultats. Les quatre autres ont été obtenues par des systèmes
de transcription automatique : SONIC [Marolt, 2004], disponible sur le site Internet de
l’auteur, le système de Bertin et al. [2007], un système de P. Leveau selon [Leveau et al.,
2008] et une version préliminaire de [Emiya et al., 2008]. Les erreurs commises dépendent
donc du comportement spécifique de chaque système.
Les résultats sont représentés sur la figure 6.5. Ils ont été normalisés par la note maxi-
male donnée par chaque sujet, et ceux qui avaient donné une gêne supérieure à 20% à la
référence ont été éliminés (6 sujets sur 37). La moyenne et l’écart-type par morceau, par
rapport à tous les sujets restants, sont alors calculés. Ces résultats ont été validés par un
test ANOVA factoriel 3 × 5 (nombre de compositeurs × nombre de systèmes de transcrip-
tion). Le test est passé avec succès, avec un niveau p = 0, 01 (c’est-à-dire un risque de
5%), le long de chaque dimension et suivant les interactions entre les dimensions. Les notes
obtenues varient significativement en fonction de l’extrait, ce qui confirme que les perfor-
mances dépendent du contenu musical des morceaux et de la base de données d’évaluation
choisie. La largeur des écarts-type montre l’importance de critères subjectifs personnels
dans l’évaluation d’une transcription, et le recouvrement qu’il en résulte entre les scores
reflète la difficulté d’une entreprise d’évaluation de systèmes de transcription, même si l’on
peut attribuer la première et la dernière places respectivement aux systèmes 3 et 2.
Nous pouvons à présent appliquer les métriques perceptives définies précédemment
et comparer les notes de l’évaluation subjective ainsi qu’avec les résultats obtenus avec
leurs versions originales. La figure 6.6 représente ces résultats. La F-mesure et la F-mesure
perceptive ont subi l’opération x 7→ 1 − x afin de représenter des taux d’erreur, et non une
137
1.5
2 4 1 2
F−mesure
1 1 2 4 4
3 1
0.5 3 3
R R R
0
Bach Debussy Mozart
F−mes. percep.
1.5
2 4 1 2
1 1 2 4 4
3 1
0.5 3 3
R R R
0
Bach Debussy Mozart
1.5
2 4 1 2
1 1 2 4 4
PTD
3 1
0.5 3 3
R R R
0
Bach Debussy Mozart
1.5
PTD percep.
2 4 1 2
1 1 2 4 4
3 1
0.5 3 3
R R R
0
Bach Debussy Mozart
– la consistence de la prédiction
NO
RO , (6.24)
N
où NO , #{n/ |xn − yn | > 2σx } est le nombre d’outliers (données aberrantes) calculé
en fonction d’un seuil σx .
138 6. Évaluation
Les résultats, donnés dans le tableau 6.3, montrent une amélioration globale de la qua-
lité lorsque l’on passe d’une métrique usuelle à sa version perceptive. On constate cette
amélioration pour les critères de précision et de monotonie de la prédiction, la consistence
étant ici non-significative (aucun outlier à l’exception d’un seul dans le cas de la PTD
perceptive). L’amélioration est légère dans le cas de la F-mesure perceptive. Elle est plus
significative pour la monotonie de la prédiction de la PTD perceptive, passant de 61, 6%
à 89, 6%. On remarque par ailleurs une valeur isolée très élevée obtenue pour la trans-
cription dont la gêne est maximale (Mozart, Système 2), qui perturbe la mise à l’échelle
des résultats, expliquant la présence d’un outliers, et surtout la faible précision de la PTD
perceptive par rapport à la F-mesure perceptive. Ainsi, la relation entre valeurs subjectives
et PTD perceptive semble non-linéaire, tout en conservant de très bonnes propriétés de
monotonie.
Précision Monotonie Consistence
F-mesure 83, 4% 83, 5% 0%
F-mesure perceptive 84, 1% 84, 9% 0%
PTD 60, 3% 61, 6% 0%
PTD perceptive 64, 8% 89, 6% 6, 7%
Le dimensionnement de la base a été ajusté pour faciliter sa diffusion : les sons et réfé-
rences de chaque couple instrument/conditions d’enregistrement tiennent sur un DVD. Le
nombre de paramètres que nous souhaitons faire varier conduisant à un volume inutilement
grand de sons, nous avons réduit la taille à un DVD par instrument en utilisant des tirages
aléatoires, comme cela sera expliqué dans la partie 6.2.2.
MAPS_ISOL_mo_i0_Ss_Mm_nomInstrument.wav
MAPS_RAND_Px_Mm1-m2_Ii1-i2_Ss_nn_nomInstrument.wav,
2. Enfoncer la pédale avant de jouer la note n’est pas une pratique musicale courante. Nous procédons
ainsi pour que l’effet d’enfoncement de la pédale n’interfère pas avec l’attaque des notes dans le son.
141
en quelque sorte une interprétation sous forme MIDI. La place, la durée et l’intensité de
chaque note ont ainsi fait l’objet d’un ajustement par l’auteur (interprète). Lors de la fi-
nalisation de la base, 238 morceaux du répertoire classique et traditionnel de piano étaient
proposés.
Pour chaque instrument et condition d’enregistrement (entrées du tableau 6.4 (p. 139)),
30 morceaux sont choisis au hasard et enregistrés. Nous disposons ainsi d’un choix varié
de morceaux, dont certains sont enregistrés plusieurs fois dans des conditions différentes.
La nomenclature des fichiers suit ici le modèle
MAPS_MUS_nomMorceau_nomInstrument.wav
6.2.3 Dispositif
La génération de la base de données a fait l’objet de deux dispositifs différents, l’un pour
l’utilisation du piano Disklavier, l’autre pour la synthèse logicielle. Dans les deux cas, nous
avons dû procéder de manière non triviale et prendre des précautions qu’il nous a semblé
utile de rapporter ici. Auparavant, tous les fichiers MIDI ont été créés, en prenant soin
de garantir qu’ils pouvaient réellement être générés (les morceaux de musique contenaient
par exemple quelques notes à supprimer car injouables, et le Disklavier était limité dans
la rapidité avec laquelle il peut jouer automatiquement).
La génération à partir de logiciels a été automatisée en concaténant les nombreux
fichiers MIDI à générer en un petit nombre de longs fichiers, et en lançant l’enregistrement
à partir d’un séquenceur (Cubase SX 3 de Steinberg). Les fichiers son ainsi générés sont
ensuite segmentés. Ce procédé a été utilisé faute de pouvoir contrôler le séquenceur par un
script et enregistrer ainsi les fichiers un par un.
Nom Fondamental Renvers. 1 Renvers. 2 Renvers. 3 Renvers. 4
Septième majeure 0-4-7-11 0-3-7-8 0-4-5-9 0-1-5-8
Septième mineure 0-3-7-10 0-4-7-9 0-3-5-8 0-2-5-9
Septième de dominante 0-4-7-10 0-3-6-8 0-3-5-9 0-2-6-9
Septième mineure et quinte diminuée 0-3-6-10 0-3-7-9 0-4-6-9 0-2-5-8
Septième diminuée 0-3-6-9 0-3-6-9 0-3-6-9 0-3-6-9
Septième majeure et parfait mineur 0-3-7-11 0-4-8-9 0-4-5-8 0-1-4-8
Septième majeure et quinte augmentée 0-4-8-11 0-4-7-8 0-3-4-8 0-1-5-9
Neuvième majeure de dominante 0-4-7-10-14 0-3-6-8-10 0-3-5-7-9 0-2-4-6-9 0-2-5-8-10
Neuvième mineure de dominante 0-4-7-10-13 0-3-6-8-9 0-3-5-6-9 0-2-3-6-9 0-3-6-9-11
Neuvième majeure et septième mineure 0-3-7-10-14 0-4-7-9-11 0-3-5-7-8 0-2-4-5-9 0-1-5-8-10
Neuvième mineure et septième mineure 0-3-7-10-13 0-4-7-9-10 0-3-5-6-8 0-2-3-5-9 0-2-6-9-11
Neuvième mineure et quinte diminuée 0-3-6-10-13 0-3-7-9-10 0-4-6-7-9 0-2-3-5-8 0-2-5-9-11
Neuvième majeure et septième majeure 0-4-7-11-14 0-3-7-8-10 0-4-5-7-9 0-1-3-5-8 0-2-5-9-10
Neuvième augmentée 0-4-7-11-15 0-3-7-8-11 0-4-5-8-9 0-1-4-5-8 0-1-4-8-9
Neuvième mineure et septième diminuée 0-3-6-9-13 0-3-6-9-10 0-3-6-7-9 0-3-4-6-9 0-2-5-8-11
Neuvième majeure, septième majeure et parfait mineur 0-3-7-11-14 0-4-8-9-11 0-4-5-7-8 0-1-3-4-8 0-1-5-9-10
Neuvième majeure et quinte augmentée 0-4-8-11-14 0-4-7-8-10 0-3-4-6-8 0-1-3-5-9 0-2-6-9-10
Table 6.6 – Accords usuels de 4 et 5 sons et nomenclature (écarts à la note fondamentale en demi-tons).
143
144 6. Évaluation
env. 50cm
MIDI
MIDI
Enregistrement
Enregistrement
MIDI
Enregistrement
Figure 6.7 – Dispositif d’enregistrement : la carte son (en bas à droite) envoie les fichiers
MIDI vers le boîtier du piano (en haut à droite), reçoit les notes jouées via une liaison
MIDI inverse et enregistre le son produit (les micros sont ici placés près du piano).
145
supplémentaire – notée Tolonen-500 –, sur les notes comprises entre le Do 0 (33 Hz) et le
Si 3 (494 Hz) seulement.
Résultats généraux
La figure 6.8 représente les résultats de l’évaluation objective lorsque la polyphonie est
inconnue par les systèmes. La F-mesure donne une évaluation globale des résultats. De ce
point de vue, notre système se démarque des autres en polyphonie 1 et 2, avec un score
de 94% contre 89% (polyphonie 1) et 92% (polyphonie 2) pour le système de Klapuri. La
tendance s’inverse ensuite entre les deux systèmes, les F-mesures obtenues pour le système
de Klapuri et le nôtre valant respectivement 92% et 89% en polyphonie 3, et 73% et 65%
en polyphonie 6. Pour l’ensemble des résultats, nous constatons que le système de Tolonen,
même limité en tessiture, est moins performant.
Quelle que soit la polyphonie, le score de précision est élevé pour chaque système – entre
85 et 97% – et particulièrement pour le nôtre, alors que le rappel a tendance à diminuer
quand la polyphonie augmente. Il faut par ailleurs noter qu’il est courant qu’un système
d’estimation de fréquences fondamentales multiples soit moins performant en polyphonie
1 qu’en polyphonie 2 ou 3 lorsqu’il doit estimer le nombre de notes car le risque d’ajouter
des notes lorsqu’il n’y en a qu’une présente est grand.
Estimation de la polyphonie
Les capacités de la méthode de Klapuri et de notre algorithme à détecter le bon nombre
de notes sont représentées sur la figure 6.9. Jusqu’à la polyphonie 5 incluse, les systèmes
parviennent à déterminer le bon nombre de notes présentes plus souvent que tout autre
nombre. Notre système a en outre été testé dans des conditions plus défavorables que
les autres étant donné que la polyphonie 0, c’est-à-dire le silence, peut être détectée. On
constate qu’il est détecté dans un minimum de cas.
Détection d’octave
La figure 6.12 donne les résultats obtenus sur les sons de la base composés exclusivement
d’une octave. Ce cas de figure fait partie des plus difficiles et nous voyons que les résultats
sont moins élevés que ceux obtenus de manière générale en polyphonie 2. Notre système
est ici le plus performant avec une F-mesure égale à 85%, contre 76% pour le système de
Klapuri, et 77%/66% pour celui de Tolonen. Il semble donc que le modèle d’enveloppe
spectrale et de recouvrement de spectre de notre algorithme soit particulièrement efficace.
147
80
60
%
40
20
0
1 2 3 4 5 6
Polyphonie
(a)
80
60
%
40
20
0
1 2 3 4 5 6
Polyphonie
(b)
80
60
%
40
20
0
1 2 3 4 5 6
Polyphonie
(c)
100
Pest = 0
Pest = 1
20
0
0 1 2 3 4 5 6 7
Polyphonie originale
100
Pest = 0
Pest = 1
Taux de détection (%)
80
Pest = 2
Pest = 3
60 Pest = 4
Pest = 5
40 Pest = 6
20
0
0 1 2 3 4 5 6 7
Polyphonie originale
80
60
%
40
20
0
1 2 3 4 5 6
Polyphonie
80 80
60 60
%
%
40 40
20 20
0 0
1 2 3 4 5 6 1 2 3 4 5
Polyphonie Polyphonie
Figure 6.11 – Performances en fonction de la consonance des accords : résultats pour des
accords aléatoires (à gauche) et des accords usuels (à droite).
80
60
%
40
20
0
Rappel Précision F−mesure
Détection d’octave
Figure 6.12 – Détection des octaves : détails des résultats pour les 90 sons d’octaves
contenus dans la base de test (45 sons pour le système Tolonen-500).
150 6. Évaluation
80 80
60 60
%
%
40 40
20 20
0 0
1 2 3 4 5 6 1 2 3 4 5 6
Polyphonie Polyphonie
80 80
60 60
%
40 40
20 20
0 0
1 2 3 4 5 6 1 2 3 4 5 6
Polyphonie Polyphonie
80 80
60 60
%
40 40
20 20
0 0
1 2 3 4 5 6 1 2 3 4 5 6
Polyphonie Polyphonie
80
60
%
40
20
0
1 2 3 4 5 6
Polyphonie
(g) ENSTDk.
Rappel Rappel
100 100
80 80
60 60
%
%
40 40
20 20
0 0
1 2 3 4 5 6 20 30 40 50 60 70 80 90 100
Polyphonie Note (MIDI)
Les résultats sont représentés sur les figures 6.15 et 6.16(a). Pour chaque mesure utilisée,
le score obtenu pour chaque morceau a été calculé, puis la moyenne des scores sur tous les
morceaux est présentée.
100
Bertin’07
Vincent B ’07
Vincent H ’07
80
Marolt’04
Thèse Emiya
60
%
40
20
0
F−mesure Précision Rappel Mean Overlap Ratio
La F-mesure moyenne obtenue par notre système (figure 6.15) est égale à 63%. Elle
arrive en deuxième position après celle de Marolt (75%), suivie de près par les systèmes
de Vincent (56% et 63% respectivement pour les versions B et H), puis par celui de Ber-
tin (46%). Notre système est plus perfomant en terme de précision (76%) que de rappel
(56%), et suit de ce point de vue les tendances de la méthode d’estimation de fréquences
fondamentales multiples. Il se distingue par ailleurs en arrivant en tête pour l’estimation
de la durée des notes, le taux de recouvrement moyen (MOR) entre notes originales et
transcrites atteignant 62%, contre 57%, 56%, 52% et 47% pour les autres systèmes. Cette
performance illustre les qualités du système quant au suivi des mélanges de notes. L’archi-
tecture choisie, composée d’une segmentation selon les attaques et de HMM dans chaque
segment, semble ici particulièrement efficace.
La F-mesure perceptive (figure 6.16(a)) donne des scores différents de la F-mesure, les
valeurs ayant tendance à se rapprocher entre elles. Le système de Marolt reste en tête avec
un score de 80%, suivi de la version H du système de Vincent et de notre système (75%),
puis de la version B (71%) et du système de Bertin (58%). La figure 6.16(b) montre que
153
pour certains morceaux, la F-mesure perceptive et la F-mesure ne donnent pas du tout les
mêmes résultats. On peut par exemple trouver un point de coordonnées (41; 68) et un autre
de coordonnées (77; 70), qui sont relativement écartés de la courbe croissante moyenne.
La figure 6.17 représente par ailleurs, pour chaque algorithme, la distribution des scores
(F-mesure et F-mesure perceptive) selon les transcriptions. Ce sont ces valeurs qui ont été
moyennées précédemment et l’on voit ici que les performances de chaque système dépend
des morceaux originaux. Les différences obtenues pour un même système résultent le plus
souvent des variations dans le niveau technique des morceaux, en particulier dans le niveau
de polyphonie et suivant le tempo. Nous constatons par ailleurs de nouveau que la F-mesure
perceptive (figure 6.17(b)) a davantage tendance à regrouper les scores que la F-mesure
(figure 6.17(a)).
154 6. Évaluation
100
90
80 70
60 60
%
50
40
Bertin’07
Vincent B ’07 40
20 Vincent H ’07
Marolt’04 30
Thèse Emiya 0 50 100
0
F−mesure perceptive F−mesure (%)
(a) F-mesure perceptive moyenne, par sys- (b) Correspondance entre F-mesure et F-mesure
tème. perceptive, pour chaque transcription obtenue
(croix) par notre système. Le segment de droite est
une régression linéaire entre les points, d’équation :
F-mesure perceptive = 0, 65 × F-mesure + 33.
50 80
Bertin’07 Bertin’07
Vincent B ’07 Vincent B ’07
Nombre de morceaux
Nombre de morceaux
40
Vincent H ’07 60 Vincent H ’07
Marolt’04 Marolt’04
30 Thèse Emiya Thèse Emiya
40
20
20
10
0 0
0 20 40 60 80 100 0 20 40 60 80 100
F−mesure F−mesure perceptive
6.4 Conclusion
Ce chapitre a été l’occasion d’aborder en détail plusieurs aspects liés à l’évaluation des
transcriptions. Dans la première partie sur les méthodes d’évaluation, nous nous sommes
intéressé aux critères d’évaluation, en introduisant une dimension perceptive qui n’a, à
notre connaissance, jamais été utilisée dans le domaine de la transcription. Nous avons
ainsi mis en évidence que d’un point de vue perceptif, les erreurs de transcription n’étaient
pas toutes perçues avec la même sensibilité. Nous avons alors défini des mesures perceptives
d’évaluation, qui généralisent les mesures utilisées habituellement. Enfin, nous avons intro-
duit le cadre d’évaluation de la qualité utilisé en codage vidéo pour quantifier la qualité de
ces métriques.
Dans la deuxième partie, nous avons décrit la base de données MAPS, construite de
manière spécifique pendant cette thèse pour l’évaluation des systèmes de transcription
automatique et d’estimation de fréquences fondamentales. Elle se compose de plusieurs
classes de sons de piano entièrement et précisément annotés, que nous nous sommes efforcé
de rendre les plus variés possible.
Dans la troisième et dernière partie, nous avons évalué notre algorithme d’estimation de
fréquences fondamentales multiples et notre système de transcription en utilisant les outils
précédents. Nous avons ainsi pu analyser sous plusieurs angles le comportement de ces
méthodes, ainsi que d’approches de la littérature. Les résultats obtenus sont à la hauteur des
systèmes les plus récents. Nous avons pu établir les qualités propres à chaque système. Ainsi,
notre méthode d’estimation de fréquences fondamentales multiples est particulièrement
efficace lorsque la polyphonie est inconnue, il est robuste aux changement de conditions
d’enregistrement et présente des résultats très satisfaisant quant à la détection des octaves.
Notre système de transcription offre des résultats satisfaisants d’une manière générale, avec
une bonne estimation des durées des notes.
156 6. Évaluation
157
Conclusion et perspectives
Bilan de la thèse
Les travaux menés au cours de cette thèse ont apporté des éléments de réponse à des
questions relatives à la transcription automatique de la musique de piano. Nous avons tout
d’abord dégagé les enjeux liés à cette problématique en la situant par rapport aux domaines
de recherche connexes – perception et estimation de la hauteur en général, estimation de
fréquences fondamentales multiples, transcription automatique – et en soulignant les spé-
cificités du piano. Il en est ressorti d’une part un besoin de caractérisation des sons de
piano, et d’autre part des défis en matière de transcription automatique en général tels
que la recherche de fréquences fondamentales sur une grande tessiture, la modélisation du
recouvrement spectral, l’estimation du degré de polyphonie ou encore la question de l’éva-
luation de la qualité de la transcription. Suivant ces enjeux, la transcription automatique
du piano a été abordée à plusieurs niveaux tels que la modélisation des sons, l’estimation
des notes ou la manipulation des ensembles de notes obtenues.
Nous avons tout d’abord étudié la structure tonale des sons de piano et la paramétri-
sation associée (cf. chapitre 2). Après avoir décrit les outils appropriés d’analyse spectrale,
nous avons mené une étude sur l’inharmonicité des sons et la localisation des fréquences des
partiels d’une note grâce au couple de paramètres composé de la fréquence fondamentale et
du coefficient d’inharmonicité. Nous avons en particulier proposé deux algorithmes d’esti-
mation de ces paramètres et montré qu’ils parvenaient à localiser précisément les fréquences
des partiels alors qu’une modélisation plus grossière – avec une inharmonicité moyenne ou
nulle – ne le permettait pas au-delà d’un certain ordre de partiel. La quantification du
gain d’une telle prise en compte de l’inharmonicité constitue le second résultat de cette
étude. Nous avons ainsi montré que cette caractérisation fine de l’inharmonicité améliorait
significativement la modélisation, sur la base d’un critère général tel que le rapport signal
à bruit entre les sinusoïdes identifiées et le résiduel.
Autre aspect de la paramétrisation spectrale des sons de piano, la question des enve-
loppes spectrales et de leur modélisation pour la transcription a ensuite été abordée. Cette
problématique nous a semblé particulièrement importante dans le cadre de l’estimation de
fréquences fondamentales multiples en particulier pour lever les indéterminations telles que
celle d’octave. Nous avons proposé un modèle autorégressif (AR) d’enveloppe spectrale qui
reprend l’idée de spectral smoothness et lui confère un cadre plus formel que celui présenté
dans la littérature. Nous avons utilisé le modèle de processus harmonique pour intégrer
cette enveloppe spectrale dans un modèle de son. Par ailleurs, nous avons montré l’intérêt
de modéliser le bruit résiduel par un processus à moyenne ajustée (MA).
Nous nous sommes ensuite intéressé (cf. chapitre 3) aux conditions difficiles d’estimation
de fréquences fondamentales que constituent l’analyse de trames courtes et la contrainte
d’une tessiture étendue. Nous avons montré que ces conditions faisaient chuter les perfor-
158 Conclusion et perspectives
mances lorsqu’on utilise des techniques classiques pour l’estimation de hauteur telles que
l’analyse de Fourier et les fonctions de détection élémentaires (autocorrélation, produit
spectral). Nous avons proposé une solution paramétrique qui s’appuie sur une estimation
sinusoïdale à haute résolution. La fonction de détection est ensuite construite de façon pa-
ramétrique. Elle offre des résultats très satisfaisants, en surpassant ceux de la littérature,
en particulier aux extrêmités grave et aiguë de la tessiture.
Nous avons ensuite proposé une approche pour l’estimation de fréquences fondamen-
tales multiples de sons de piano dans le chapitre 4. Elle intègre dans un cadre statistique
le modèle de son et d’enveloppe spectrale présenté auparavant. L’étape d’estimation des
paramètres aborde en particulier la question du recouvrement entre spectres de notes. Nous
avons proposé un estimateur des amplitudes des partiels qui utilise l’information portée par
les observations et les enveloppes spectrales pour estimer la contribution liée à chaque note.
Les paramètres du modèle ayant été estimés, nous avons étudié leur intégration dans une
fonction de détection de fréquences fondamentales multiples, et en particulier les difficultés
liées à l’utilisation de la fonction de vraisemblance pour un modèle d’ordre variable. Nous
avons alors proposé une solution approximative comme fonction d’estimation conjointe de
fréquences fondamentales multiples et du degré de polyphonie. Les performances globales
obtenues sont au niveau de l’état de l’art. Notre algorithme est particulièrement efficace
lorsque la polyphonie est inconnue et il surpasse ses concurrents sur la question délicate
de l’estimation d’octaves.
Ces résultats d’estimation de fréquences fondamentales multiples ont été intégrés dans
un système de transcription automatique pour le piano (cf. chapitre 5). Nous avons consi-
déré les spécificités de la problématique dans le cas du piano et avons proposé une solution
adaptée, consistant à segmenter le signal selon les attaques et à suivre les mélanges de
notes possibles dans les segments obtenus. Ce suivi prend la forme d’une estimation par
modèles de Markov cachés (HMM) dont les états sont les mélanges potentiels. Le système
est alors capable d’analyser un enregistrement monaural de piano et d’en estimer les notes
jouées, avec des résultats à la hauteur de ceux de l’état de l’art. Le système s’est par ailleurs
distingué par sa robustesse face aux variations de conditions d’enregistrement observées.
Le travail sur l’évaluation (chapitre 6) a été motivé par le besoin de grands volumes de
sons correctement annotés, par la recherche de consensus sur les modalités d’évaluation, par
les limites des critères habituellement utilisés et par la complexité de la question dans le cas
de la transcription. Nous avons donc porté une attention particulière à la problématique de
l’évaluation et avons proposé deux contributions distinctes. D’une part, nous avons montré
que les erreurs de transcription pouvaient être classées dans plusieurs catégories d’erreurs
typiques plus ou moins gênantes perceptivement. Par conséquent, l’évaluation des systèmes
de transcription ne peut se limiter qu’en première approximation à un dénombrement des
erreurs. Dans une démarche nouvelle au sein du champ de la transcription automatique,
nous avons proposé des moyens de faire évoluer les métriques en incluant ces critères
qualitatifs sur les erreurs et les poids perceptifs associés. Nous avons en outre importé
le cadre d’évaluation de la qualité des métriques utilisé en particulier dans le domaine du
codage vidéo pour l’appliquer à la question de l’évaluation des transcriptions. D’autre part,
nous avons créé une base de données de sons de piano adaptée à l’évaluation des systèmes
de transcription et d’estimation de fréquences fondamentales. Elle est entièrement annotée
et son contenu est varié, à la fois vis à vis du type de sons enregistrés et des conditions
d’enregistrement. Enfin, en exploitant cette base de sons et les outils d’évaluation présentés,
nous avons fourni les résultats d’une évaluation comparative de plusieurs algorithmes, dont
les nôtres, dans laquelle nous avons mis en évidence les qualités et faiblesses propres à
159
chaque système.
Perspectives
Les perspectives que nous envisageons au terme de ces travaux de thèse concernent à
la fois l’exploitation des résultats proposés et la poursuite de nouvelles thématiques à la
lumière des travaux effectués.
La modélisation des enveloppes spectrales en général et du piano en particulier reste
une problématique déterminante pour la transcription automatique. Nous espérons que
notre discussion à ce sujet, ainsi que le modèle proposé, contribueront à mieux la cerner.
Les nombreuses approches déjà proposées – lois a priori sur les amplitudes, modèles de
mélange de gaussiennes, pattern matching avec apprentissage des enveloppes, enveloppes
moyennées par spectral smoothness ou modèles autorégressifs d’enveloppes – montrent à
la fois l’enjeu et la difficulté sous-jacente. Nous sommes convaincus que la thématique
demeurera essentielle dans les préoccupations à venir.
La modélisation statistique des signaux audio pour la transcription est actuellement
une direction de recherche majeure. Elle offre un cadre théorique solide, laissant entrevoir
des résultats prometteurs liés à une grande capacité de modélisation. Cependant, elle pose
également des difficultés théoriques importantes, en particulier quant à la phase d’inférence.
Nous pensons que ce genre d’approche ne fournit pour le moment pas forcément les résultats
escomptés et qu’elles donnent souvent lieu à une mise en œuvre assez lourde, mais que
ces difficultés – qui ne nous ont pas épargné – sont à la hauteur des enjeux. C’est pour
cette raison que nous avons choisi cette direction, et nous pensons que si notre méthode
d’estimation de fréquences fondamentales multiples présente des points forts quant au
modèle et à l’estimation des paramètres proposés, la fonction d’estimation proprement dite
souffre néanmoins de quelques faiblesses et que les enjeux théoriques à ce sujet demeurent
importants.
Après les nombreux travaux sur l’estimation de fréquences fondamentales simples pro-
posés au cours des dernières décennies, il nous semble particulièrement important de nous
intéresser aujourd’hui à la robustesse des méthodes. La robustesse est souvent assimilée à
la sensibilité vis à vis du rapport signal à bruit et a été étudiée en ces termes dans la litté-
rature, mais elle fait également référence aux facteurs que nous avons étudiés – taille de la
fenêtre d’analyse, tessiture et compromis temps-fréquence –, ainsi qu’à d’autres paramètres
tels que la qualité vocale et sa grande variabilité. Les performances de notre estimateur
de fréquences fondamentales simples nous encouragent à poursuivre ces travaux dans cette
direction et à essayer de les généraliser aux autres instruments, et surtout à la parole.
La question de l’évaluation suscite de nombreux efforts dans la communauté, notam-
ment dans le cadre d’évaluations indépendantes telles que MIREX. Nos travaux sur les
mesures d’évaluation nous ont montré qu’il n’était pas trivial de concevoir un système
d’évaluation fidèle qui puisse donner des résultats proches d’un jugement humain. Seules
quelques erreurs typiques ont pu être prises en compte, alors qu’une évaluation subjective
fait appel à des notions de plus haut niveau telles que la tonalité. Aussi, nous pensons
qu’il serait tout à fait profitable de développer les nombreuses pistes et travaux que nous
avons pu aborder avec A. Daniel à ce sujet. Il conviendrait en particulier de mener de nou-
veaux travaux sur les critères de perception de la qualité d’une transcription, en prenant
en compte des notions telles que la tonalité, le rythme ou la mélodie.
Notre système de transcription présente des qualités qu’il nous paraît important de
souligner et laisse par ailleurs d’autres directions à approfondir. L’utilisation d’une étape
160 Conclusion et perspectives
de détection d’attaque nous semble une bonne approche, que ce soit pour le piano ou pour
d’autres instruments. D’une part, les algorithmes de détection d’attaques sont aujourd’hui
relativement performants, alors qu’il n’est pas évident de détecter le début des notes à
partir d’une seule analyse de fréquences fondamentales multiples sur des trames successives.
D’autre part, la dimension rythmique nous semble sous-exploitée dans les systèmes de
transcription – peut-être en raison de l’obsession d’une bonne estimation de fréquences
fondamentales – alors qu’elle occupe une place de premier plan dans notre perception
de la musique. L’intégration de modèles rythmiques élaborés laisse alors entrevoir des
perspectives d’amélioration des systèmes de transcription. Nous avons également proposé
un cadre de modèles de Markov cachés pour l’utilisation d’une méthode d’estimation jointe
de fréquences fondamentales. Ce cadre nous a permis de modéliser l’évolution locale du
mélange de notes présentes. Il pourrait être enrichi avec un modèle « musicologique » tel
que ceux déjà proposés dans la littérature (cf. partie 1.4.5 (p. 39)). Nous suggérons alors que
cette information sur le contenu tonal soit introduite au niveau des probabilités initiales des
HMM, à la différence des approches déjà proposées dans lesquelles l’information se situe
au niveau de la matrice de transition. De cette façon, l’aspect tonal est exploité au niveau
des notes, c’est-à-dire sur une échelle de temps plus grande indépendante de la longueur
de la trame d’analyse, alors que les transitions à l’intérieur des HMM continuent à prendre
en charge l’enchaînement entre trames.
161
ANNEXES
162 Conclusion et perspectives
163
Annexe A
1 x2
pX (x) = √ e− 2 (A.1)
2π
Définition A.1.2 (Variable aléatoire gaussienne). Une variable aléatoire réelle X est dite
gaussienne s’il existe µ et σ tels
que X = σXc + µ, où Xc est gaussienne centrée réduite.
On le note alors X ∼ N µ, σ 2 et l’on a
E [X] = µ (A.2)
2
Var [X] = σ (A.3)
1 (x−µ)2
pX (x) = √ e− 2σ 2 (A.4)
2πσ 2
Définition A.1.4 (vecteur aléatoire gaussien). Le vecteur aléatoire X = (X1 , . . . , Xn ) est
dit gaussien si toute combinaison linéaire at X de ses composantes, où a ∈ Rn , est une
variable aléatoire gaussienne. On le note X ∼ N (µ, Γ), avec
E [X] = µ (A.5)
E XX t = Γ (A.6)
Propriété A.1.6. Soit X ∼ N (µ, Γ) un vecteur gaussien de taille n, A une matrice m×n
et b ∈ Rm . Y , AX + b est un vecteur gaussien et l’on a
Y ∼ N Aµ + b, AΓAt (A.8)
Définition A.1.7 (Variable aléatoire gaussienne complexe). Une variable aléatoire com-
plexe Z est dite gaussienne complexe si ses parties réelle X et imaginaire Y sont des
2
variables aléatoires réelles gaussiennes indépendantes de même variance σ2 . On le note
alors Z ∼ N µ, σ 2 avec µ , E [X] + iE [Y ].
−1
pY (y) = pX f −1 (y) Jac [f ] f −1 (y) (A.9)
1 x
pX (x) = xk−1 e− E (A.10)
E α Γ (k)
où z 7→ Γ (z) désigne la fonction Gamma d’Euler. On le note alors : X ∼ Γ (k, E). Les
densités associées à plusieurs valeurs de paramètres sont représentées sur la figure A.1(a).
E [X] = kE (A.11)
2
Var [X] = kE (A.12)
E k −k−1 − E
pX (x) = x e x (A.13)
Γ (k)
On le note alors : X ∼ IG (k, E). Les densités associées à plusieurs valeurs de para-
mètres sont représentées sur la figure A.1.
165
2 6
k=1, E=0.5 k=1, E=0.1
k=1, E=1 5 k=1, E=0.5
1.5 k=1, E=2 k=1, E=1
k=2, E=0.5 4 k=2, E=0.5
k=3, E=0.5 k=3, E=0.5
p(X)
p(X)
1 3
2
0.5
1
0 0
0 0.5 1 1.5 2 2.5 3 0 0.5 1 1.5 2 2.5 3
X X
Figure A.1 – Densités des lois Gamma (gauche) et Gamma Inverse (droite) pour quelques
valeurs de paramètres de forme k et d’échelle e.
A.2 Modélisation AR et MA
Nous rappelons ici quelques résultats sur les processus autorégressifs (AR) et à moyenne
ajustée (MA). Le cas général du processus autorégressif à moyenne ajustée (ARMA) n’est
pas traité car il n’intervient pas dans ces travaux de thèse.
A.2.1 Processus AR
Définition A.2.1 (processus AR). {Xn }n∈Z est un processus AR d’ordre p s’il est
stationnaire au second ordre et s’il est solution de l’équation
p
X
Xn = ak Xn−k + Wn (A.16)
k=1
où Wn est un bruit blanc de variance σ 2 . Même si ce n’est pas le cas le plus général,
on supposera de plus que Wn est gaussien, en particulier pour considérer la densité de
probabilité.
On notera A (z) la quantité 1
p
X
A (z) , 1 − ak z −k (A.17)
k=1
1. Dans la littérature consacrée à la modélisation AR et MA, différentes notations sont utilisées : ainsi
A(z) (équation (A.17)) a la forme d’une transformée en z, mais peut prendre celle d’un polynôme, auquel
cas l’exposant de la variable z est k au lieu de −k ; de même, l’équation (A.16) est présentée comme une
formule de filtrage récursif, alors que l’on trouve également des présentations dans lesquelles les ak ont des
signes opposés, pour k ≥ 1.
166 A. Méthodes de traitement du signal numérique
Propriété A.2.2 (Existence). Nous admettons le résultat suivant : l’équation (A.16) ad-
met une solution stationnaire au second ordre si et seulement si A (z) n’a pas de racine sur
le cercle unité. La solution est alors unique et s’exprime en fonction des coefficients hk du
1
développement en série de Laurent de A(z) au voisinage du cercle unité :
+∞
X
Xn = hk Wn−k (A.18)
k=−∞
σ2 σ2
Γ (f ) = = (A.20)
1 − Pp −i2πf k 2 |A (e2iπf )|
2
k=1 ak e
Pour étudier la causalité d’un processus AR, nous introduisons le minimum et le maxi-
mum des modules des racines de A (z) :
Propriété A.2.4 (Causalité). Si ρM < 1, les pôles sont à l’intérieur du cercle unité et
H (z) est
analytique sur la couronne ouverte {z/ |z| > ρM }. En considérant la limite de
H z −1 en 0, on obtient alors ∀k < 0, hk = 0 : le processus est causal.
De même, si ρm > 1, les racines sont à l’extérieur du cercle unité et H (z) est analytique
sur le disque ouvert {z/ |z| < ρm }, on a alors ∀k > 0, hk = 0, et le processus est anticausal.
Dans les autres cas, les racines sont de part et d’autre du cercle unité et le processus
n’est ni causal, ni anticausal.
Propriété A.2.5 (Équations de Yule-Walker). On suppose que Xn est causal. Les équa-
tions de Yule-Walker relient la fonction d’autocovariance γ (k) , E [Xn Xn−k ] de Xn et les
paramètres a1 , . . . , aP , σ 2 du modèle AR sous la forme matricielle suivante :
2
γ (0) γ (1) ... γ (p) 1 σ
.
γ (1) γ (0) . . γ (p − 1)
−a1 0
= .
(A.23)
. . . . ..
.
.. .. .. .. . .
γ (p) γ (p − 1) . . . γ (0) −aP 0
Densité de probabilité
D’après la définition A.2.1, le processus AR Xn s’exprime linéairement en fonction du
processus gaussien Wn . C’est donc un processus gaussien et la log-densité du vecteur gaus-
sien X = (X1 , . . . , Xn )t est de la forme
n 1 1 X t Γ−1 X
ln p (X) = − ln 2πσ 2 − ln det Γ − (A.24)
2 2 2 σ2
n−p 1
ln p (X|X0 ) = − ln 2πσ 2 − 2 kAX + A0 X0 k2 (A.25)
2 2σ
avec
Xn Xp
X , ... , X0 , ... ,
Xp+1 X1
1 −a1 . . . −aP 0 ... 0
.. .. .. .. 0 ... 0
0 1 . . . .
.. ..
. . . .
.. .. ... ... ..
.
..
. 0
..
. .. .. .. .. 0 .
A,
.. . . . .
−aP , A0 ,
..
. ..
. .. .. .. ..
−aP
. .
. . . . . . ..
.. . 0
.. .. ..
. . . −a1 −a1 . . . −aP
0 ... ... ... ... 0 1
n−p 1
→
2
ln p (X|X0 ) = − ln 2πσ 2 − 2
X − X a
(A.26)
2 2σ
avec
Xn−1 . . . Xn−p a1
.. ,
X , ... a , ...
→
. (A.27)
Xp X1 aP
168 A. Méthodes de traitement du signal numérique
Et
n−p 1
ln p (X|X0 ) = − ln 2πσ 2 − 2 kAX + A0 X0 k2 (A.30)
2 2σ
90 1
10 120 60
150 0.5 30
5
x(t)
0 180 0
−5 210 330
−10 240 300
270
0 100 200
t Pôles
40
20
Processus
DSP (dB)
Modèle
0
Estim. autocov
−20 Estim. ML
−40
0 0.5 1
f
Figure A.2 – Estimation des paramètres AR : les paramètres (en bleu) sont estimés à
partir du processus généré (en gris), par la fonction d’autocovariance (en rouge) et par
maximum de vraisemblance (en vert). L’écart entre le modèle et la réalisation en bas à
droite est dû au fenêtrage du signal et aux lobes secondaires que celui-ci provoque.
169
ou de manière équivalente,
2
n−1
X X
n−1
k
n
ln p (X) = − ln 2πσ 2 +
1 k 2
ln A e2iπ n −
1 FX n
(A.33)
2 2 2nσ 2 k
2iπ n
k=0 k=0 1/A e
W = Acirc X (A.34)
Y
n−1
k 2
det Acirc A†circ = A e2iπ n (A.36)
k=0
† −1
puis, en utilisant le fait que X † A−1
circ A−1
circ X = kAcirc Xk2 , la densité de X s’écrit
170 A. Méthodes de traitement du signal numérique
−1
1 − 21 X † A−1 −1 † 2
circ (Acirc ) σ X
p (X) = r e (A.37)
n −1
−1 † 2
(2π) det Acirc Acirc σ
! 21
n Y
n−1
2
1 2
2 − k
= 2πσ 2
A e 2iπ n
e− 2σ2 kAcirc Xk (A.38)
k=0
Cette dernière méthode n’est pas standard. Nous l’avons employée dans [Emiya et al.,
2007a] et l’introduisons ici pour simplifier l’estimation par maximum de vraisemblance.
Qualitativement, les deux densités (A.26) et (A.32) sont proches. Leur premier terme est
identique à taille d’échantillon égale, ainsi que leur dernier terme si l’on considère qu’il
2
correspond à kW1 ,...,W
2σ 2
nk
. La seule différence qualitative est le deuxième terme de (A.32),
absent dans (A.26).
A.2.2 Processus MA
Définition A.2.9 (processus MA). {Xn }n∈Z est un processus MA d’ordre q s’il s’écrit
q
X
Xn = bk Wn−k (A.39)
k=0
n 1 1
ln p (X) = − ln 2πσ 2 − ln det Γ − 2 X t Γ−1 X (A.44)
2 2 2σ
où Γσ 2 est la matrice de covariance de X, dont l’élément (i, j) est égal à γ (|i − j|) (cf.
propriété A.1.6).
avec
1 0 ... ... ... ... 0
.. .. .. . . .. b1 . . . bq
b . . . . .
1 1 .. .
. . .. .. .. . . .. . .. 0
.. .. . . . . .
.
. .. .. .. . . .. bq . . . ..
B+ ,
bq . . . . . . . et B− ,
(A.46)
. 0 . . . ...
.. .. .. .. .. .
0 . . . . . . .
.
.. . . . ...
. .. .. .. ..
. . . . . 1 0 0 ... 0
0 ... 0 bq ... b1 1
En négligeant le second terme qui fait intervenir les Wn pour n ≤ 0 dans le membre de
droite de (A.45), la densité de probabilité de X devient :
n 1
ln p (X) ≈ − ln 2πσ 2 − 2 X t ΘX (A.47)
2 2σ
avec
−1 t −1
Θ , B+ B+ (A.48)
X = (1, b1 , . . . , bq ) ⊗ W (A.49)
172 A. Méthodes de traitement du signal numérique
≈α (A.54)
f (x0 )
≈ (A.55)
g (x0 )
n 1
≈ f (x0 ) (2π) 2 (det H)− 2 (A.56)
La validité de l’approximation de Laplace dépend bien évidemment de la fonction à in-
tégrer et de la précision que l’on souhaite obtenir. Dans bien des situations, l’approximation
obtenue est grossière, mais peut s’avérer néanmoins utile (c’est le cas en particulier dans
nos travaux). Pour plus de détails sur la validité de cette approximation et son usage, on
pourra se référer aux nombreux travaux publiés sur le sujet, par exemple ceux de MacKay
[1998].
173
Annexe B
Preuves mathématiques
d 2
2
L x|a, ϕ, f0 , σw =0 (B.1)
dσw
et donne la valeur optimale pour ce paramètre :
T −1
1 X
σc
w
2 = (x (t) − sf0 ,a,ϕ (t))2 (B.2)
T
t=0
où X et Sf0 ,a,ϕ sont les transformées de Fourier discrètes de x et sf0 ,a,ϕ . La minimisation
par rapport à (a, ϕ) s’obtient en constatant que
2iπhf0 +iϕh si f = hf0 , h ∈ h ∈ J1; HK
ah e
Sf0 ,a,ϕ (f ) = ah e−2iπhf0 −iϕh si f = −hf0 , h ∈ J1; HK (B.7)
0 sinon
174 B. Preuves mathématiques
car sf0 ,a,ϕ est un signal de fréquence fondamentale f0 et f0 T ∈ N. Les valeurs optimales
a H ) et ϕ
b , (ab1 , . . . , ac b , (c ch ) de (a, ϕ) sont donc
ϕh , . . . , ϕ
ch = |X (hf0 )|
a (B.8)
ch = ∠X (hf0 )
ϕ (B.9)
T
X −1 −1 2
2 TX H
X
ǫX (b b , f0 ) =
a, ϕ X k = X k − 2 |X (hf0 )|2 (B.10)
T T
k=0 k=0 h=1
k
T
6=hf0
Le premier terme de cette somme étant constant par rapport à f0 , la solution est donnée
en maximisant la somme spectrale présente dans le second terme. Il convient de noter que
l’on a affaire à des modèles emboîtés, dans la mesure où toute fréquence sous-multiple de
la vraie fréquence fondamentale est solution du problème, et qu’il faut donc choisir la plus
grande.
dǫ
La valeur optimale η̂ vérifie la condition d’optimalité dηk0 (η̂) = 0, qui est équivalente
à la décorrélation entre l’erreur (αk0 − η̂X (fk0 )) et la donnée X (fk0 ), d’où
0=E αk∗0 − η̂ ∗ X ∗ (fk0 ) X (fk0 )
h i
= E αk∗0 X (fk0 ) − η̂ ∗ E |X (fk0 )|2 (B.13)
On a donc un résultat qui présente des analogies avec celui obtenu dans le cas du filtrage
de Wiener :
E [αk0 X ∗ (fk0 )]
η̂ = h i (B.14)
E |X (fk0 )|2
et
h i X K
K X
E |X (fk0 )|2 = W (fk0 − fk ) W ∗ (fk0 − fl ) E [αk αl∗ ]
k=1 l=1
K
X
= |W (fk0 − fk )|2 σk2 (B.16)
k=1
Annexe C
Le tableau C.1 donne la correspondance entre les notes (nom et numéro d’octave
conventionnels), fréquences fondamentales selon un tempérament égal avec un La 3 à
440 Hz et codes MIDI associés (entre 0 et 127). Seules les notes de la tessiture standard
du piano sont représentées. Les formules de conversion sont les suivantes :
F0
Code MIDI = 12 log2 + 69 (C.1)
440
Code MIDI−69
F0 = 2 12 × 440 (C.2)
Code MIDI − 60
N octave =
o
+3 (C.3)
12
Remarque : ce tableau est donné à titre général. Dans le cas particulier du piano,
il ne s’applique pas exactement, l’instrument n’étant habituellement pas accordé selon
un tempérament égal. En raison de l’inharmonicité des cordes, l’accordeur doit en effet
« étirer les octaves » pour qu’il n’y ait pas de battements entre les partiels de deux notes à
l’octave. Il en résulte des fréquences fondamentales plus élevées (resp. plus basses) qu’avec
le tempérament égal pour les notes aigues (resp. graves).
C. Correspondance entre notes, F0 et échelle MIDI
Bibliographie
M. Abe et J. Smith : AM/FM rate estimation for time-varying sinusoidal modeling. Proc.
of the International Conference on Audio, Speech and Signal Processing (ICASSP), p.
201–204, Philadelphia, PA, USA, Mars 2005.
B. Bank : Physics-based Sound Synthesis of the Piano. Master’s thesis, Helsinki Univ. of
Technology, 2000.
B. Bank et L. Sujbert : On the nonlinear commuted synthesis of the piano. Proc. of the
International Conference on Digital Audio Effects (DAFx), Hamburg, Germany, Sept.
2002.
180 BIBLIOGRAPHIE
J. Bensa : Analysis and Synthesis of Piano Sounds using Physical and Signal Models.
Thèse de doctorat, Univ. de la Mediterranée, France, 2003.
R. Bradley : Some Statistical Methods in Taste Testing and Quality Evaluation. Bio-
metrics, 9 (1), p. 22–38, 1953.
A. Camacho : SWIPE : a sawtooth waveform inspired pitch estimator for speech and
music. Thèse de doctorat, Univ. of Florida, USA, 2007.
H. A. Conklin Jr. : Design and tone in the mechanoacoustic piano. Part I. Piano hammers
and tonal effects. The Journal of the Acoustical Society of America, 99 (6), p. 3286–3296,
1996a.
181
H. A. Conklin Jr. : Design and tone in the mechanoacoustic piano. Part III. Piano
strings and scale design. The Journal of the Acoustical Society of America, 100 (3), p.
1286–1298, 1996b.
H. A. Conklin Jr. : Piano strings and “phantom” partials. The Journal of the Acoustical
Society of America, 102 (1), p. 659, 1997.
M. Davy et S. Godsill : Bayesian harmonic models for musical signal analysis. Proc. of
Bayesian Statistics 7, Valencia, Spain, Juin 2002. Oxford University Press.
E. Gómez : Tonal description of polyphonic audio for music content processing. INFORMS
J. on Computing, 18 (3), p. 294–304, 2006.
M. Goto et Y. Muraoka : A beat tracking system for acoustic signals of music. Proc. of
the ACM Int. Conf. on Multimedia, San Francisco, CA, USA, Oct. 1994a. ACM Press
New York, NY, USA.
D. E. Hall : Piano string excitation in the case of small hammer mass. The Journal of
the Acoustical Society of America, 79 (1), p. 141–147, 1986.
D. E. Hall : Piano string excitation II : General solution for a hard narrow hammer. The
Journal of the Acoustical Society of America, 81 (2), p. 535–546, 1987a.
D. E. Hall : Piano string excitation III : General solution for a soft narrow hammer. The
Journal of the Acoustical Society of America, 81 (2), p. 547–555, 1987b.
D. E. Hall et A. Askenfelt : Piano string excitation V : Spectra for real hammers and
strings. The Journal of the Acoustical Society of America, 83 (4), p. 1627–1638, 1988.
A. Klapuri : Wide-band pitch estimation for natural sound sources with inharmonicities.
Proc. of the 106th AES Convention, Munich, Germany, Mai 1999b.
A. Klapuri : Signal processing methods for the automatic transcription of music. Thèse
de doctorat, Tampere Univ. of Technology, Finland, 2004.
A. Klapuri : Multipitch analysis of polyphonic music and speech signals using an auditory
model. IEEE Transactions on Audio, Speech and Language Processing, 16 (2), p. 255–
266, Fév. 2008.
M. Lee, K. ; Slaney : Acoustic chord transcription and key extraction from audio using
key-dependent hmms trained on synthesized audio. IEEE Transactions on Audio, Speech
and Language Processing, 16 (2), p. 291–301, Fév. 2008.
R. Maher : A Approach for the Separation of Voices in Composite Musical Signals. Thèse
de doctorat, Univ. of Illinois at Urbana-Champaign, USA, 1989.
G. Monti et M. Sandler : Automatic polyphonic piano note extraction using fuzzy logic
in a blackboard system. Proc. of the International Conference on Digital Audio Effects
(DAFx), Hamburg, Germany, 2002.
L. Rabiner : On the use of autocorrelation analysis for pitch detection. IEEE Transactions
on Acoustics, Speech, and Signal Processing, 25 (1), p. 24–33, 1977.
188 BIBLIOGRAPHIE
J. Rauhala : The beating equalizer and its application to the synthesis and modification
of piano tones. Proc. of the International Conference on Digital Audio Effects (DAFx),
Bordeaux, France, Sept. 2007.
J. Rauhala et V. Valimaki : Tunable dispersion filter design for piano synthesis. IEEE
Signal Processing Letters, 13 (5), p. 253–256, Mai 2006.
J. Smith et S. Van Duyne : Commuted piano synthesis. Proc. Int. Computer Music
Conf. (ICMC), Banff, Canada, Sept. 1995.
H. W. Strube : Determination of the instant of glottal closure from the speech wave. The
Journal of the Acoustical Society of America, 56 (5), p. 1625–1629, 1974.
P. P. Vaidyanathan : Multirate systems and filter banks. Englewoods Cliffs, NJ, USA :
Prentice Hall, 1993.
A. Viterbi : Error bounds for convolutional codes and an asymptotically optimum deco-
ding algorithm. IEEE Transactions on Information Theory, 13 (2), p. 260–269, 1967.
G. Weinreich : Coupled piano strings. The Journal of the Acoustical Society of America,
62 (6), p. 1474–1484, 1977.
X. Wen et M. Sandler : A partial searching algorithm and its application for polypho-
nic music transcription. Proc. of the International Conference on Music Information
Retrieval (ISMIR), London, UK, Sept. 2005a.
S. Winkler : Digital Video Quality : Vision Models and Metrics. Wiley, 2005.
M. Wu, D. Wang et G. Brown : A multipitch tracking algorithm for noisy speech. IEEE
Transactions on Speech and Audio Processing, 11 (3), p. 229–241, 2003.
R. W. Young : Inharmonicity of plain wire piano strings. The Journal of the Acoustical
Society of America, 24 (3), p. 267–273, 1952.
192 BIBLIOGRAPHIE
193
Overview
In this thesis, automatic transcription of music will refer to the process of analyzing
a music recording for extracting information related to notes. Primarily, pitches, onset
times, durations, loudnesses are targeted but sometimes higher-level features like rhythm
patterns, key and time signatures. Shortly, it consists in converting a stream of raw audio
data into a symbolic representation, as in audio-to-score or audio-to-MIDI applications.
Automatic transcription of music is one of the major topics in the field of Music In-
formation Retrieval (MIR), and is strongly related to several MIREX 1 tasks as Onset
Detection and Multiple Fundamental Frequency Estimation and Tracking. In the MIR
context, automatic transcription can also serve as a basis for further applications such as
indexing tasks, query by humming (QbH) and more generally symbolic audio similarity
analysis, or score alignment and following.
This PhD dissertation focuses on automatic transcription of piano music and its related
tasks. Our choice to limit the study to this single instrument is motivated by both the
large ratio of piano solo recordings and the scientific challenge specific to the instrument.
Some papers point out that the piano automatic transcription remains one of the most
difficult compared to the case of other musical instruments. The main issues that we have
to cope with include:
– the large fundamental frequency (F0 ) range;
– the fast and compact groups of notes caused by the virtuosity of pieces for piano;
– the high polyphony levels;
– the typical characteristics like the deviation from exact harmonicity or the beats
occurring in its sounds.
In addition, this is the opportunity to wonder whether a general topic like auto-
matic transcription should be investigated through generic approaches, as it has been
done for several decades, or by dividing the overall problem into more specific tasks, such
as melody/bass line extraction, source separation and instrument-specific transcription,
which has been the object of more recent studies.
The above motivations are developed in Chapter 1, where we review the state-of-the-
art advances in four chosen directions: an introduction to the main principles of pitch
estimation, including its relation to perception; a description of the approaches for multi-
pitch estimation, which is often a key point in transcription systems; an overview of the
numerous automatic transcription systems proposed for about thirty years; finally, in the
specific context of the transcription of piano music, some insights into the physics of this
instrument and a review of the existing transcription systems. The chapter ends with a
set of questions in order to describe the thesis issues: which strategy could be adopted to
transcribe piano music with reasonable chances of success? How to take into account the
spectral overlap between simultaneous, harmonically-related notes for multipitch estima-
tion? How does the inharmonicity of piano tones impact the transcription results? How to
estimate the number of simultaneous notes? And what makes a good transcription from a
perceptual point of view?
Chapter 2 addresses the sound models for automatic transcription. First, we present
the general framework of the harmonic process, which will be used further. Two specific
aspects of piano sounds are then investigated: the inharmonic distribution of the frequen-
cies of the partials (cf. figure C.1(a)) and the modeling of the spectral envelope. In both
cases, we propose some models and algorithms adapted to the piano and to the transcrip-
tion task. Finally, we focus on the noise modeling for which we choose a Moving-Average
model.
ΠX (f0 , β) (dB)
50
200 Spectre 40
150
Estimation: fb0 = 196Hz, βb = 1.6e − 004 30
100
X(f) (dB)
50
0 20
−50
−100 10
−150
0
0 1000 2000 3000 4000 5000 6000 7000 8000 30 40 50 60 70 80 90 100
f (Hz) MIDI
consists in finding parametric models for the spectral envelopes of notes and for the noise.
By using a low-order autoregressive (AR) model, we propose a formalization of the idea
of the spectral smoothness [Klapuri, 2003], allowing to deal with the variability of piano
spectra. Besides, the parametric aspect makes it possible to derive an estimator for the
amplitudes of partials in the case of overlapping spectra. The noise is modeled by a moving-
average (MA) process, which is a model more suitable for audio signals than the commonly-
chosen white noise. In the case of a sinusoids+noise mixture, using a MA noise model is an
advantage with respect to an AR noise model: the latter may consider a residual sinusoid as
a pole, whereas the former cannot model it well, thus enhancing the discrimination between
the sinusoidal part and the noise part. The resulting multipitch estimation technique is a
joint estimation approach, including the estimation of the polyphony level (i.e. the number
of simultaneous notes) and an F0 -candidate selection stage aiming at reducing the intrinsic
complexity of joint approaches. An early version of these works was published [Emiya et al.,
2007a].
In chapter 5, the whole transcription system is described. The transcription strategy
is based on some features of the piano and of piano pieces. It results in a framework in
which the signal is segmented according to an onset detection stage. Each segment is then
analyzed by means of a hidden Markov model (HMM, cf. figure C.2(a)) embedding the
multipitch estimation method detailed in Chapter 4. The transcription system is able to
analyze any piece of piano solo music from any style, recorded in ordinary conditions, with
fair limits in terms of maximum polyphony, of speed of the played notes, and of F0 range.
An early version of these works was published [Emiya et al., 2008].
Chapter 6 deals with the evaluation of automatic transcriptions. The topic has been
studied in two directions. In the first part, the choice and design of the evaluation method
is questioned, leading to an enhancement of the usual metrics. The limit of common evalu-
ation systems are pointed out, showing the need for identifying the nature of errors and for
taking it into account in the evaluation. Some perceptually-based versions of the original
metrics are then designed, using the results of a perception test in which typical transcrip-
tion errors are sorted and scored (cf. figure C.2(b)). In the second part of the chapter,
we introduce a database specifically developed for multipitch estimation and automatic
transcription of piano music. It is composed of recordings of isolated notes, random and
usual chords and pieces of music. A large number of parameters are varying from one
file to the other, such as loudness, durations or sustain pedal activation. Recordings are
obtained either using a ”midified“ piano (Disklavier) or from high quality piano synthesis,
associating an accurate ground truth to the audio files. The third section of the chapter is
a detailed evalution of our multipitch algorithm and of our transcription system. Part of
the works on evaluation was published [Daniel et al., 2008].
Finally, conclusions are drawn, including a summary of our contributions and some
perspectives.
196 Overview
C4 C4 C4 C4 C4
E4 E4 E4 E4 E4
Liste de publications
Les publications dont la référence figure en gras sont jointes au manuscript de thèse.
Articles de conférences
[EUSIPCO’08]
Automatic transcription of piano music based on HMM tracking of jointly-estimated
pitches, V. Emiya, R. Badeau et B. David, European Conference on Signal Processing,
Lausanne, Suisse, août 2008 (accepté).
[ISMIR’08]
Perceptually-based evaluation of the errors usually made when automatically transcribing
music, A. Daniel, V. Emiya et B. David, International Conference on Music Information
Retrieval, Philadelphie, États-Unis, septembre 2008 (accepté).
[DAFx’07]
Multipitch estimation of inharmonic sounds in colored noise, V. Emiya, R. Badeau, et
B. David, 10th International Conference on Digital Audio Effects, Bordeaux, France, 10-
15 septembre 2007.
[ICASSP’07]
A parametric method for pitch estimation of piano tones, V. Emiya, B. David et R. Ba-
deau, 32nd IEEE International Conference on Acoustics, Speech, and Signal Processing,
Honolulu, Hawaii, Etats-Unis, 15-20 Avril 2007.
[120th AES]
Harmonic plus noise decomposition : time-frequency reassignment versus a subspace based
method, B. David, V. Emiya, R. Badeau et Y. Grenier, 120th Audio Engineering Society
Convention, Paris, 20-23 mai 2006.
Conférences invitées
[ASA 2007]
Multipitch detection for piano music : Benchmarking a few approaches, B. David, R. Ba-
deau, N. Bertin, V. Emiya et G. Richard, The Journal of the Acoustical Society of America,
122 (5) p. 2962, novembre 2007.
[ASA 2005]
Phase characterization of soundscapes,V. Gibiat, A. Padilla, V. Emiya et L. Cros, The
Journal of the Acoustical Society of America, 117 (4) p. 2550, avril 2005.
Posters
[JJCAAS 2005]
Utilisation de la phase pour l’amélioration de la localisation temporelle et fréquentielle de
l’analyse spectrographique, V. Emiya, Deuxièmes Journées Jeunes Chercheurs en Audition,
Acoustique musicale et Signal audio (JJCAAS), Laboratoire de Mécanique et d’Acoustique,
Marseille, 9-11 mars 2005.
Brevets
[PATENT 2002]
Tone detector and method therefor, L.F.C. Pessoa, V. Emiya, D. Melles, and D. Val-
lot, Freescale Semiconductor Inc., United States Patent 20040047370, European Patent
EP1395065, 2002.
Séminaires internes
[SEMINAIRE 2006]
L’estimation de pitch : présentation de quelques systèmes de référence, V. Emiya, Séminaire
audio ENST, juillet 2006.
[SEMINAIRE 2005]
La phase de la TFCT - Utilisation pour l’amélioration de la localisation temporelle et
fréquentielle de l’énergie & Application à l’analyse spectrographique, V. Emiya, Séminaire
audio ENST, janvier 2005.
Divers
[ATIAM 2004]
Spectrogramme d’Amplitude et de Fréquence Instantanées (SAFI), V. Emiya, Rapport de
DEA ATIAM, juillet 2004.
[ENST 2003]
Amélioration et mise à jour des GRM Tools sur le système Digidesign HD, V. Emiya,
rapport de stage de fin d’études, janvier 2003.
199
Sélection de publications
Note regarding IEEE publications : This material is presented to ensure timely disse-
mination of scholarly and technical work. Copyright and all rights therein are retained by
authors or by other copyright holders. All persons copying this information are expected
to adhere to the terms and constraints invoked by each author’s copyright. In most cases,
these works may not be reposted without the explicit permission of the copyright holder
(see IEEE copyright policies).
AUTOMATIC TRANSCRIPTION OF PIANO MUSIC
BASED ON HMM TRACKING OF JOINTLY-ESTIMATED PITCHES
C4 C4 C4 C4 C4
E4 E4 E4 E4 E4
Figure 1: Chord network corresponding to the transition matrix of Table 1. Due to the sparsity of the transition matrix,
transitions are allowed toward the same chord or toward a ”subchord”, when note endings occur. The thick, dashed line
shows a possible Viberbi path: chord {C4 , E4 } is detected, C4 dies at frame 3 while E4 lasts until next to last frame of the
segment.
HH c′ C4 (m)
where f0 is the fundamental frequency of note m and β (m)
∅ C4 E4
c HH E4 is its inharmonicity coefficient.
∅ 1 0 0 0 We then assume that the noise spectrum is observed
C4 .17 .83 0 0 in any frequency bin that is not located within the pri-
E4 .17 0 .83 0 mary spectral lobe of a note component. The set N of
C4 E4 .07 .06 .06 .80 frequency bins related to noise observations is inferred by
H(1) , . . . , H(M ) and is thus defined by:
Table 1: Example of transition matrix, i.e. the probability
of going from chord c at time t to chord c′ at time t + 1. For ( )
M
[
graphical convenience, only Nc = 2 candidates are selected ′ (m) ′
N = f ∈ F ∀f ∈ H , f − f > ∆f /2 (9)
(notes C4 and E4 ). The transition probability is learnt as a
function of the number of notes in c and c′ . m=1
detect silences is to set a constant value L̃X (C0 ) = L̃0 ≥ 1 at: http://perso.enst.fr/~emiya/EUSIPCO08/
100
Emiya EUSIPCO’08
REFERENCES
90 Vincent B ’07
Vincent H ’07 [1] J.P. Bello, L. Daudet, and M.B. Sandler, “Automatic
80 Bertin’07 piano transcription using frequency and time-domain
Marolt’04
information,” IEEE Trans. Audio, Speech and Language
70
Processing, vol. 14, no. 6, pp. 2242 – 2251, Nov. 2006.
%
ABSTRACT Music Information Retrieval (MIR) task and its related sub-
tasks (onset detection, multipitch estimation and tracking)
This paper investigates the perceptual importance of typi- have received a lot of attention [9] from the MIR commu-
cal errors occurring when transcribing polyphonic music ex- nity since the early works of Moorer [14] in the mid 70s.
cerpts into a symbolic form. The case of the automatic tran- The approaches used to accomplish the goal are very di-
scription of piano music is taken as the target application verse [4, 5, 14, 15, 16] and the evaluation of the performance
and two subjective tests are designed. The main test aims at for such systems is almost as varied. Some papers [4, 14] fo-
understanding how human subjects rank typical transcrip- cus on a couple of sound examples, to probe typical errors
tion errors such as note insertion, deletion or replacement, such as octave errors, or deviations from ground truth such
note doubling, incorrect note onset or duration, and so forth. as duration differences, and so forth. However, the most
The Bradley-Terry-Luce (BTL) analysis framework is used widely used criteria for assessing automatic transcription are
and the results show that pitch errors are more clearly per- quantitative, even if the evaluation framework is not always
ceived than incorrect loudness estimations or temporal devi- similar (frame-based [15], note-based [16] or both [1]).
ations from the original recording. A second test presents a In the practical context of piano music for instance, the
first attempt to include this information in more perceptually evaluation task is often handled by generating the PCM for-
motivated measures for evaluating transcription systems. mat piece from an original MIDI file which makes it pos-
sible to compare the input (ground truth) and output MIDI
1 INTRODUCTION files. For that particular case, in this study, a perception
test has been designed for subjectively rating a list of typi-
In the benchmarking of Information Retrieval systems, per- cal transcription errors (note insertions, deletions, incorrect
formance is often evaluated by counting and classifying er- onsets or duration...). The test is based on pairwise compar-
rors. Classically the ratio of relevant items that are re- isons of sounds holding such targeted errors. The results are
turned out of the full set of original ones, referred to as re- then analyzed by means of the Bradley-Terry-Luce (BTL)
call, measures the completeness of the system performance method [3].
whereas the proportion of relevant items that are retrieved, In a second step, the question emerged of finding a way
or precision, indicates the correctness of the answer. The to take into account the perceptual ranking of the discomfort
F-measure, combining precision and recall, offers a single levels we obtained. Another test was designed to subjec-
score to assess the performance. When music processing tively compare transcriptions resulting from different sys-
systems are involved, the question arises as to how to com- tems. It aimed at deriving more perceptually relevant met-
plement such a quantitative assessment by incorporating a rics from the preceding BTL results by synthetically com-
certain amount of perceptually motivated criteria or weights. bining their main findings, and at checking their compliance
This paper investigates the perceptual importance of typi- with the test results. We worked in two directions: percep-
cal errors occurring when transcribing polyphonic music ex- tually weighting typical errors, countable by comparing the
cerpts into a symbolic form, e.g. converting a piece recorded input and output MIDI files, and adaptating similarity met-
in a PCM (.wav) format into a MIDI file. This particular rics [17].
The authors thank all the subjects involved in the perceptive test for
their participation. They also thank M. Castellengo, A. de Cheveigné, D. 2 THE EVALUATION MEASURES
Pressnitzer and J. Benenson for their useful remarks, and M. Marolt, N.
Bertin and P. Leveau for sharing their programs. The research leading to
this paper was supported by Institut TELECOM under the Automatic Tran- The commonly-used F-measure is defined by:
scription of Music: Advanced Processing and Implementation - TAMTAM
project and by the French GIP ANR under contract ANR-06-JCJC-0027- rp #TP
01, Décomposition en Éléments Sonores et Applications Musicales - DE- f ,2 = (1)
SAM. r+p #TP + 12 #FN + 21 #FP
where r denotes the recall, p the precision, #TP the number a crucial point. Indeed, the weighting between the time and
of true positives (TP), #FN the number of false negatives the pitch dimensions, for instance, depends on music per-
(FN) and #FP the number of false positives (FP). f is equiv- ception. The tests presented in this paper aim at assessing
alent to the quantity a, that is referred to as either accuracy the trends of the perceptive impact of typical errors and the
or score [5], since f = 1 2+1 . The F-measure is useful to ob- distribution of their related weights.
a
tain the error rate for individually counted errors, but does
not consider aspects like sequentiality, chords, harmonic or 3 EXPERIMENTAL SETUP
tonal relationships, etc.
Another evaluation approach comes from the problem of 3.1 Overview
finding the similarity between two (musical) sequences. At
the moment, these methods are commonly used to search for The perception test consists of two tasks, which are detailed
similar melodies in large databases, rather than in the field below. It was available on the Internet in the spring of 2007
of the evaluation of transcriptions. for two weeks and was announced by e-mail. Before ac-
Let us assume that one must compare two sequences of cessing the tasks, the subject is given instructions and in-
symbols, A and B. The Levenshtein’s distance, or edit dis- formation on the recommended audio device (high-quality
tance [11], is a metric that counts the minimal number of headphones or loudspeakers, and a quiet environment) and
operations necessary to transform A to B. The possible op- on the estimated duration of the test. He or she is then in-
erations on symbols are: deletion from A, insertion into B, vited to complete the tasks. Both of them consist in hearing
or replacement of a symbol in A by another one in B. a musical excerpt and several transcriptions of it, and in fo-
Mongeau and Sankoff [13] proposed adapting this dis- cusing on the discomfort caused by the transcriptions, with
tance to the case of monophonic musical sequences, in or- respect to the original. Task 1 uses artificial transcriptions,
der to define a similarity metric between two melodies. The i.e. some copies of the original piece into which errors were
two sequences of notes are ordered according to the onset inserted whereas task 2 uses transcriptions obtained by au-
of each note. Each note is characterized by its pitch and du- tomatic transcription systems. In both cases, the transcrip-
ration, which are used to compute the cost of the following tions are resynthesized in the same recording conditions as
possible operations: insertion, deletion, replacement, with the original piece in order to be heard and compared by the
costs depending on tonal criteria, fragmentation and consol- subject. At the end, the subject was asked to describe the
idation of several notes with the same pitch. These oper- criteria he used to compare files and to add any comments.
ations reflect typical mistakes in transcriptions. The min- Due to the total duration of the test a subject can possibly
imum distance between the sets of notes is then estimated endure (about 40’ here), we limited the scope of the study to
using the edit distance framework. pieces of classical piano music, from different periods, with
different tempi and harmonic/melodic content.
This melodic edit distance being applicable only to mo-
nophonic sequences, an extension to the polyphonic case
has been recently proposed [8]. In order to represent the 3.2 Test 1: Subjective Evaluation of Typical Transcrip-
polyphonic nature of musical pieces, quotiented sequences tion Errors
are used. So far, this representation has only been applied
3.2.1 Principle
to chord sequences, which constitute a restricted class of
musical pieces: the notes within a chord must have the same Test 1 aims at obtaining a specific score for typical tran-
onset and duration. scription errors. In order to achieve this, the transcriptions
Another way to compute the similarity between two mu- to be evaluated are made by inserting one and only one
sical sequences [17] consists in considering each set of notes kind of error into an original excerpt. The error is chosen
as points in a multidimensional space, e.g. the pitch/time among the following list of typical errors: note deletion,
domain. The algorithm is based on two choices. First, each random-pitched note insertion (1 to 11 half-tones), random-
point must be assigned a weight, e.g. the note duration. Sec- pitched note replacement (1 to 11 half-tones), octave inser-
ond, a distance between a point in the first set and a point tion, octave replacement, fifth insertion, fifth replacement,
in the second one is defined, e.g. the euclidian distance note doubling, onset displacement, duration change (offset
in the time/pitch space. Then, the overall distance can be modification) and loudness modification (MIDI velocity).
computed with the Earth Movers Distance (EMD) or the These errors are inserted into three excerpts from Stud-
Proportional Transportation Distance (PTD). It is related to ies, op 10 / Study 1 in C Major by Chopin (8 seconds), Suite
the minimum amount of work necessary to transform one Bergamasque / III. Clair de Lune by C. Debussy (20 sec-
set of weighted points to the other using the previously- onds), and Sonata in D Major KV 311 / I. Allegro con Spirito
defined distance, making it possible to transfer the weight by W.A. Mozart (13 seconds).
of a source note towards several targets. Ideally, we would like to obtain a ranking of the typical
In all of these methods, the setting of the parameters is errors. Due to the large number of files, asking the subjects
Figure 2. Test 2: the subject scores transcriptions with non-
negative values.
Figure 1. Test 1: for each pair of audio files, the subject
selects the one causing more discomfort. sen. For each excerpt, five transcriptions are presented, as
shown in Figure 2. The subject has to assign a non-negative
value to each transcription. These values express the dis-
to give a score to each of them is not feasible. We preferred
comfort caused by transcription errors in comparison with
to set up a pairwise comparison task, as shown in Figure 1
its reference. The subject can listen as many times as needed
and derived the full scale as described in the next section.
to each transcription and reference.
In this test, all subjects are presented exactly the same
3.2.2 Protocol and Settings audio files, in random order for each subject. One of the five
transcriptions is the original piece in order to check whether
For each kind of error, several test files are created with var-
the answers are consistent. The other four were obtained by
ious error rates. The number of modified notes is param-
automatic transcription systems, namely SONIC [12], avail-
etered by the Modified Note Rate (MNR), which is set to
able on the author’s website, Bertin’s system [2], a home-
either 10%, or 33%. For some kinds of error, the error in-
made system by P. Leveau based on [10] and an early ver-
tensity (EI) is also parametrized. This is quantified as a ratio
sion of [7]. The error rates and kinds of error thus depend
of the note duration for duration changes and onset changes,
on the specific behaviors of the transcription systems.
and as a ratio of the MIDI velocity for loudness modifica-
tions. The EI is set to either 25%, or 75%. Modified notes
are randomly chosen using the MNR. Intensity changes are 4 RESULTS
made randomly, uniformly in the range centered on the true
value and with the EI as radius. Thirty-seven subjects (24 musicians and 13 non-musicians)
To derive a ranking scale from pairwise comparisons, we took part in this test. The results of Tests 1 and 2 are detailed
choose the BTL method which uses hidden, “true” values here. The subjects’ comments show that the instructions
associated to the transcriptions, along a given dimension were understood correctly. They pointed out tone errors as
(here, the discomfort). For a given pair of transcriptions, the a major cause of discomfort, while they seldom mentioned
subject’s answer is a comparison of a noisy version of the loudness and duration errors in an explicit way.
two true values, the noise modeling the subjectivity and the
variable skill of subjects. Thanks to this statistical frame- 4.1 Test 1
work, the full subjective scale is then obtained by processing
all the pairwise comparisons. For this test, 20 pairs out of Results of Test 1 are given in Figure 3. The BTL method
812 are randomly chosen and presented to each subject for makes it possible to obtain, from the pairwise comparisons
each musical excerpt. This number has been chosen in order of all the subjects, a subjective scale of discomfort for typi-
to adjust the test duration and is not critical for the results, cal errors. A BTL perception value is thus assigned to each
as long as the number of subjects is high enough. modification, which can be ordered according to this scale.
Different forms of evidence show the consistency of the
3.3 Test 2: Subjective Evaluation of Transcriptions of obtained scale. First, increasing scores are obtained with in-
Musical Pieces creasing error rates, either MNR or EI, and decreasing har-
monicity (octave, fifth, random pitches). Second, a mini-
Test 2 aims at obtaining a perceptive score for a series of mum discomfort is obtained for the reference (taking into
transcriptions from several pieces of music. Three original account its confidence interval). Third, as described in [6],
excerpts from Prelude in C minor BWV 847 by J.S. Bach the above 90% confidence intervals are related to a 5% risk.
(13 seconds), Suite Bergamasque / III. Clair de Lune by C. Thus, they are narrow enough to distinguish error types and
Debussy (20 seconds), and Sonata in D Major KV 311 / I. to assert that the answers make sense, although adjacent er-
Allegro con Spirito by W.A. Mozart (13 seconds) were cho- ror types should be considered perceptually equivalent.
Rand. insert. MNR=33%
Rand. replac. MNR=33%
Fifth insert. MNR=33%
Fifth replac. MNR=33%
Deletion MNR=33%
Rand. replac. MNR=10%
Fifth replac. MNR=10%
Onset EI=75% MNR=33%
Octave replac. MNR=33%
Rand. insert. MNR=10%
Fifth insert. MNR=10%
Doubling MNR=33%
Loudness EI=75% MNR=33%
Onset EI=75% MNR=10%
Onset EI=25% MNR=33%
Octave insert. MNR=33%
Octave insert. MNR=10%
Doubling MNR=10%
Octave replac. MNR=10%
Deletion MNR=10%
Loudness EI=75% MNR=10%
Onset EI=25% MNR=10%
Loudness EI=25% MNR=33% BTL values
Duration EI=25% MNR=33% Reference
Loudness EI=25% MNR=10%
Duration EI=75% MNR=10% Time modifications
Duration EI=75% MNR=33% Loudness Modifications
Reference
Duration EI=25% MNR=10% Pitch modifications
Figure 3. Test 1 : perceptive scale for typical errors. Crosses account for the related BTL value. Horizontal bars depict
the 90% confidence intervals, obtained by a bootstrap method [6] using 100 resamplings of the data (because the data is not
gaussian, confidence intervals may not be centered on BTL values).
2 1
1 1 4 4
0.5
R
3
R
1 2
3
R
3 Proc. of ICASSP, Honolulu, Hawaii, USA, April 2007.
0
Bach Debussy Mozart
[3] R.A. Bradley. Some statistical methods in taste testing
Percep. F−meas.
1.5
1 3
0.5
R 1 R
R 3 3
0
Bach Debussy Mozart
[5] S. Dixon. On the computer recognition of solo piano
music. Australasian Computer Music Conf., 2000.
1.5
Percep. PTD
2 4 1 2
1 1 2 4 4
3 1
0.5 3 3
0
R R R
[6] B. Efron and R. J. Tibshirani. An introduction to the
Bach Debussy Mozart
bootstrap. In London: Chapman & Hall, 1993.
[7] V. Emiya, R. Badeau, and B. David. Automatic tran-
Figure 5. Transcription evaluation results with several ob- scription of piano music based on HMM tracking of
jective and perceptive measures: in each case, crosses show jointly-estimated pitches. In Proc. of EUSIPCO, Lau-
the normalized error related to a measure, and the gray bars sanne, Switzerland, August 2008.
indicate the discomfort obtained in Test 2.
[8] P. Hanna and P. Ferraro. Polyphonic music retrieval
by local edition of quotiented sequences. In Proc. of
Results with the perceptive F-measure are slightly closer CBMI, Bordeaux, France, June 2007.
to the discomfort values than the original F-measure. More-
over, the ranking of the 15 excerpts is also closer to the [9] A. Klapuri and M. Davy. Signal Processing Methods
discomfort-based ranking. Results of the perceptive PTD for Music Transcription. Springer, 2006.
do not look better than the original, due to a high isolated
[10] P. Leveau, E. Vincent, G. Richard, and L. Daudet.
value for the excerpt with highest discomfort (Mozart, Sys-
Instrument-specific harmonic atoms for mid-level mu-
tem 2), that makes it difficult to scale the results adequately.
sic representation. IEEE Trans. Audio, Speech and
However, the achieved ranking is dramatically better than
Lang. Proces., 16(1):116–128, January 2008.
the ranking by the original PTD, and also slightly better
than the ranking by the perceptive F-measure. Thus, even if [11] V. I. Levenshtein. Binary codes capable of correcting
the relation between the discomfort and the perceptive PTD spurious insertions and deletions of ones. Problems of
may be non-linear, the latter is appropriate in a ranking task. Information Transmission, 1(1):8–17, 1965.
[12] M. Marolt. A connectionist approach to automatic
6 CONCLUSIONS transcription of polyphonic piano music. IEEE Trans.
on Multimedia, 6(3):439–449, 2004.
The main idea of these tests was to get a ranking of the
typical automatic transcription errors, to extract perception [13] M. Mongeau and D. Sankoff. Comparison of mu-
weights, and to integrate them into several musical sequence sical sequences. Computers and the Humanities,
distance metrics. These primary results are consistent and 24(3):161–175, 1990.
the proposed perceptive metrics give satisfying results.
[14] J.A. Moorer. On the Segmentation and Analysis
However further investigations should focus on a number
of Continuous Musical Sound by Digital Computer.
of aspects, such as non-linear relations between specific er-
Dept. of Music, Stanford University, 1975.
ror rates and discomfort, musical-based typical errors (tak-
ing into account tonality, melody, chords, etc.), and more [15] G. Poliner and D. Ellis. A discriminative model for
specific algorithms to identify them. polyphonic piano transcription. EURASIP Journal on
Advances in Signal Processing, 8:1–9, 2007.
DAFX-1
Proc. of the 10th Int. Conference on Digital Audio Effects (DAFx-07), Bordeaux, France, September 10-15, 2007
DAFX-2
Proc. of the 10th Int. Conference on Digital Audio Effects (DAFx-07), Bordeaux, France, September 10-15, 2007
H for f0 = 1076.6602 Hz
−20
H for f0 = 2153.3203 Hz
−40 −20
dB
−60 −40
H-set spectrum
H set
dB
−80 −60
AR model
Residual H-set spectrum
MA model
−100 −80 H set
0 2000 4000 6000 8000 10000 AR model
f (Hz) Residual
MA model
N set (residual) −100
H set 0 2000 4000 6000 8000 10000
50 f (Hz)
50
H set N set (residual)
0 50
0 50
dB
dB
−50 0
−50 0
dB
dB
−100 Before whiten. −100 Before whiten. −50
−50
Post whiten. Post whiten.
AR model MA model
−150 −150 −100 −100
0 5000 10000 0 5000 10000 Before whiten. Before whiten.
f (Hz) f (Hz) Post whiten. Post whiten.
AR model MA model
−150 −150
0 5000 10000 0 5000 10000
f (Hz) f (Hz)
Figure 1: LH estimation for H = Ĥ (true F0 ). Overtones
are selected in the spectrum (top), amplitudes of compo-
Figure 2: LH estimation at twice the true F0 . Amplitudes
nents fit the AR model (bottom left) and the residual spec-
of components fit the AR model whereas the residual spec-
trum is well whitened by the MA model (bottom right). In
trum is not perfectly whitened by the MA model, due to
order to avoid overlapping between curves in the graph-
remaining components.
ical representation, an constant offset is added to post-
whitening dB-curves.
H for f0 = 538.3301 Hz
−20 0
ln ρˆH
−40 −1
−2
dB
−60
H-set spectrum −3
−80 H set
AR model
0 1000 2000 3000 4000
Residual
MA model 0
−100
0 2000 4000 6000 8000 10000
f (Hz)
ln ρˆN
−1
H set N set (residual)
50
50 −2
0
0 0 1000 2000 3000 4000
dB
dB
−50
−50 0
−100 −100
Before whiten. Before whiten. −1
LH
DAFX-3
Proc. of the 10th Int. Conference on Digital Audio Effects (DAFx-07), Bordeaux, France, September 10-15, 2007
dB
−100
−100 3.3. Extension to polyphonic sounds
Before whiten. Before whiten.
Post whiten.
AR model
−200 Post whiten.
MA model
We now consider that the deterministic signal s(n) is a
−200 M
0 5000 10000 0 5000 10000 P
f (Hz) f (Hz) sum of M inharmonic sounds: s(n) = s(m) (n) and
m=1
(m) (m)
p
Figure 5: Real piano tone: separation between note compo- ∀m ∈ {1 . . . M }, fn = nf0 1 + β (m) (n2 − 1),
(m)
nents and residual part, and related MA and AR models where f0 is the pitch and β (m) > 0 is the inharmonic-
ity coefficient of the mth tone. Each note is associated with
How do real piano tones fit the signal model described one individual AR model, and weights in the likelihood are
above? The AR model for the sinusoidal component, the uniformly distributed among notes. Thus the WML princi-
MA noise model and the inharmonicity distribution of fre- ple consists in maximizing the log-likelihood:
quencies seem to be robust hypotheses. Conversely, the
M
practical application of the method has to cope with two 1 X 1
deviations from the theoretical point of view: L(H(1) , . . . , H(M ) ) = ln ρH(m)
2M m=1 A(m) (z)
1. the assumption that fn lies in the exact center of a 1
+ ln ρˆN (9)
frequency bin (multiple of 1/N ) is usually false, and 2
spectral leakage thus influences the N -support sub- (m)
!
f ,β (m)
spectrum. where H(m) = H 0 and N is the set of bins out-
side primary lobes of frequencies of any H(m) . The opti-
2. the amplitude of the overtone may vary within the
mization is performed with respect to each of the sets
analysis frame, reflecting various effects as the en-
H(1) , . . . , H(M ) . Each set H(m) is defined by the parame-
ergy loss of the sound and the beating between close (m)
adjacent components. This can affect the spectral en- ters {(f0 , β (m) )}m∈{1...M } and 1/A(m) (z) is the AR fil-
velope of the H-support sub-spectrum. ter related to note m. Two distinct sets H(m1 ) and H(m2 )
may intersect, allowing overlap between spectra of notes
The windowing of the analyzed waveform by a Hann m1 and m2 . The algorithm presented in section 2.3 can
window has proved to be a robust trade-off to overcome be applied straightforwardly.
these issues. It prevents the spectral leakage associated with
high energy components from masking weak overtones. 3.4. Multi-pitch estimator implementation
Amplitudes of every overtone k are estimated by perform-
ing a parabolic interpolation of the spectrum (in decibels) Multi-pitch estimation is often performed either in an iter-
based on the values in the nearest Fourier bins. The result- ative or in a joint process. The proposed method belongs
ing (linear) value is used when computing the sinusoidal- to the joint estimation category. While iterative methods
part spectral flatness ρˆH , i.e. in place of X (k) in equa- consist in successively estimating and removing a predom-
tion (4). In order to minimize the effects described above inant F0 , joint estimation simultaneously extracts the set of
DAFX-4
Proc. of the 10th Int. Conference on Digital Audio Effects (DAFx-07), Bordeaux, France, September 10-15, 2007
MIDI number
70 70 70
In order to reduce the cost of the ML estimation, a
65 65 65
two-step algorithm is proposed. First, each possible chord
60 60 60
is evaluated on a reduced number of points Np in the
(m) 55 55 55
(f0 , β (m) ) region around F0 values from the well-
50 50 50
tempered scale and approximate β values. Ncand chord can-
45 45 45
didates are extracted among all combinations by selecting
the Ncand greatest likelihood values. Then, the likelihood of 40 40 40
each selected candidate is locally maximized with respect 0 0.2 0.4 250 300 350 0 0.5 1
(m) % Sample number (zoom) %
to coefficients f0 and β (m) . A simplex method is used
FN Polyphony 2 FP
to perform this optimization, which is initialized with the 95 95 95
(m)
f0 and β (m) values selected during the first step. Finally, 90 90 90
the chord with maximum accurately-computed likelihood is 85 85 85
selected as the chord estimate. 80 80 80
75 75 75
MIDI number
70 70 70
4. EXPERIMENTAL RESULTS
65 65 65
60 60 60
The algorithm has been tested on a database composed of
55 55 55
about 540 isolated piano tones of the RWC database [11]
50 50 50
and random chords generated by several virtual piano soft-
45 45 45
wares based on sampled sounds. About 600 two-note
40 40 40
chords and 600 three-note chords were evaluated. In each
case, the polyphony is known a priori by the algorithm and 0 0.5 1 130 140 150 160 170 0 0.5
% Sample number (zoom) %
the estimation results from the analysis of one 93 ms frame,
FN Polyphony 3 FP
beginning 10 ms after the onset. F0 estimates are rounded 95 95 95
to the nearest half-tone in the well-tempered scale in order 90 90 90
to determine if an estimated note is correct. This approx- 85 85 85
imation on F0 is carried out in order to evaluate the pitch 80 80 80
estimation at a note level rather than at a frequency level. 75 75 75
The note search range spreads over 5 octaves, from MIDI
MIDI number
70 70 70
note 36 (f0 = 65 Hz) to MIDI note 95 (f0 = 1976 Hz). 65 65 65
These test conditions are similar to the ones used in com-
60 60 60
petitor systems [4, 5, 7] in terms of frame length, F0 search
55 55 55
range and error rate definition.
50 50 50
The parameters of the system have been adjusted as fol-
45 45 45
lows. Sounds are sampled at 22050 Hz. DFT are computed
40 40 40
on 4096 points after zero-padding the 2048-point frame.
The AR model order is set to 8, the MA model order to 0 1
%
2 130 140 150 160 170
Sample number (zoom)
0 1
%
2
DAFX-5
Proc. of the 10th Int. Conference on Digital Audio Effects (DAFx-07), Bordeaux, France, September 10-15, 2007
Polyphony 1 2 3 tween notes spectra, with improving the model for the spec-
Error rate 2.0% 7.5% 23.9% tral envelope of notes and with making the computational
±0.6% ±1.1% ±2.2% cost decrease in order to both benefit from the efficiency
Octave error rate 0% 1.6% 5.2% of the estimator and avoid the inherent complexity of joint
State of the art 2 ∼ 11% 7 ∼ 25% ≈ 10 ∼ 35% estimation of multiple F0 ’s.
DAFX-6
A PARAMETRIC METHOD FOR PITCH ESTIMATION OF PIANO TONES
ABSTRACT damping factor and initial phase. So far, the other part of the sound,
The ef ciency of most pitch estimation methods declines when the including the ambient noise, transients, etc. has not been used in
analyzed frame is shortened and/or when a wide fundamental fre- the F0 estimation task, as far as the authors know. Therefore, the
quency (F0 ) range is targeted. The technique proposed herein jointly preliminary task in the F0 estimation method we present consists
uses a periodicity analysis and a spectral matching process to im- in extracting the parameters of components. The F0 estimator then
prove the F0 estimation performance in such an adverse context: includes a spectral function and a temporal function. The parametric
a 60ms-long data frame together with the whole, 71 /4 -octaves, pi- approach enables to take into account the inharmonicity of sounds
ano tessitura. The enhancements are obtained thanks to a parametric both in time and frequency domains and to optimize the precision of
approach which, among other things, models the inharmonicity of the F0 numeric estimation.
piano tones. The performance of the algorithm is assessed, is com- The F0 estimation system is described in section 2. Evaluation
pared to the results obtained from other estimators and is discussed results and comparisons with other algorithms are then detailed in
in order to characterize their behavior and typical misestimations. section 3 and conclusions are nally presented in section 4.
Numerous methods dedicated to fundamental frequency (F0 ) esti- The Na -length analyzed waveform is modeled by:
mation of periodic signals try to extract the signal self-similarities K
X
by maximizing a function of time or frequency. In this manner, s(t) = αk zkt + w(t) (1)
they measure a degree of internal resemblance in the waveform k=1
(ACF [1, 2], AMDF [3, 4], cepstrum [5]) or in the spectrum [6].
When processing real world musical sounds, these techniques are de ned for t ∈ J0, Na − 1K and composed of a sum of K
confronted to deviations from the theoretical model, such as the pres- exponentially-modulated sinusoids αk zkt , k ∈ J1, KK with complex
ence of noise, which can be both stationary and non stationary, or the amplitudes αk = Ak eiΦk ∈ C∗ , (Ak being the real, positive am-
possibly non-uniform distribution of the harmonics. plitude and Φk the initial phase), and distinct poles zk = edk +i2πfk
The development and applications of the quoted methods often (fk being the frequency and dk the damping factor), plus an addi-
deal with an extension to subband processing [2, 7], to an optimiza- tive colored noise w(t). This section details how the signal is pre-
tion of the main function [4, 7] or to the joint use of both time and processed, how poles zk are then estimated via the ESPRIT (Esti-
frequency domains [8]. Typical errors that usually occur give a gen- mation of Signal Parameters via Rotational Invariance Techniques)
eral idea of the dif culties the F0 estimation task must cope with. algorithm [10], and how amplitudes αk are nally extracted.
Temporal or spectral methods tend to make sub-octave or octave er- Preprocessing. A two-step preprocessing stage is applied to the
rors respectively. Both of them come up against dif culties like a signal sampled at 32 kHz:
large F0 search range (e.g. 27-4200 Hz for the piano), non-regular 1. The cubic computational cost of the ESPRIT algorithm is
spectral envelopes and inharmonic deviations of the frequency com- reduced when the number of poles to be estimated is low.
ponents [6, 9]. In addition, a short analysis frame prevents spectral This is achieved by using a lter bank. The signal is splitted
methods from resolving components for low F0 values whereas the into D = 32 subbands with width 500-Hz by using cosine-
uniformely-distributed discrete time scale used by temporal methods modulated lters [11]. The order of magnitude of the com-
makes the estimation fail above some F0 limit. putational cost drops from Na3 to Na3 /D2 (Na3 /D3 per band)
The new F0 estimation algorithm we describe aims at enhancing leading to a satisfactory processing time for the analysis bloc.
F0 estimation results in the case of a short analysis window and a 2. Components of piano sounds are particularly well represented
large F0 search range. We will focus on piano sounds since they by the exponential sinusoidal plus noise model introduced
present all the listed dif culties and usually cause one of the worst in (1). However, the ESPRIT algorithm only applies to the re-
estimation error rates per instrument (e.g. see [8]). The pitch of a strictive case of white noise. Thus, the second preprocessing
harmonic or quasi-harmonic sound is an attribute that only depends step consists in whitening the noise in each subband thanks
on the sinusoidal components of the signal. Thus a F0 estimator only to an AR lter estimated on the smoothed spectrum of the
requires the parameters of components such as frequency, amplitude, signal.
The research leading to this paper was supported by the French GIP ANR ESPRIT algorithm. The signal in each preprocessed subband
under contract ANR-06-JCJC-0027-01, Décomposition en Éléments Sonores is a sum of exponentially-modulated sinusoids plus white noise. As-
et Applications Musicales - DESAM suming the number of poles is known, the ESPRIT algorithm [10]
,k
0
gf
must be estimated. The ESTER [12] algorithm establishes a cri- 1000
terion J(p) that provides an estimation of the number of poles as
argmaxp∈P (J(p) > δJ ), P being the set of candidates for the num- 500
ber of poles and δJ a threshold tuned to δJ = 10 in the current study.
0
The result obtained by this method is either correctly estimated, or 0 1000 2000 3000 4000
slightly over-estimated. As shown in [12], the latter case is not dis- f
k
turbing for the ESPRIT analysis, and weak amplitudes are estimated
for the spurious poles. Fig. 1. At any given F0 , the frequencies fk are remapped to gf0 ,k ,
Estimation of amplitudes. Once the poles extracted, ampli- leading to a harmonic distribution for the actual F0 . One theoretical
tudes are estimated by a least squares algorithm applied to the sub- partial over 5 is represented with f0 = 27.5Hz and β = 2.54e − 4.
band signal. The effects of the preprocessing stage on the ampli-
tudes in each subband are corrected by applying the inverse lters
of the various preprocessing steps – whitening, lter bank and pre-
where β (f0 ) is an approximative inharmonicity coef cient for fun-
emphasis lter series –, leading to the estimation of the amplitudes
damental frequency f0 averaged from the results presented in [13,
αk , k ∈ J1, KK.
pp. 365]. The assumed partial order h (f0 , fk ) associated to fre-
quency fk is extracted from the inharmonicity law:
2.2. Pitch estimation
r
A temporal method and a spectral method are rst introduced. Al- f2
(1 − β (f0 ))2 + 4β (f0 ) k
f02
− 1 + β (f0 )
though each one could account for a F0 estimator, they are jointly 2
used in the same manner as in [8] to obtain the whole, more ef cient h (f0 , fk ) = (5)
2β (f0 )
estimator detailed in the last part.
As the remapping process causes the remapped frequencies
2.2.1. Temporal method gf0 ,k of the partials to be perfect multiples of the actual fundamental
frequency f0 , we replace fk with g 1 ,k in (2) to obtain a temporal
Periodicity is often analyzed by assuming the signal is an observa- τ
1
tion of a real, wide-sense stationary (WSS) process y and by estimat- function Rinh (τ ) for piano tones which is maximum for τ = f0
:
ing its autocovariance function Ry (τ ) = E [y(t)y(t + τ )]. When
K
the signal is periodic, the maxima of Ry (τ ) are located at τ = 0 and X
at every multiple of the period. Let us consider a real, WSS process Rinh (τ ) = pk cos 2πg 1 ,k τ (6)
τ
y composed of K undamped sinusoids with frequencies νk , real am- k=1
plitudes 2ak , initial phases ϕk , which are assumed to be independant
and uniformely distributed along [0, 2π[. The autocovariance func- 2.2.2. Spectral method
PK
tion of y is Ry (τ ) = k=1 2a2k cos (2πνk τ )+δ(τ )σw 2
y
. Therefore
we can de ne a temporal function R(τ ) for F0 estimation from the A parametric amplitude spectrum is designed from the estimates of
parameters estimated by the high resolution analysis: frequencies fk and energies Ek of components k ∈ J1, KK. It is
composed of a sum of K gaussian curves centered in fk with con-
K
X stant standard deviation σ, weighted by the square root of the com-
R(τ ) = pk cos (2πfk τ ) (2) ponent energies as average amplitudes:
k=1
( K √
|αk |2 if |zk | = 1 X Ek −
(f −fk )2
pk = |αk |2 1−|zk |2Na (3) S(f ) = √ e 2σ 2 (7)
Na 1−|zk |2
otherwise k=1
2πσ
k)
where τ > 0, fk = arg(z 2π
is the normalized frequency of compo- σ is set to f0min /4 where f0min is the lower bound of the F0 search
nent k, and the instantaneous power pk is an estimate of coef cient range in order to prevent overlap between successive partials.
2a2k over the analysis frame. Our spectral estimator U (f ) relies on maximizing a scalar prod-
In the case of a slightly inharmonic sound, the frequency devi- uct between the parametric amplitude spectrum and theoretical har-
ation weakens or even removes the maxima of R(τ ) at the multi- monic unitary patterns of F0 candidates:
ples of the period. The inharmonicity law [13] for a piano tone of
fundamental frequencyp f0 causes partial h not to be located at fre- Hf
X
quency hf0 but at hf0 1 + β(h2 − 1), β being the inharmonicity U (f ) = wf,h S (hf ) (8)
coef cient of the note. As illustrated in g. 1, this frequency stretch- h=1
ing may be inversed by remapping the set of estimated frequencies
{fk , k ∈ J1, KK} to a set of frequencies {gf0 ,k , k ∈ J1, KK}: where Hf is the maximum number of partials possible for funda-
mental frequency f and {wf,h , h ∈ J1, Hf K} is the pattern associ-
fk ated to f . The choice of the pattern is based on an approximative
gf0 ,k = p (4)
1 + β (f0 ) (h2 (f0 , fk ) − 1) logarithmic spectral decrease of components. The slope p of a linear
!"!#$%
bene t from this phenomenon is described in [8]. It consists in mul-
3 tiplying a temporal and a spectral function on a common F0 scale in
x 10
3 order to preserve common peaks from both functions and to remove
or attenuate other peaks (see g. 2). Thus, the pitch
is estimated by
2
maximizing the product of the methods Rinh f1 and Uinh (f ):
S(f)
1
1
0 fˆ0 = argmaxf Rinh Uinh (f ) (11)
10
2
10
3
f
3
x 10
4 Thanks to the analytic expressions (6) and (10), Rinh f1 and
Uinh (f ) can be directly evaluated for any f value. As the F0 distrib-
Uinh(f)
for the analysis. About 95% of the remaining time is required by the
1 spectral F0 estimator and may be optimized and written in C for a
0 computationally-ef cient implementation.
1 2 3
10 10 3. EVALUATION
f (Hz)
The algorithm has been evaluated on isolated piano tones from var-
ious sources: 3168 notes from three pianos of RWC database [14],
270 notes from ve pianos of a PROSONUS database and 264 notes
Fig. 2. From top to bottom, on a logarithmic frequency scale: para-
from a Yamaha upright piano of a private database. All record-
metric spectrum, spectral estimation function Uinh (f ), remapped
ings include several takes of all the 88 notes of piano range (except
temporal estimation function Rinh f1 , joint F0 estimation function. PROSONUS in which notes are spaced by fourth) with a varying
Functions result from the 60 ms analysis of a D3 piano note. loudness. RWC samples also offer various play modes (normal, stac-
cato, with pedal). The F0 search scale is composed of Nf = 8192
√ values logarithmically distributed between f0min = 26.73 Hz and
regression between log( Ek ) and fk is extracted and weights wf,h f0max = 4310 Hz. The estimation is performed after the analysis of
are then de ned as: a single 60 ms or 93 ms frame: 60 ms is quite a challenging frame
wf,h = w0 ephf (9) length since it is below twice the period of lowest notes while 93 ms
is a well spread duration for this kind of evaluation. Each estimated
P − 12 F0 is associated to the closest note in the equal tempered scale with
Hf
where w0 = h=1 e2phf is a normalizing term such that A4 tuned to 440 Hz. Errors are then de ned as incorrect note esti-
PHf 2 mations. The method is compared to two estimators. The rst one is
h=1 wf,h = 1.
The spectral estimator is then adapted to piano tones by selecting as similar to our estimator as possible, replacing the ESPRIT analy-
the values of the spectrum on an inharmonic stretched scale instead sis stage with a classical analysis: the ACF is estimated from the
−1 2
of a harmonic scale: signal by the formula r(τ ) = NN a
a −τ
DFT |DFT [s]| , the factor
Na
Hf Na −τ
being a correction of the bias; the spectral estimator Uinh (f0 )
X p is computed by replacing the parametric spectrum with the modulus
Uinh (f ) = wf,h S hf 1 + β(f ) (h2 − 1) (10) of the DFT of the signal, using a zero-padding on 8Nf points; r(τ )
h=1 is mapped to the frequency scale by interpolation as described in [8];
Finally, the estimator ef ciency can be improved by ignoring all the pitch is nally estimated by maximizing the product between the
frequencies and weights below a cut-off frequency of 100 Hz since spectral function and the remapped r(τ ). The second method is the
the impedance at the piano bridge [13] causes a signi cant devia- YIN algorithm [4] which is considered as a very ef cient monopitch
tion of low frequencies from the inharmonicity law and the highest estimator. We used the code available on the authors’ website.
weigths wf,h of patterns are allocated to those frequencies. Evaluation results are reported in g. 3. At the target window
length of 60 ms, the global error rate of our estimator is around
2.2.3. Pitch estimator 4.4% which is at least twice better than the other estimators. This
is due to a low error rate on a large F0 range (1.1% in the F0 range
As mentioned in the introduction, sub-harmonic and harmonic er- 65 − 2000 Hz) and slowly increasing values at the very bass and tre-
ror trends are opposed in temporal and spectral methods. A way to ble limits. In comparison, the non-ESPRIT based estimator achieves
!"!#$%
Octave averaged error rates (analysis on 60 ms) to 14.1%.
70 Parametric f0 estimator (mean: 4.4%)
60
Non parametric f0 estimator (mean: 15.5%) 4. CONCLUSIONS
YIN estimator (mean: 11.0%)
error rate (%)
Octave averaged error rates (analysis on 93 ms) [1] L. Rabiner, “On the use of autocorrelation analysis for pitch
detection,” IEEE Trans. on Acoustics, Speech, and Signal
70 Parametric f0 estimator (mean: 2.4%)
Processing, vol. 25, no. 1, pp. 24–33, 1977.
Non parametric f0 estimator (mean: 3.0%)
60 [2] Ray Meddis and Michael J. Hewitt, “Virtual pitch and phase
YIN estimator (mean: 11.0%)
sensitivity of a computer model of the auditory periphery. I:
error rate (%)
50
40
Pitch identi cation,” JASA, vol. 89, no. 6, pp. 2866–2882,
1991.
30
[3] M. Ross, H. Shaffer, A. Cohen, R. Freudberg, and H. Manley,
20 “Average magnitude difference function pitch extractor,” IEEE
10 Trans. on Acoustics, Speech, and Signal Processing, vol. 22,
no. 5, pp. 353–362, 1974.
0
30 40 50 60 70 80 90 100 [4] A. de Cheveigne and H. Kawahara, “YIN, a fundamental fre-
MIDI
quency estimator for speech and music,” JASA, vol. 111, no. 4,
pp. 1917–1930, 2002.
Fig. 3. Octave-averaged error rates per note with two different frame [5] A. Michael Noll, “Cepstrum pitch determination,” JASA, vol.
lengths, for the parametric F0 estimator and two other methods: a 41, no. 2, pp. 293–309, 1967.
similar but non-parametric algorithm and the YIN estimator
[6] A.P. Klapuri, “Multiple fundamental frequency estimation
based on harmonicity and spectral smoothness,” IEEE Trans.
on Speech and Audio Processing, vol. 11, no. 6, pp. 804–816,
a 1.1% error rate in the range 240 − 2000 Hz. Its low ef ciency November 2003.
outside this range shows how the F0 estimation is improved by both [7] A.P. Klapuri, “A perceptually motivated multiple-f0 estimation
the high resolution analysis and the handling of parametric, analytic method,” in Proc. of WASPAA, New Paltz, NY, USA, October
formulas. The YIN algorithm is slightly less ef cient in the medium 2005, IEEE, pp. 291– 294.
range than our estimator and has similar results in the bass range (for
[8] G. Peeters, “Music pitch representation by periodicity mea-
the rst octave both curves should be at the same level, but our es-
sures based on combined temporal and spectral representa-
timator results seem to be worse since they include the lowest four
tions,” in Proc. of ICASSP 2006, Paris, France, May 14-29
note error rates that cannot be estimated by the YIN algorithm with a
2006, IEEE, vol. 5, pp. 53–56.
60 ms window length). In the high range, it shows a quite high error
rate, which is a typical behavior of temporal methods. Global results [9] S. Godsill and M. Davy, “Bayesian computational models for
are improved with a 93 ms frame length. Nevertheless, the high res- inharmonicity in musical instruments,” in Proc. of WASPAA,
olution analysis does not enhance signi catively the F0 estimation New Paltz, NY, USA, October 2005, IEEE, pp. 283– 286.
even if its error rate remains the lowest. [10] R. Roy, A. Paulraj, and T. Kailath, “ESPRIT–a subspace rota-
Typical errors are now discussed, in the 60 ms analysis case. As tion approach to estimation of parameters of cisoids in noise,”
expected, usual errors are under-estimations of high f0s and over- IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.
estimations of low f0s. Around 18% of errors made by each al- 34, no. 5, pp. 1340–1342, 1986.
gorithm are octave and suboctave errors. In the case of our al- [11] P. P. Vaidyanathan, Multirate systems and lter banks, Engle-
gorithm, the remaining error intervals are of all kinds, with only woods Cliffs, NJ, USA: Prentice Hall, 1993.
5% that are half-tone errors, whereas this rate reaches 10% for [12] R. Badeau, B. David, and G. Richard, “A new perturbation
the other two algorithms. The YIN algorithm makes a high pro- analysis for signal enumeration in rotational invariance tech-
portion of sub-harmonic errors (13% are sub-octaves, 8% are sub- niques,” IEEE Trans. on Signal Processing, vol. 54, no. 2, pp.
nineteenth). Thus, even if our algorithm makes a reduced number of 450–458, February 2006.
harmonic/subharmonic errors, those errors remain dif cult to avoid. [13] N. H. Fletcher and T. D. Rossing, The Physics of Musical In-
Half-tone error rates show the ef ciency of our method while the struments, Springer, 1998.
other algorithms suffer from a lack of precision of temporal estima-
[14] T. Nishimura M. Goto, H. Hashiguchi and R. Oka, “RWC
tors for high F0 . Finally, the inharmonicity management contributes
music database: Music genre database and musical instrument
to lower the global error rate, from 4.9 to 4.4% in the 60-ms frame
sound database,” in Proc. of ISMIR, Baltimore, Maryland,
case. As expected, the improvement is localized in the lowest F0
USA, 2003, pp. 229–230.
range: the error rate in the MIDI range J21, 37K decreases from 16.6
!"!#$#
Audio Engineering Society
Convention Paper
Presented at the 120th Convention
2006 May 20–23 Paris, France
This convention paper has been reproduced from the author’s advance manuscript, without editing, corrections, or
consideration by the Review Board. The AES takes no responsibility for the contents. Additional papers may be
obtained by sending request and remittance to Audio Engineering Society, 60 East 42nd Street, New York, New York
10165-2520, USA; also see www.aes.org. All rights reserved. Reproduction of this paper, or any portion thereof, is
not permitted without direct permission from the Journal of the Audio Engineering Society.
ABSTRACT
This work deals with the Harmonic+Noise decomposition and, as targeted application, to extract transient
background noise surrounded by a signal having a strong harmonic content (speech for instance). In that
perspective, a method based on the reassigned spectrum and a High Resolution subspace tracker are com-
pared, both on simulations and in a more realistic manner. The reassignment re-localizes the time-frequency
energy around a given pair (analysis time index, analysis frequency bin) while the High Resolution method
benefits from a characterization of the signal in terms of a space spanned by the harmonic content and a
space spanned by the stochastic content. Both methods are adaptive and the estimations are updated from
a sample to the next.
where τ ∈ Z is the analysis time lag, νk = k/K the the STFT respectively windowed by WNt uN (t) and
frequency bin and h(t) the window applied, assumed WN−t uN (t).
to be of finite length N . The order K of the trans-
form has to be greater or equal to N , and is chosen Defining the simple increment
as K = 2N in our practical implementations. The
STFT is then rewritten in its polar form as ∆s(τ, k) = e−j2πνk τ ( (−1)k s(τ + N ) − x(τ ) ), (11)
4. for each selected bin l, a complex exponential where the zk ’s, k = 0, 1, . . . , M − 1, are the com-
at the frequency Fi (τ, l) is computed with an plex poles of the signal and bk ’s the associated com-
amplitude taking into account the phase and plex amplitudes. More precisely, zk = exp(δk +
amplitude distorsion due to windowing at the j2πνk ) where δk ∈ R is the damping or grow-
frequency Fi (τ, l), ing factor and νk ∈ [−0.5 0.5] is the normalized
frequency. Expanding this definition to the vec-
5. the synthetized component is added to the out-
tor of the n (n ≥ M ) subsequent samples x =
put segment, windowed by a Hann window cen- T
tered on the time-instant τ + N/2 + Tg (τ, l). x(0) x(1) . . . x(n − 1) leads to the matrix
expression :
It is worth making mention here that the Hann x = Vb, (17)
window utilized for the synthesis is not of constant T
where b = b0 b1 . . . bM −1 and V is the Van-
length, since it depends on the reallocation time in
dermonde matrix defined as:
the analyzed interval. Let Lh (τ, l) be this length,
this is expressed as: 1 1 ... 1
z0 z1 . . . zM −1
Lh (τ, l) = N − 2|Tg (τ, l)|. (14) 2
z0 z 2 2
. . . zM
V= 1 (18)
−1
In addition, for approaching perfect reconstruction, .. .. .. ..
. . . .
the synthesis window hs (t) is weighted by the factor n−1 n−1 n−1
PLh −1 z0 z1 . . . zM −1
( t=0 hs (t) )−1 to be made unitary.
Once the steps 1-5 have been repeated all along the For M distinct poles, the M vectors
analyzed signal, the harmonic part sh (t) is derived. {v(zk )}k=0,1,...,M −1 , defined as the column vectors
T
of the matrix V, v(zk ) = 1 zk . . . zkn−1 , are
The noise part is then deducted as:
linearly independant. Thus the range space of V is
sn (t) = s(t) − sh (t) (15) of dimension M . In short, a vector of n subsequent
samples of a signal combining linearly M complex
3. ADAPTIVE HIGH RESOLUTION HNM DE- exponential belongs to a M dimensional subspace,
COMPOSITION the so-called signal subspace. When dealing with
Since the end of the 18th century [14, 15], Fourier a noisy signal model : s(t) = x(t) + w(t), the
T
analysis and High Resolution (HR) methods have vector s = s(0) s(1) . . . s(n − 1) belongs to
been both complementary and competitors. While a n-dimensional subspace. Under the hypothesis
the former developed into the prominent tool in the of a Wide Sense Stationary (WSS) white noise,
field of the spectral analysis, the latter has revealed this subspace can be decomposed as the direct
himself in the two last decades to be one of the most sum of the M -dimensional signal subspace and its
valuable estimation technique in the so-called Di- orthogonal complementary, of dimension n − M ,
rection Of Arrival problem [16]. Notwithstanding referred to as the noise subspace.
its remarkable resolution properties, its use remains Harmonic+noise decomposition. Let W be a
marginal in audio processing tasks, even though the n × M matrix, conveniently chosen as orthonor-
underlying model is well adapted for tracking slow mal, whose range space is the signal subspace. The
varying line spectra [17]. projection matrices onto the signal subspace and
3.1. Theoretical background onto the noise subspace are thus respectively Ps =
Subspace analysis. Subspace decomposition is WWH and Pn = I − Ps , where the subscript H
the theoretical foundation of a number of methods denotes the hermitian transpose. For a given vector
(Pisarenko [18], MUSIC [19], Matrix Pencil [7], ES- of data s, the harmonic part is then obtained by:
PRIT [20]). The subspace analysis relies on the fol- sh = Ps s (19)
lowing remark. Let x(t), t ∈ Z be a complex signal,
linear combination of M complex exponentials: while the noise part is the reminder:
x(t) = b0 z0t + b1 z1t + . . . + bM −1 zM
t
−1 , (16) sn = Pn s (20)
−30
H
W(t) = W(t − 1) + e(t)g(t) (22)
−40
It can be noticed that even if in this work, only uni- 2. a low fl and a high fh spectral limits are set,
form filter banks are considered, an extension to non- and a damping factor α(fl ) is defined for the
uniform ones is readily obtained by dyadic iteration. low limit, owing to which the decreasing of the
An exemple of uniform 4-subbands decomposition is process around the frequency fl is of the form
displayed on the figure 2. d(t) ∝ exp(−α(fl )t),
20
3. a damping law is given, as a power function of
frequency, i.e. α(f ) = α(fl )( ffl )p
0
−20
The whole operation is implemented by FFT-
filtering of a white stationary noise. An example
magnitude (dB)
−40
is drawn on figure 3, obtained at a sampling fre-
−60 quency of 8kHz with the following parameters: a
solely pole of 0.99 magnitude at the frequency of
−80 500 Hz, fl = 150 Hz and fh = 3500 Hz, α(fl ) = 4 s−1
and p = 1
−100
2000
4. EXPERIMENTS 1500
ing a strong harmonic content, speech being the tar- time (s)
3000 −20
original signal
4000 0
2500 −30
frequency (Hz)
3500 −10
2000 −40
3000 −20
1500 −50
2500 −30
frequency (Hz)
1000 −60
2000 −40
500 −70
1500 −50
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8
1000 −60
time (s)
500 −70
Fig. 5: Time-frequency representation of the noise
0 −80
part obtained by the RF-HND method.
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8
time (s)
signal.
3500 −10
3000 −20
Pure Sine + noise. In this example, a 300 Hz-
sinusoid is added to the noise, leading to a signal 2500 −30
frequency (Hz)
3000 −20
3500 −10
2500 −30
frequency (Hz)
3000 −20
2000 −40
2500 −30
frequency (Hz)
1500 −50
2000 −40
1000 −60
1500 −50
500 −70
1000 −60
0
500 −70 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8
time (s)
0 −80
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8
time (s) Fig. 8: Time-frequency representation of the noise
part obtained by the RF-HND method.
Fig. 7: Time-frequency representation of the original
signal.
noise part
4000 0
3500 −10
Analysis parameters.
3000 −20
The HF-HND is applied with a window length N =
256 samples and an order (number of frequency bins) 2500 −30
frequency (Hz)
0 −80
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8
Results and interpretation. The representation of time (s)
5000 5000
−10 −10
−20 −20
4000 4000
−30 −30
frequency (Hz)
frequency (Hz)
3000 3000
−40 −40
−60 −60
1000 1000
−70 −70
0 −80 0
0 0.5 1 1.5 0 0.5 1 1.5
time (s) time (s)
Fig. 10: Time-frequency representation of the origi- Fig. 11: Time-frequency representation of the noise
nal signal. part obtained by the RF-HND method.
noise part
preprocessing filter analysis 0
−30
Results and interpretation. The noise part extracted
frequency (Hz)
3000
by the RF-HND estimator (figure 11), has a lower −40
−70
to process apart each subband: the window length
can be adjusted differently in the lower range and in 0 −80
0 0.5 1 1.5
the upper range of the spectrum, leading to a kind time (s)