RFIA Cours2 PDF
RFIA Cours2 PDF
RFIA Cours2 PDF
Département d’Informatique
Groupe de Recherche en Intelligence Artificielle GRIA/LRI
MASTER « RFIA » Reconnaissance des Formes et Intelligence Artificielle
2
Une fois que le son a été émis par le locuteur, il est capté par un microphone.
Le signal vocal est ensuite numérisé à l’aide d’un convertisseur analogique-
numérique.
3
Paramétrisation
La première étape consiste à paramétrer le signal vocal du locuteur. Cela
permet d’obtenir une " empreinte " caractéristique du son, sur laquelle on
pourra ensuite travailler pour la reconnaissance. Pour cela, il existe plusieurs
méthodes.
4
Un premier groupe de méthodes est constitué par les méthodes spectrales .
Elles sont fondées sur la décomposition fréquentielle du signal sans
connaissance a priori de sa structure fine.
La plus utilisée est celle utilisant la transformée de Fourier, appelée Fast
Fourier Transform ( FFT ). Tout son est la superposition de plusieurs ondes
sinusoïdales. Grâce à la FFT , on peut isoler les différentes fréquences qui le
composent. On obtient ainsi une répartition spectrale du signal (voir figure ).
5
Un deuxième groupe de méthodes est constitué par les méthodes
d’identification . Elles sont fondées sur une connaissance des mécanismes
de production (ex : le conduit vocal). La plus utilisée est celle basée sur le
codage prédictif linéaire (appelée LPC ). L’hypothèse de base est que le canal
buccal est constitué d’un tube cylindrique de section variable. L’ajustement
des paramètres de ce modèle permet de déterminer à tout instant sa
fonction de transfert. Cette dernière fournit une approximation de
l’enveloppe du spectre du signal à l’instant d’analyse (voir figure ).
6
On repère alors aisément les fréquences formantiques , c’est-à-dire les
fréquences de résonance du conduit vocal. En effet, elles correspondent au
maximum d’énergie dans le spectre. En répétant cette méthode plusieurs fois, on
obtient l’ empreinte du signal, comme le montre la figure .
7
D’autres méthodes existent, mais elles sont moins employées et nous ne les
détaillerons pas ici. Les tendances actuelles visent à améliorer l’analyse fine
des sons : codage impulsionnel, analyse fractale…
8
Codage LPC et modélisation ARMA.
1) Principes du codage LPC.
Le codage par prédiction linéaire, ou LPC (Linear Predictive
Coding) repose sur la connaissance du modèle de production
de la parole tel qu’il est décrit par la. Ce modèle peut être
décomposé en deux parties : la source, active, et le conduit,
passif.
Pour les sons non voisés, le signal d’excitation est un bruit
blanc de moyenne nulle et de variance unité. Pour les sons
voisés, cette excitation est une suite d’impulsions d’amplitude
unité :
10
Ce modèle de production d’un signal est appelé AutoRégressif (AR), récursif,
tous-pôles, ou encore IIR (Infinite Impulse Response). Le signal ainsi produit à
pour transformée en Z :
11
Cette récurrence exprime le fait qu’un échantillon quelconque y(n) peut être
déterminé par une combinaison linéaire des échantillons qui le précèdent,
ajoutée au terme d ’excitation. Les coefficients a(i) sont dit prédicteurs.
Si le signal d ’excitation n’est pas accessible, la quantité :
14
Le cepstre.
Contrairement au spectrogramme qui ne fait appel à aucune connaissance a
priori sur le signal acoustique, le cepstre est basé sur une connaissance du
mécanisme de production de la parole.
15
Le but du cepstre est de séparer ces deux contributions par déconvolution.
Il est fait l’hypothèse que gn est soit une séquence d’impulsions
(périodiques, de période T0, pour les sons voisés), soit un bruit blanc,
conformément au modèle de production.
16
Par transformation inverse, on obtient le cepstre.
Dans la pratique, la transformation en Z est remplacée par une TFR. L’expression
du cepstre est donc : ç(n) = FFT -1(Log(FFT(s(n))))
17
A partir du cepstre, il est possible de définir la fréquence fondamentale
de la source gn en détectant les pics périodiques au-delà de n0. Le spectre
du cepstre pour les indices inférieurs à n0 permettra d’obtenir un spectre
lissé, débarrassé des lobes dus à la contribution de la source.
18