RFIA Cours1 PDF
RFIA Cours1 PDF
RFIA Cours1 PDF
Département d’Informatique
Groupe de Recherche en Intelligence Artificielle GRIA/LRI
MASTER « RFIA » Reconnaissance des Formes et Intelligence Artificielle
2
L’étude des mécanismes de phonation permettra donc de déterminer, dans
une certaine mesure, ce qui est parole et ce qui n’en est pas. De même,
l’étude des mécanismes d’audition et des propriétés perceptuelles qui s’y
rattachent permettra de dire ce qui, dans le signal de parole, est réellement
perçu. Mais l’essence même du signal de parole ne peut être cernée de façon
réaliste que dans la mesure où l’on imagine, bien au-delà de la simple mise en
commun des propriétés de production et de perception de la parole, les
propriétés du signal dues à la mise en boucle de ces deux fonctions. Mieux
encore, c’est non seulement la perception de la parole qui vient influer sur sa
production par le biais de ce bouclage, mais aussi et surtout sa
compréhension. On ne parle que dans la mesure ou l’on s’entend et où l’on se
comprend soi-même; la complexité du signal qui en résulte s’en ressent
forcément.
3
Les techniques modernes de traitement de la parole tendent cependant à
produire des systèmes automatiques qui se substituent à l’une ou l’autre de ces
fonctions :
4
On comprend aisément que, pour obtenir de bons résultats dans chacune de
ces tâches, il faut tenir compte des caractéristiques du signal étudié. Et, vu la
complexité de ce signal, due en grande partie au couplage étroit entre
production, perception, et compréhension. Il n’est pas étonnant que les
recherches menées par les spécialistes soient directement liées aux progrès
obtenus dans de nombreuses autres disciplines scientifiques.
Comme le remarque très justement Allen:
"Le traitement de la parole fournit d’excellents exemples pour l’étude de systèmes
complexes, dans la mesure où il soulève des questions fondamentales dans les
domaines du partitionnement des systèmes, du choix d’unités descriptives, des
techniques de représentation, des niveaux d’abstraction, des formalismes de
représentation de la connaissance, de l’expression d’interactions entre contraintes, des
techniques de modularité et de hiérarchisation, des techniques d ’estimation de
vraisemblance, des techniques de mesure de la qualité et du naturel d’un stimulus, de
la détermination de classes d’équivalence, de la paramétrisation de modèles
adaptatifs, de l’étude des compromis entre représentations procédurales et
déclaratives, de l’architecture des systèmes, et de l’exploitation des technologies
modernes pour produire des systèmes qui fonctionnent en temps réel pour un coût
5
acceptable".
Qu’est-ce que la parole ?
La parole apparaît physiquement comme une variation de la pression de l’air
causée et émise par le système articulatoire. La phonétique acoustique
étudie ce signal en le transformant dans un premier temps en signal
électrique grâce au transducteur approprié : le microphone (lui-même
associé à un préamplificateur). De nos jours, le signal électrique résultant est
le plus souvent numérisé. Il peut alors être soumis à un ensemble de
traitements statistiques qui visent à en mettre en évidence les traits
acoustiques : sa fréquence fondamentale, son énergie, et son spectre.
6
1) L’échantillonnage transforme le signal à temps continu x(t) en signal à temps
discret x(n) défini aux instants d’échantillonnage, multiples entiers de la période
d’échantillonnage, celle-ci est elle-même l’inverse de la fréquence
d’échantillonnage.
Pour ce qui co’ncerne le signal vocal, le choix de cette fréquence
d’échantillonnage résulte d’un compromis. Son spectre peut s’étendre jusque 12
kHz. Il faut donc en principe choisir une fréquence égale à 24 kHz au moins pour
satisfaire au théorème de Shannon. Cependant, le coût d’un traitement
numérique, filtrage, transmission, ou simplement enregistrement peut être
réduit d’une façon notable si l’on accepte une limitation du spectre par un
filtrage préalable.
- Pour la téléphonie, on estime que le signal’ garde une qualité suffisante lorsque
son spectre est limité à 3400’ Hz et l’on choisit une fréquence d’échantillonnage
gale à 8000 Hz.
- Pour les techniques d’analyse, de synthèse ou de reconnaissance de la parole, la
fréquence peut varier de 6000 à 16000 Hz.
- Par contre pour le signal audio (parole et musique), on exige une bonne
représentation du signal jusque 20 kHz et l’on utilise des fréquences
d’échantillonnage de 44.1 ou 48 kHz.
7
2) Parmi le continuum des valeurs possibles pour les échantillons x(n), la
quantification ne retient qu’un nombre fini 2b de valeurs (b étant le nombre
de bits de la quantification), espacées du pas de quantification q. Le signal
numérique résultant est noté x(n). Une quantification de bonne qualité
requiert en général 16 bits.
Une caractéristique essentielle qui résulte du mode de représentation est le
débit binaire, exprimé en bits par seconde (b/s), nécessaire pour une
transmission ou un enregistrement du signal vocal.
-La transmission téléphonique classique sur une ligne RNIS exige un débit de 8
kHz x 8 bits = 64 kb/s;
- la transmission ou l’enregistrement d’un signal audio exige en principe un
débit de l’ordre de 48 kHz x 16 bits = 768 kb/s (à multiplier par deux pour un
signal stéréophonique).
8
Audiogramme de signaux de parole.
11
Evolution temporelle (en haut) et transformée de Fourier discrète
(en bas) du [a] et du [∫] de 'baluchon' (tranche de 30 ms). 12
La figure illustre la transformée de Fourier d’une tranche voisée et celle d’une
tranche non-voisée. Les parties voisées du signal apparaissant sous la forme de
successions de pics spectraux marqués, dont les fréquences centrales sont
multiples de la fréquence fondamentale. La forme générale de ces spectres,
appelée enveloppe spectrale, présente elle-même des pics et des creux qui
correspondent aux résonances et aux anti-résonances du conduit vocal et sont
appelés formants et anti-formants.
L’évolution temporelle de leur fréquence centrale et de leur largeur de bande
détermine le timbre du son. Le spectre d’un signal de type voisé possède en
général plus de composantes en basse fréquence qu’en haute fréquence. Par
contre, le spectre d’un signal non voisé présente une amplitude plus importante
en haute fréquence (ce qui correspond à la perception que nous en avons : les
fricatives non-voisées [f,s,p] sont des sons plus « aigus » que les voyelles).
C’est donc bien que le spectrogramme présente sous une forme simple
l’essentiel de l’information portée par le signal vocal.
Notons qu’une analyse d’un signal de parole n’est pas complète tant qu’on n’a
pas mesuré l’évolution temporelle de la fréquence fondamentale ou pitch.
15
Evolution de la fréquence de vibration des cordes vocales dans la phrase
"les techniques de traitement numérique de la parole". La fréquence est
donnée sur une échelle logarithmique; les sons non-voisés sont associés à
une fréquence nulle.
16
Les traits acoustiques du signal de parole sont évidemment liés à sa production.
L’intensité du son est liée à la pression de l’air en amont du larynx. Sa fréquence,
qui n’est rien d’autre que la fréquence du cycle d’ouverture/fermeture des cordes
vocales, est déterminée par la tension de muscles qui les contrôlent. Son spectre
résulte du filtrage dynamique du signal glottique (impulsions, bruit, ou
combinaison des deux) par le conduit vocal, qui peut être considéré comme une
succession de tubes ou de cavités acoustiques de sections diverses. Ainsi, par
exemple, on peut approximativement représenter les voyelles dans le plan des
deux premiers formants (voir figure).
17
Représentation des voyelles dans le plan F1-F2
19
Un cas d'assimilation de sonorité (coarticulation affectant le voisement d'une
sonore). A gauche, le début du mot 'annuellement', dans lequel [ ] est placé
dans un contexte voisé. A droite, le début de 'actuellement' : [ ] est totalement
dévoisé à cause de la plosive sourde qui précède.
20