Note d'opinion moyenne

Une Note moyenne d'opinion (Mean Opinion Score (en) - MOS en abréviation) est une note donnée à un codec audio pour caractériser la qualité de la restitution sonore. La note peut varier entre 1 (très mauvais) et 5 (excellent, comparable à la version d'origine). Il est défini par l'UIT-T dans la norme « P.800 : Méthodes d'évaluation subjective de la qualité de transmission ».

Pourquoi le MOS

Il existe un très grand nombre de codecs audio différents, basés sur des algorithmes de compression radicalement distincts. On distingue généralement trois familles :

les codecs sans perte. Ils sont très peu utilisés en téléphonie car ils ne permettent pas d'atteindre un bon taux de compression ;
les codeurs de signal. Ce sont des algorithmes avec perte d'information qui ne font pas d'hypothèse particulière sur la nature du signal sonore ou sur la langue utilisée. Exemples: compression logarithmique (UIT-T G.711), différentielle ADPCM (UIT-T G.726), adaptative AMR-WB (UIT-T G.722.2), MPEG layer 3 ;
les codeurs optimisé pour la voix, ou vocodeurs. Ils sont généralement basés sur un synthétiseur de voix à dictionnaire fini ou sur la prédiction linéaire (ACELP). Le principe du codage des codecs à dictionnaire fini consiste à trouver la meilleure combinaison d'entrées du dictionnaire pour minimiser l'erreur lors de la synthèse. Ce sont des codecs parmi les plus utilisés^{[réf. souhaitée]} en téléphonie (avec les codecs G.711). Exemples: UIT-T G.723.1, UIT-T G.729.

Ces algorithmes de compression étant très variés dans leur nature et par les résultats qu'ils produisent, un outil est apparu nécessaire pour pouvoir comparer leurs qualités respectives. Avant l'introduction des vocodeurs, un simple calcul d'erreur quadratique entre le signal original et le signal codé-décodé donnait une mesure de la dégradation. Cependant cette méthode a été remise en cause par deux facteurs :

elle ne permet pas de tenir compte des effets psycho-acoustiques (par exemple l'effet de masse lorsque deux tonalités sont proches)
un vocodeur peut être perçu de très bonne qualité alors que sa réponse temporelle est complètement différente du signal qu'il a codé. Dans ce cas l'erreur quadratique est grande alors que le vocodeur est de bonne qualité.

La méthode du score MOS a été développée de façon à prendre en compte ces facteurs et à évaluer la qualité "perçue" d'un codec.

Méthodologie

Le principe de calcul du MOS est basé sur un sondage d'un échantillon supposé représentatif de la population des utilisateurs. Les personnes constituant l'échantillon sont invitées à écouter un signal (souvent de la voix), puis son équivalent codé-décodé. Après chaque écoute, l'auditeur donne une note sanctionnant la qualité qu'il a perçue. La moyenne des notes fournies par la population constitue le MOS. Le tableau ci-dessous montre les résultats obtenus par quelques codecs courants^[1].

Codec	Débit [kbit/s]	Mean opinion score (MOS)
G.711 (ISDN)	64	4,1
iLBC	15,2	4,14
AMR	12,2	4,14
G.729	8	3,92
G.723.1 r63	6,3	3,9
GSM EFR	12,2	3,8
G.726 ADPCM	32	3,85
G.729a	8	3,7
G.723.1 r53	5,3	3,62
G.728	16	3,61
GSM FR	12,2	3,5

Avantages de la méthode

Le score MOS quantifie la qualité effectivement perçue par une certaine population. En particulier, il prend en compte les effets psycho-acoustiques. Dans le cas des vocodeurs, le score MOS fait aussi apparaître les différences de qualité liées à la langue du locuteur et de l'auditeur. Un vocodeur peut être noté 3,9 en anglais et 1,9 en chinois mandarin. Enfin, le MOS est un outil indispensable lors de la mise au point d'un nouveau type de codec. Les algorithmes complexes auxquels un codec moderne fait appel sont souvent assortis d'un certain nombre de paramètres qui le rendent plus ou moins propre à tel ou tel type d'application. Le choix de la valeur des paramètres est très difficile (parfois impossible) à faire de façon rationnelle. Dans ce cas, le MOS vient au secours des chercheurs en apportant une réponse quantitative basée sur une expérience perceptuelle réelle.

Inconvénients de la méthode

La mise en œuvre d'une évaluation MOS est chère en coût et en énergie. Elle suppose de convoquer un nombre relativement grand d'auditeurs, de mettre à leur disposition un équipement audio adapté, de les former à la bonne façon d'attribuer une note qui soit exploitable, et de collecter et consolider les résultats. Une autre difficulté est la nature subjective du résultat. Des corrections statistiques permettent de réduire l'aléa, mais pas de l'annuler. Cependant, l'expérience montre que lorsque plusieurs sessions sont effectuées dans les mêmes conditions, et avec des échantillons différents mais représentatifs de la même population, les résultats obtenus ne varient pas sensiblement. Le principal inconvénient du MOS réside dans le fait qu'il n'est pas complètement standardisé. En dehors de toute norme méthodologique, beaucoup de chiffres sont produits dans de mauvaises conditions expérimentales. Par exemple, on trouve des sites Internet proposant à l'utilisateur de participer au vote. Dans ce cas la note prend en compte la qualité du codec mais aussi celle de l'équipement audio de l'internaute et de son environnement acoustique au moment du test.

Notes et références

↑ Cisco, Understanding Codecs: Complexity, Hardware Support, MOS, and Negotiation, 2 février 2006

Voir aussi

Articles connexes

Perceptual Evaluation of Speech Quality : une méthode automatisée d'évaluation la qualité de la voix dans un système de télécommunications

Lien externe

P.800 : Méthodes d'évaluation subjective de la qualité de transmission sur le site de l'UIT-T

Portail des télécommunications

[1] Cisco, Understanding Codecs: Complexity, Hardware Support, MOS, and Negotiation, 2 février 2006

[1]