TH8068
TH8068
TH8068
Thèse
Présentée pour l’obtention du grade de DOCTEUR EN SCIENCES
En : INFORMATIQUE
Spécialité : Informatique
Sujet
adorables filles
« On fait la science avec des
faits, comme on fait une
maison avec des pierres :
mais une accumulation de
faits n’est pas une science
qu’un tas de pierres n’est
une maison » Henri
Poincaré.
Résumé
Dans ce travail de thèse, nous présentons notre contribution dans le domaine de la reconnaissance de la
gestuelle de la main. Notre apport principal réside dans l’élaboration d’un système de reconnaissance des
postures de la main destinées à l’alphabet de la langue des signes.
- Description de la main
La méthode de segmentation proposée repose sur la détermination des attributs adéquats de couleur et texture de
la peau. Ces attributs sont utilisés par la suite pour l’apprentissage d’un perceptron multi couches (MLP).
Afin d’aboutir à une description fidèle et non redondante des différentes postures de la main, nous avons suivi
deux approches différentes: une approche syntaxique et une approche statistique.
L’approche syntaxique repose sur le partitionnement de la forme de la main en ses parties élémentaires à savoir
les doigts et la paume. Ce partitionnement va être traduit au moyen d’une description textuelle permettant la
description et la reconnaissance de certaines postures de la main paume ou dos de la paume face à la caméra.
La méthode statistique s’appuie principalement sur l’utilisation des moments de Tchebichef, Hu et sur un
ensemble de caractéristiques géométriques.
Enfin la reconnaissance et la classification s’effectue moyennant les classifieurs KNN et SVM. Les approches
proposées ont été testés sur différentes bases de données.
Mots clés : Langue des signes, Texture, Perceptron multi couches (MLP) , Moments de Tchebichef, Moments
Hu, Classification.
Sommaire
INTRODUCTION GENERALE ........................................................................................................................... 1
I.1 Préambule .............................................................................................................................. 1
I.2 Problématique ....................................................................................................................... 3
I.3 Contributions de la thèse ....................................................................................................... 4
I.4 Organisation de la thèse ........................................................................................................ 6
CHAPITRE 1 ......................................................................................................................................... 7
CHAPITRE 2 ....................................................................................................................................... 37
CHAPITRE 3 ....................................................................................................................................... 51
CHAPITRE 4 ....................................................................................................................................... 67
RECONNAISSANCE ET CLASSIFICATION.......................................................................................................... 67
4.1 Introduction ......................................................................................................................... 67
4.2 Approche syntaxique............................................................................................................ 68
4.2.1 Représentation de la forme en partitions .................................................................................... 69
4.2.2 Reconnaissance ............................................................................................................................ 76
4.3 Approche statistique ............................................................................................................ 78
4.3.1 Extraction des caractéristiques .................................................................................................... 79
4.3.2 Classification ................................................................................................................................ 85
4.4 Conclusion ............................................................................................................................ 88
CHAPITRE 5 ....................................................................................................................................... 89
FIGURE 3.3. RESULTATS DE LA SEGMENTATION PAR SEUILLAGE DIRECTE DANS L’ESPACE YCb Cr . ................... 62
FIGURE 3.4 SCHEMA GENERAL DU MLP PROPOSE POUR LA CLASSIFICATION DES PIXELS PEAU. ........................ 64
FIGURE 3.5. EXEMPLE D’ENTREE POUR LE RESEAU MLP....................................................................................... 65
FIGURE 4.1. DE GAUCHE A DROITE, LA SILHOUETTE MAIN, LA BOITE ENGLOBANT LA SILHOUETTE, POINTS DE
FORTE COURBURE ................................................................................................................................................. 69
FIGURE 4.2 POINTS CONVEXES ET CONCAVES ...................................................................................................... 70
FIGURE 4.3 SELECTION DES POINTS CONCAVES D’INTERET DANS LA FORME DE LA MAIN. ................................. 71
FIGURE 4.4 SCHEMA GENERAL DES POINTS D’INTERET ....................................................................................... 72
FIGURE 4.5 COURBES DE JONCTION CJ1ET CJ2 ..................................................................................................... 73
FIGURE 4.6 LES DIFFERENTES PARTITIONS DE LA MAIN OBTENUES SUITE A LA LOCALISATION DES JONCTIONS. 74
FIGURE 4.7. DESCRIPTION DETAILLEE D’UNE SILHOUETTE DE LA MAIN [DAHMANI & LARABI 2011]. ................. 75
FIGURE 4.8 PRISE EN COMPTE DES ROTATIONS DE LA MAIN DE : 0°,90° 180°ET 270°. ........................................ 76
FIGURE 4.9 (A) MAUVAISE DETECTION DES POINTS DE COURBURES ET DE LA COURBE DE JONCTION CJ1,
APPLICATION DE L’ALGORITHME DE FITZGIBON ET DETERMINATION DE L’ELLIPSE. (B) RESOLUTION DU
PROBLEME PAR LE REDRESSEMENT DE LA MAIN DE L’ANGLE DE L’AXE PRINCIPAL DE L’ELLIPSE ET
DETERMINATION DE LA COURBE CJ1. ................................................................................................................... 76
FIGURE 4.10 UTILITE DES CONTOURS INTERNES : (A,D) IMAGES DE LETTRES (‘HE’ ET ‘SAD’ ET ‘DHAL’ ET ‘DAL’)
DE ARSL. (B,E) CONTOURS EXTERNES, ET (C,F) CONTOURS INTERNES ET EXTERNES. .......................................... 82
FIGURE 4.11 EXEMPLE DE FAIBLE CHANGEMENT DE CONTOURS, LETTRES ‘JIEM’ ET ‘HA’ DANS ARSL. .............. 84
FIGURE 4.12 (A) ENVELOPPE CONVEXE D’UNE FORME DE LA MAIN.(B) LETTRES ’AYN’ ET ‘TA’ DE L’ARSL. ........ 85
FIGURE 5.1 (A) ALPHABET DE L’ARSL. (B LES DIFFERENTES REALISATIONS DE LA LETTRE ‘SAD’.(C) LES
DIFFERENTS FONDS UTILISES ................................................................................................................................ 91
FIGURE 5.2 LES 10 POSTURES DE LA BASE DE TRIESCH ......................................................................................... 92
FIGURE 5.3. EN HAUT : IMAGES DE LA MAIN AVEC DIFFERENTS TYPES D’ECLAIRAGES, EN BAS : RESULTATS DE
SEGMENTATION .................................................................................................................................................... 93
FIGURE 5.4 EFFET DE L’OMBRE DE LA MAIN SUR ELLE-MEME (LES PIXELS BLANCS SONT CLASSIFIEES NON PEAU,
MAL CLASSIFIES) .................................................................................................................................................... 94
FIGURE 5.5 RESULTATS DE SEGMENTATION AVEC DIFFERENTS FONDS. .............................................................. 94
FIGURE 5.6. (A) IMAGES DE LA MAIN SUR UN FOND BOIS (B) SEGMENTATION PAR LA METHODE PROPOSEE. .. 95
FIGURE 5.7 (A GAUCHE) PROCEDURE DE RECADRAGE DU POIGNET : L’IMAGE SEGMENTEE DE LA MAIN AVEC LE
BRAS, (AU CENTRE) PROCEDURE DU RECADRAGE EN UTILISANT L’AXE PRINCIPAL DE L’ELLIPSE POUR
L’ORIENTATION ET LA LARGEUR DU CONTOUR (A DROITE) IMAGE DE LA MAIN OBTENUE PAR LE RECADRAGE
DU POIGNET. ......................................................................................................................................................... 96
FIGURE 5.8 (A) EXTRACTION DU CONTOUR DE LA LETTRE ‘WAW’ DE L’ALPHABET ARSL DE GAUCHE A DROITE :
IMAGE ORIGINALE- IMAGE SEGMENTEE –BINARISATION- EXTRACTION DU CONTOUR. (B) EXTRACTION DU
CONTOUR DE LA LETTRE G DE LA BASE DE JOCHEN-TRIESCH DE GAUCHE A DROITE DE HAUT EN BAS : IMAGE
ORIGINALE- EGALISATION D’HISTOGRAMME ET FILTARGE GAUSSIEN- BINARISATION- EROSION- DILATATION,
EXTRACTION DE CONTOUR. .................................................................................................................................. 97
FIGURE 5.9. EXTRACTION DES CONTOURS INTERNES DE LA LETTRE V DE LA BASE STATIQUE DE JOCHEN-
TRIESCH ................................................................................................................................................................. 98
FIGURE 5.10 12 LETTRES DE L’ARSL RECONNUES: ALEF, BA , TA , THA, SHIEN, SAD, DHAD, LAM, MIEM, YA, LA, ET
T. ......................................................................................................................................................................... 100
FIGURE 5.11 POSTURES PRISES SOUS DIFFERENTS ANGLES. ............................................................................. 100
FIGURE 5.12 LES CHIFFRES RECONNUES PAR UNE WEB CAM EN TEMPS REEL .................................................. 102
FIGURE 5.13 RECONNAISSANCE DE CERTAINS GESTES DE L’IHM GESTUELLE EN TEMPS REEL. ......................... 104
FIGURE 5.14 EFFET DE L’ORDRE DES MOMENTS DE TCHEBICHEF SUR LA RECONNAISSANCE ........................... 105
FIGURE 5.15 TAUX DE RECONNAISSANCE POUR : (A) LETTRES A, B, C, D, G, L, V ET Y. DE LA BASE DE TRIESCH. (B)
LETTRES ‘SAD’, ‘HE’, ‘DAL’, ET DHAL DE L’ALPHABET ARSL. ............................................................................... 107
FIGURE 5.16. TAUX DE RECONNAISSANCE OBTENUS POUR : (A) BASE DE SIGNES ARSL (B) BASE DE TRIESCH
FOND CLAIR, (C) BASE DE TRIESCH FOND SOMBRE. ........................................................................................... 108
FIGURE A.1 REPRESENTATION D’UN NEURONE DE BASE DANS UN MLP ........................................................... 120
FIGURE A.2 SCHEMA D’UN RESEAU (FEED FORWARD) AVEC UNE SEULE COUCHE CACHEE [HASTIE ET AL.2008].
............................................................................................................................................................................ 121
FIGURE A.3 PRINCIPE DE LA CLASSIFICATION PAR UN KNN. LA DISTANCE EUCLIDIENNE EST UTILISEE. ........... 123
FIGURE A.4 LA SEPARATION DES DONNEES EN SVM ......................................................................................... 125
FIGURE A.5 SEPARATEUR LINEAIRE ET NON-LINEAIRE [HASTIE ET AL 2008]. ..................................................... 126
FIGURE A.6 SEPARATION DE DEUX CLASSES AVEC SVM A BASE RADIALE [CORNUEGOLS & MICLET, 2002]. ..... 127
Tables
TABLE1.1 RESULTATS DE QUELQUES METHODES DE SEGMENTATION DE LA PEAU ........................... 24
TABLE 4.1 EXEMPLES DE CONFIGURATIONS DOIGTS CITEES DANS L’ALGORITHME .......................... 77
TABLE 5.1 RECONNAISSANCE DES CONFIGURATIONS DOIGTS PAR LA METHODE SYNTAXIQUE. ....... 99
TABLE 5.2 TAUX DE RECONNAISSANCE PAR LE CLASSIFICATEUR SVM. ............................................ 110
TABLE 5.3. LES TAUX DE RECONNAISSANCE OBTENUS POUR LA BASE ARSL SUR DES FONDS
COMPLEXES. ................................................................................................................................................. 111
TABLE 5.4. COMPARAISON AVEC LES METHODES EXISTANTES(BASE TRIESCH) ............................... 111
TABLE5.5. COMPARAISON AVEC LES METHODES EXISTANTES(BASE ARSL)……………………………………112
Introduction generale
I.1 Préambule
Les interfaces homme-machine ont évolué des interfaces basées sur le texte, aux
interfaces graphiques 2D, aux interfaces multimédias, à des interfaces multimodales
regroupant plusieurs moyens de communication entre l’homme et la machine dans un
environnement intelligent à part entière. Le développement de cette dernière catégorie
d’interfaces a offert un nouveau paradigme sophistiqué pour la communication,
l’apprentissage, l’enseignement, et autres. Les interfaces homme machines multimodales ont
aussi invoqué plusieurs défis dans la recherche, tout en excluant des traditionnels outils 2D
comme le clavier ou la souris, qui sont devenus inadéquats pour les environnements
intelligents aux quels l’homme espère aboutir. D’autre part ces interfaces ont offert
l’opportunité d’intégrer les différentes modalités de communication, et les technologies de
détection tout en donnant à l’utilisateur une expérience immersive [Turk2001][Pavlovik et
al. 1999]. La détection de la direction du regard, la reconnaissance de la parole, des
expressions faciales, de la gestuelle de la main, et du sens tactile, ainsi que tout autre aspect
du potentiel humain qui peut être utilisé pour interagir avec la machine en sont des exemples.
Pour aboutir à une interaction naturelle entre l’homme et la machine, la main peut être
utilisée comme un outil d’interface. La gestuelle de la main est un canal de communication
très puissant entre les hommes, qui transmet la plus grande partie d’informations dans notre
vie quotidienne. Les gestes de la main sont très faciles et intuitifs, nous pouvons bien le
constater dans les langues des signes du monde entier. Même chez des hommes qui ne
souffrent pas de problèmes d’audition, le geste peut palier souvent à la parole.
Cette capacité d’expression très importante n’a pas encore été exploitée suffisamment
pour interagir avec la machine. Comparée aux outils traditionnels, la main est un outil moins
intrusif et plus convenable pour l’utilisateur dans des environnements virtuels ou intelligents
[Wu & Huang 2001]. La reconnaissance automatique de la gestuelle de la main peut être
utilisée dans une multitude d’applications dont nous pouvons citer : les différents aspects des
langues des signes, la manipulation d’objets, le control d’électroménagers, télémanipulation
robot, environnement virtuels etc.
Introduction générale
Au début des travaux de recherches consacrés à cette thématique, la main a été munie
de gants instrumentés comme les gants cybernétiques (voir figure i.1), qui ont été utilisés pour
capturer le mouvement de la main. Ces gants sont dotés de traqueurs qui sont en général des
capteurs supplémentaires (de type magnétique ou acoustique) attachés au dos de la main ou
au-dessus du poignet et qui fournissent des données sur la position et l’orientation de la main
ainsi que les angles de jointures. Cependant les gants instrumentés nécessitent des câblages et
restent donc très encombrants pour l’utilisateur et très chers pour un utilisateur ordinaire.
Plus tard et beaucoup plus récemment, les méthodes basées sur la vision par ordinateur
ont vu le jour en proposant une solution pratique qui a pu palier aux problèmes posés par les
gants instrumentés. Les systèmes de reconnaissance des gestes de la main s’appuyant sur la
vision par ordinateur peuvent identifier différents gestes de la main seulement à partir d’une
entrée vidéo et peuvent les utiliser comme des commandes que l’ordinateur peut comprendre
et y répondre [Geer 2004].
Avec pour seul dispositif d’entrée la caméra, les systèmes de reconnaissances des
gestes et postures de la main basés sur la vision sont les mieux adaptés pour une interaction
homme machine efficace et légère dans un environnement intelligent.
Au début de leurs apparition les systèmes de reconnaissance des gestes de la main
fondés sur la vision ont fait recours aux marqueurs ou aux gants colorés, mais plus récemment
la majorité de ces systèmes ont développé des méthodes pour la détection et le suivi de la
main ne faisant intervenir aucun artifice.
p. 2
Introduction générale
I.2 Problématique
Les méthodes de reconnaissance des gestes de la main s’appuyant sur la vision par
ordinateur ont soulevé beaucoup de défis dans le monde de la recherche, cela est
principalement dû à la difficulté que peut poser un tel problème. Parmi les différentes
difficultés rencontrées on peut citer :
1. L’extraction de la main de son fond : dans une scène réelle on essaye de capter la
main sans aucune information préalable sur l’éclairage, les couleurs, ou encore sur
les objets l’entourant. De plus la main projette une ombre dans la scène, même si la
luminosité est contrôlée. Les ombres sont parfois segmentées avec la main, suivant la
méthode utilisée, ce qui rend le résultat de la segmentation difficilement exploitable.
2. Le système doit être aussi robuste aux changements de la prise de vue et de la
position de la main dans l’image, selon des rotations planaires et non planaires
surtout dans les cas des systèmes monoculaires.
3. L’indépendance des utilisateurs est un autre défi à relever, car la précision des
résultats obtenus dans la reconnaissance ainsi que leur fidélité peuvent être
facilement influencées par les sujets qu’on a utilisés pour faire l’apprentissage du
système. Un système fiable de reconnaissance des gestes et postures de la main doit
être capable d’aboutir à une reconnaissance convenable indépendamment des
personnes testées. Cette difficulté est due à l’anatomie particulière de la main de
chaque individu, ce qui permet à des chercheurs dans le domaine de la biométrie
d’identifier une personne à travers uniquement la forme de sa main.
4. L’auto-occultation de la main, étant un objet très déformable, il arrive fréquemment
que certaines parties, telles que les doigts, soient cachées par d'autres.
5. La séparation de la main du bras, le bras peut être source d’ambiguïté pour la
description d’une posture ou d’un geste donnés de la main.
6. Le temps réel est une contrainte supplémentaire au problème de la reconnaissance
des postures et gestes de la main. Le système doit être capable d’analyser une image
dans une séquence vidéo et de retourner le geste reconnu selon la finalité de
l’interface homme machine utilisée.
7. Le mouvement rapide de la main, le changement de position d’orientation et
carrément de forme dans un laps de temps très court.
p. 3
Introduction générale
Dans le cadre de cette thèse, nous nous sommes intéressés particulièrement à proposer
des solutions à certains problèmes comme le problème de la segmentation qui affecte
beaucoup le taux de reconnaissance. Si on a une mauvaise extraction de la région de la main
dans l’image, donc une forme qui serait très difficile, voire impossible de faire correspondre à
une posture correcte de la main.
La majorité des travaux relatés dans la littérature contournent ce problème en fixant
des règles bien précises de fond, d’éclairage etc. Dans notre travail nous avons essayé de
concevoir une technique de segmentation qui peut aboutir à de bons résultats, en ayant une
variété de fonds et des conditions générales d’éclairage.
Le deuxième problème important auquel nous nous sommes intéressés est le problème
de l’indépendance des utilisateurs (user-Independent challenge). Là encore la majorité des
travaux dans la littérature obtiennent les meilleurs taux de reconnaissance sous le mode
utilisateur dépendant (user-dépendent mode). La solution que nous proposons à ce problème
est de sélectionner quelques descripteurs nous permettant de donner des informations
complémentaires sur la forme de la main et donc palier aux imperfections effectuées dans le
geste. Dans ce qui suit nous citons les différentes contributions de notre travail.
p. 4
Introduction générale
[Dahmani et al 2012]. Les moments de Tchebychev [Mukundan et al2001] qui ont été
jusque-là calculés à partir du contour externe de l’objet, de son image binaire, ou encore de
l’image en niveaux de gris, ont été calculés dans notre travail, en utilisant en addition au
contour externe, les contours internes de la main. Notre motivation a été basée sur le fait que
dans les gestes et particulièrement dans l’alphabet de la langue des signes, la personne essaye
de retranscrire la lettre écrite par la forme de la main et fait souvent recours aux doigts pour
donner la forme interne de la lettre permettant sa distinction. Nous avons montré dans le
travail de cette thèse que cette représentation donne un meilleur taux de reconnaissance et
diminue les confusions entre les signes à contours externes semblables.
La détermination de la configuration doigts, s’appuient sur un ensemble de
caractéristiques qui ne prennent pas en considération l’orientation de la main. Or dans la
langue des signes une orientation différente de la main signifie une lettre différente. Pour
pallier à ce problème, nous proposons un ensemble de descripteurs géométriques extraits de
l’enveloppe convexe englobant la silhouette de la main, qui donnent une information sur la
configuration des doigts tout en prenant en considération l’orientation de la main [Dahmani
et al 2012].
Un système de reconnaissance des gestes et postures de la main, doit être en mesure
d’aboutir à une reconnaissance correcte du geste indépendamment de la personne qui
l’effectue. Notre quatrième contribution consiste en la combinaison de plusieurs descripteurs
afin d’obtenir une reconnaissance fiable même avec une architecture à utilisateurs
indépendants [Dahmani et al 2012]. Cette combinaison a été motivée par la prévision que les
erreurs de classification peuvent être réduites si plusieurs descripteurs sont utilisés plutôt
qu’un seul [Last et al 2002]. Nous avons montré dans cette thèse que les descripteurs
proposés offrent des informations complémentaires et qu’il était nécessaire de les combiner
tous les trois afin d’obtenir un meilleur résultat.
La cinquième contribution consiste en la conception d’une nouvelle approche
syntaxique pour la description de certaines postures de la main, paume ou dos de la paume
face à la caméra [Dahmani & Larabi 2011]. Cette approche est assez prometteuse pour les
systèmes de reconnaissance de la gestuelle de la main, en temps réel.
p. 5
Introduction générale
p. 6
Chapitre 1
Reconnaissance des gestes de la
main : Etat de l’art
1.1 Introduction
Parmi les différentes parties du corps humain, la main est l’élément le plus
efficace, grâce à son habilité dans la communication et la manipulation des objets. Elle
est dotée d’une très grande richesse fonctionnelle qui lui procure une surabondance de
possibilités dans les positions, les mouvements et les actions. La surface du cerveau
humain utilisée pour le control du mouvement de la main à elle seule est aussi grande
que la surface totale utilisée pour le mouvement des bras, du torse, et du bas du corps
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
[Mitobe 2007]. Dans l’étude de M. Karam [Karam 2006], il a été démontré que la main
à elle seule occupe la plus grande partie de la gestuelle humaine (voir figure1.1). Dans
ce qui suivra nous allons présenter de manière plus détaillée son anatomie ainsi que sa
performante biomécanique.
La main possède un grand nombre de petits os qui s’articulent les uns aux autres,
c’est ce qu’il lui permet d’avoir une complexité fonctionnelle très importante.
Figure 1.1 Graphe représentant les différentes parties du corps humain et leurs taux
d’implication dans la gestuelle humaine [Karam, 2006].
p. 8
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
p. 9
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
p. 10
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
possibles des différentes articulations. La figure 1.3 illustre un exemple des angles
/ e , f / e et f / e
flexion/extension fIPD ainsi que l’angle abduction/adduction aMCP
IPP MCP
/a et de
l’index.
1
aMCP 1 MCP fMCP aMCP (1.2)
/a / e /a
f / e max
𝜃𝑓𝑀𝐶𝑃
⁄𝑒 𝑚𝑎𝑥 est la valeur maximale de l'angle de flexion / extension de la phalange.
p. 11
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
• la relation entre les flexions / extensions des phalanges de doigts voisins ; par
exemple, la flexion de la phalange de l'index ou de l'annulaire entraîne la flexion de la
phalange du majeur.
fMCP
/e
Majeur
max f / e (1.3)
MCP Majeur
f / e m in
𝑀𝐶𝑃 𝑀𝑎𝑗𝑒𝑢𝑟
𝜃𝑓⁄𝑒 𝑚𝑖𝑛 est la valeur minimale de l'angle de flexion/extension de la phalange
du majeur.
A cause de sa morphologie particulière, les mouvements du pouce sont soumis à
un ensemble de contraintes différentes. Ainsi, la flexion du pouce au niveau de
l'articulation carpo-métacarpienne est comprise entre – 80° et 25°. A celle-ci s'ajoutent
deux contraintes dynamiques reliant les flexions/extensions et les abductions/adductions
des deux premières articulations du pouce :
7 CMC
fMCP
/ e 2( f / e
CMC
) ; aMCP
/a a / a (1.4)
6 5
p. 12
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
Une posture de la main est définie comme étant une pose statique de la main.
Par exemple former un v signe de victoire et le garder dans une certaine position est
considéré comme une posture de la main. Un geste de la main est défini comme un
mouvement dynamique comme un au revoir en agitant. Le mouvement dynamique de
la main comporte deux aspects : un mouvement global de la main et un mouvement
local des doigts [Lin et al 2000]. Le mouvement global de la main change la position
ou l’orientation de la main. Le mouvement local des doigts implique faire bouger les
doigts sans changer la position ou l’orientation de la main. Comparés aux postures de la
main, les gestes de la main peuvent être considérés comme étant un composé d’actions
de la main construites par une série de postures changeant d’orientation et de position.
Pour mieux illustrer la différence entre une posture et un geste de la main, un exemple
sur les signes ‘d’ et ‘z’ dans l’alphabet de la langue des signes Américaine (ASL) est
illustré par la figure1.4 [lin et al.2000].
p. 13
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
2004 ; Li & Wachs 2014]. La majorité de ces systèmes se composent de trois étapes
essentielles : l’acquisition, la détection, et la reconnaissance. La première étape qui est
nécessaire pour tout système de reconnaissance des gestes de la main est celle qui
consiste à collecter les données. La collecte des données dans les systèmes s’appuyant
sur la vision diffèrent dans le nombre et le type de caméras utilisées pour l’acquisition
de la vidéo. La seconde étape est la détection de la région représentant la main dans
l’image. La troisième partie concerne la reconnaissance et interprétation de la
sémantique de la position, la posture ou le geste de la main.
Dans ce qui suit, nous donnons un aperçu sur chaque étape et les différentes
approches et algorithmes de l’état de l’art en vue d’aboutir à un système complet de
reconnaissance des gestes basées sur la vision.
Tout système de reconnaissance des gestes et postures de la main passe par une
étape incontournable qui est la collecte des données, et ce quel que soit sa finalité
(langue des signes, jeux, control d’électroménager ou autre).
Cette collecte peut utiliser une caméra ou la combinaison de plusieurs caméras :
Parmi les systèmes proposés pour la collecte des données nous citons:
Une seule caméra est utilisée avec une source de lumière calibrée pour
calculer la profondeur [Segen & Kumar 1999].
Plusieurs sources de lumières pour éclairer la scène et la géométrie multi-
vue pour calculer la profondeur [Feris et al 2004].
p. 14
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
Une caméra en face du sujet en jonction avec une autre caméra placée sur la
tête du sujet et pointée vers ses mains pour faciliter la reconnaissance (voir
figure 1.5) [Starner et al 1998].
Figure 1.5 Exemple de matériel utilisé pour la collecte de données [Starner et al 1998].
La figure 1.6 présente un exemple sur une série d’acquisition de gestes effectués
dans [Vogler & Metaxas 1998].
Plus récemment en novembre 2010 quand Microsoft a vulgarisé la vente de ‘la
camera Kinect’ (voir figure1.7), certains travaux sont en train de voir le jour pour
calculer la profondeur dans les systèmes de reconnaissance des gestes basées sur la
vision par ordinateur.
p. 15
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
Figure 1.6 Série d’acquisition des gestes ‘Pére’,’Je’ et’ Message’ de haut en bas par
trois caméras orthogonales [Vogler & Metaxas 1998].
Cette étape est une étape cruciale dans les systèmes de reconnaissance de gestes
de la main, car c’est sur la mesure de fiabilité de cette étape que nous pourrons aboutir
à une reconnaissance correcte ou erronée. Un très grand nombre de travaux ont été
proposés dans la littérature, qui utilisent une variété de primitives visuelles et dans
certains cas leurs combinaisons. Dans ce qui suit, nous présentons une synthèse des
p. 16
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
1.3.2.1 La couleur
Une variété d’espaces couleur ont été utilisés pour la détection de la peau, nous
citons les plus communs et leurs différentes utilisations dans la littérature.
RGB est l’espace couleur le plus utilisé correspondant aux couleurs primaires
rouge, vert et bleu. Il est appelé normalisé lorsque les trois couleurs sont normalisées
c'est-à-dire vérifiant R+G+B=1. Il a été prouvé que sous certaines conditions, les
différences entre les pixels peau dues au changement d’éclairage ou à l’ethnicité
peuvent être réduites dans l’espace RGB normalisé [Yang & Lu 1998 ; Yang &
Ahuja 1999]. Pour cette dernière raison, l’espace couleur RGB est devenu un choix
commun pour la détection des pixels peau et a été utilisé par de nombreux chercheurs
[Bergasa et al 2000 ;Brown et al 2001 ; Caetano & Barone 2001 ; Sebe et al 2004 ;
Soriano et al 2003].
La CIE (commission internationale de l’éclairage) a décrit la couleur en
utilisant la luminance Y, et deux autres composantes X et Z. Du fait que les valeurs de
CIE-XYZ ont été construites à partir d’expériences psychophysiques et correspondent à
p. 17
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
la vision humaine [Poynton], un certains nombres de chercheurs l’ont choisi dans leur
modélisation de la couleur [Chen & Chiang 1997; Wu et al 1999].
p. 18
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
Du point de vue classification, la détection des pixels peau peut être considérée
comme un problème à deux classes. Plusieurs approches ont été développées à cet effet,
nous citons :
L’une des méthodes les plus simples est la méthode de seuillage directe sur les
différentes composantes de l’espace couleur utilisé. Un ou plusieurs seuils sont définis
sur chaque composante et les pixels dont les valeurs sont inférieures à ce seuil sont
considérés comme des pixels peau. Parmi les travaux qui ont utilisé le seuillage directe
nous citons [Gomez & Morales 2002] [Fu et al 2004] [Priyal & Bora 2013].
Classifieur Gaussien
Certains travaux se sont appuyés sur le fait que dans des conditions d’éclairage
bien précises, la couleur de la peau des différents individus varient dans une petite
région de l’espace, et donc peut être approchée par une gaussienne. Deux de types de
p. 19
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
modèles sont utilisé : le modèle SGM (Modèle Gaussien Simple) et le modèle GMM
(Modèle de Mélange Gaussien) [Jebara & pentland 1998 ;Cai& Goshtaby 1999 ].
La performance du modèle de mélange Gaussien GMM a été comparé au
modèle Gaussien simple SGM pour la classification des pixels peau dans les travaux de
T.S. Caetano et al. [Caetano et al 2002] et aussi dans ceux de J.Y. Lee et S.I. Yoo
[Lee & Yoo, 2002]. Les bases de test ont comporté une large variété ethnique de
peaux. Les résultats obtenus ont montré la supériorité des GMM particulièrement pour
le taux des vrais positifs (TVP).
1.3.2.2 La forme
p. 20
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
En général, dans ce type de méthodes, en plus des contours de la main, ceux des objets
d’arrière-plan non pertinents sont également détectés. Par conséquent, dans la majorité
des travaux, cet attribut est combiné avec d’autres tels que la couleur [Dai & Nakano
1996 ;Marques & Vilaplana 2000].
Parmi les descripteurs de forme proposés citons :
Le contexte de forme développé par S. Belongie et al. [Belongie et al 2002]. Il
permet la mise en correspondance entre deux formes en associant, à chaque point du
contour appelé point de référence, un descripteur défini par l’histogramme de
distribution des coordonnées polaires des autres points du contour relativement à ce
point de référence. Ce descripteur est appelé contexte de forme. Deux points
correspondants appartenant à deux formes différentes ont a priori le même contexte de
forme ce qui permet de considérer le problème de la mise en correspondance entre deux
formes comme un problème d’affectation optimale.
La forme 3d obtenue par stéréoscopie. L.Song et M.Takatsuka [Song &
Takatsuka 2005] ont pu détecter le bout du doigt de l’utilisateur dans les deux images
d’un système calibré, la détection des bouts des doigts a été effectué en utilisant un
codage de contour. La stéréo vision a été ensuite utilisée pour déterminer la position
3D du doigt dans l’espace ce qui a permis le suivi de la main. A. Argyros et M.
Lourakis [Argyros & Lourakis 2006] ont eux aussi utilisé l’information
stéréoscopique pour estimer la position 3D du centre de la main et des bouts des doigts
ce qui leur a permis de faire la reconnaissance mais aussi la reconstruction 3D du
contour ainsi que la détection et le suivi de la main
Un intérêt a été porté sur la détection de la main moyennant les images à niveaux
de gris, les primitives d’apparence ou de texture. L’apparence a été largement utilisé
comme attribut pour la détection de la main dans l’image [Cui et al 1995; Cui et al
1996 ; Triesch & Von 1996 ;Triesch & Von 1998].
Y. Cui et al [ Cui et al 1995 ; Cui et al 1996] ont calculé un ensemble de
primitives pertinentes directement de l’image en niveaux de gris en utilisant les
méthodes d’analyse discriminatoire des données à savoir la MDF (les plus
discriminantes primitives) et la MDE (les plus expressives primitives).
p. 21
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
J. Triesch et C. Von Der Malsburg [Treisch & Von 1996 ;Treisch & Von
1998 ; Triesch &Von 2001 ; Triesch & Von 2002] ont représenté les postures de la
main par un graphe étiqueté muni d’une structure topologique à deux dimensions. Les
sommets du graphe ont été étiquetés par une description locale de la texture de l’image
appelée ‘jet’. Les arrêtes du graphe sont étiquetées par la distance. Les jets représente la
texture et sont calculés à partie de la transformée en ondelette estimée avec un noyau
complexe du filtre de Gabor. Pour chaque posture prototype, un graphe est construit
manuellement en se basant sur les régions de la main fortement texturées afin de créer
un ensemble de graphes modèles. Pour la détection et la classification des postures de la
main sur des fonds complexes, la méthode de l’appariement élastique des graphes a été
utilisée.
P. Viola et M. jones [Viola & Jones 2001] ont employé le concept de l’image
intégrale en niveaux de gris pour calculer un ensemble de caractéristiques de Haar. Les
auteurs ont introduit par la même occasion une méthode de classification très
intéressante basée sur une approche d’apprentissage automatique appelé le boosting ,
pouvant améliorer l’efficacité de n’importe quel algorithme d’apprentissage. Elle est
fondée sur le principe [Schapire 2002] qu’un classifieur ‘fort’ peut être la combinaison
linéaire de classifieurs moins fort ou plus faible que lui. Cependant cela peut engendrer
un nombre important de faibles classifieurs qui pourraient ne pas améliorer le résultat
final. Afin de palier à ce problème, S. Li et H. Zhang [Li & Zhang 2004] ont amélioré
l’algorithme original du boosting en supprimant à chaque fois les classificateurs faibles
qui n’améliorent pas le résultat tout en gardant le même contexte que dans [Viola &
Jones 2001] selon lequel le descripteur final peut être représenté par une cascade de
couches de classifieurs forts.
1.3.2.4 Le mouvement
Le mouvement est un moyen peu utilisé par les chercheurs dans la détection de
la main. Ceci a pour raison que la détection du mouvement de la main exige que le seul
élément en mouvement dans l’image soit la main et que le fond soit fixe ainsi que la
tête et le torse. Parmi les travaux ayant adopté cette contrainte, nous citons [Freeman
& Weismann 1995] [Cui & Weng 1996] [Cui & Weng 2000] [Huang & Jeng 2001]
.Une autre contrainte couramment utilisée est que la main soit constamment en
p. 22
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
mouvement comme par exemple les travaux de Q. F.Chen et al. [Chen et al 2003] et
C-L Huang et al. [Huang et al 2000].
1.3.2.5 Le modèle 3D
Les attributs présentés ont été combinés avec d’autres primitives visuelles. A
titre d’exemple, M. Turk [Turk 1998], J. Martin et al. [Martin et al 1998], Q.Yuan et
al.[Yuan et al 2005]ont combiné le mouvement estimé par l’algorithme du flot
optique avec la couleur pour la détection et le suivi de la main. J. Zieren et al [Zieren
et al 2002]sont parvenus à détecter et suivre les deux mains et le visage dans des
séquences vidéo de 152 signes de la langue des signes Allemande. La méthode est basée
sur un raisonnement probabilistique et un ensemble de primitives comme les positions
relatives des deux mains, la couleur, et le suivi par le filtre de Kalman.
Avec la grande difficulté que posent la détection et le suivi de la main, beaucoup
de travaux utilisent un arrière-plan simple, citant à titre d’exemples [Bauer & Kraiss
2002 ;Huang & Huang 1998 ; Yang et al 2002 ; Pryal & Bora 2013].
Le tableau 1.1 présente quelques résultats récents extraits de travaux de l’état de
l’art de segmentation des pixels peau.
p. 23
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
Soustraction de
fond, ensuite
détection des
pixels peau en
utilisant le
[Wang et al 2013]
seuillage dans
l’espace YC b C r
[Altun & Albayrak
Seuillage simple
dans l’espace
couleur YC b C r .
2011]
p. 24
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
La méthode de
Lucas-Kanade
[Premaratne et al
pour la
segmentation
2013]
Segmentation par
les courbes b-
[Kim et al 2008]
splines dans
l’espace HSV
p. 25
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
p. 26
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
vues multiples, cette dernière méthode a été améliorée en rajoutant des paramètres
d’orientation [Fillbrandt et al 2003]. Dans ce cas les comparaisons se font seulement
avec les images de postures prototypes qui ont été jugées pertinentes dans la précédente
mise en correspondance.
Pour généraliser la méthode de la mise en correspondance pour une séquence
d’images correspondant à un geste, certains travaux l’ont tout simplement adaptée pour
chaque frame de la vidéo [Darrell & Pentland 1995; Darrell et al 1996], alors que
d’autres ont utilisé une méthode s’appuyant sur l’historique du geste calculé appelé
gradient historique « History gradient »[Bradski & Davis 2000 ; Bradski & Davis
2002]. Dans un travail similaire de Q. yang et al. [Yang et al 2002] un réseau de
neurones a été utilisé pour apprendre les modèles de mouvements.
p. 27
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
p. 28
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
Ces systèmes permettent d’évaluer les angles des articulations de la main. Ils
fournissent donc une information très complète sur le geste effectué. Mais l’évaluation
des paramètres du modèle est généralement difficile et coûteuse en temps de calcul.
Un exemple d’un modèle 3D développé par T. Heap et D. Hogg [Heap & Hogg
1996] est représenté dans la figure1.9. La construction de ce modèle est basée sur les
contours actifs.
p. 29
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
p. 30
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
p. 31
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
Après l’étape de la représentation, et une fois que les données ont été collectées,
la classification reste à accomplir. Pour ce faire, plusieurs méthodes ont été proposées,
certaines s’appuient sur la construction de modèle, d’autres s’appliquent directement sur
les données.
Les machines à vecteurs de support (ou séparateurs à vaste marge) introduite par
Vapnik [Vapnik 1995] sont un ensemble de techniques d'apprentissage supervisées
destinées à résoudre des problèmes de discrimination et de régression. Les SVM sont
une généralisation des classificateurs linéaires. Selon les données, la performance des
machines à vecteurs de support est de même ordre, ou même supérieure, à celle d'un
réseau de neurones ou d'un modèle de mixture gaussienne. Ces dernières années
p. 32
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
beaucoup de travaux dans la reconnaissance des gestes et postures de la main ont utilisé
les SVM comme technique de classification [Kelly et al 2010 ;Premartne et al
2013] .
D’autres méthodes ont été utilisées pour la classification des formes de la main,
on peut citer par exemple les arbres de décision [Hernandez et al 2004], les plus
proches voisins [Kramer & Leifer 1987], le modèle de mélange Gaussien [Wu & Gao
2000], Algorithme génétique [Wang et al 2013].
p. 33
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
p. 34
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
1.4 Conclusion
p. 35
Chapitre1.Reconnaissance des gestes de la main : Etat de l’art
basées sur le modèle 3D qui offrent une couverture plus grande mais qui sont très
coûteuses en temps de calcul.
Nous avons enfin donné un aperçu sur la variété d’applications de la
reconnaissance des gestes et postures de la main basées sur la vision et qui sont en
pleine effervescence à cause du fait qu’elles ne nécessitent aucun matériel particulier.
Dans le chapitre suivant, nous présentons un bref aperçu sur la langue des signes
ses constituants et ses règles. Nous exposerons aussi une synthèse des travaux relatés
dans la littérature se rapportant sur la reconnaissance de la langue Arabe des signes.
p. 36
Chapitre 2
La langue des signes et son
interpretation
2.1 Introduction
La langue des signes est l’une des applications les plus naturelles et les plus
importantes de la reconnaissance des gestes. C’est un riche langage qui possède ces
propres règles de grammaire, de composition et de structure. Chaque région du monde a
son propre langage des signes dû à son isolement, son histoire, et ses acquis.
Le but de l’alphabet signé, appelé communément l’épellation digitale, est de
transcrire lettre par lettre tous les mots ou les noms qui ne possèdent pas de signes les
exprimant. Aussi l’épellation digitale a été intégrée dans le vocabulaire composé de la
langue des signes par exemple faire le signe M deux fois dans la langue de signes
Anglaise (BSL) exprime le mot ‘Maman’.
Il s’agit dans cette partie de la thèse de décrire le langage des signes, en
expliquant son processus et les différents éléments le constituant. En outre les
problématiques associées à l’élaboration d’un système automatique de traitement de la
gestuelle signée seront aussi abordées.
Nous terminons ce chapitre par un état de l’art des travaux de reconnaissance de
la langue Arabe des signes avec une discussion détaillée sur les différentes approches
utilisées à cet effet.
Chapitre2. La langue des signes et son interprétation
Figure 2.1 : Exemple de la langue des signes Américaine(ASL) une séquence vidéo qui
signifie avez-vous étudié dur ?[Ong & Raganath 2005].
p. 38
Chapitre2. La langue des signes et son interprétation
Chaque geste d’une main peut être décomposé en quatre paramètres qui sont
indépendants et peuvent être aussi bien dynamiques qu’invariants durant l’émission du
signe.
La configuration : correspond à la forme de la main définie par les doigts et la
paume. Les signes ont souvent des aspects iconiques. En particulier la configuration est
souvent en rapport avec la forme de ce que le signe décrit.
L’orientation : elle est définie par deux axes de la main.
Le mouvement : correspond à la trajectoire décrite par la main (ligne, arc de
cercle...).
L’emplacement : concerne la position de la main par rapport au corps. Selon les
besoins, il va avoir une granularité plus ou moins fine. En effet, en LS (Langue des
Signes), la personne effectuant le signe utilise un espace de narration au sein duquel
l’emplacement va être utilisé pour indiquer une relation spatiale (ou temporelle) entre
entités.
Chacun de ces paramètres est porteur d’information et contribue au sens d’un
signe.
Un signe peut faire intervenir aussi bien une main ou les deux mains qui ont
différentes façons d’interagir. Lorsque les deux mains sont impliquées dans un signe,
deux cas se présentent. Dans le premier cas on voit apparaître un rôle pour chaque main.
Une main est dite dominante et a pour rôle de décrire “l’action”, tandis que l’autre main
qui est appelée main dominée sert de référence à cette action. Par exemple, avec le signe
dentiste (voir figure 2.2), la main dominante (main droite sur la figure) qui mime
l’action « arracher avec un outil une dent », le mot « dent » (référence donnée par la
main dominée). En général la main dominante se déplace au cours du geste tandis que la
main dominée reste statique.
p. 39
Chapitre2. La langue des signes et son interprétation
Figure2.2 Signe du mot dentiste dans la langue des signes Arabe(ArSL) [Abd-El-
Fateh 2014].
Dans certains travaux, sur la reconnaissance de la langue des signes qui utilisent
les gants colorés la main dominante est souvent colorée avec différentes couleurs
représentant les doigts et la paume et la main dominée par une seule couleur car en
général elle est statique (voir figure 2.3) [Bauer& Hienz 2000].
Figure 2.3 Main dominée portant un gant coloré simple et main dominante avec un gant
multicolore représentant les doigts et la paume, d’après[Bauer & Hienz 2000].
Dans le deuxième cas, les deux mains sont complètement synchronisées : leurs
paramètres sont identiques ou symétriques. Par exemple, avec les signesMatin ou
Soir, les deux signes prennent des trajectoires inverses (voir figure 2.4) et donc les
deux mains ont une configuration et une orientation identiques et des mouvements de
même trajectoire.
p. 40
Chapitre2. La langue des signes et son interprétation
Figure 2.4 Signes des mots Matin et Soir de la langue des signes
Arabe(ArSL)d’après [Abd-El-Fateh 2014].
Lorsque qu’un signe ne fait intervenir qu’une seule main il y a également deux
cas qui se présentent : soit la deuxième main est inactive, soit elle effectue un autre
signe et dans ce cas, on peut parfois retrouver une interaction main dominante-main
dominée entre les deux signes. On voit donc que les flux de données véhiculés par
chaque main peuvent aussi bien être synchrones que complètement asynchrones.
p. 41
Chapitre2. La langue des signes et son interprétation
et font partie de ce que l’on appelle la grande iconicité. Les spécificateurs permettent de
décrire un objet, un animal, une scène. C’est à l’aide de la forme des mains, de leur
orientation et de leur mouvement que le sujet décrit une forme et les dimensions d’un
objet. Les classificateurs sont similaires aux spécificateurs dans le sens où ils
représentent également un objet (ou personne, animal...) et donc la forme de la main est
en rapport avec celle de l’objet ou de sa fonction, mais ils ont un tout autre rôle car ils
servent en quelque sorte de pronoms(le, les, la, …). Lorsqu’un objet a été cité dans une
phrase à l’aide d’un signe du vocabulaire standard (ou de spécificateurs), un
classificateur peut ensuite être utilisé pour représenter cet objet dans le reste de la
phrase. On peut avec ce classificateur préciser la position de l’objet ou décrire une
trajectoire qu’il a empruntée.
La figure 2.5 illustre une phrase qui regroupe les trois classes de signe. Les deux
premiers signes sont des spécificateur de forme et de taille, ils décrivent une caisse en
symbolisant ses côtés. Le signe suivant est le signe standard Pomme. Enfin, la
troisième étape montre des signes qui sont des classificateurs symbolisant des pommes
que l’on place à différents endroits pour représenter le tas de pomme que contient la
caisse.
Tous ces aspects (diversité des signes, interaction des mains...) vont soulever des
problèmes au niveau de la reconnaissance des différents gestes.
p. 42
Chapitre2. La langue des signes et son interprétation
Le vocabulaire est composé a priori d’un grand nombre de signes [Vogler &
Metaxas 1999] et un signe est composé de plusieurs éléments co-occurrents. Pour une
main, si nous avons n configurations possibles, m types de mouvements, p
emplacements et q orientations, nous avons donc 𝑛 × 𝑚 × 𝑝 × 𝑞 signes possibles.
Sachant que nous pouvons avoir des signes qui combinent les deux mains, le
complexité d’un système de reconnaissance est d’un ordre élevé et nécessite donc un
apprentissage.
On peut rencontrer trois types d’interaction entre les deux mains. Soit les deux
mains produisent ensemble un signe, soit une main effectue un signe et l’autre est au
repos, soit les deux mains effectuent séparément deux signes de manière plus ou moins
indépendante.
Le problème va donc être de savoir distinguer ces différents cas pour ne pas
reconnaître un signe à deux mains alors qu’il s’agissait de deux signes distincts
effectués au même moment (ou vice-versa). Pour distinguer ces deux cas, nous ne
pouvons pas nous contenter d’une quelconque similitude des paramètres des deux
mains, car nous avons vu dans la première partie que lorsque les deux mains sont
utilisées pour former un signe, elles peuvent être aussi bien complètement synchrones
(signe Matin, voir figure 2.4), qu’être juste corrélées et n’avoir aucune similitude au
niveau des paramètres (signe dentiste, voir figure 2.2). Il existe une autre relation
entre les mains, que l’on va devoir détecter. Lorsque les deux mains effectuent
séparément des signes et qu’il existe une relation main dominante-main dominée, il
existe des points de synchronisation pour mettre en rapport les signes. Pendant un
instant les deux mains vont être agencées spatialement de manière à véhiculer une
certaine information. Par exemple dans la phrase “Le chat est dans la voiture” (voir
figure 2.6), le signe Voiture est d’abord énoncé (première image) puis remplacé par le
classificateur “C” qui représente la voiture en tant que “contenant” et la positionne dans
la scène (deuxième image). Ensuite on voit la main gauche qui énonce le signe Chat
(troisième image), le remplace par le classificateur “X” (représentant les pattes du chat)
p. 43
Chapitre2. La langue des signes et son interprétation
p. 44
Chapitre2. La langue des signes et son interprétation
de l’art
Les premiers travaux sur la langue des signes ont commencé il y a moins de
vingt ans et ont été proposés par T. Starner et A. Pentland [Starner & Pentland
1996] pour la langue des signes Américaine, M.W. Kadous [Kadous 1996] pour la
langue Australienne, et J.S. Kim et al. [Kim et al 1996] pour la langue des signes
coréenne. Depuis, beaucoup de travaux et techniques ont vu le jour et ce pour les
langues des signes du monde entier.
Contraient aux autres langues du monde, les travaux sur la langue des signes
Arabes (ArSL) dans la littérature sont peu nombreux. Les premiers travaux qu’a connu
la langue des signes Arabes ont été consacrés à la reconnaissance de l’alphabet [Al-
Jarrah & Halawani 2001 ; Al-Roussan & Hussain 2001 ; Assalaeh et Al-Roussan
2005] et pour la reconnaissance des mots isolés [Mohandes et al 2004].
Plusieurs primitives ont été utilisées pour ces systèmes :
Les distances des bouts doigts au centre de gravité de la main [Al-Jarrah &
Halawani 2001]. Le système reconnait 30 postures de l’alphabet de la langue des
signes Arabe avec un taux de 93.55%. Le travail était à utilisateur dépendant et les
images de la base ont été effectuées sur un fond simple. Un système adaptatif
d’inférence flou a été utilisé pour la classification [Jang 1993].
Les distances et les angles d’inclinaisons des bouts des doigts par rapport au
poignet [Al-Roussan & Hussain 2001].Le système développé reconnait 28 lettres
de la langue Arabe des signes. Des gants colorés (voir figure2.7) ont été utilisés
pour la collecte des données et un système adaptatif d’inférence flou [Jang 1993]
pour la reconnaissance. Le taux de reconnaissance obtenu est de 88%. Sur la même
base et avec le même principe ce taux a été amélioré à 93.41 dans [Assalaeh & Al-
Roussan 2005], en utilisant les réseaux polynomiaux.
p. 45
Chapitre2. La langue des signes et son interprétation
Figure 2.7 Gant coloré utilisé pour la collecte des données daprès [Al-Roussan &
Hussain, 2001].
Dans [Mohandes et al 2004], les auteurs ont utilisé pour la collecte des données
des gants de type ‘power glove’, construite par ‘Nintendo Entertainment system’
(NES) en 1989. Ce type de gants fournit des données sur la localisation et
l’orientation de la main qui ont été utilisées comme primitives pour entrainerun
classifieur SVM pour la reconnaissance. La reconnaissance a été effectuée sur un
nombre important de mots de la langue des signes Arabe.
M. Al-Roussan et al [Al –Roussan et al 2009] ont élaboré un système à
utilisateur indépendant pour la reconnaissance de 30 mots de la langue de signes
arabes (voir figure 2.8) effectués par des malentendants. La transformée en cosinus
discret (DCT) a été appliquée aux frames originales de chaque séquence vidéo pour
l’extraction des primitives et les modèles cachés de Markov HMM pour la
classification. La méthode a obtenu un taux de reconnaissance de 90.6% en mode
en ligne, et 94.2 en mode hors en ligne.
p. 46
Chapitre2. La langue des signes et son interprétation
Figure 2.8 Gestes de langue des signes Arabe (ArSL) d’après [Al-Roussan et al 2009].
p. 47
Chapitre2. La langue des signes et son interprétation
p. 48
Chapitre2. La langue des signes et son interprétation
Dans notre travail [Dahmani & Larabi 2014] le système est destiné à l’alphabet
de la langue Arabe des signes, et donc nous pouvons affirmer que c’est le seul dans sa
catégorie qui soit à utilisateur indépendant, opérant dans différents fonds complexes et
dans des conditions générales d’éclairage.
2.4 Conclusion
Après cette brève présentation de la langue des signes, nous avons étudié les
différentes difficultés que nous pouvons rencontrer lors de l’élaboration d’un système
automatique pour sa reconnaissance. Nous pouvons constater que malgré la multitude
d’approches et techniques proposées dans la littérature, concevoir un système complet
pour la reconnaissance de la langue des signes reste un défi difficile à relever, vu la
grande complexité reliée à cette langue.
En citant tous les travaux dans la littérature se rapportant à la langue Arabe des
signes, nous avons vu que le problème de segmentation de la peau, étape cruciale de
tous les systèmes basés sur la vision, a été souvent contourné par l’utilisation de gants
colorés ou bien en travaillant avec des fonds simples, ou dans des conditions
d’éclairages contrôlées. Cela est dû principalement au fait que les résultats des
méthodes usuelles de la segmentation de la peau, sont très sensibles aux conditions
d’éclairage, et aux couleurs de fonds.
Dans le prochain chapitre nous présentons notre première contribution pour le
développement d’un système de reconnaissance des postures de l’alphabet de la langue
p. 49
Chapitre2. La langue des signes et son interprétation
des signes. Cette contribution concerne la localisation de la main dans une image avec
un arrière-plan complexe.
p. 50
Chapitre 3
Segmentation d’image et extraction
de la main : Cas d’un arriere-plan
complexe
3.1 Introduction
l’image
3.2.1 Motivation
Une multitude d’approches ont été proposées dans la littérature pour détecter la
main. La segmentation de la peau basée sur la couleur est l’une des approches les plus
utilisées à cause de son efficacité. Néanmoins cette méthode rencontre les difficultés
suivantes [Kakumanu et al 2007] :
p. 52
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
3.2.2.1 La couleur
La couleur présente un ensemble d’attributs qui ont été souvent utilisés dans la
segmentation d’images de manière général et dans la segmentation de la peau en
particulier (voir le chapitre2). Comme cela a été mentionné dans la section 3.2.1, le
choix de l’espace couleur influence la qualité de la segmentation. Les espaces couleur
orthogonaux (YCbCr , YIQ , YUV , YES ) réduisent la redondance qui existe dans les
canaux de l’espace RGB et représentent la couleur avec des composantes
statistiquement indépendantes [Kakumanu et al 2007]. Dans ce travail, l’espace
couleur utilisé est YCbCr où Y représente la luminance, Cb , C r représentent les
chrominances bleu et rouge.
Dans ce qui va suivre, nous donnons un bref rappel de la texture et les
différentes formules et approches pour la calculer.
3.2.2.2 La Texture
a. Définition
Bien que la notion de texture soit évidente pour la perception humaine, elle
demeure très difficile à définir. Cette notion est liée d’une part à l’homogénéité qui
permet de séparer les différentes textures, d’autre part aux notions de caractérisation et
discrimination. Nous pouvons citer deux différentes définitions :
p. 53
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
C’est à partir de ces deux définitions, que les différentes modélisations pour
l’analyse de la texture ont vu le jour.
b. Types de textures
Il existe deux types de texture : les textures périodiques définies par la répétition
d’un motif de base dans l’image, et des textures aléatoires qui possèdent un aspect
anarchique mais qui apparaissent homogènes dans leur environnement [Broadtz 1966].
Donc on peut les distinguer en deux classes :
Les macros texture : qui présentent un aspect régulier, sous formes de motifs
répétitifs spatialement placés selon une règle précise (exemple peau de lézard,
mur de briques etc.)
Les micros texture : présentant des primitives microscopiques distribuées de
manière aléatoire (sable, laine tissée, herbe etc.), d’où une approche probabiliste
cherchant à caractériser l’aspect anarchique et homogène.
Un catalogue de texture contenant 112 types (sable, herbe, bois etc.) et qui
constitue une référence de base pour les chercheurs travaillant sur la texture a été
proposé par P. Broadtz [Broadtz 1966] (voir figure3.1).
c. Analyse de la texture
p. 54
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
Approche statistique
Dans cette approche la texture est considérée comme résultat d’un processus
stochastique dont on peut évaluer par des attributs statistiques [Weska et al 1976 ;
Unser 1986]. Les données sources de ces attributs peuvent être des pixels (cas le plus
classique premier ordre) ou des couples de pixels comme c’est le cas pour la matrice de
cooccurrences (mesure du second ordre) [Haralick et al 1973]. Les mesures du second
ordre ont montré leur efficacité par rapport à la perception humaine [Julesz 1962].
Dans cette approche l’idée de base est de décrire de manière statistique comment les
niveaux de gris sont distribués dans l’image. Ce type de méthodes est orienté pour la
représentation des textures fines et sans régularité apparente.
Approche structurale
Approche fréquentielle
p. 55
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
p. 56
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
p. 57
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
(primitives). Ces quatorze primitives sont corrélées entre elles. Certains travaux ont
tenté de diminuer ce nombre en gardant les plus pertinentes d’entre elles. Citons par
exemple le travail de N. Idrissi et al. [Idrissi et al 2005] où huit seulement ont été
retenues. De même dans le travail de P. Howarth et S.M Ruger [Howarth & Ruger
2004] seulement 4 primitives ont été utilisées ensuite comparées à d’autres primitives
d’analyse de la texture à savoir le filtre de Gabor et aussi aux primitives de H. Tamura
et al [Tamura et al 1978].
Dans le travail de cette thèse, nous avons sélectionné quatre primitives
discriminantes pour la détection des pixels peau et qui sont l’énergie, le contraste, la
corrélation et l’homogénéité.
Comment associer les attributs de la couleur à ceux de la texture ? Cette
question a déjà été posée dans la littérature et a donné naissance à beaucoup
d’approches et qui sont en général scindées en trois grandes familles [Ilea et Whelan
2011].
Nous présentons ci-après ces trois familles de méthodes.
la couleur et la texture
p. 58
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
p. 59
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
du fond. Dans la majorité des travaux relatés dans la littérature sur la classification des
pixels peau dans une image, la couleur a constitué et constitue toujours la
caractéristique la plus importante [ Jones et Rehg 2002, Teng et al 2005 ; Kim et al
2008 ; Bin Ghazali et al 2012 ; Pryal & Bora 2013 ; Ban et al 2014]. Cependant la
couleur de la peau peut être facilement influencée par les couleurs de fonds ou par le
changement d’éclairage. Dans certains travaux récents sur la détection du visage basée
sur la forme qui constitue la caractéristique principale la couleur a néanmoins été
utilisée comme caractéristique secondaire [Nanni et al 2014], ou encore la texture dans
[Jiang et al 2013].
Différemment de ce qui a été proposé dans la littérature pour le problème de la
segmentation de la peau d’une part, où la plupart des chercheurs se sont dirigées vers la
couleur uniquement en explorant les différents espaces couleur qui peuvent améliorer
les résultats de la segmentation, et s’inspirant des travaux sur la couleur et la texture
d’autre part, nous avons exploré une nouvelle vision de la segmentation des pixels peau
dans une image qui consiste d’associer à la couleur de la peau, sa texture [Dahmani &
Larabi 2014]. Cette nouvelle approche a permis au système développé d’être
opérationnel dans différents fonds complexes et sous des conditions générales
d’éclairage.
La détection des pixels peau dans le travail de cette thèse, se fera en associant les
attributs couleur Y , C b et C r ainsi que les attributs texture : énergie, contraste,
p. 60
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
p. 61
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
Figure 3.3. Résultats de la segmentation par seuillage directe dans l’espace YCbCr .
Nous pouvons clairement voir que mise à part sur un fond vert clair ou très peu
complexe où les résultats sont satisfaisants, les autres résultats ne sont pas utilisables.
Le résultat le plus mauvais que nous avons obtenu c’est dans l’association d’un fond
bois avec l’occlusion de la lumière.
Afin d’améliorer nos résultats et de remédier au problème du seuillage direct, la
texture a été rajouté comme primitive additive à l’information de la couleur.
p. 62
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
Les indices de Haralick les plus pertinents pour la texture de la peau que nous
avons utilisés sont :
L’énergie : Elle mesure l’uniformité textural, les répétitions des paires de pixels
quand la région de l’image considérée est homogène. Elle mesure aussi la régularité
dans la région de l’image. Moins la région de l’image est régulière, plus petite est la
valeur de l’énergie associée à cette région.
P
2
Energie = d, (i, j ) (3.3)
i j
(i j) P 2 2
Contraste= d, (i, j ) (3.4)
i j
Corrélation = (i )
i j
i
2
( j j ) 2 P 2 d , (i, j ) / i j (3.5)
p. 63
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
1
Homogénéité= 1 (i j )
i j
2
Pd , (i, j ) (3.6)
Figure 3.4 Schéma général du MLP proposé pour la classification des pixels peau.
p. 64
Chapitre3. Segmentation d’image et extraction de la main : cas d’un arrière-plan
complexe
Pour les images contenant seulement la main (notre centre d’intérêt), Il peut y
avoir occasionnellement la détection d’autres objets que la main dans l’image. Ce
problème a été résolu en séparant les parties connexes et en considérant la main comme
le plus grand objet peau dans la scène.
3.5 Conclusion
p. 65
Chapitre 4
Reconnaissance et Classification
4.1 Introduction
La main est un objet fortement déformable qu’utilisaient les indiens et les chinois
pour raconter des histoires, animant grâce à sa souple anatomie une multitude de personnages
et d’objets. En outre, quand vous demandez à une personne d’effectuer le même geste dans
deux instants différents, il sera très peu probable que les deux gestes effectués aient une
parfaite correspondance. Le problème sera d’autant plus complexe lorsque ces gestes ou ces
postures seront effectués par différents sujets et seront destinées à communiquer une
sémantique bien exacte, dans un langage bien défini. D’où la nécessité de concevoir une
description fiable et discriminante de la posture de la main, si nous voulons aboutir à une
reconnaissance satisfaisante.
IL s’agira dans ce chapitre de présenter la deuxième étape du système développé et qui
consiste en l’extraction des primitives pertinentes pour la description et la reconnaissance
des postures de la main. Deux différentes approches sont proposées: l’une se base sur un
concept syntaxique et l’autre sur le concept statistique.
Pour l’approche syntaxique, l’idée de base est de détecter dans l’image de la main,
la paume et les bouts des doigts. Cette détection s’effectue moyennant les points de fortes
courbures se situant sur le contour de la silhouette de la main, à savoir les points concaves et
convexes. La détermination de ces points a pour objectif l’estimation de la configuration des
doigts de la main. Par la suite, à cette configuration est associé un descripteur textuel
décrivant la géométrie du contour externe de la main [Larabi et al 2003]. Ce descripteur a
été adapté au problème d’un objet articulé qui est la main et ce en remplaçant les lignes de
jonctions par les courbes de jonction [Dahmani &Larabi, 2011]. Les principaux avantages
de cette méthode résident dans sa capacité à distinguer entre deux configurations de doigts
semblables avec des angles d’orientations différents des doigts et son indépendance de toute
Chapitre 4. Reconnaissance et Classification
base de référence. Cependant, les limites de cette approche résident dans la contrainte que la
paume ou le dos de la paume de la main soient face à la caméra. Ce qui diminue le nombre
des signes de l’alphabet reconnus (dans notre cas 12 postures sur 30 signes de la langue des
signes Arabe). Mais pour une interface homme machine elle peut s’avérer très intéressante
vue la simplicité de son implémentation. Cette méthode va être présentée dans la première
partie de ce chapitre.
L’approche statistique [Dahmani et al 2012] quant à elle consiste en la recherche de
primitives de forme qui pourraient être efficaces pour la reconnaissance des postures de la
main tout en tenant compte de la particularité de l’alphabet de la langue des signes d’une part,
et de la variabilité dans l’anatomie de la main qui diffère d’une personne à une autre d’ autre
part. Des primitives assez discriminatives tout en étant tout aussi fluides sont proposées pour
tolérer les signes effectués d’une manière aléatoire et par différentes personnes.
Pour la recherche de descripteurs de formes adaptés au problème posé, nous avons
tenu compte du fait qu’une posture de la main peut être entièrement représentée par trois
éléments essentiels qui sont : la forme, la configuration des doigts et l’orientation.
p. 68
Chapitre 4. Reconnaissance et Classification
Une fois les partitions déterminées, il faut définir une grammaire représentative de ces
primitives. Le langage textuel est utilisé dans la plus part des cas.
Concernant le problème traité dans cette thèse, le contour de la main obtenue suite à
l’étape de segmentation de l’image est d’abord localisé. Les points de fortes courbures sont
ensuite détectés moyennant un des algorithmes existants [Chetverikov 2003]. Les points de
fortes courbures sont sélectionnés pour servir au partitionnement de la silhouette de la main.
Le partitionnement de la forme de la main que nous proposons dans cette méthode est
basé sur des formes primitives qui sont la paume de la main et les doigts. A ce
partitionnement nous allons associer une description détaillée de chaque partition ce qui
permet de retracer la forme de la main de manière unique et non ambigüe. Pour cela on va
suivre un nombre d’étapes qui vont être exposées dans ce qui suit.
Figure 4.1. De gauche à droite, La silhouette main, la boite englobant la silhouette, points de
forte courbure
p. 69
Chapitre 4. Reconnaissance et Classification
Définition 4.1
Soit M un objet géométrique et soit CM le contour de sa forme, alors un point de forte
courbure m est défini comme étant convexe dans CM si et seulement si le segment pq est
complètement contenu dans M et ce pour n’importe quelle paire de points (p, q) tels que p le
prédécesseur de m et q son successeur, sinon m est défini comme étant concave.
En se basant sur ce simple concept, on détermine les points concaves et convexes du
contour de la forme de la main (voir figure 4.2).
Les points concaves jugés intéressants sont les points séparant les doigts de la paume.
Heuristiquement, ces points se distinguent des autres points concaves (spécialement de ceux
localisés entres les adductions des doigts), selon deux critères :
L’angle de concavité. En premier, seuls les points avec un angle de concavité tres
petit n’excédant pas un certain seuil sont retenus. Cela permet d’éliminer à priori les points
concaves dus aux distorsions de la main. En outre tous les points concaves se situant dans la
région séparant les doigts de la main ont un angle de concavité très petit vus leurs
profondeurs, et donc le seuil imposé permet aussi d’éliminer les points concaves se situant
entre les adductions des doigts.
La distance : les points concaves obtenus par la sélection précédente vont subir une
autre sélection basée sur la distance. En utilisant la distance euclidienne calculée dans le
repère OXY associée à la boite englobant la silhouette de la main, on détermine des sous-
p. 70
Chapitre 4. Reconnaissance et Classification
ensembles de points estimés proches toujours par rapport à un seuil. Ces sous ensemble nous
permettront de séparer les points concaves de la région grands doigts c'est-à-dire ceux
séparant les grands doigts de la paume de ceux se situant dans la région du pouce c'est-à-dire
séparant le pouce de la paume. La figure 4.3 illustre la sélection des points concaves d’intérêt
dans les lettres ‘Sad’ et ‘Lam’ de l’alphabet de ArsL.
Figure 4.3 Sélection des points concaves d’intérêt dans la forme de la main.
p. 71
Chapitre 4. Reconnaissance et Classification
y a1x 2 a 2 x a 3 (4.1)
Pour tracer la courbe optimale, on commence d’abord par tracer au sens des moindres
carrées toutes les courbes de toutes les combinaisons possibles de trois points parmi les
points concaves (si leur nombre est supérieur à 3), et ensuite la meilleure courbe est
sélectionnée comme étant celle qui est à distance minimale de tous les points concaves. La
distance est calculée par la formule
DC max PI C D ( pi , CC ) (4.2)
p. 72
Chapitre 4. Reconnaissance et Classification
concaves de ces deux régions ont été séparés en utilisant des seuils pour la distance
euclidienne et la profondeur. Les points concaves se situant entre les grands doigts sont
relativement plus proches les uns des autres et un peu plus loin de ceux situés entre la paume
et le pouce et ces derniers aussi sont proches les uns des autres, d’autre part heuristiquement
on a remarqué aussi, que les points concaves du pouce avait un angle de profondeur plus petit
comparé aux angles de profondeurs des points concaves des grands doigts ce qui nous a
permis de les distinguer en deux sous-ensembles à chacun nous avons associé une courbe.) .
Un exemple est présenté dans la figure 4.5.
Une fois les deux courbes de jonction déterminées, les partitions de la main sont
détectées en balayant l’image dans le sens de l’axe (OY) par la courbe CJ1 et dans le sens de
l’axe (OX) pour CJ2. Une partition est définie comme étant un ensemble de pixels de la forme
contiguës par rapport à la courbe de jonction CJ1 ou CJ2.
p. 73
Chapitre 4. Reconnaissance et Classification
Figure 4.6 Les différentes partitions de la main obtenues suite à la localisation des jonctions.
Pour la description de la main, nous avons défini un descripteur global qui donne une
information sur le nombre de partitions et sur les courbes CJ1 et CJ2, ainsi qu’un descripteur
détaillé qui est constitué d’attributs associés à la partition (Angle d’inclinaison, hauteur et
largeur relatives).
Le descripteur global
La silhouette de la main est décrite de manière globale en utilisant le descripteur
textuel XLWDOS [Larabi et al 2003] et qui permet de donner une information générale sur
la forme. Ce descripteur textuel est défini à partir des partitions et des jonctions les reliant. En
ce qui concerne la forme traitée, les lignes de jonction ont été remplacées par des courbes
mieux adaptées au problème des articulations de la main.
L’écriture XML du descripteur textuel de la forme de la figure 4.6 est donnée par
l’expression suivante:
<CP><CP>P3 P2 P1 C J1 P5 </CP>CJ2 P4 </CP>, où CP indique partie composée, les
parties P3 P2 P1 citées avant la ligne de jonction CJ1 sont jointes à la partie P5. Le tout est
considéré comme une partie qui est jointe à P4 via la courbe de jonction CJ2.
Descripteur détaillé
La description globale de la main étant insuffisante, il est nécessaire de la compléter
en décrivant toute les parties et courbes de jonction. Cette description tient compte de la
biomécanique de la main et s’appuie fortement sur les des travaux de C. Wagner sur la main
p. 74
Chapitre 4. Reconnaissance et Classification
du pianiste [Wagner, 1988]. Dans son étude présentée au chapitre 1, C. Wagner [Wagner,
1988] a donné des mesures anthropométriques très précises sur la main et les doigts. Les
caractéristiques alors déterminées dans le travail de cette thèse reposent sur les articulations
des doigts et les mesures anthropométriques les reliant. Une partition est alors séparée de la
main et il s’agit de lui associer les attributs largeur et hauteur relatives ainsi que de son angle
d’inclinaison.
La hauteur relative représente le quotient entre la hauteur de la partition et la hauteur
de la boite englobant la silhouette de la main.
La première et deuxième largeurs relatives représentent le quotient entre les deux
distances en chaque phalange se situant approximativement au premier et second tiers de la
partition [Wagner, 1988] et la largeur de la boite englobant la silhouette de la main.
L’angle d’inclinaison représente l’angle se situant entre la médiane vertical de la
partition et le segment de l’arc délimité par la partition et la courbe.
Dans la figure 4.7 un exemple du descripteur détaillé est présenté.
Figure 4.7. Description détaillée d’une silhouette de la main [Dahmani & Larabi 2011].
p. 75
Chapitre 4. Reconnaissance et Classification
l’algorithme de Fitzgibon [Fitzgibon et al 1999], qui d’une part nous permets d’encadrer le
poignet et d’autre part de déterminer l’angle d’orientation en utilisant l’axe principal de
l’ellipse qui approxime au mieux les points du contour de la main (voir figure 4.9).
Figure 4.8 Prise en compte des rotations de la main de : 0°,90° 180°et 270°.
Figure 4.9 (a) mauvaise détection des points de courbures et de la courbe de jonction CJ1,
application de l’algorithme de Fitzgibon et détermination de l’ellipse. (b) résolution du
problème par le redressement de la main de l’angle de l’axe principal de l’ellipse et
détermination de la courbe CJ1.
4.2.2 Reconnaissance
La reconnaissance de la posture d’une main dans une image requête est réalisée en
utilisant la description globale et détaillée. Ensuite basée sur l’anthropométrie de la main et
p. 76
Chapitre 4. Reconnaissance et Classification
les attributs calculés, la configuration des doigts à laquelle appartient la posture de la main
requête est déterminée.
L’algorithme suivant décrit les étapes du processus de reconnaissance.
Algorithme
Début
# Nb est le nombre de partitions
Si (Nb=6)
Alors #Les doigts sont tendus, ronds, griffes ou simplement en rotation planaire de la main.
Déterminer les angles des rotations planaires des doigts à partir du descripteur détaillé.
Déterminer les positions des doigts griffe, rond ou tendu à partir du descripteur détaillé
à partir des valeurs des distances relatives et selon les mesures anthropométriques.
Sinon Si Nb< 6,
Alors # Un ou plusieurs doigts sont en adduction et peuvent être aussi pliés.
Si la largeur de la partition est supérieure à la largeur d’un doigt, Alors Selon
la largeur : Deux ou plusieurs doigts sont en adduction ou plusieurs doigts sont pliés.
Fin
La table 4.1 illustre des exemples de cas cités dans l’algorithme. Il s’agit des
positions tendu, griffe ou rond des doigts, de la position adduction et aussi de rotation
planaire gauche ou droite déterminée par l’angle d’inclinaison de la partition.
p. 77
Chapitre 4. Reconnaissance et Classification
p. 78
Chapitre 4. Reconnaissance et Classification
Les caractéristiques utilisées dans la méthode statistique, ont été extraites à partir de
trois descripteurs permettant de fournir des informations pertinentes et complémentaires sur
la posture de la main. Il s’agit de :
Les moments orthogonaux discrets de Tchebichef calculés à partir des contours
internes et externe de la silhouette de la main qui donnent un ensemble d’informations
globales sur la forme de la main ainsi que sur le positionnement des doigts à l’intérieur de la
forme.
Les sept moments de Hu invariants à la translation, la rotation et le changement
d’échelle, afin de faire face aux différentes prises de vues.
Un ensemble de caractéristiques géométrique de la silhouette de la main extraite à
partir de l’enveloppe convexe englobant la silhouette de la main. Ces caractéristiques
géométriques donnent une information sur la configuration des doigts tout en tenant compte
de l’orientation de la main. Car des orientations différentes de la main entrainent dans la
langue des signes des signes différents. Dans les sections suivantes les descripteurs utilisés
seront exposés avec plus de détail.
Les moments jouent un rôle très important dans la reconnaissance d’objets. Ce sont
des quantités scalaires utilisés pour caractériser une fonction et prendre ses caractéristiques
significatives. Ils ont été largement utilisés durant de longues années en statistique et pour la
description de la forme d’une fonction de densité, en mécanique des corps rigides pour
mesurer la distribution de la masse dans un corps.
Du point de vue mathématique, les moments sont les projections d’une fonction sur
une base polynomiale (d’une manière similaire à la transformé de Fourier qui est la
projection d’une fonction sur une base de fonctions harmoniques). Nous donnons ci-après
quelques notions utiles.
Définition 4.2
Une fonction image est une fonction réelle à deux variables f ( x, y ) définie sur un
p. 79
Chapitre 4. Reconnaissance et Classification
Définition 4.3
Un moment général M pq d’une image f ( x, y ) , où p, q sont des entiers positifs et
Moments de Tchebichef
Définition 4.4
Si la base polynomiale Pij ( x, y ) qui intervient dans la définition des moments est
~
où t p ( x ) est le polynôme normalisé de Tchebichef défini par :
~ t p ( x)
t p ( x) (4.8)
~( p, N )
p. 80
Chapitre 4. Reconnaissance et Classification
1 22 p2
N (1 2 )(1 2 )...(1 2 )
~
( p, N ) N N N (4.9)
2 p 1
Les polynômes discrets de Tchebichef t p (x ) sont définis comme suit [Baykaktar et
al 2007] :
t p ( x) (1 N ) p 3 F 2( p, x,1 p;1 N ;1) (4.10 )
p. 81
Chapitre 4. Reconnaissance et Classification
Figure 4.10 Utilité des contours internes : (a,d) images de lettres (‘He’ et ‘Sad’ et ‘Dhal’ et
‘Dal’) de ArSL. (b,e) Contours externes, et (c,f) Contours internes et externes.
Le premier concerne une étude récente [See et al 2008], où les auteurs ont démontré
que les moments de Tchebichef sont les mieux stables comparés aux autres moments
orthogonaux. L’expérimentation a été conduite sur un grand nombre de bases publiques.
Le second est plus en relation avec la représentation que nous avons utilisée à savoir
les contours externe et internes qui au point de vue région représente ce qu’on appelle une
région rugueuse, ou au sens mathématique singulière. Or, dans la même étude citée
précédemment [See et al 2008], les moments de Tchebichef ont été aussi comparés d’une
part à la transformée en cosinus discret (DCT) et d’autre part aux autres moments pour la
reconstruction des régions rugueuses et les résultats obtenus ont démontré que les moments
de Tchebichef sont les mieux adaptées à ce type de régions.
4.3.1.2 Moments de Hu
p. 82
Chapitre 4. Reconnaissance et Classification
3 ( 3, 0 31, 2 ) (32,1 0,3 )
2 2
4 ( 3, 0 1, 2 ) ( 2,1 0,3 )
2 2
5 ( 3, 0 31, 2 )(3,0 1, 2 ) ( 3, 0 1, 2 ) 3( 2,1 0,3 )
2 2
(4.13)
(32,1 0,3 )(2,1 0,3 ) 3( 3, 0 1, 2 ) ( 2,1 0,3 )
2
2
6 2, 0 0, 2 3, 0 1, 2 2 ,1
( ) ( ) 2 ( ) 2 4 ( )( )
0,3 1,1 3, 0 1, 2 2 ,1 0,3
7 2 ,1 0,3 3, 0
(3 )( ) ( ) 2 3 2
1, 2 3, 0 1, 2 2 ,1 0,3
2
( 3,0 31, 2 )(2,1 0,3) ) 3( 3, 0 1, 2 ) ( 2,1 0,3 ) 2
où les moments pq sont définis à partir des moments centraux donnés par les
où
m10 m
i et j 01 . Les moments pq sont alors définis par la formule 4.16.
m00 m00
u pq
pq r
( 4.16 )
u00
avec r [( p q) / 2] 1 et [ ] représente la partie entière.
Ces moments ont été utilisés pour deux raisons essentielles :
En premier lieu, pour que le système soit fluide avec les postures qui sont mal faite
ou légèrement en rotation par rapport aux postures modèles. Un descripteur invariant
est nécessaire pour avoir une reconnaissance qui ne soit pas trop déterministe.
En second lieu, D. kelly et al. [Kelly et al 2010] ont prouvé que les moments
invariants de Hu permettent de différencier les objets à faible changement de contours.
Entre autres, nous avons constaté que dans l’alphabet de la langue des signes Arabe
ce changement figure souvent pour exprimer des lettres complètement différentes. Un
exemple illustrant ce constat est présenté par la figure 4.11.
p. 83
Chapitre 4. Reconnaissance et Classification
Figure 4.11 Exemple de faible changement de contours, lettres ‘Jiem’ et ‘Ha’ dans ArSL.
La distance utilisée pour les vecteurs caractéristiques des moments Hu est la distance
obtenue par la différence totale des moments augmentés, jugée comme étant meilleure que la
distance euclidienne pour les moments Hu.
Cette distance est définie par les formules 4.17 et 4.18.
7
D Hu ( H K , H l ) H K (i ) H l (i ) (4.17)
i 1
1
où H x (i ) (4.18)
sign( H x (i )) log( H x (i ))
p. 84
Chapitre 4. Reconnaissance et Classification
La hauteur de la boite englobant la main a été utilisée dans ce travail pour distinguer
les signes de mêmes configurations avec orientations différentes tout en normalisant les
données pour le changement d’échelle. En effet l’orientation dans la langue des signes peut
donner des signes différents (voir l’exemple donné par la figure 4.12).
Notons que la surface de la main a été largement utilisée en reconnaissance de la
langue des signes [Bauer & Hienz 2000; Zahedi et al 2006]. De même, les points les plus
loin du centre de gravité ont été utilisés pour déterminer les bouts des doigts sans tenir compte
du changement d’orientation [Malima et al 2006].
Figure 4.12 (a) Enveloppe convexe d’une forme de la main.(b) Lettres ’Ayn’ et ‘Ta’ de
l’ArSL.
4.3.2 Classification
La classification est une étape très importante dans tout système de reconnaissance car
il faut déterminer quelle est la stratégie approprié à adapter pour avoir un bon résultat. Nous
avons opté pour deux types de classificateurs les K plus proches voisins (KNN) et les
machines à vecteurs de support (SVM).
Les KNN, en dépit de leur simplicité ont fait leurs preuves dans plusieurs domaines où
il est nécessaire de faire une bonne classification, particulièrement dans le domaine du
manuscrit. Ceci a motivé leur utilisation dans ce travail, car la main essaye de transcrire la
lettre manuscrite en utilisant les déformations qui lui sont propres et qui lui sont accessibles
grâce à son haut degré de liberté. Cette transcription se fait de manière naturelle selon
p. 85
Chapitre 4. Reconnaissance et Classification
l’anatomie de la main de chaque individu ce qui implique beaucoup de prototypes pour une
seule lettre. D’un autre point de vue, T. Hastie et al [Hastie et al 2008] ont prouvé que les
KNN sont des classifieurs qui sont très performants lorsque les classes ont beaucoup de
prototypes et que les délimitations de la décision sont très irrégulières.
Les SVM quant à eux ont été utilisés dans le travail de cette thèse pour leurs fortes
capacités de classification, et surtout dans le domaine de la reconnaissance des postures de la
main où ils ont été beaucoup abordés ces dernières années [Kelly et al 2010; Dardas &
Georganas 2011; Premartne et al 2013] , en outre dans la reconnaissance du manuscrit ils
sont considérées au même titre que les KNN comme étant les classifieurs les plus efficaces
dans le domaine [Hmeidi et al 2007], et comme le signe de l’épellation digitale transcrit la
lettre manuellement, cela justifie leurs utilisation dans ce travail.
p. 86
Chapitre 4. Reconnaissance et Classification
Dans le travail de cette thèse, nous avons adopté la classification SVM un-contre –
tous avec le noyau Gaussien à base Radiale (RBF). D’où la nécessité de construire autant de
SVM qu’il y’a de classes dans la base utilisée. En outre nous avons fait une extension de
chaque SVM par la méthode de J.C Platt [Platt 1999], et qui consiste à attribuer à un requête
x la probabilité qu’elle appartienne à uneclasse y, pr ( y 1 / x) . Cette probabilité a été
approximée par une fonction sigmoïde
1
pr ( y 1 / x) (4.19 )
1 exp( Af B)
Où A et B sont déterminés expérimentalement.
Ce modèle est facile à calculer et requiert une procédure d’optimisation non-linéaire
du couple de paramètres (A, B).
En effet, soit un ensemble d’apprentissage de données ( f i , yi ) , on définit à partir de cet
yi 1
ensemble, un nouvel ensemble ( f i , ti ) , où ti
2
Le choix des valeurs A et B se fait en minimisant la valeur de l’entropie croisée des
données qui s’écrit :
Entropie ti log( pi ) (1 ti ) log(1 pi ) (4.20 )
i
Les deux techniques de classification KNN et SVM présentées ci-dessus, ont été
utilisées pour classifier 10 lettres de langue des signes Latines de la base benchmark de
Triesch [Triesch et Von 2002], ainsi que pour classifier 30 lettres de la langue Arabe des
signes de la base ArSL que nous avons construite au niveau de notre laboratoire LRIA, nous
donnerons plus de détail sur ces deux bases dans le chapitre expérimentation.
p. 87
Chapitre 4. Reconnaissance et Classification
4.4 Conclusion
Dans ce chapitre nous avons présenté les différentes approches adoptées dans notre
travail pour la résolution du problème de la reconnaissance et de la classification des postures
de la main destinées à l’alphabet de la langue des signes.
D’abord nous avons proposé une méthode syntaxique fondée sur le partitionnement
de la main en ces parties élémentaires à savoir les doigts et la paume. Ce partitionnement a
servi pour une description textuelle de la forme de la main. En outre nous avons complété
cette description par une description détaillée de chaque partition. Nous avons montré que
cette description est exploitable pour la reconnaissance de certaines postures de la main.
Nous avons également présentée notre approche statistique qui repose sur la théorie des
moments. Nous avons aussi proposé une nouvelle représentation de la forme de la main, basée
sur les contours externes et internes de sa silhouette. Les moments de Tchebichef ont été
appliqués sur les contours internes et externes afin de prendre en considération les contours
internes qui traduisent la position des doigts dans la forme.
Un ensemble de caractéristiques géométriques qui déterminent la configuration des
doigts, tout en tenant compte de l’orientation de la main ont aussi été déterminées. Enfin nous
avons exposé la méthode de calcul des probabilités à postiori, utilisée par notre système pour
le classifieur SVM. Le chapitre suivant sera consacré à la validation des approches proposées
où les résultats obtenus seront commentés et discutés.
p. 88
Chapitre 5
Validation des approches proposees
5.1 Introduction
Afin de valider les approches exposées dans les chapitres précédents, nous avons testé
notre système sur deux bases distinctes, une base de la langue Arabe de l’alphabet des signes,
et une autre base benchmark qui est la base de Triesch [Triesch et Von 2002] de la langue
latine des signes de l’alphabet.
Il existe dans la littérature deux bases de l’alphabet de l’ArSL. Celle élaborée par O.
Al-Jarrah et A. Halawani [Al –Jarrah & Halawani, 2001], et celle construite par M. Al-
Roussan et M. hussain [Al-Roussan & Hussain, 2001].Les deux travaux ont été déjà
présentés et discutés dans le chapitre 2. Dans la première base, les auteurs n’ont pas pris en
considération le mode ‘utilisateur indépendant’ et donc il fut impossible pour nous de séparer
les différents sujets. Dans la seconde base, les sujets portaient des gants colorés. C’est pour
cette raison que nous avons construit notre propre base de l’alphabet de l’ArSL au laboratoire
LRIA. Les postures ont été effectuées sur un fond simple par 24 volontaires en partie des
étudiants et certains enseignants de la faculté, et 8 autres volontaires étudiants de la faculté
sur une multitude de fonds complexes. Chaque sujet a effectué dans une moyenne de 4 fois
les 30 lettres de l’alphabet de la langue des signes Arabe basée sur la convention générale de
la langue Arabe des signes (voir figure 5.1(a)).
Les postures ont été effectuées de manière aléatoire gérées par la seule contrainte que
la langue des signes imposait, d’où la variation dans la réalisation de la lettre ainsi que dans
le changement d’échelle. Par exemple, la lettre ‘Sad’ de la langue Arabe des signes (ArSL),
illustrée par la figure 5.1(b).La figure 5.1(c) représente les différents fonds complexes utilisés
pour la construction de la base.
Cette base est constituée de 10 postures de la langue des signes latines réalisées par 24
volontaires sur 3 fonds distincts : clair, sombre, et complexe. La figure 5.2 présente les lettres
de cette base effectuées sur des fonds clairs et sombres.
Sur ces deux bases, nous avons réalisé une série d’expérimentations dont nous allons
exposer les différentes étapes. Comme la phase de segmentation est la phase cruciale de tout
système de reconnaissances des gestes et postures de la main et ce quel que soit la méthode
p. 90
Chapitre5. Validation des approches proposées
Figure 5.1 (a) Alphabet de l’ArSL. (b Les différentes réalisations de la lettre ‘sad’.(c) Les
différents fonds utilisés
p. 91
Chapitre5. Validation des approches proposées
complexe.
L’ombre et la lumière
Les différents fonds
Le fond bois sous différents éclairages
Des images de la main ont été prises avec différents fonds et sous des conditions
d’éclairage différentes. Les résultats obtenus sont présentés ci-après.
L’ombre et la lumière sont les premiers problèmes qu’on peut rencontrer lors de la
segmentation. Dans les tests que nous avons effectués, nous avons essayé plusieurs types
d’éclairage (scène d’intérieur : éclairage de maison ou de bureau ; scènes extérieurs (lumière
du jour en cours de changement). Nous n’avons pas choisi ou fixé un type d’éclairage
particulier. Les résultats obtenus sont regroupés dans la figure 5.3.
Pour les trois premières images sont prises sous la lumière du jour, le soleil était le
seul moyen d’éclairage et les images étaient prises sous différents angles avec des parties de
p. 92
Chapitre5. Validation des approches proposées
la main sous la lumière et d’autres parties sous l’ombre. La dernière image a été prise à
l’intérieur sous la lumière d’une lampe ordinaire. Nous pouvons voir que globalement les
pixels peau de la main sont bien détectés en considérant que dans ce cas le fond n’est pas très
complexe. Néanmoins, pour des images sous un éclairage non contrôlé les résultats sont
satisfaisants.
Le problème le plus important que nous avons rencontré lors de la segmentation c’est
celui en rapport avec l’ombre que la main peut projeter sur elle-même. Les pixels peau de la
main qui sont ombrés sont mal classifiés. La figure 5.4 illustre un exemple de cette situation.
Nous pouvons clairement voir comment les pixels peau qui sont sujets à l’ombre de la main
et donc ne sont pas détectés et peuvent modifier la forme.
Figure 5.3. En haut : Images de la main avec différents types d’éclairages, En bas : Résultats
de segmentation
p. 93
Chapitre5. Validation des approches proposées
Figure 5.4 Effet de l’ombre de la main sur elle-même (les pixels blancs sont classifiées non
peau, mal classifiés)
Plusieurs travaux considèrent que la couleur du bois est majeur problème pour la
segmentation de la peau [Kakumanu et al 2007]. Cela est dû en grande partie à la
ressemblance dans les données couleur entre le bois et la peau et aussi au fait que le bois
reflète la lumière. La robustesse de notre algorithme de segmentation a été testée en prenant
en compte des images de la main sur un fond bois (l’armoire) avec occlusion. Les résultats
obtenus sont illustrés par la figure 5.6 et montrent l’efficacité de la méthode dans des
conditions très difficiles.
p. 94
Chapitre5. Validation des approches proposées
Après avoir segmenté les images, un prétraitement est nécessaire pour la base de
l’alphabet Arabe qui consiste à séparer la main du bras dans l’image (Cropping the wrist).
Cette tâche constitue l’une des difficultés posées pour la résolution du problème de la
reconnaissance des gestes et postures de la main. En effet, sans séparation, le bras est une
source d’ambiguïté pour la reconnaissance d’où la nécessité de recadrer le poignet.
Figure 5.6. (a) Images de la main sur un fond bois (b) Segmentation par la méthode proposée.
p. 95
Chapitre5. Validation des approches proposées
algorithme efficace pour approcher avec des ellipses un ensemble de données dispersées en
utilisant l’approximation des moindres carrée. L’orientation de la main est obtenue par
l’orientation de l’ellipse et prend une valeur de 0 à 2 . Une fois que l’orientation est
déterminée, le calcul de la largeur se fait sur l’axe principal de l’ellipse, comme est illustré
par la figure 5.7.
Pour la base de l’alphabet de ArSL, le contour de la main est extrait à partir de la main
segmentée en utilisant l’algorithme de Canny-Derriche (voir dans la figure 5.8(a)).
Les images de la base de Jochen-Triesch sont en niveau de gris de taille 128x128. Pour
extraire le contour, nous appliquons d’abord une égalisation de l’histogramme de niveaux de
gris, suivi par l’application d’un filtre Gaussien de taille 5x5 avec 0.5 . L’extraction de la
région de la main se fait moyennant un filtre adaptatif global. Enfin les opérations
morphologiques dilatation et érosion sont appliquées avec une fenêtre de 3x 3 (voir figure
5.8(b)).
p. 96
Chapitre5. Validation des approches proposées
Figure 5.8 (a) Extraction du contour de la lettre ‘Waw’ de l’alphabet ArSL de gauche à
droite : Image originale- Image segmentée –Binarisation- Extraction du contour. (b)
Extraction du contour de la lettre G de la base de Jochen-Triesch de gauche à droite de haut
en bas : Image originale- Egalisation d’histogramme et filtarge gaussien- Binarisation-
Erosion- Dilatation, Extraction de contour.
Les contours internes et externes représentent tous les points où l’intensité change
brusquement. Le changement brusque d’intensité ne reflète pas seulement le contour externe
mais aussi les détails à l’intérieur de la forme. Dans le cas de la main, c’est au niveau des
doigts que les contours internes sont localisés. La procédure pour détecter les contours
internes se consiste à réaliser les étapes suivantes:
Conversion de l’image. Au départ les images de la base ArSL sont converties en
niveaux de gris et leurs histogrammes en niveaux de gris sont égalisés.
Filtrage de l’image. Après la conversion de l’image, un filtre Gaussien 5x5 est
appliqué avec 0.625. Ensuite les contours internes sont déterminés avec un filtre à
seuillage adaptatif.
Réduction du bruit .Les images obtenues après la précédente étape peuvent contenir
beaucoup de bruit et particulièrement des points singuliers. Pour éliminer les points singuliers,
un filtre médian 5x5 est appliqué deux fois sur l’image obtenue. Un exemple est donné dans la
figure 5.9.
p. 97
Chapitre5. Validation des approches proposées
Figure 5.9. Extraction des contours internes de la lettre V de la base statique de Jochen-
Triesch
p. 98
Chapitre5. Validation des approches proposées
résultats obtenus par la méthode syntaxique pour la localisation des partitions à savoir des
doigts ou de parties de doigts, ou encore d’adduction de plusieurs doigts, ainsi que la
reconnaissance du type de mouvement effectué par les doigts.
p. 99
Chapitre5. Validation des approches proposées
Figure 5.10 12 Lettres de L’ArSL reconnues: Alef, Ba , Ta , Tha, Shien, Sad, Dhad, Lam,
Miem, Ya, La, et T.
Pour les autres lettres, le fait que la méthode syntaxique imposait une contrainte sur la
prise de vue, à savoir la main doit être dos ou paume face à la camera, empêchait leurs
description de manière fiable et non ambiguë, car pour ces lettres la forme significative
permettant de les distinguer des autres se situait sur un angle de vue différent à celui imposé
par cette méthode. La forme significative d’une lettre est réalisée en réalité dans le langage
des signes en faisant intervenir le mouvement du poignet, ce qui permet aux malentendants de
communiquer clairement. Dans le cas d’un système automatique monoculaire comme c’est le
cas de notre système, il est impossible de recouvrir toutes les prises de vues significatives.
La figure 5.11 illustre un ensemble de lettres (‘Fa’,Waw’,’He’ et ‘Qaf’) sur trois prises
de vue à savoir dos ou paume face à la caméra et la prise de vue significative réalisée par le
sujet en faisant intervenir le mouvement du poignet est encadré en rouge dans l’image.
p. 100
Chapitre5. Validation des approches proposées
Vue la simplicité de son implémentation d’une part, et son indépendance à une base de
référence quelconque qui pourrait alourdir le temps de recherche et d’appariement d’autre
part, la méthode syntaxique a été aussi testée pour la reconnaissance de certains gestes et
postures de la main en temps réel pour une finalité d’interface homme machine.
Comme test, les chiffres de 0 à 9 ont été utilisés, ainsi que certains gestes de l’IHM
gestuelle à savoir ‘Ouvrir’, ‘Fermer’, ‘D’accord’, ‘Cornes’,’Ily’ et ‘Pointer’. La figure 5.12
présente quelques résultats obtenus pour les chiffres.
p. 101
Chapitre5. Validation des approches proposées
Figure 5.12 Les chiffres reconnues par une Web Cam en temps réel
p. 102
Chapitre5. Validation des approches proposées
p. 103
Chapitre5. Validation des approches proposées
p. 104
Chapitre5. Validation des approches proposées
L’ordre optimal choisi pour le calcul des moments de Tchebichef est la première
phase à effectuer. L’ordre des moments à calculer affecte potentiellement la qualité de la
représentation. Pour un ordre élevé de calcul des moments on peut complètement
reconstruire l’objet. Or le nombre de moments calculés augmente quadratiquement avec
l’ordre comme cela est présenté dans l’équation 5.1 [Chang et al 2006]. Donc on en déduit
qu’un ordre très élevé bien qu’efficace, est très couteux en temps de calcul. Pour la
reconnaissance, nous avons alors déterminé un ordre qui permet d’alléger le système tout en
étant capable d’effectuer une bonne reconnaissance.
( 1)( 2) / 2 (5.1)
Pour ce faire, nous avons testé un seul descripteur obtenu par les moments de
Tchebichef sur la base de Triesch. Nous avons considéré 60 postures parmi les 720 postures
de la base, dont 10 postures d’un seul sujet ont servi comme référence et les 50 postures des 5
sujets restants pour le test. Un ordre maximal de 13 a été fixé et la distance Euclidienne a été
utilisée comme mesure de similarité entre les vecteurs des moments de Tchebichef. Les
résultats obtenus dans cette expérimentation sont résumés dans le graphe de la figure 5.14.
p. 105
Chapitre5. Validation des approches proposées
Pour étudier l’apport de l’intégration des contours internes dans la reconnaissance des
postures de la main, nous avons testé les moments de Tchebichef appliqués en prenant en
compte les deux configurations : contours externes, contour externes et internes. Pour ce test
nous avons pris les deux bases, la base de l’alphabet ArSL et la base de Triesch. Pour la base
ArSL : 4 personnes ont été prises dans la base référence et les 20 personnes qui restent pour
le test. Les postures prises sont réalisées sur un fond sombre. Pour la base de Triesch nous
avons pris 3 personnes pour la base référence et les 21 personnes restantes pour le test. Les
postures prises sont réalisées sur un fond clair. La figure 5.15(a) illustre les résultats obtenus
pour les lettres (A, B, C, D, G, L, V, et Y) de la base de Triesch. Les résultats obtenus
montrent que pour 6 lettres sur les 8 lettres choisies, le taux de reconnaissance s’est amélioré
et qu’il est resté inchangé pour les 2 lettres restantes. Le taux d’amélioration varie de0 % à
14.29 % pour la base de Triesch avec une moyenne de 5.35%. La figure 5.15 (b) illustre la
comparaison des taux de reconnaissance obtenus pour les signes sujets à confusion, présentés
dans la figure 4.9 du chapitre 4, à savoir ‘He’ et ‘Sad’ ; ainsi que ‘Dal’ et’ Dhal’ de l’ArSL.
Nous pouvons constater que dans ce cas les taux de reconnaissance se sont améliorés pour
toutes les lettres, même si la confusion persistent pour les lettres ‘Dal’ et ‘Dhal’ ainsi que les
lettres ‘He’ et ‘Sad’. Pour la base ArSL le taux d’amélioration varie de 2.67% jusqu’à 11.22%
avec une moyenne de 7.41%.
p. 106
Chapitre5. Validation des approches proposées
Pour vérifier s’il n’y’a pas redondance dans les descripteurs que nous avons
sélectionné et pour avoir la meilleure architecture de combinaisons possibles, nous avons
combiné de manière séquentielle chaque paire de descripteurs parmi les trois dans les deux
sens et ensuite pour la meilleure combinaison séquentielle obtenue de deux descripteurs, nous
l’avons considéré avec le troisième. Enfin, nous avons combiné les trois descripteurs de
manière parallèle. Le classificateur utilisé dans tous les cas de combinaisons citées ci-dessus
est le KNN avec K=3.
La combinaison séquentielle de deux descripteurs s’est effectuée de la manière
suivante : le premier descripteur sélectionne trois voisins pour l’image requête moyennant le
classificateur 3NN. Le second descripteur s’applique en utilisant la classification 1 NN sur
les trois voisins obtenus par le premier et retourne la lettre reconnue.
Pour chaque descripteur pris individuellement le classificateur 3NN est appliqué.
La combinaison parallèle s’effectue de la manière suivante : Chaque descripteur
propose trois voisins selon le classificateur 3NN, ensuite la lettre reconnue est celle qui a le
nombre d’occurrences le plus important (principe des KNN) mais quand les trois descripteurs
sont pris comme un seul.
Les résultats obtenus sont présentés par la figure 5.14. Nous avons utilisé les
abréviations T, H et D respectivement pour les moments de Tchebichef, les moments Hu et
les primitives géométriques. Une combinaison séquentielle est représentée par un tiré, et la
parallèle par une virgule. La base de Triesch a été testée avec le protocole P1 : 3-21 qui
p. 107
Chapitre5. Validation des approches proposées
signifie 3 personnes dans la base de référence et les 21 autres personnes dans la base de test
de [Triesch & Von 2002] et P2 : 8-16 [Just et al 2006] (dans la figure les résultats du
protocole P2 sur des fonds clair et sombre sont présentés). La base ArSL alphabet a été testée
sur un fond sombre avec le protocole correspondant à 4 personnes dans la référence et les 20
autres personnes pour le test.
La figure 5.16 montre que dans tous les cas et pour les deux bases confondues c’est la
combinaison parallèle des trois descripteurs qui donne le meilleur résultat 94.67 % pour la
base ArSL, 97.5% pour la base de Triesch sur fond clair et 88.70% pour la base de Triesch sur
fond sombre.
Figure 5.16. Taux de reconnaissance obtenus pour : (a) Base de signes ArSL (b) Base de
Triesch fond Clair, (c) Base de Triesch fond sombre.
La figure 5.16 montre aussi que lorsque chaque descripteur est pris individuellement,
le descripteur des moments de Tchebichef est meilleur et ceci dans les trois cas avec un taux
de 82.33% pour la base ArSL, 90.62% pour la base de Triesch sur fond clair et 78.27% pour
le fond sombre.
Pour les combinaisons séquentielles des couples de descripteurs le meilleur résultat
obtenu pour la base ArSL est réalisé par la combinaison des moments Tchebichef et Hu (T-H)
avec un taux de 82.67%. Pour la base de Triesch sur fond clair, la meilleure combinaison
séquentielle de couples de descripteurs est celle de T-D des moments de Tchebichef avec le
p. 108
Chapitre5. Validation des approches proposées
descripteur géométrique avec un taux de 93.75%, et sur fond sombre est celle des moments
de Tchebichef et Hu T-H avec un taux de 82.37%.
On peut voir aussi que la combinaison séquentielle de deux descripteurs améliore
toujours le résultat obtenu par le premier descripteur, ceci prouve la complémentarité des trois
descripteurs. On note également que le meilleur descripteur individuel dans tous les cas
confondus est les moments de Tchebichef appliqués sur les contours externes et internes de la
forme de la main.
Les meilleurs taux de reconnaissance de la combinaison séquentielle de trois
descripteurs sont obtenus par le schéma T-H-D et avec un taux de 90.33% pour la base ArSL
et avec un taux de 84.63% pour la base de Triesch sur fond sombre. Pour la base de Triesch
sur fond clair le meilleur schéma est T-D-H avec un taux de 95.55%.
contre-tous. Donc pour chaque classe c un classificateur SVM c a été entrainé et utilisé pour
Le SVM c est entrainé comme suit pour chaque classe c, on note c la matrice calculée
à partir des vecteurs concaténés des trois descripteurs sur les postures de référence
correspondant à la classe c. Pour entrainer le classifieur SVM c , la matrice c est marquée 1 et
la matrice c des postures qui ne correspondent pas à la posture c est marquée par -1. Donc
suivant ce principe, 30 SVM ont été utilisée pour la base de l’alphabet Arabe ArSL et 10 pour
la base de Triesch.
Comme déjà précisé dans le chapitre précédent, la méthode de Platt [Platt 1999] a été
adoptée pour chaque SVM c afin de calculer la probabilité qu’une posture x appartienne à la
classe c. La lettre reconnue est celle qui a la plus forte probabilité sur les 30 SVM pour la
p. 109
Chapitre5. Validation des approches proposées
langue Arabe des signes et sur les 10 SVM pour la base de Triesch. Les taux de
reconnaissance obtenus sont représentés dans le tableau 5.2
Nous constatons d’abord que les résultats obtenus pour la reconnaissance des postures
de la langue des signes Arabe ont diminué par rapport à ceux obtenus par le classificateur
KNN en occurrence de 94.67% à 88.87%. Ceci est dû principalement au fait que les KNN
sont très performants quand il s’agit d’une base pas très large même si la référence comporte
un nombre petit d’échantillons. Cependant les SVM surpasse les KNN comme on le voit
clairement dans la base de Triesch quand la base référence est plus grande. Nous pouvons
conclure que les SVM malgré leur force de classification nécessitent comme toutes les
méthodes basées sur l’apprentissage, un minimum de sujets dans la base de référence. En effet
Les résultats obtenus par les SVM sont passé de 85.33% avec une base de référence de 3
personnes à 96.88% avec une base de référence de 8 personnes. En outre les KNN sont plus
stables même si la base de référence est petite, cela est dû principalement à leurs capacités de
faire face aux changements de prototypes, un fait déjà démontré dans l’étude faite par
T.Hastie et al. [Hastie et al 2008]. Donc pour un système à utilisateur indépendant employant
un petit nombre de sujets dans la base de référence nous jugeons que les KNN sont meilleur
pour atteindre cet objectif.
Pour étudier la robustesse de la méthode statistique proposée dans des conditions plus
réalistes, nous avons gardé la même base référence pour la base de l’alphabet de ArSL
constituée des postures réalisées sur un fond sombre, et nous avons testé la méthode sur les
postures effectuées sur des fonds complexes. Nous avons adopté la meilleure architecture
déterminée précédemment et avec les deux classificateurs SVM et KNN. Les résultats
obtenus sont résumés par la table 5.3.
p. 110
Chapitre5. Validation des approches proposées
Table 5.3. Les taux de reconnaissance obtenus pour la base ArSL sur des fonds complexes.
Les résultats obtenus ont été comparés à ceux des travaux relatés dans la littérature.
Les tables 5.4 et 5.5 résument les taux obtenus pour les méthodes jugées de référence sur les
bases Triesch et ArSL respectivement. Pour la base de Triesch nous avons reporté tous les
travaux qui ont respecté le protocole imposé dans le monde de la recherche c'est-à-dire le
protocole P1de J. Triesch et Von- Der-Malsburg [Triesch &Von 2002], et le protocole P2 de
[Just et al 2006].
Table 5.4. Comparaison avec les méthodes existantes (Base de Triesch)
p. 111
Chapitre5. Validation des approches proposées
Nous remarquons que notre système obtient de meilleurs résultats avec le protocole
P2, et pour le protocole P1 le meilleur résultat reste celui de Triesch et Von Der Malsburg
(2002). Ceci est dû principalement au fait que la méthode d’appariement élastique des
graphes peut être très efficace pour un nombre de postures limité (10 dans ce cas). Cependant
elle souffre de confusion si le nombre de postures à reconnaitre augmente ceci d’une part, et
d’autre part elle reste très coûteuse en temps de calcul (plusieurs secondes pour l’analyse
d’une seule image). Notre système a un temps de calcul de 1.36s en utilisant C++ avec un
processeur 2.10 GHz Intel core2 CPU.
Les résultats obtenus pour l’alphabet de la langue des signes Arabe ont été comparé de
manière indirecte aux résultats présentés dans la littérature, car les systèmes utilisés différent
en point de vue données et aussi mode. Tous ces systèmes ont été réalisés sur un fond simple
ou par l’utilisation de gant colorés, et sous le mode utilisateur dépendant.
Table 5.5. Comparaison avec les méthodes existantes (Base ArSL)
Pour la langue des signes Arabe notre système est le plus performant en dépit du mode
utilisateur indépendant et de la petite base de référence (4 personnes). En outre notre système
pour la l’alphabet de la langue des signes Arabe est très réaliste du moment qu’il n’impose
p. 112
Chapitre5. Validation des approches proposées
pas des conditions strictes de fonds ou d’éclairage et encore moins de porter des gants ou
tout autre artifice.
5.7 Conclusion
Dans ce chapitre, nous avons présenté les résultats obtenus par les approches
proposées.
Nous avons d’abord validé la méthode de segmentation et d’extraction de la main dans
les images avec fond complexe et conditions générales d’éclairage.
Nous avons ensuite présenté les résultats de reconnaissance obtenus par la méthode
syntaxique et qui peut être exploitable pour une application d’interfaces homme machine
gestuelle en temps réel.
Nous avons aussi démontré l’intérêt de l’utilisation des contours internes pour la
représentation des formes de la main.
Une analyse des descripteurs proposés a été réalisée montrant leur efficacité par
rapport à la problématique posée. Nous avons montré l’efficacité et la nécessité de combiner
les trois descripteurs proposés. Les résultats obtenus par les deux techniques de classifications
utilisées ont été exposés et discutés.
Enfin, nous avons comparé nos résultats avec les travaux relatées dans la littérature.
Les résultats obtenus par notre méthode sont satisfaisants. Notre méthode a atteint la
meilleure performance dans la base de Triesch avec le Protocol P2 avec un taux de 96.88% et
pour la base ArSL un taux de 94.67% sur un fond sombre et un taux de 89.35% sur fonds
complexes.
p. 113
Conclusion generale et Perspectives
Conclusion
Les interfaces homme machine sont en véritable mutation ces dernières années. Elles
sont sorties du domaine spécialisé qui leur a donné naissance à un domaine à vaste publique.
Les interfaces basées sur la gestuelle de la main ont pris la part du lion dans cette évolution.
Les gestes étant le moyen le plus naturel pour communiquer entre les hommes sont devenus
un moyen approprié pour communiquer avec toutes sortes de machines. D’autant plus que le
geste est un moyen non intrusif, et ne demande pas d’outils matériels couteux ni sophistiqués.
Dans cette thèse, notre objectif est de construire un système de reconnaissance des
postures de la main destinées à l’alphabet de la langue des signes. La langue des signes est un
moyen essentiel de communication chez les malentendants. Elle constitue une langue à part
entière avec ses règles d’orthographe et de conjugaison. L’épellation digitale (finger spelling
en anglais) constitue un des ses éléments de base. D’autre part beaucoup d’interfaces
gestuelles homme machine s’appuient sur les signes de l’épellation digitale pour concevoir
leurs systèmes.
Pour construire notre système, nous avons fixé un certain nombre d’objectifs qui
figurent parmi les défis de la reconnaissance des gestes et postures de la main de manière
générale et celle de la langue des signes en particulier. Parmi ces objectifs, nous pouvons citer
l’indépendance de l’utilisateur.
La majorité des systèmes qui donnent de bons résultats dans la littérature opèrent sur
le mode utilisateur dépendant c'est-à-dire les personnes impliqués pour l’entrainement du
système sont les mêmes que celles utilisés dans le test. Ceci est dû à la particularité
anatomique de la main chez chaque individu. Pour faire face aux problèmes de
l’indépendance des utilisateurs ainsi qu’à l’anatomie particulière de la main qui diffère d’une
personne à une autre, nous avons proposé une combinaison efficace de trois descripteurs dont
la complémentarité a été prouvée. Ceci nous a permis d’aboutir à des taux de reconnaissances
convenables avec une petite base de référence qui n’a pas dépassé 4 personnes pour l’alphabet
de la langue des signes Arabe, tout en respectant le mode utilisateur indépendant.
Conclusion générale et perspectives
Un second défi qui consiste au fait que notre système demeure opérationnel et ce quel
que soit l’environnement de travail: fond simple ou complexe et des éclairages variés et sans
aucune condition sur les paramètres de la caméra utilisée. Pour cela, nous avons commencé
par la segmentation basée sur les attributs couleur et texture de la peau ainsi qu’une
classification en réseau de neurones.
Ensuite, nous avons proposé deux approches pour aboutir à une reconnaissance
satisfaisante, à savoir, l’approche syntaxique et statistique. L’approche syntaxique à
l’avantage du temps mais elle couvre seulement un certain type de postures. La méthode
statistique un peu plus lente mais elle couvre un nombre très important de types de postures.
En outre, nous avons défini un nouveau descripteur géométrique qui nous a permis de
s’adapter aux problèmes posés pour la reconnaissance des postures de la langue des signes. Ce
descripteur est capable de faire la distinction entre les postures de la main qui ont les mêmes
configurations doigts et qui sont dans des orientations différentes puisque cela entraine des
lettres différentes dans la langue des signes.
Nous avons également introduit la représentation de la forme de la main par ces
contours internes et externe et que nous avons prouvé qu’ils améliorent la reconnaissance.
Les contours internes permettent de détecter les détails à l’intérieur de la forme de la main à
savoir la position des doigts.
Pour la base de Triesch [Triesch & Von 2002], notre système a obtenu la meilleure
performance sous le protocole 8-16 comparés aux autres travaux dans littérature sous le même
protocole. Et pour la langue Arabe nous pouvons dire que nous avons réalisé un système
opérant dans différentes conditions d’éclairage et avec de bons taux de reconnaissance sur un
fond simple et sur les fonds complexes.
Perspectives
Pour une application en temps réel, le temps de calcul des moments de Tchebichef doit
être réduit par parallélisation ou sur circuits FPGA.
Il serait aussi intéressant de voir l’efficacité de notre système quand il s’agit de signes à
deux mains. Pour cela, une architecture de décomposition par dichotomie est envisagée.
Possibilité d’intégrer de multiples vues afin de disposer plus d’information sur le signe
effectué dans n’importe quelle direction par rapport à la caméra.
p. 116
Conclusion générale et perspectives
p. 117
ANNEXE
Outils de Classification
Les réseaux de neurones sont un outil de classification, qui se base sur un concept
élémentaire qui consiste à extraire des combinaisons linéaires des données entrées comme
caractéristiques dérivées et modéliser la sortie par une fonction non linéaire de ces
caractéristiques. Cette approche s’inspire de la présentation d’un neurone biologique dont le
rôle est de transmettre un signal électrique issu des dendrites vers la terminaison axonique du
neurone. Parmi les structures de neurones deux se dégagent en termes de fréquence
d’utilisation :
Dans le premier cas la sortie y du neurone est une fonction non linéaire d’une
combinaison des entrées xi pondérées par les paramètres wi qu’on appelle poids. La
fonction responsable de la non linéarité est appelée fonction d’activation. Ce type de neurone
est l’élément de base pour les réseaux de neurones les plus utilisés actuellement à savoir les
perceptrons multicouches (MLP).
La sortie du neurone de base du perceptron multicouche a pour équation :
n
y f ( x1 , x2 ,..., xn ) th(b0 wi xi ) ( A.1)
i 1
Un réseau de neurones non bouclé (feed forward neural network) est un ensemble de
neurones connectés de manière à ce que l’information ne transite que des entrées vers les
sorties, sans retour en arrière. Les neurones qui effectuent la dernière opération s’appelle
neurone de sortie. Les autres neurones placées entre les neurones d’entrée et de sortie, sont en
nombre variable, et sont appelés les neurones cachés.
Ces neurones sont très souvent organisés par couches, les neurones de sortie
appartiennent à la couche de sortie, et les neurones cachés s’organisent dans plusieurs couches
appelées les couches cachées. Il y’a beaucoup de réseaux de neurones qui se limitent à une
p. 120
Annexe .Outils de Classification
seule couche cachée. Un exemple schématique est donné dans la figure A.2. Les réseaux de
neurones bouclés (feed- back) ont quant à eux la particularité
d’avoir au moins un chemin qui part et revient au même neurone.
Figure A.2 Schéma d’un réseau (feed forward) avec une seule couche cachée [Hastie et
al.2008].
L’apprentissage d’un réseau de neurones peut être défini comme une phase de
calibrage où les divers paramètres le constituant sont remis à jour jusqu’à ce que le réseau
approxime au mieux la fonction à laquelle il doit aboutir. Il y’a deux types d’apprentissage :
L’apprentissage supervisé
p. 121
Annexe .Outils de Classification
Il existe aussi des réseaux avec apprentissage non supervisé, pour lesquels on dispose
d’un ensemble de données, représentés par des vecteurs de grande dimension qu’on cherche à
regrouper selon des critères de ressemblances qui sont inconnus à priori.
La conception d’un réseau de neurones au sein d’une application doit passer par les
étapes suivantes :
Déterminer le type de réseau selon l’application : le premier choix se porte sur le type
de réseau à utiliser. Ce choix est en relation directe avec l’espace de variables discret ou
continu, s’il s’agit d’un espace discret les RBF ou les ondelettes seront choisies. En revanche
dans le cas continu une fonction d’activation sigmoïdale sera la plus adaptée.
Définir sa structure : une fois le type de réseau de neurones est choisi la seconde étape
est de définir sa structure le nombre d’entrées, le nombre de sorties, le nombre de couches
cachées et enfin le nombre de neurones par couche cachée.
Par la suite il faut calculer les paramètres à partir d’entrées pertinentes, avec pour
critère la minimisation de l’erreur au sens des moindres carrées. Une fois que les résultats sont
estimés satisfaisants on peut figer les paramètres.
Finalement, valider le réseau de neurones par des données externes à
l’apprentissage, afin de constater la faculté du réseau à accomplir la tâche qui lui est destinée.
L’algorithme des KNN introduit par B. Dasarathy [Dasarathy 1991] figure parmi les
plus simples algorithmes d’apprentissage artificiel. Dans un contexte de classification d’une
nouvelle observation x, l’idée fondatrice est de faire voter les plus proches voisins de cette
observation. La classe x est déterminé en fonction de la classe majoritaire des K plus proches
voisins de cette observation. La méthode KNN est donc est une méthode à base de voisinage
non- paramétrique. Ceci signifiant que l’algorithme permet de faire une classification sans
aucune hypothèse sur la fonction de classification y f ( x1 , x2 ,.., x p ) reliant les données
nécessitent qu’une distance soit définie sur l’espace de représentation. On attribue alors à une
observation x la classe ayant le plus de représentants parmi les k points d’apprentissages les
p. 122
Annexe .Outils de Classification
plus proches. Remarquons que la plupart des classifieurs utilisent à un moment donné une
stratégie similaire. Les KNN sont des classifieurs pour lesquels la distance utilisée est choisie
a priori et non apprise à partir de l’ensemble d’apprentissage.
Le choix de la distance est primordial au bon fonctionnement de la méthode. Le
paramètre K est aussi un autre facteur important dans la classification KNN. Le meilleur
choix de K dépend du jeu de données. En général, les grandes valeur de K réduisent l’effet du
bruit, mais rendent les frontières entre les classes moins distinctes. Il convient alors de faire
un choix de compromis entre la variabilité associée à une faible valeur de K contre un
surlissage (i.e. gommage de détails) pour une forte valeur de K. dans le travail de cette thèse
nous sommes basé sur un choix de K qui minimise l’erreur de classification.
Figure A.3 Principe de la classification par un KNN. La distance euclidienne est utilisée.
A.3.1 Historique
Les machines à vecteurs support ont été introduites en 1982, lorsqueV. Vapnik a
proposé un premier classifieur basé sur la minimisation du risque structurel baptisé SVM. Ce
premier modèle était toutefois linéaire et l’on ne connaissait pas encore le moyen d’induire
des frontières de décision non linéaires. En 1992 B. Boser et al. [ Boser el al 1992] ont
proposé d’introduire les noyaux-non linéaires pour entendre le SVM au cas non linéaire.
Enfin C. Cortes et V. Vapnik [Cortes & Vapnik 1995] ont proposé une version régularisée
du SVM qui tolère les erreurs d’apprentissage. Depuis les SVM (le pluriel est utilisé pour
désigner les variantes du SVM) sont utilisées dans de nombreux problèmes d’apprentissage :
reconnaissance de forme, catégorisation de texte ou encore diagnostic médical.
p. 123
Annexe .Outils de Classification
A.3.2 Définition
Le SVM est une méthode de classification binaire par apprentissage supervisé. Elle
repose sur l’existence d’un classifieur linéaire dans un espace approprié. Puisque c’est un
problème de classification à deux classes, cette méthode fait appel à un jeu de données
d'apprentissage pour apprendre les paramètres du modèle. Elle est basée sur l'utilisation de
fonction dites noyau qui permet une séparation optimale des données.
Dans la présentation des principes de fonctionnements, nous schématiserons les
données par des « points » dans un plan.
Les SVM peuvent être utilisés pour résoudre des problèmes de discrimination, c'est-à-
dire décider à quelle classe appartient un échantillon, ou de régression, c'est-à-dire prédire la
valeur numérique d'une variable. La résolution de ces deux problèmes passe par la
construction d'une fonction h qui à un vecteur d'entrée x fait correspondre une sortie y :
y h(x) .
p. 124
Annexe .Outils de Classification
En général, la classification d’un nouvel exemple inconnu est donnée par sa position
par rapport à l'hyperplan optimal.
Le cas simple est le cas d'une fonction discriminante linéaire, obtenue par combinaison
linéaire du vecteur d’entrée x ( x1 , x2 ,..., xN ) , avec un vecteur de poids ( 1 , 2 ,..., N )
h( x ) tx 0 ( A.3)
Parmi les modèles des SVM, on constate les cas linéairement séparables et les cas non
linéairement séparables. Les premiers sont les plus simples car ils permettent de trouver
facilement le classificateur linéaire. Dans la plupart des problèmes réels il n’y a pas de
séparation linéaire possible entre les données, le classificateur de marge maximale ne peut pas
être utilisé car il fonctionne seulement si les classes de données d’apprentissage sont
p. 125
Annexe .Outils de Classification
linéairement séparables, un exemple illustrant les cas linéairement séparables des cas non
linéairement séparables est présenté dans la figure A.5.
Pour surmonter les inconvénients des cas non linéairement séparable, l’idée des SVM
est de changer l’espace des données. La transformation non linéaire des données peut
permettre une séparation linéaire des exemples dans un nouvel espace. On va donc avoir un
changement de dimension. Cette nouvelle dimension est appelé « espace de redéscription ».
En effet, intuitivement, plus la dimension de l’espace de re-description est grande, plus
la probabilité de pouvoir trouver un hyperplan séparateur entre les exemples est élevée. Le
seul problème posé dans la détermination de l’espace de redéscription réside dans le temps de
calcul élevé. Pour pallier à ce problème on utilise ce qu’on appelle les fonctions noyaux.
Parmi les plus utilisés nous pouvons citer : le linéaire, le Gaussien, le Laplacien. Un exemple
d’une séparation de deux classes moyennant un noyau à base Radiale (RBF) est présenté dans
la figure A.6.
p. 126
Annexe .Outils de Classification
Figure A.6 Séparation de deux classes avec SVM à base Radiale [Cornuégols & Miclet,
2002].
Les SVM qui étaient définis au départ pour un problème à bi classes ont été généralisé
pour les problèmes à multi classes en utilisant les méthodes de décomposition qui permettent
d’aborder le problème à multi classes comme une combinaison de problèmes à bi classes. On
peut en citer deux approches :
L’approche un – contre- tous. C’est l’une des plus ancienne approche, elle consiste à
utiliser un classificateur binaire par catégorie. Le k-iéme classificateur est destiné à distinguer
la catégorie d’indice k de tous les autres. L’idée de stratégie alors est de construire autant de
classifieurs que de classes.
L’approche un -contre –un. C’est aussi une approche très naturelle qui consiste à
prendre les catégories par couple. Donc un classificateur d’indice k, l est sensé distinguer la
catégorie k de la catégorie l. cette approche requiert la construction de N (N-1)/2 SVM, où N
est le nombre de classes à traiter.
p. 127
Bibliographie
[Al-Jarrah & Halawani 2001] Al-Jarrah, O., Halawani, A., 2001. Recognition of gestures in
Arabic sign language using neuro-fuzzy systems. In Artificial. Intelligence. 133 (1-2), pp.117-
138, 2001.
[Al-Roussan & Hussain 2001] Al-Roussan, M., Hussain M., Automatic Recognition of
Arabic Sign Language Finger spelling. In International Journal of computers and their
applications (IJCA). Special issue on Fuzzy Systems. 8(2), pp. 80-88, 2001.
[Altun & Albayrak 2011] Altun ,O., Albayrak, S. Turkish finger spelling recognition system
using generalized hough transform, interest region, and local descriptors. In Pattern
recognition letters, 32(13), pp.1626-1632, 2011.
[Aran et al 2009] Aran, O., Burger, T., Caplier, A., Akarun, L., A belief-based sequential
fusion approach for fusing manual signs and non-manual signals. Pattern Recognition, Vol.
42, pp. 812–822, 2009.
[Argyros & Lourakis 2006] Argyros A, Lourakis MIA, Binocular hand tracking and
reconstruction based on 2D shape matching. Proceedings of the international conference on
pattern recognition (ICPR), Hong-Kong, Vol.1, pp. 207-210 2006.
Bibliographie
[Assalaeh & Al-Roussan 2005] Assalaeh, K., Al-Roussan, M., Recognition of Arabic Sgn
Language Alphabet using Polynomial Classifier. EURASIP journal on Applied Signal
Processing. Vol.13, pp. 2136-2145, 2005.
[Assan & Grobel 1997] Assan, M., Grobel, K., Video-Based Sign Language Recognition
Using Hidden Markov Models, Gesture Workshop, pp. 97-109, 1997.
[Atashpaz & lucas 2007] Atashpaz-Gargari, E., Lucas, C., Imperialist competitive
algorithm: An algorithm for optimization inspired by imperialistic competition. IEEE
Congress on Evolutionary Computation , pp.4661-4667, 2007.
[Athistos & Sclaroff 2003] Athitsos, V., Sclaroff S., Estimating 3D Hand Pose from a
Cluttered Image. CVPR (2), pp.432-442, 2003.
Ban et al 2014.
[Ban et al 2014] Ban, Y., Kim, S.K., Kim, S., Toh, K.A., Lee, S., Face detection based on
skin color likelihood. In Pattern Recognition journal 47(4) pp.1473-1485, 2014.
[Bauer & Kraiss 2002] Bauer, B., Kraiss, K. F., Video-based sign recognition using self-
organizing subunits. In Proceedings of the 16th International Conference on Pattern
Recognition, pp. 434–437, 2002.
[Bauer & Hienz 2000] Bauer, B., Hienz, H., Relevant features for video-based continuous
sign language recognition. In FG00 Proceedings of the Fourth. IEEE international
Conference on automatic face and gesture recognition, pp. 440-445, 2000.
[Belongie et al 2002] Belongie S., Malik J., Puzicha J., Shape matching and object
recognition using shape contexts. IEEE Trans Pattern Anal Mach Intell, 24(4), pp. 509–522,
2002.
p. 130
Bibliographie
[Bergasa et al 2000] Bergasa, L. M., Mazo, M., Gardel, A., Sotelo, M. A., Boquete, L.,
Unsupervised and adaptive Gaussian skin-color model, Image Vision Comput. 18 (12), pp.
987–1003, 2000.
[Bin Ghazali et al 2012] Bin Ghazali, K.H., Ma, J., Xiao, R. , Lubis, S.A. An innovative
face detection based on YCgCr color space. In Physics Procedia 25 pp.2116-2124, 2012.
[Birk et al 1997] Birk H, Moeslund TB, Madsen C.B., Real-time recognition of hand
alphabet gestures using principal component analysis. Proceedings of the Scandinavian
conference on image analysis, pp. 261-268, Lappeenranta 1997.
[Bolt & Hernandez 1992] Bolt, R.A., Herranz, E., Two-handed gesture in multi-modal
natural dialog. In: Proceedings of the 5th annual ACM symposium on user interface software
and technology, ACM Press, pp 7–14, 1992.
[Boser et al 1992] Boser, B. Guyon, I., Vapnik, V., A training algorithm for optimal
margin classifiers. In Fifth Annual Workshop on Computational Learning Theory, Pittsburg,
pp.144-152,1992.
[Bourke et al 2007] Bourke, A., O’Brien, J., Lyons, G., Evaluation of a threshold-based tri-
axial accelerometer fall detection algorithm. Gait & Posture, 26(2), pp. 194–199, 2007.
[Bowden & Sarhadi 2002] Bowden, R., Sarhadi, M., A non-linear model of shape and
motion for tracking finger spelt American sign language. Image Vision and Computing. 20
(9-10), pp. 597-607, 2002.
[Bowden et al 2004] Bowden, R., Windridge, D., Kadir, T., Zisserman, A.. A linguistic
feature vector for the visual interpretation of sign language. Proceedings of the Eighth
European Conference on Computer Vision, pp. 391–401, May 2004.
[Bradski & Davis 2000] Bradski, G., Davis, W., Motion segmentation and pose recognition
with motion history gradients, WACV 2000, pp. 238-244.
[Bradski & Davis 2002] Bradski,G., Davis, W., Motion segmentation and pose recognition
with motion history gradients. Machine Vision and Applications 13(3): 174-184, 2002.
p. 131
Bibliographie
[Broadtz 1966] Broadtz, P., Textures: A Photographic Album for Artists and Designers.
Dover, New York. 1966.
[Brown et al 2001] Brown, D., Craw, I., Lewthwaite, J., A SOM based approach to skin
detection with application in real time systems, BMVC01 pp.1-10, 2001.
[Buser & Imbert 1987] Buser, P., Imbert, M., Neurophysiologie fonctionnelle Vol IV :
Vision Paris Hermann.
[Cai & Goshtasby 1999] Cai, J., Goshtasby, A., Detecting human faces in color images,
Image Vision Comput, Vol. 18, pp. 63–75, 1999.
[Caetano & Barone 2001] Caetano, T.S., Barone, D.A.C., A probabilistic model for the
human skin-color, ICIAP01, pp. 279–283, 2001.
[Cao & Balakrishnan 2003] Cao, X., Balakrishnan, R., Visionwand: interaction techniques
for large displays using a passive wandtracked in 3d. In: ‘UIST ’03: proceedings of the 16th
annual ACMsymposium on User Interface software and technology. ACM Press, New York,
pp. 173–182, 2003.
[Chai & Bouzerdoum 2000] Chai, D., Bouzerdoum, A., A Bayesian approach to skin color
classification in YCbCr color space, IEEE TENCON00, vol. 2, pp. 421–424, 2000.
[Chang et al 2006] Chang, C-C., Chen, J. J. , Tai, W.K, Han, C.C., New Approach for Static
Gesture Recognition. Journal of Information Science and Engineering, Vol. 22, pp. 1047–
1057, 2006.
[Chen & Chiang 1997] Chen, C., Chiang, S.P. Detection of human faces in colour images,
IEEE Proc. Vision Image Signal Process. 144 (6), pp. 384–388, 1997.
p. 132
Bibliographie
[Chen et al 2003] Chen, F., Fu, C., Huang, C., Hand gesture recognition using a real-time
tracking method and Hidden Markov Models, Image and Vision Computing, vol. 21, no. 8,
pp. 745–758, 2003.
[Chetverikov 2003] Chetverikov, D., A simple and efficient algorithm for detection of high
curvature points in planar curves. 10th International conference, CAIP 2003, Groningen, the
Netherlands, 2003.
[Conners & Harlow 1980] Conners, R.W., Harlow, C.A.”A theoretical comparison of
texture algorithms”,IEEE Trans. on Pattern Analysis and Machine Intell., Vol. PAMI-2, pp.
204-222,1980.
[Cooper et al 2011] Cooper, H., Holt, B., Bowden, R., 2011. Sign language recognition.
Chapter in Visual Analysis of Humans: Looking at people . Springer, pp. 539-562, 2011.
[Cootes et al 1995] Cootes, T.F., Taylor C.J., Cooper, D.H., Graham, J. Active shape
models—their training and applications. Computer Vision and Image Understanding, 61(1):
pp. 38–59, 1995.
[Cornuégols & Miclet, 2002] Cornuéglos, A., Miclet, L., REF Apprentissage Artificiel
méthodes et Algorithmes, Eyrolles, 2002.
[Cortes & Vapnik 1995] Cortes, C., Vapnik, V. Support-vector networks. In Machine
Learning, 20 (3), pp. 273-297. 1995.
[Cui et al 1995] Cui Y., Swets D., Weng J., Learning-based hand sign recognition using
shoslif-m. International workshop on automatic face and gesture recognition, Zurich, pp. 201–
206, 1995.
[Cui & Weng1996] Cui Y., Weng J., Hand sign recognition from intensity image sequences
with complex background. Proceedings of the IEEE computer vision and pattern recognition
(CVPR), pp 88–93, 1996.
p. 133
Bibliographie
[Cui & Weng 2000] Cui Y., Weng J., Appearance-based hand sign recognition from intensity
image sequences. Computer Vision and Image Understanding, 78(2),pp.157–176, 2000.
[Dahmani 2010] Dahmani, D., Hand posture recognition using quadratic curves and shape
textual descriptor. IADIS 2010, International conferences computer graphics, Visualization,
computer vision and image processing, pp. 391-395, Germany, 2010.
[Dahmani & Larabi 2011] Dahmani,D.,Larabi,S., User independent system of hand postures
recognition using part-based shape representation. In IEEE proceedings of SITIS Signal
image technology & Internet based systems, pp. 366-373, France 2011.
[Dahmani & Larabi 2014] Dahmani, D.,Larabi, S. User independent system for sign
language finger spelling recognition. In Visual communication and image representation,
Elsevier; DOI information: 10.1016/j.jvcir.2013.12.019, 2014.
[Dai & Nakano1996] Dai, Y. Nakano, Y., Face-texture model based on SGLD and its
application in face detection in a color scene, Pattern Recognition, 29 (6), pp. 1007–1017,
(1996).
[Dardas & Georganas 2011] Dardas,N.H., Georganas , N.D., Real time hand gesture
detection and recognition using bag-of- features and Support Vector machine techniques. In
IEEE Transactions on Instrumentation and Measurement. Vol 60 (11), pp. 3592-3607, 2011.
[Darrell & Pentland 1995] Darrell, T., and Pentland, A., ``Cooperative Robust Estimation
using Layers of Support'', IEEE Transactions on Pattern Analysis and Machine Intelligence,
17(5), pp. 474-487, 1995.
p. 134
Bibliographie
[Darrell et al 1996] Darrell, T., Essa, I. ,Pentland, A. Task-specific gesture analysis in real-
time using interpolated views. IEEE Transactions on Pattern Analysis and Machine
Intelligence 18(12), pp. 1236–1242, 1996.
[Dasarathy 1991] Dasarathy, B., Nearest Neighbor (NN) Norms: NN Pattern Classification
Techniques, McGraw-Hill Computer Science Series, IEEE computer Society Press, Las
Alamitos, California, pp.217-224, 1991.
[Deng & Tsui 2002] Deng, J., Tsui, H-T., A Novel Two-Layer PCA/MDA Scheme for Hand
Posture Recognition. ICPR(1), pp. 283-286, 2002.
[Dreuw et al 2008] Dreuw, P., Stein, D., Desealers, T., Rybach, D., Zahedi, M., Ney, H.,
Spoken Language Processing Techniques for Sign Language Recognition and Translation.
Technology and Disability. Vol 20 number 2, pp.121-1332008.
[Dreyfus et al 2004] Dreyfus, G., Martinez, J.M., Samueldis, M., Gordon M.B., Badran F.,
Thiria, S., Herault, L., Réseaux de neurones, méthodologie et applications, sous la direction
de Gérard Dreyfus, 2ème édition, Eyrolles, 2004.
[Elons et al 2013(a)] Elons, S. A,. Abul-ela, M., Tolba, M. F., Neutralizing lighting non-
homogeneity and background size in PCNN image signature for Arabic Sign Language
recognition. Neural Computing and Applications, vol 22, pp.47-53, 2013.
[Elons et al 2013(b)] Elons, S. A,. Abul-ela, M., Tolba, M. F., A proposed PCNN features
quality optimization technique for pose-invariant 3D Arabic sign language recognition. Appl.
Soft Comput. 13(4) pp.1646-1660, 2013.
[Feris et al 2004] Feris, R., Turk, M., Raskar, R., Tan, K., Ohashi, G.: Exploiting depth
discontinuities for vision-based fingerspelling recognition. In: Procs. of CVPR : Wkshp :, vol.
10. pp.155, IEEE Computer Society Washington, DC, USA, Washington, DC, USA (2004)
p. 135
Bibliographie
[Fitzgibbon et al 1999] Fitzgibbon, A., Pilu, M., Fisher, R.B. Direct Least square fitting of
ellipses. In Pattern Analysis and Machine Intelligence. Vol 21 (5), pp. 476-480, 1999.
[Flusser et al 2009] Flusser, J., Zitova, B., Suk, T. Moments and moment invariants in
pattern recognition .John Wiley & Sons, Ltd, 2009.
[Fu 1982] Fu, K. S., Syntactic Pattern Recognition and Applications. New Jersey: Prentice
Hall, 1982.
[Fu et al 2004] Fu, Z., Yang, J., Hu, W., Tan, T., Mixture clustering using multidimensional
histograms for skin detection, ICPR04, pp. 549–552, 2004.
[Gao et al 2000] Gao, W., Ma,J., Wu,J., Wang,C., Sign Language Recognition Based on
HMM/ANN/DP. International journal of Pattern Recognition and Artificial Intelligence,
14(5), pp. 587-602, 2000.
[Gao et al 2004] Gao, W. Fang, G.L. Zhao, D.B. , Chen, Y.Q.A., A Chinese sign language
recognition system based on SOFM/SRN/HMM, Pattern Recognition Vol 37, pp. 2389–240,
2004.
[Geer 2004] Geer, D., Will gesture recognition technology point the way, IEEE computer, pp.
20-23, 2004.
[Goza et al 2004] Goza, S.M., Ambrose, R.O., Diftler, M.A., Spain I.M., Telepresence
control of the nasa/darpa robonaut on a mobility platform. In: Conference on human factors in
computing systems. ACM Press, pp 623–629,2004.
p. 136
Bibliographie
[Graham 1972] Graham, R.L. An Efficient Algorithm for Determining the Convex Hull of a
Finite Planar Set. Information Processing Letters 1, pp. 132-133, 1972.
[Gomez et al 2002] Gomez, G., Sanchez, M., Sucar, L.E., On selecting an appropriate colour
space for skin detection, Springer-Verlag: Lecture Notes in Artificial Intelligence, vol. 2313,
2002, pp. 70–79.
[Gomez & Morales 2002] Gomez, G., Morales, E., Automatic feature construction and a
simple rule induction algorithm for skin detection, Proceedings of Workshop on Machine
Learning in Computer Vision, pp. 31–38, 2002.
[Gonzalez & Woods 1992] Gonzalez, R. C.; Woods, R. E. Digital Image Processing,
Addison-Wesley Publishing Company, Inc. 1992.
[Gu & Su 2008] Gu, L., Su, J., Natural Hand Posture Classification based on Zernike
Moments and Hierarchical Classifier. International Conference on Robotics and Automaton.
IEEE, pp. 3088–3093, 2008.
[Han et al 2009] Han, W. Tao, D.Wang,X.C. Tai, X. Wu, Image segmentation based on
GrabCut framework integrating multiscale nonlinear structure tensor, IEEE Transactions on
Image Processing 18(10) 2289–2302. Conference on Robotics and Automaton. IEEE, pp.
3088–3093, 2009.
[Handouyahia et al 1999] Handouyahia, M., Ziou, D., Wang, S., Sign language recognition
using moment-based size functions. In Proc. Intl. Conf. on Vision Interface, pp. 210–216,
1999.
p. 137
Bibliographie
[Haralick et al 1973] Haralick, R., Shanmugan, K., Dinstein, I., Textural features for image
classification. In IEEE Transactions On Systems, Man, and Cybernetics SMC-3 ,pp.610–621,
1973.
[Heap & Hogg 1996] Heap,.T, Hogg,D. Towards 3Dhand tracking using a deformable
model. In: IEEE international conference automatic face and gesture recognition, Killington,
pp. 140–145. (1996).
[Hmeidi et al 2007] Hmeidi, S., Hawashin, B., El-Qawasmeh, E., Performance of KNN and
SVM classifiers on full word Arabic articles. Advanced Engineering Informatics 22(1)pp.
106-111, 2008.
[Hoang et al 2005] Hoang, M.A., Geusebroek, J.M., Smeulders, A.W., Colour texture
measurement and segmentation, Signal Processing, 85(2), pp. 265–275, 2005.
[Hong et al 2007] Hong, S., Setiawan, N., Lee, C.: Real-time vision based gesture recognition
for human-robot interaction. In: Procs. of Int. Conf. on Knowledge-Based and Intelligent
Information & Engineering Systems, Italy, pp.413-418, 2007
[Hornik et al 1989] Hornik, K., Stinchcombe, M., White, H., Multilayer feedforward
networks are universal Approximators. In neural networks, VOL 2, pp. 359-366, 1989.
[Howard 1982] Howard, I. P., Human visual orientation. Chichester: John Wiley & Sons,
1982.
[Howarth & Rüger 2004] Howarth, P. Rüger, S.M. : Evaluation of Texture Features for
Content-Based Image Retrieval. CIVR 2004, pp. 326-334.
[Hsu et al 2002] Hsu, R.L., Abdel-Mottaleb, M., Jain, A.K., Face detection in color images,
IEEE Trans. Pattern Anal. Machine Intell. 24 (5), pp. 696–706.
p. 138
Bibliographie
[Hu 1962] Hu, M.-K., Visual pattern recognition by moment invariants, information theory.
In IEEE IRE Transactions, 8 (2), pp. 179–187, 1962.
[Huang & Huang 1998] Huang, C.H., Huang, W.Y., Sign language recognition using model-
based tracking and a 3D Hopfield neural network. Machine Vision and Applications (10), pp.
292–307, 1998.
[Huang et al 2000] Huang, C.L., Wu, M.S., Jeng, S.H., Gesture recognition using the multi-
PDM method and hidden Markov model. Image Vision Comput. 18(11)pp. 865-879 ,2000.
[Huang & Jeng 2001] Huang, C., Jeng,S., “A model-based hand gesture recognition system,”
Machine Vision and Application, vol. 12, no. 5, pp. 243–258, 2001.
[Hwang & Lee 2011] Hwang, C. L., Lee, H.W., The command control by hand gesture with
Hu and contour sequence moments and probability neural network. In Proceedings of the
IEEE international conference on Systems, Man and Cybernitics (SMC), pp. 2056-2061,
2011.
[Idrissa & Acheroy 2002] Idrissa, M. Acheroy, Texture classification using Gabor filters,
Pattern Recognition Letters . Vol. 23, pp. 1095–1102, 2002.
[Idrissi et al 2005] Idrissi, N., Martinez, J., Aboutadjine, D., Selecting a discriminant subset
of co-occurrences matrix features for texture based retrieval. Proceedings of International
symposium of visual computing, pp. 696-703, 2005.
[Ilea & Whelan 2011] Ilea, D.E., Whelan, P.F. Image segmentation based on the integration
of colour-texture descriptors- A review. In Pattern Recognition ,Vol. 44(10-11), pp. 2479-
2501, 2011.
[Imagawa et al 2000] Imagawa, K., Matsuo, H., Taniguchi, R., Arita, D., Lu, S. ,Igi, S.
“Recognition of local features for camera-based sign language recognition system,” in Proc.
International Conference on Pattern Recognition, vol. 4, pp. 849–853, 2000.
p. 139
Bibliographie
[Imai et al 2004] Imai, A. , Shimada, N., Shirai, Y. , “3-D hand posture recognition by
training contour variation,” in Proc. 6th IEEE International Conference on Automatic Face
and Gesture Recognition, pp. 895–900, 2004.
[Inition] http://inition.co.uk/3D-Technologies/cyberglove-systems-cybertouch.
[Jang 1993] Jang, J.S .R. ANFIS: adaptive-network-based fuzzy inference system. IEEE
Transactions on Systems, Man and Cybernetics, 23 (3), pp .665-685, 1993.
[Jebara & Pentland 1998] Jebara, T., Pentland, A., Maximum conditional likelihood via
bound maximization and the CEM algorithm, Advances in Neural information processing
systems, pp.494-500, the MIT Press 1998.
[Jiang et al 2013] Jiang, F., Fischer, M., Ekenel, H.K, Shi, B.E., Combining texture and
stereo disparity cues for real-time face detection. Sig. Proc.: Image Comm. 28(9): 1100-1113
2013.
[Jones & Rehg 2002] Jones, M. J., Rehg, J. M., Statistical color models with application to
skin detection, J. Comput. Vision, 46 (1), pp. 81–96, 2002.
[Just et al 2006] Just, A., Rodriguez, Y., Marcel, S., Hand posture classification and
recognition using the modified census transform.7th Internat. Conf. on Automatic Face and
Gesture Recognition, FGR. pp. 351–356, 2006.
[Julesz 1962] Julesz, B., VisuaI Pattem Discrimination, Nol. 84-92, Il41 IRE Trans Inform.
Theory, Vol.1, 1962.
[Kadous 1996] Kadous, M.W., Machine recognition of Australian signs using Power gloves:
Towards large-lexicon recognition of sign languages. Workshop on the Integration of
Gestures in Language and Speech, Wilmington Delaware. pp.165-174 , 1996.
p. 140
Bibliographie
[Kakumanu et al 2007] Kakumanu, P., Makrogiannis, S., Bourbakis, N., A survey of skin-
color modeling and detection methods. In Pattern Recognition, Vol 40, pp. 1106-1122, 2007.
[Karam 2006] Karam,M. A framework for research and design of gesture based human
computer interaction. PhD thesis university of Southampton.
[Karami et al 2011] Karami, A., Zanj, B., Sarkaleh, A., Persian sign language recognition
using Walvet transform and neural networks. In Expert Systems with Applications, vol. 38
pp. 2661-2667, 2011.
[Kelly et al 2010] Kelly, D., McDonald, J., Markham, C., A person independent system for
recognition of hand postures used in sign language. In Pattern Recognition Letters. Vol. 31,
pp. 1359-1368, 2010.
[Kim et al 1996] Kim, J.S., Jang, W., Bien,Z., A dynamic gesture recognition system for the
Korean sign language (KSL). In IEEE Transactions. On Systems, Man, Cybernetics. 26(2),
pp. 354–359, 1996.
[Kim et al 2008] Kim, C. , You, B-J., Jeong M-H., Kim, H., Color segmentation robust to
brightness variations by using B-spline curve modelling, Pattern Recognition 41 pp.22–37,
2008.
[Kramer & Leifer 1987] Kramer, J., Leifer, L., An expressive and receptive communication
aid of the deaf, in proceedings of the annual conference IEEE engineering in medicine and
biology Society, Boston USA.1987.
[Larabi et al 2003] Larabi, S., Bouagar S. , Trespademe F.M., Lopez ,E. , XLWDOS
language for writing descriptors of outline shapes, in the LNCS proceedings of Scandinavian
conference on image analysis. Goteborg, pp.1014-1021, 2003.
[Last et al 2002] Last, M., Bunke, H., Kandel, A., A feature based serial approach to
classifier combination. In Pattern Analysis and Applications, Vol. 5(4), pp. 385-389, 2002.
p. 141
Bibliographie
[Lee & Yoo 2002] Lee, J.Y. , Yoo, S.I., An elliptical boundary model for skin color
detection, Proceedings of the International Conference on Imaging Science, Systems and
Technology, 2002.
[Lejeune et al 2002] Lejeune, F., Braffort, A., Desclés J-P., Study of semantic representations
of French sign language sentences. Gesture and sign language in human-computer interaction.
LNAI 2298, Springer 2002.
[Lenman et al 2002] Lenman, S., Bretzner, L., Thuresson, B., Using marking menus to
develop command sets for computer vision based hand gesture interfaces. In: Proceedings of
the second Nordic conference on human–computer interaction, ACM Press, pp 239–242,
2002.
[Li & Zhang 2004] Li S, Zhang H., Multi-view face detection with oat-boost. IEEE Trans
Pattern Anal Mach Intell, 26(9), pp. 1112–1123, 2004.
[Li & Wachs 2014] Li, Y-T., Wachs, J.P. , HEGM : Hierarchical Elastic Graph Matching
for hand gesture recognition. In Pattern Recognition 47(1), pp. 80-88,2014.
[Licsr & Szirnyi 2005] Licsr, A., Szirnyi, T., User-Adapative Hand Gesture Recognition
System with interactive training .In Image Vision Computing .Vol .23 (12), pp.1102-1114,
2005.
[Lin et al 2000] Lin, J., Wu,Y., Huang,T. S., Modelling the constraints of human hand
motion. In proc IEEE Workshop on human motion, pp. 121-126, 2000.
[Malima et al 2006] Malima, A., Ozgur, E., Cetin, M., A Fast Algorithm for Vision-based
Gesture Recognition for Robot Control. In 14th IEEE conference on Signal processing and
Communication Applications, pp.1-4 , 2006.
[Mallat 1989] Mallat, S., A theory for multiresolution signal decomposition: the walvet
transform, IEEE Transaction on pattern analysis and machine intelligence, 11, pp.674-693,
1989.
p. 142
Bibliographie
[Marques & Vilaplana 2000] Marques, F., Vilaplana, V., A morphological approach for
segmentation and tracking of human face, ICPR 2000.
[Martin et al 1998] Martin, J., Devin, V., Crowley, J., Active hand tracking. In IEEE
conference on automatic face and gesture recognition, Nara, Japan, pp. 573–578, 1998.
[Mckenna et al 1998] McKenna, S., Gong, S., Raja, Y., Modeling facial colour and identity
with Gaussian mixtures, Pattern Recognition, 31 (12), pp.1883–1892, 1998
[Mirmehdi & Petrou 2000] Mirmehdi, M., Petrou, M.: Segmentation of Color Textures.
IEEE Trans. Pattern Anal. Mach. Intell. 22(2), pp. 142-159, 2000.
[Mitobe et al 2007] Mitobe, K., Sato, J., Kaiga, T., Yukawa, T., Miura, T., Tamamoto, H. and
Yoshimura, N., Development of a High Precision Hand Motion Capture System and an Auto
Calibration Method for a Hand Skeleton Model, ACM SIGGRAPH 2007,
[Mohandes et al 2012] Mohandes, M., Deriche, M., Johar, U., Ilyas, S., A signer-independent
Arabic Sign Language recognition system using face detection, geometric features, and a
Hidden Markov Model. Computers & Electrical Engineering 38(2),pp.422-433, 2012.
[Mukundan et al 2001] Mukundan, R., Ong, S. H., Lee, P. A., Image analysis by Tchebichef
moments. In IEEE Transactions on image processing. 10(9), pp.1357-1364, 2001.
p. 143
Bibliographie
[Nabiyev & Günay 2008] Nabiyev, V., Günay, A. Towards A Biometric Purpose Image
Filter According To Skin Detection. In The Second International Conference Problems of
Cybernetics and Informatics, pp.10-12, 2008.
[Nammalwar et al 2010] Nammalwar, P., Ghita, O. Whelan, P.F., A generic framework for
colour texture segmentation, Sensor Review 30(1) pp. 69–79, 2010.
[Nanni et al 2014] Nanni, L., Lumini, A., Dominio, F., Zanuttigh, P., Precise and effective
face detection based on both grey-level image and depth map. Applied Computing and
Informatics doi :http://dx.doi.org/10.1016/j.aci.2014.04.001. 2014.
[Ng & Ranganath 2000] Ng, C.W., Ranganath, S. Gesture recognition via pose
classification, in Proc. 15th International Conference on Pattern Recognition, vol. 3, pp. 699–
704, 2000.
[Ong & Bowden 2004] Ong, E.J., Bowden,R., A boosted classifier tree for hand shape
detection. In proceedings of sixth international conference IEEE on Automatic face and
gesture recognition, pp .889-894.2004.
[Ong & Ranganath 2005] Ong, C. W., Ranganath, S.,: Automatic Sign Language Analysis:
A Survey and the Future beyond Lexical Meaning. IEEE Transactions on Pattern Analysis
and Machine Intelligence. 27(6),pp. 873-891, 2005.
[Osawa et al 2000] Osawa N., Asai K., Sugimoto Y.Y., Immersive graph navigation using
direct manipulation and gestures, In: ACM symposium on virtual reality software and
technology. ACM Press, pp .147–152, 2000.
[Papakostas et al 2010] Papakostas, G. A., Koulouriotis, D. E., Karakasis, E. G.,
Computation strategies of orthogonal image moments: A comparative study. In Applied
Mathematics and Computation, pp.1–17,2010.
[Pavlovic et al 1996] Pavlovic v., Sharma, R., T., Huang. Gestural interface to a visual
computing environment for molecular biologists. In IEEE second international conference on
automatic face and gesture recognition. , pp 30-35, 1996.
p. 144
Bibliographie
[Petrou et al 2007] Petrou, M., Talebpour, A., Kadyrov, A., Reverse engineering the way
humans rank texture. Pattern Analysis and Applications.10(2) ,pp.101-114, 2007.
[Platt 1999] Platt, J.C., Probabilistic outputs for support vector machines and comparisons to
regularized likelihood methods. In Advances in Large Margin Classifiers. MIT Press.1999.
[Premartne et al 2012] Premartne, P., Ajaz, S., Premartne, M., Hand gesture tracking and
recognition system using Lucas-Kanade algorithms for control of consumer electronics. In
Neurocomputing vol .116, pp. 242-249, 2012.
[Powel 1987] Powell, M.J.D. Radial basis function for multivariable interpolation: a review,
Algorithms for approximation, pp. 143-167, 1987.
[Priyal & Bora 2010] Priyal, S. P., Bora P. K., A study on static hand gesture recognition
using moments, IEEE International Conference on Signal Processing and Communications
(SPCOM), pp.1-5, 2010.
[Priyal & Bora 2013] Priyal,P.S,Bora,P.K, A robust static hand gesture recognition using
based geometry normalizations and Krawtchouk moments. Pattern recognition, vol (46), pp.
2202-2219, 2013.
[Radkowski & Stritzke 2012] Radkowski, R., Stritzke, C. Interactive hand gesture-based
assembly for augmented reality applications. In: ACHI 2012: the fifth international
conference on advances in computer–human interactions, IARIA, pp 303–308, 2012.
[Rautaray & Agrawall 2012] Rautaray, S., Agrawall,A. Vision based hand gestures
recognition for human computer interaction: A survey. Artificial Intelligence Revue DOI
10.1007/s10462-012-9356-9. 2012.
p. 145
Bibliographie
[Rehg & Kanade 1995] Rehg, J., Kanade, T., Model-based tracking of self-occluding
articulated objects. In: Proceedings of the international conference on computer vision
(ICCV),pp.612–617,1995.
[Sahbi & Boujemaa 2002] Sahbi, H., Boujemaa, N., Coarse to fine face detection based on
skin color adaptation, Workshop on Biometric Authentication, pp.112-120, 2002.
[Schultz et al 2003] Schultz, M., Gill, J., Zubairi, S., Huber, R., Gordin, F., Bacterial
contamination of computer keyboards in a teaching hospital. Infect Control Hosp Epidemiol
4(24): pp 302–303, 2003.
[Schwerd & Crowely 2000] Schwerd, K., Crowely, J.L., Robust face tracking using color,
AFGR00, pp.90-95, 2000.
[Sebe et al 2004] Sebe, N. Cohen, T. Huang, T.S. Gevers, T. Skin detection, a Bayesian
network approach, ICPR04, vol 2 pp.903-906, 2004.
[See et al 2007] See, K.W., Loke ,K.S., Lee, P.A., Loe, K.F. Image reconstruction using
various discrete orthogonal polynomials in comparison with DCT. In Applied Mathematics
and computation. Vol 93(2), pp. 346-359, 2007.
[Segen & Kumar 1999] Segen, J., Kumar, S.: Shadow gestures: 3D hand pose estimation
using a single camera. In:Procs. of CVPR, vol. 1. Fort Collins, CO, USA (1999)
[Serra 1982] Serra, J., Mathematical morphology and Image Analysis. Academic Press, 1982.
p. 146
Bibliographie
[Sigal et al 2004] Sigal, L., Sclaroff, S., Athitsos, V., Skin color-based video segmentation
under time-varying illumination, IEEE Trans. PatternAnal. Mach. Intell. 26 (6), 862-877
(2004).
[Song & Takatsuka 2005] Song L, Takatsuka M Real-time 3D finger pointing for an
augmented desk. In: Australasian conference n user interface, vol 40. Newcastle, pp 99–108,
2005.
[Sonka et al 1999] Sonka, M., Hlavac, V., Boyle, R., Image processing, analysis, and
machine vision. PWS Publishing, 1999.
[Soriano et al 2003] Soriano, M., MartinKauppi, J.B. , Huovinen, S., Laaksonen, M.,
Adaptive skin color modeling using the skin locus for selecting training pixels, Pattern
Recognition, 36 (3), pp. 681–690,2003.
[Stotts et al 2004] Stotts, D., Smith, J.M., Gyllstrom, K., Face space: endo- and exo-spatial
hypermedia in the transparent video face top. In 15th ACM conference on hypertext &
hypermedia.ACM Press, pp. 48–57. 2004.
[Starner & Pentland 1995] Starner, T., Pentland, A.: Real-time american sign language
recognition from video using hidden markov models. In: Procs. of Int. Symposium on
Computer Vision, pp. 265 – 270,DOI 10.1109/ISCV.1995.477012 (1995).
[Starner et al 1998] Starner, T. Weaver, J. Pentland, A., Real-time American sign language
recognition using desk and wearable computer based video, IEEE Transactions in Pattern
Analysis and .Machine Intelligence. Vol 20 (12), pp.1371–1375,1998.
[Strand & Taxt 1994] Strand, J., Taxt, T., Local frequency features for texture classification .
Pattern Recognition 27, pp. 1397-1406, 1994.
p. 147
Bibliographie
[Swindells et al 2002] Swindells C., Inkpen K.M., Dill, J.C., Tory, M. That one there!
Pointing to establish device identity. In: Proceedings of the 15th annual ACM symposium on
user interface software and technology. ACM Press, pp 151–160, 2002.
[Szczypinski et al 2014] Szczypinski, P.M., Klepaczko, A., Pazurek, M., Daniel, P., Texture
and color based image segmentation and pathology detection in capsule endoscopy videos.
Computer Methods and Programs in Biomedicine 113(1): 396-411, 2014.
[Tanibata et al 2002] Tanibata, N., Shimada, N.,Shirai,Y., Extraction of hand features for
recognition of sign language words. In international conference of vision interface, 2002.
[Teng et al 2005] Teng, x., Wu, B., Yu, W., Liu, C., A hand gesture recognition system based
on linear embedding. In journal of visual languages and computing. 16 pp.442-454, 2005.
[Terillon et al 1998] Terillon, J.C., David, M., Akamatsu, S., Detection of human faces in
complex scene images by use of a skin color model and of invariantFourier–Mellin moments,
ICPR98, 1998, pp. 1350–1355.
[Thu et al 2002] Thu, Q.H., Meguro, M., Kaneko, M., Skin-color extraction in images with
complex background and varying illumination, Sixth IEEE Workshop on Applications of
Computer Vision, 2002.
[Tolba et al 2010] Tolba, M.F., Abdellwahab, M.S., Aboul-Ela, M., Samir, A., Image
signature improving by PCNN for Arabic sign language recognition. Canadian Journal of
Artificial Intelligence Machine Learning and Pattern Recognition. Vol. 1(1), pp.1-6, 2010.
p. 148
Bibliographie
[Triesch & Von 1996] Triesch, J., Von der malsuburg, C., Robust classification of hand
postures against complex backgrounds. FG 1996,pp. 170-175, 1996.
[Triesch & Von 1996] Triesch, J., Von der malsuburg , C., A Gesture Interface for Human-
Robot-Interaction. FG 1998, pp.546-551, 1998.
[Triesch & Von 2001] Triesch, J., Von der malsuburg , C., A System for Person-
Independent Hand Posture Recognition against Complex Backgrounds. In IEEE Trans.
Pattern Anal. Mach. Intell. 23(12)pp.1449-1453, 2001.
[Triesch & Von 2002] Triesch, J., Von der malsuburg , C., Classification of hand postures
against complex backgrounds using elastic graph matching . In Image Vision Computing .
Vol.20 (13-14), pp.937-943,2002.
[Turk1998] M. Turk, "Moving from GUIs to PUIs," Proc. Fourth Symposium on Intelligent
Information Media, Tokyo, Japan, December 1998.
[Turk 2001] Turk M., Hand book of Virtual environment technology. Lawrence Erlbaum
Associates, Inc., 2001.
[Unser 1995] Unser, M., Texture classification and segmentation using wavelet frames ,
IEEE Transactions on Image Processing – Volume 4, Issue 11– November 1995.
[Valkealathi & Oja 1998] Valkealathi, K., & Oja, E. Reduced multidimensional co-
occurrence histograms in texture classification. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 20(1), 90-94.1998.
[Vamplew & Adams 1998] Vamplew, P., Adams, A., Recognition of sign language gesture
using neural networks. Australian Journal of Intelligent Information Processing Systems,5,
94–102, 1998.
p. 149
Bibliographie
[Vapnik 1995] Vapnik, V., The nature of statistical learning theory, N-Y, Springer-Verlag,
1995.
[Viola & Jones 2001] Viola P., Jones,M. Robust real-time object detection. In: IEEE
workshop on statistical and computational theories of vision, Vancouver, (2001).
[Vogler & Metaxas 1998] Vogler, C., Metaxas, D.: ASL recognition based on a coupling
between HMMs and 3D motion analysis. In: Procs. of ICCV, pp. 363 – 369. IEEE Computer
Society, Bombay, India 1998.
[Vogler & Metaxas 2003] Vogler,C., Metaxas, D.: Handshapes and Movements: Multiple-
Channel American Sign Language Recognition. Gesture Workshop pp.247-258, 2003.
[Wah & Ranganath 2002] Wah Ng, C., Ranganath, S., Real-time gesture recognition system
and application. Image Vision and Computing, Vol. 20(13–14), pp.993–1007.2002.
[Waldron & Kim 1995] Waldron, M.B., Kim, S., Isolated ASL recognition system for deaf
persons. IEEE Transactions on Rehabilitation Engineering 3 (3), pp.261–271, 1995.
[Wang et al 2013] Wang, J.W., Wang, C.C., Lee, J.S., Genetic Eigen Hand Selection for
hand shape classification based on compact hand extraction. Engineering applications of
artificial intelligence, vol 26, pp. 2215-2226, 2013.
[Wee et al 2010] Wee, C.Y., Paramesran, R., Mukundan, R., Jiang,X., Image quality
assessment by discrete orthogonal moments. In Pattern Recognition, 43(12), pp. 4055-4068,
2010.
p. 150
Bibliographie
[Wong et al 2003] Wong, K.W., Lam, K.M., Siu, W.C., A robust scheme for live detection
of human faces in color images, Signal Processing. Image Communication.18 (2) 103–114.
2003.
[Wu et al 1999] Wu, H., Chen, Q., Yachida, M. Face detection from color images using a
fuzzy pattern matching method, IEEE Trans. Pattern Anal.Mach. Intell.(PAMI), 21 (6), pp.
557–563, 1999.
[Wu & Gao 2000] Wu, J., Gao, W., The recognition of finger spelling for Chinese Sign
Language, IN proceedings of International Conference of Advances in Multimodal
Interfaces, pp.599-606, 2000.
[Wu & Huang 2001] Wu, Y., Huang, T.S., Hand modelling analysis and recognition of
vision-based human computer interaction. IEEE Signal processing magazine, special issue on
immersive interactive Technology, vol. 18, no3, pp.51-60,2001.
[Wu et al 2005] Wu Y., Lin, J. , Huang, T. S. , “Analyzing and capturing articulated hand
motion in image sequences,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 27, pp. 1910–1922, 2005.
[Yang et al 1998] Yang, J., Lu, W.,Waibel, A., Skin-color modelling and adaptation,
ACCV98, pp.687-694, 1998.
[Yang & Ahuja 1999] Yang, M.H., Ahuja, N., Gaussian Mixture model for human skin color
and its application in image and video databases, Proceedings of SPIE: Conference on Storage
and Retrieval for Image and Video Databases, vol. 3656, pp. 458–466. 1999.
[Yang et al 2002] Yang, M. H., Ahuja, N., Tabb, M., Extraction of 2D motion trajectories
and its application to hand gesture recognition. IEEE Transactions on Pattern Analysis and
Machine Intelligence 24(8) pp.1061-1074, 2002.
p. 151
Bibliographie
[Yang et al 2008] Yang, A.Y., Wright, J., Ma, Y., Sastry, S., Unsupervised segmentation of
natural images via lossy data compression, Computer Vision and Image Understanding,
110(2), pp. 212–225, 2008.
[Yang et al 2013] Yang, Y., Han, S., Wang, T., Tao, W., Tai, X-C., Multilayer graph cuts
based unsupervised color-texture image segmentation using multivariate mixed student's t-
distribution and regional credibility merging. Pattern Recognition 46(4), pp. 1101-1124, 2013.
[Yang et al 2014] Yang, Y., Guo, L., Wang, T., Tao,W., Shao, G., Feng, Q., Unsupervised
multiphase color-texture image segmentation based on variational formulation and multilayer
graph. Image and Vision Computing. 32(2), pp. 87-106. 2014.
[Yuan et al 2005] Yuan Q., Sclaroff S., Athitsos, V., Automatic 2D hand tracking in video
sequences, in Proc. IEEE Workshops on Application of Computer Vision, pp. 250–256, 2005.
[Zahedi et al 2006] Zahedi, M., Dreuw, P., Rybach, D., Desealers, T., Ney, H., Using
Geometric Features to improve Continuous Appearance–based Sign Language Recognition.
In British Machine Vision Conference (BMVC), Edinburgh. UK. Vol 3, pp. 1019-1028,2006
[Zhu et al 2004] Zhu, Q., Cheng, K.-T., Wu, C.-T, Wu, Y.-L. , Adaptive learning of an
accurate skin-color model, AFGR04, pp.37-42, 2004.
[Zieren et al 2002] Zieren, J., Unger, N., Akyol, S., Hands Tracking from Frontal View for
Vision-Based Gesture Recognition. DAGM-Symposium 2002, pp.531-539, 2002.
[Zieren & Kraiss 2005] Zieren, J., Kraiss, K.: Robust person-independent visual sign
language recognition. In:Procs. of IbPRIA, pp. 520 – 528. Springer, Estoril, Portugal (2005).
p. 152