LaTeX1 PDF
LaTeX1 PDF
LaTeX1 PDF
Département d’informatique
N° d’ordre : /M2/2014
Mémoire
Présenté pour obtenir le diplôme de master académique en
Informatique
Parcours : Informatique Décisionnelle et Multimédia
!
Dédicaces
Je le dédie à
Mes très chers parents Mostefa & Zahia,
Ma femme Samah.A,
Mes chers frères,
A mon cher frère ABDELLATIF Moustafa,
Brahim.
i"
"
Remerciements
En premier lieu, je remercie Dieu le tout puissant de m’avoir donné la force et le courage
pour accomplir ce modeste travail qui m’a procuré cet humble succès.
J’ai un grand honneur à remercier mon encadreur Dr DJEFFAL Abdelhamid qui a bien
veillé à mon côté afin de réaliser ce travail.
Je ne pourrai que remercier vivement Mr SMATTI Farouk et BRADIA Abdellah.
Je tiens à remercier l'ensemble des membres du jury pour m’avoir fait honneur de leur
présence et pour l’intérêt qu’ils ont porté à ce travail.
Je remercie aussi tous mes enseignants, qui tout au long de mon cycle universitaire,
m’ont transmis leur savoir.
Finalement je remercie tous ceux ou celles qui m’ont aidé de loin ou de près que je n’ai
pas cité et qui ont contribué à la réalisation de ce travail.
HAMAMA.B
ii"
"
Résumé
ملخــــص
نظرا ألهمية المنسوبة إلى الكشف المكاني في مجال التنبؤ بالطقس و رأى المصلحة في رصد الغالف
( لتلبية إحتياجاتMSG) كنا نظن أن إستخدام الصور من قمر الصناعي متيوسات الجيل الثاني،الجوي
.MSG الهدف من هذا العمل هو الكشف التلقائي للماء الجوي من خالل الصور. المتنبئين باألرصاد الجوية
حلنا يسمح بتجزئة صور القمر الصناعي لألرصاد الجوية إلى مناطق مماثلة للكشف عن الظواهر
بإستخدام طريقة جديدة لتجزئة الصورة طويرت للسماح بالتجزئة اآللية تسمى المجموعات،الطبيعية و السحب
في هذه الطريقة توجد فيها مجموعة من الستراتيجيات مستعملة نذكر منها على سبيل.SVC األشعة الحاملة
k- األقرب-) و الجيران كMST) األشجار الممتدى الحد األدنى،(DD) المثال الرسوم البيانية ديلوناي
أخترنا في عملنا هذا ستراتيجية التنقيط (التوسيم) من أجل تجزئة صور األقمار الصناعية لألرصاد.)NN)
.الجوية
المجموعات األشعة الحاملة، الماء الجوي،MSG قمر الصناعي متيوسات الجيل الثاني: الكلمات المفاتيحة
(k- االقرب- الجيران ك، ( MST ) واألشجار الممتدة الحد األدنى، (SD ) الرسوم البيانية ديلوناي،SVC
.) التنقيط (التوسيم،NN)
Abstract
Given the importance attributed to the spatial detection in the field of weather forecasting
and saw the interest of monitoring the atmosphere, we thought to use images from Meteosat
Second Generation (MSG) to meet the needs of meteorology forecasters. The objective of this
work is the automatic detection of hydrometeors through images of MSG.
Our solution allows to segment meteorological satellites images of similar regions to detect
phenomena and clouds using a new method of image segmentation was developed to allow
automatic segmentation said Support Vector Clustering SVC. In this method there are several
strategies used by citing example Delaunay diagrams (SD), minimum spanning trees (MST) and
k nearest neighbors (k-NN). Our work by choosing from strategy labeling to segment
meteorological satellite images.
Key-words : MSG, hydrometeors, SVC, Delaunay diagrams (SD), minimum spanning trees
(MST), k nearest neighbors, Strategy labeling.
Table des matières
I
Liste des tableaux
II
Table des figures
III
TABLE DES FIGURES
Introduction générale
Les conséquences économiques et sociales entraînées par des mauvaises prévisions mé-
téorologiques peuvent être catastrophiques. Les fortes intempéries ne font pas que détruire
les arbres et les maisons ; elles provoquent des bouleversements, menacent la vie humaine
et ruinent des économies locales.
1
TABLE DES FIGURES
2
Chapitre I
Clustering
CHAPITRE I. CLUSTERING
I.1. Introduction
Le clustering, en français regroupement ou partitionnement, est une tâche dont l’ob-
jectif est de trouver des groupes au sein d’un ensemble d’éléments (appelés par la suite
objets). Ces objets sont décrits par des caractéristiques, encore appelées attributs, qui
décrivent les propriétés des objets. Les groupes recherchés, communément appelés des
clusters, forment des ensembles homogènes d’objets du jeu de données partageant des
caractéristiques communes. Il existe de très nombreuses méthodes de clustering permet-
tant de créer ces clusters de manière automatique, chacune utilisant une stratégie et un
objectif propre pour construire les clusters. ?
L’objectif de ce chapitre est d’introduire la problématique du clustering ainsi que les
concepts de base qui seront utilisés dans la suite de ce mémoire. L’accent sera mis sur la
complexité de la tâche de clustering, ainsi que sur le nombre important de méthodes et
de variantes disponibles. Dans ce chapitre on a commencé par une définition de cluste-
ring et le principe de fonctionnement général section ?? et ??, puis nous décrivons les
différentes mesures de similarités section ??, ensuite nous présentons les algorithmes de
clustering section ??, Enfin, nous étudions également les principaux problèmes et limites
du clustering section ??. Enfin, nous citons quelques domaines d’applications section
??.
4
CHAPITRE I. CLUSTERING
5
CHAPITRE I. CLUSTERING
vice versa. Soit xi et xj deux données différentes dont on veut calculer la distance. Cette
distance est composée d’une part de la distance entre les valeurs des attributs numériques
et d’une autre part de la distance entre les valeurs des attributs catégoriels ou symboliques,
en prenant en considération le poids (le nombre) de chaque type d’attributs.
nn
X
Dn (xi , xj ) = |xik − xjk | (I.3)
k=1
– La distance de Minkowksi :
nn
(xik − xjk )2 )2
X
Dnp (xi , xj ) = ( (I.4)
k=1
Il faut faire attention lors du calcul de ces distances à la normalisation des attributs,
puisque les intervalles de variances des attributs peuvent être très différents, ce qui peut
entraîner la dominance d’un ou de quelques attributs sur le résultat. Il est conseillé donc,
de normaliser tous les attributs sur le même intervalle puis calculer la distance.
Il faut en fin la normaliser avec les attributs numériques et le nombre d’attributs ca-
6
CHAPITRE I. CLUSTERING
tégoriels.
En se basant sur la distance entre deux attributs, plusieurs distances peuvent être
calculées :
– Distance entre deux clusters : permet de mesurer la distance entre deux clusters
pour une éventuelle fusion en cas où ils soient trop proches. Cette distance peut être
prise entre les centres des deux clusters, entre les deux données les plus éloignées
(ou plus proches) des deux clusters ou la distance moyenne de leurs données.
7
CHAPITRE I. CLUSTERING
8
CHAPITRE I. CLUSTERING
8 : Le résultat est un graphe qui peut être coupé selon le niveau de similarité désiré.
La complexité de cet algorithme est O(N 2 Log(n)), puisqu’il traite les données en paires
pour le tri et la création des partitions ce qui le rend un peu lourd vis-à-vis des grandes
bases de données. Son avantage est qu’il produit une vue en plusieurs niveaux des données.
Il est aussi indépendant de l’ordre des données introduites.
Nk
e2k = (xik − xk )2
X
(I.7)
i=1
9
CHAPITRE I. CLUSTERING
le suivant :
Cet algorithme est le plus utilisé pour le clustering des bases de données immenses. Sa
complexité est O(nlk) où n est le nombre d’enregistrements, l est le nombre d’itérations de
l’algorithme, et k est le nombre de clusters. Pratiquement, k et l sont fixés à l’avance, ce qui
veut dire que l’algorithme est linéaire par rapport aux données. Il est aussi indépendant
de l’ordre des données introduites.
Le besoin en terme de mémoire des algorithmes de clustering incrémental est très ré-
duit, ils nécessitent généralement uniquement les centres des clusters. Un problème sérieux
10
CHAPITRE I. CLUSTERING
duquel souffrent les algorithmes de clustering incrémental est leur dépendance de l’ordre
de présentation des enregistrements. Avec les mêmes données ordonnées différemment, ils
fournissent des résultats totalement différents.
11
CHAPITRE I. CLUSTERING
Figure I.6 – Exemple de données produisant des résultats différents suivant l’initialisation
de k-means.
12
CHAPITRE I. CLUSTERING
I.8. Conclusion
Le clustering est une tâche dont l’objectif est de trouver des groupes au sein d’un
ensemble d’objets. Dans ce chapitre, nous avons étudié les grands concepts du clustering,
les principales méthodes existantes ainsi que leur évaluation et leur comparaison. Nous
avons également présenté les différents problèmes et limites en clustering. Il en ressort
qu’un nombre important de méthodes existent et qu’il est souvent difficile de faire un
choix parmi celles-ci. Ce choix est crucial dans le processus de fouille de données et est
conditionné par le type de résultat que l’expert veut obtenir. ?
Pour tenter de résoudre ce problème, nous allons voir dans le chapitre suivant de façon
générale la méthode SVM binaire et mono-classe, et aussi on présente de façon détailléela
nouvelle méthode appelée Support Vecteur Clustering SVC.
13
Chapitre II
II.1. Introduction
Supports Vectors Machines (SVMs) ont été largement adoptés pour la détection de
classification, régression et la nouveauté. Des études récentes ?? ont proposé de les utiliser
pour l’analyse typologique aussi. La base de ce Support Vecteurs Clustering (SVC) est
l’estimation de densité par la formation SVM. Le SVC est une méthode de classification
basée sur les frontières, où les informations de support sont utilisées pour construire les
limites des clusters.
Ce chapitre est consacré à la présentation brève des étapes de la méthode SVM binaire
pour la détermination de l’hyperplan, tout en mettant l’accent sur la méthode de kernel
pour l’approche des solutions relatives aux difficultés liées aux hyperplans non linéaires.
Puis on passe à l’explication SVM mono-classe. Finalement on explique la nouvelle mé-
thode dite SVC en détail (qu’on utilisera dans la partie pratique), la définition et les
différentes stratégies utilisées dans cette méthode.
II.2.1. Définition
Le SVM est une méthode de classification supervisée, qui fut introduite par Vapnik
en 1995 ?, elle est basée sur la recherche de l’hyperplan optimale, lorsque c’est possible,
pour classer ou séparer correctement les données tout en étant le plus éloigné possible de
toutes les observations. Le principe est donc de trouver un classificateur dans un espace
approprié. Puisque c’est un problème de classification à deux classes. Cette méthode est
basée sur l’utilisation des fonctions dites noyau (Kernel) qui permettent une séparation
optimale des données. ?
15
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
Un hyperplan va séparer les deux ensembles de donnés en deux classes. Il existe une
multitude d’hyperplan valide, mais la propriété de SVM est que cet hyperplan doit être
optimal c.-à-d. qui permet de classer bien les nouvelles données, donc il faut chercher
parmi les hyperplans valide, celui qui passe au milieu des points des deux classes des
donnés où la distance minimale aux donnés d’apprentissage est maximale. Les points de
l’hyperplan vérifient aussi l’équation w · x + b = 0 figure ??. ??
16
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
II.2.2.3. La marge
La marge est la distance entre la frontière de séparation et les échantillons les plus
proches. Ces dernières sont appelées vecteurs supports ?. La marge est calculée à partir
du produit scalaire entre les vecteurs situés à la frontière de chaque classe et le vecteur
unitaire normal w de l’hyperplan séparateur figure ??. ?
Dans un modèle linéaire, on à f (x) = w · x + b. L’hyperplan séparateur (frontière de
décision) a donc pour équation w · x + b = 0. La distance d’un point au plan est donnée
par ?? :
d(x) = |w · x + b|/ kwk
Soit x1 et x2 deux points de classes différentes f (x1 ) = +1 et f (x2 ) = −1 :
w · x1 + b = +1 et w · x2 + b = −1
donc
(w · (x1 − x2 )) = 2
D’où :
17
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
Parmi les modèles des SVM, on constate les cas linéairement séparable et les cas non
linéairement séparable. Les premiers sont les plus simples puisqu’ils permettent de trouver
facilement le classificateur linéaire. En général, la plupart des applications ont besoin de
fonctions plus complexes que les fonctions linéaires pour faire de la classification. Une
stratégie de prétraitement peut être utilisée pour simplifier la tâche. Il s’agit de changer
l’espace original en un nouvel espace dit de ré-description de grande dimension où les
données peuvent être linéairement séparables. ?
18
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
19
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
– Noyau linéaire : Si les données sont linéairement séparables, on n’a pas besoin de
changer d’espace, et le produit scalaire suffit pour définir la fonction de décision : ?
– Noyau RBF : Les noyaux RBF (Radial Basis Functions) sont des noyaux qui peuvent
être écrits sous la forme : K(xi , xj ) = f (d(xi , xj )) où d est une métrique sur X et f
est une fonction dans <. Un exemple des noyaux RBF est le noyau Gaussien ?? : ?
2
−
kxi −xj k
K(xi , xj ) = e 2σ 2 (II.5)
20
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
Dans la classification SVM mono-classe, il est supposé que seules les données d’une
seule classe, qui est la classe cible, sont disponible. Cela signifie que seulement les exemples
de la classe cible peuvent être utilisés et qu’aucune information sur les classes d’autres
objets n’est présente. Pour le SVM mono-classe ou one-class SVM (OC-SVM), la frontière
entre les deux catégories doit être estimée à partir de la classe cible et le vecteur unitaire
normal w. La tâche est de définir une frontière autour de la classe cible, de telle sorte qu’il
accepte autant d’objets cibles que possible. ?
21
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
Il est nécessaire de transformer les entrées dans le but de les traiter plus facilement.
R est un espace quelconque d’objets.
On transforme les entrées en vecteurs dans un espace F (feature space) par une fonction
Φ:
Φ : R −→ F
F est un espace de grand dimension, dispose d’un produit scalaire (espace de Hilbert).
La non-linéarité est traitée dans cette transformation, on peut donc choisir une séparation
linéaire qui séparer l’ensemble des données de l’origine dans l’espace caractéristique pour
maximiser la marge où SVM une seule classe trace une frontière non linéaire sur l’ensemble
des données de la classe cible dans l’espace d’entrée.
22
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
la première classe, et l’origine est considérée comme le seul membre de la deuxième. Donc,
l’hyperplan (ou limite de décision linéaire) correspond à la fonction de classification :
Où w est le vecteur normal et b est un terme de biais. SVM une seule classe résoudre
un problème d’optimisation pour trouver la fonction f avec une marge maximale. Nous
pouvons utiliser cette fonction de classification pour attribuer une étiquette à un exemple
de test x. Si f (x) < 0, on étiquette x comme une anomalie, sinon il est étiqueté normal. ?
Soit les données d’entré x1 , · · · , xl (x ∈ X) où l est le nombre des données d’apprentis-
sage. Φ permet de cartographie les données dans l’espace de caractéristique Φ : X −→ H,
en d’autres termes un point dans un espace H tel que le produit scalaire à l’image de Φ
peut être calculée en évaluant certains noyau simple.
kx−x0 k2
K(x, x0 ) = e− 2σ 2 (II.8)
SVM une seule classe retourne une fonction f qui prend la valeur +1 dans une "petite"
région qui capture la plupart des points de données d’entré, et −1 ailleurs. La stratégie
consiste à séparer les données de la classe cible de l’origine avec une marge maximale.
Pour un nouveau point x, la valeur f (x) est déterminée par l’évaluation de quel côté
de l’hyperplan il tombe sur, dans l’espace caractéristique. En raison de la liberté d’utili-
ser différents types de fonctions du noyau, cette image géométrique simple correspond à
une variété d’estimateurs non linéaires dans l’espace d’entrée. Pour séparer l’ensemble de
données de l’origine, on résout le problème quadratique primal suivant :
m
1 1 X
minw,ξ,ρ kwk2 + (ξi − ρ) (II.9)
2 vm i=1
ξi ≥ 0, pour i = 1, 2, · · · , m
Où v ∈ (0, 1) est un paramètre dont la signification est la fraction des valeurs d’autres
classes. Depuis de variables d’écart non nul ξi sont pénalisés dans la fonction objectif, on
23
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
Sera positive pour la plupart des exemples xi contenus dans l’ensemble d’apprentissage.
Pour un nouveau point xi , la valeur f (x) est déterminée par l’évaluation de quel côté de
l’hyperplan il tombe sur. Pour résoudre le problème d’optimisation ?? qui précède, on
construit le Lagrangien L.
1 1 X
kwk2 +
X X
L(w, ξ, ρ, α, β) = ξi − ρ − αi (hw, Φ(x)i − ρ + ξi ) − βi ξi (II.12)
2 vm i i i
1 1
αi = − βi ≤ (II.14)
vm vm
X
αi = 1
i
Tous les modèles xi : i ∈ [m], αi > 0 sont appelés Vecteurs de Support (SV).
X
f (x) = sign( αi K(xi , x) − ρ) (II.15)
i
24
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
le terme de biais ρ) sépare tous les points de l’origine. Les données d’autres classes sont
associées à une variable d’écart ξ , ce qui est pénalisé dans la fonction objectif ??. La
distance entre le donnée d’autre classe et l’hyperplan est de ξ/ kwk , la distance entre
l’hyperplan et l’origine est ρ/ kwk. Celui-ci implique que d’un petit kwk correspond à une
grande marge de séparation d’avec l’origine. ?
II.3.1. Définition
Récemment, Estivill-Castro et Lee ?? a proposé des méthodes de clustering à base
de limites en utilisant la modélisation graphique de proximité. Modélisation de l’infor-
mation de proximité et la densité des points de données 2D à l’aide de Diagrammes de
Delaunay est un puissant algorithme d’exploration et d’argumentation de clustering libre
pour l’exploration de données géographiques ?. L’idée principale derrière cette approche
est de détecter les changements de densité nette limites des clusters potentiels. Dans leur
approche, le principe fondamental est la proximité de modélisation et de topologie en
termes de graphes de proximité.
En règle générale, les méthodes de classification utilisent un concept de similarité (par
exemple, la distance euclidienne) pour mesurer la proximité entre les objets de données.
Même dans des dimensions, la proximité est essentielle à l’analyse typologique. Dans
les graphes de proximité, les sommets représentent les points de données et les bords
raccorder des paires de points à proximité de modèle et de contiguïté. En dépit du fait
que le point est l’objet le plus primitif des données, il n’est pas facile de définir le point de
proximité comme une relation discrète. Pour mieux décrire la proximité entre les points
de données, une seule famille de graphes de proximité a été étudiée et comparée pour
des considérations de modélisation différentes ?. Ces graphes de proximité comprennent
par exemple diagrammes de Delaunay Delaunay Diagrams (DD), arbres de recouvrement
minimaux Minimum Spanning Trees (MST) et k plus proches voisins k-Nearest Neighbors
25
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
Le SVC est une technique d’apprentissage non supervisé qui kernelized. On Suppose
un ensemble de n points de données {~xi } ⊆ χ, avec χ ⊆ <d c’est l’espace de données. Pour
formuler une description de vecteur de support de cet ensemble de données, une cartogra-
phie Φ non linéaire utilisé pour tracer χ dans un certain espace de dispositif dimensionnel
élevé. La prochaine étape est de trouver la plus petite hyper-sphère entourant :
xi ) − ~ak2 ≤ R2 + ξi
kΦ(~ (ξi ≥ 0) ∀i (II.20)
Où R est le rayon, ~a est le centre et ξi sont des variables d’écart permettant de bornes
douces (on peut permettre à quelques points d’informations de se trouver en dehors de
la sphère). Le problème ?? est habituellement résolu dans son duel en introduisant le
lagrangien et une régularisation C constant dans la limite de pénalité.
L = R2 − xi ) − ~ak2 )αi −
(R2 + ξi − kΦ(~
X X X
ξi µi + C ξi (II.21)
i
P
Où αi > 0 et µi > 0 sont des multiplicateurs lagrangiens, et des C ξi est une limite
de pénalité. Egalement l’état de Karush-Kuhn-Tucker permet au problème d’être récrit
comme :
x i )2 −
X X
max L = αi Φ(~ αi αj Φ(~
xi )Φ(x~j ) (II.22)
i i,j
X
telque 0 ≤ αi ≤ C, αi = 1, i = 1, 2, · · · , n
X
telque 0 ≤ αi ≤ C, αi = 1, i = 1, 2, · · · , n
26
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
Points avec αi = C ont touché la limite supérieure pour le rayon qui se trouvent en dehors
de la sphère. Ces points s’appellent le vecteur support borné Bounded Support Vectors
(BSVs), et sont traités comme du bruit.
L’une des caractéristiques clés des méthodes à noyaux, c’est qu’ils n’exigent pas un
calcul explicite de la carte Φ de dispositif mais en utilisant seulement les valeurs des
produits scalaires entre les configurations tracées. Aux fins de clustering, et utilisons le
2
noyau de gaussiens Kq (~ai , a~j ) = eqka~i −a~j k avec le q = −1/(2σ 2 ) de paramètre de largeur
selon les grains polynômes ne rapportent pas des bornes étanches. ?
Les vecteurs de support peuvent être utilisés pour décrire l’hyper-sphère dans l’espace
objet. Pour chaque point ~x, la distance Φ(~x) sur l’image au centre d’hyper-sphère est
donnée par :
R2 (~x) = K(~x, ~x) − 2
X X
αi K(~x, x~i ) + xi , x~j )
αi αj k(~ (II.24)
i i,j
27
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
La description cluster lui-même ne fait pas de distinction entre les points qui appar-
tiennent à des clusters différents. Pour ce faire, une matrice d’adjacence Aij est définie sur
la base de l’observation géométrique : Donner une paire de points de données appartenant
à des différents clusters, pour tout chemin dans l’espace des données qui les relie, le chemin
correspondant dans l’espace doit avoir une intersection avec l’extérieur de l’hyper-sphère.
Pour chaque paire de points xi et xj , Aij prend une valeur binaire.
1, xi + λ(x~j − x~i )) ≤ R, ∀λ ∈ [0, 1]
siR(~
Aij = (II.25)
0, sinon
Les clusters sont maintenant définis comme composants connexes de graphe induit
par A. Le calcul Aij pour des points xi et xj est mis en application par l’échantillon d’un
certain nombre.
Les deux stratégies d’écriture cluster de Ben-Hur et al ?? sont décrits dans la stratégie
d’étiquetage cluster 1 et 2 ci-dessous.
Calculer Aij pour chaque paire de points x~i et x~j dans l’espace de données.
Il en résulte en utilisant le graphe complet, noté par CG, le modèle de contiguïté Aij . Il
prend O(n2 m) de temps.
Calculer Aij pour des paires de points x~i et x~j , x~i ou x~j est un vecteur de support.
Ceci a comme conséquence un sous-graphe du CG, qui est désigné comme SVG. Il prend
28
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
O((n − nbsv )n2sv m) de temps, où nbsv est le nombre de BSVs, et de nsv est le nombre de
SVs libre.
Le nombre du SVs et de BSVs affecte la structure de cluster, qui pour cette effet peut
être contrôlé par les paramètres q et C de formation de SVM. Quand q largeurs des noyaux
gaussiens augmente, le nombre SVs (nsv ) augmente, la forme des bornes de cluster devient
plus rugueux, et les contours tendent à fractionner (cf., les bornes des régions blanches
dans la figure ?? (a) et (d)) ci-dessous. D’une part, le nombre de BSVs (nbsv ) peut être
contrôlé par C, plus précisément par nbsv < 1/C. C’est-à-dire, si C ≥ 1, il n’existe pas
BSVs. Pour tenir compte de BSVs, on devrait mettre C < 1. Au lieu d’utiliser C qu’il est
1
plus naturel de fonctionner avec le paramètre p = nC , qui représente une limite supérieure
pour la fraction de BSVs. Le paramètre q détermine l’échelle à la sorcière que les données
sont sondées, et p décide la douceur de la borne. ?
La figure ?? représente un ensemble de données de 285 points et les modifications des
bornes de cluster dans la dépendance aux différentes configurations de q et p, qui sont
choisies expérimentalement. ?
Figure II.12 – Les clusters sont représentés par les régions blanches. Leurs bornes et
leurs nombres varient en fonction de q et p. Les points encerclés sont les résultants des
SVs et BSVs.
29
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
Après la formation SVM, le rayon R de l’hyper-sphère peut être utilisé comme cri-
tère de seuil, pour vérifier la connectivité entre les points de données. Dans certaines
conditions de coupure, quelques points deviendront non connectés. Les clusters sont des
composants connexes induits par Aij . Noter qu’une composante connexe peut également
être identifiée par un arbre couvrant, ce qui produit un nombre beaucoup plus petit des
arêtes que le CG. En conséquence, la stratégie d’étiquetage cluster 1 résultant pour tester
de nombreuses arêtes redondantes. Le graphique SVG rares dans la stratégie d’étiquetage
Cluster 2 ne décode pas les informations de voisinage exactement, et donne parfois des
clusters insignifiantes. Par conséquent, nous proposons une stratégie de clusters nouvel
étiquetage ci-dessous pour remédier aux inconvénients de la stratégie d’étiquetage Cluster
1 et 2.
Nous modélisons les données avec un graphe de proximité approprié qui reflète la
distribution des données et intègre de proximité et des informations de topologie. L’idée
est de calculer les coefficients de la matrice d’adjacence Aij seulement pour les paires de
x~i et x~j , où x~i et x~j sont liés par une arête Eij dans un graphe de proximité. En fait, la
matrice d’adjacence Aij n’est pas explicitement tenue dans la mémoire, mais codé dans le
graphe de proximité. Le problème est de trouver les composantes connexes du graphe en
explorant les bords induits par Aij . Nous effectuons la même stratégie d’échantillonnage
pour le calcul de Aij . Comme dans ??. Toutes les arêtes dans le graphe de proximité
en cours s’appellent les bords candidats. On se réfère à un bord Eij comme arête active
si Aij = 1, et si arête passive Aij = 0. Un chemin de connexion dans le graphe de
proximité est formé si chaque bord de la voie est un flanc actif. Une composante connexe
est l’équivalent d’un trajet actif.
Dans un diagramme de proximité, les points sont reliés par des arêtes si elles sont
proches les uns des autres selon une certaine mesure de proximité. Proche-par points sont
naturellement plus susceptibles d’être dans le même cluster que les points qui sont loin.
Ainsi, l’étiquetage cluster avec une stratégie graphe de proximité est une bonne heuristique
pour réduire le temps de test de liens. Nous allons discuter de trois types de graphes de
proximité pour l’affectation cluster. Ce sont Delaunay Diagram (DD), Minimum Spanning
Tree (MST), et k plus proches voisins k-Nearest Neighbors (k-NN) ??[6, 7]. Ils peuvent
être calculés en considérant les différents aspects de la proximité et de la topologie. DD
représente un "is-neighbour" relation. La MST est basée sur la proximité des points de
30
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
Figure II.13 – Différents graphiques de modélisation de proximité. En (c), les points sont
encerclés SVs et la zone blanche est la pré-image de l’hyper-sphère dans l’espace objet.
Sans entrer dans les détails mathématiques, la procédure de récolte de cluster est justi-
fiée par l’observation empirique que les clusters correspondent aux composantes connexes
de bords, c’est à dire les chemins actifs. Bords passifs n’ont pas d’intérêt, et ils seront
supprimés à partir du graphe de proximité. Après le retrait des bords passifs, la tâche
de la récolte cluster devient reconnu tous les chemins actifs formés. Une fois les bords
actifs ont été déterminés, un algorithme classique comme en Depth-First-Search (DFS)
peut être utilisé pour collecter les composants connectés. Noter que DFS a une complexité
proportionnelle au nombre d’arêtes dans le graphe de proximité. Pseudo code pour la ré-
colte cluster est indiqué dans l’algorithme 4. Pour éviter cluster triviales, certains travaux
de nettoyage sont nécessaires. Nous traitons un cluster avec un petit nombre de points
inférieur à un seuil (par exemple 3) comme du bruit. BSVs sont inclus dans le cluster le
plus proche, comme suggéré dans ??. Figure ?? montre l’ensemble de la procédure de
SVM clustering pour le cas de la modélisation DD.
31
CHAPITRE II. SUPPORT VECTOR CLUSTERING SVC
Figure II.14 – Procédure SVC utilise la modélisation DD. (a) Un ensemble de points.
(b) la modélisation DD. (c) résultat de la formation SVM. (d) les chemins actifs après
l’étiquetage. (e) Résultat final après la récolte cluster.
II.4. Conclusion
A travers ce chapitre nous avons présenté le SVM binaire et Mono-classe de façon
générale et comme introduction à la nouvelle méthode SVC qui permet de changer l’ap-
prentissage supervisé à l’apprentissage non supervisé.
Malgré certains inconvénients le SVC demeure utilisé dans de nombreuses applications
vu les avantages qu’il présente, et de ce fait nous essayons d’appliquer cette méthode pour
la segmentation des images satellitaires, et qui fera l’objet du chapitre suivant.
32
Chapitre III
III.1. Introduction
Les premières vues de la terre depuis l’espace ont été obtenues, au début des années
1950, par l’intermédiaire de fusées militaires reconverties. L’URSS fut le premier Etat à
mettre en orbite, le 4 octobre 1957, le premier satellite artificiel de l’histoire dénommé
"Spoutnik 1 " (D’un mot russe qui signifie "Compagnon de voyage"). L’engin pesait 83,6
kilos et était mis en orbite à une altitude de 900 km. Il accomplissait une révolution de la
terre en 96 minutes. Ce n’est que quelques mois plus tard (le 31 mai 1958) que les Etats
Unis ont mis sur orbite terrestre le premier satellite artificiel américain "Explorer I " qui
pesait 14 kilos. Depuis lors, plusieurs satellites ont été fabriqués et mis en orbite pour
différentes utilisations. Parmi les derniers satellites qui ont été mis en orbite, on peut
citer : le satellite météorologique européen MetOp (19 octobre 2006), le satellite AIM
(Aeronomy of Ice in the Mesosphere) des Etats Unis pour l’observation de la terre (25
avril 2007) et le premier satellite de communication du Nigeria NIGCOMSAT-1 (14 mai
2007).
Les satellites sont indispensables au développement des sciences spatiales et bien utiles
aux activités terrestres. Ils offrent aujourd’hui de nombreux services : Communiquer,
scruter l’univers, explorer le système solaire, observer la terre...etc. Ils sont composés
d’une charge utile permettant au satellite de mener à bien sa mission et d’une plateforme
assurant les fonctions annexes à sa mission. ?
34
CHAPITRE III. LES IMAGES SATELLITAIRES MÉTÉOROLOGIQUES
35
CHAPITRE III. LES IMAGES SATELLITAIRES MÉTÉOROLOGIQUES
36
CHAPITRE III. LES IMAGES SATELLITAIRES MÉTÉOROLOGIQUES
Toutes les 15 minutes, une scène Météosat -SEVIRI est acquise. Douze fichiers images
qui correspondent aux douze canaux du satellite MSG sont enregistrés. Un canal parmi
37
CHAPITRE III. LES IMAGES SATELLITAIRES MÉTÉOROLOGIQUES
les douze a une résolution très fine d’un km (High Résolution Visible : HRV), tandis que
les autres sont acquis avec une résolution de 3 Km. ?
– Visible
Les images visibles représentent la quantité de lumière visible rétrodiffusée par les
nuages ou la surface de la terre. Les nuages et la neige apparaissent en blanc et les
zones sans nuage en noir. Les nuages épais sont plus brillants que les nuages fins. Il
est difficile de distinguer les nuages bas des nuages élevés. Pour cela, il faut utiliser
les images infrarouges. On ne peut pas utiliser les images visibles la nuit. ?
– Infrarouge
Les images infrarouges représentent une mesure du rayonnement infrarouge émis
par le sol ou les nuages. Ce rayonnement dépend de la température. Plus l’objet est
chaud, plus il est noir et plus l’objet est froid, plus il est blanc. Les nuages élevés
apparaissent plus blancs que les nuages bas car ils sont plus froids. Dans les zones
sans nuages, plus le sol est chaud, plus il est sombre. ?
– Vapeur d’eau
Les images vapeur d’eau représentent une mesure du rayonnement infrarouge in-
fluencé par la vapeur d’eau dans l’atmosphère. Cela permet de déterminer les zones
38
CHAPITRE III. LES IMAGES SATELLITAIRES MÉTÉOROLOGIQUES
sèches et les zones humides. Les zones sombres correspondent à des zones sèches et
les blanches à des zones humides. ?
III.4.1.2. L’albédo
Quand les rayons parviennent à la terre une partie de l’énergie qu’ils transportent est
déviée par les différentes couches de l’atmosphère. Cependant l’autre partie arrive à la
traverser. Celle-ci est alors réfléchie par les nuages ou par le sol. Ce qu’on nomme albédo
est le rapport entre l’énergie réfléchie et l’énergie incidente. Ce rapport est fonction de la
cible réfléchissante. Ainsi, l’albédo de la neige (0.85) n’est pas le même que celui d’une
prairie (0.20). En moyenne, l’albédo de la terre est de 0.3 ce qui signifie que 70% de
l’énergie que nous recevons est absorbée (30% est réfléchie). ?
39
CHAPITRE III. LES IMAGES SATELLITAIRES MÉTÉOROLOGIQUES
III.4.1.3. La dynamique
La dynamique d’une image est l’étendue de la plage de couleurs utilisable. Elle est liée
à la longueur du codage de chaque couleur : ?
– Si une couleur est représentée par un seul bit, on aura deux valeurs possibles, 0 ou
1, c’est-à-dire blanc ou noir. L’image est dite de type bitmap.
– Si une couleur est représentée sur un octet (8 bits), on aura 28 = 256 couleurs
possibles. C’est le cas des images dites en "fausses couleurs" ou "à palette" (format
GIF par exemple) et des images en "niveaux de gris".
– Enfin, on parle de "vraies couleurs" lorsqu’on utilise un octet pour stocker chacune
des composante dans l’espace de représentation des couleurs (Rouge - Vert - Bleu)
on aura 28 ∗ 28 ∗ 28 = 16 millions de couleurs possibles, mais chaque point sera codé
sur 3 octets.
– La dynamique dans notre cas traduit l’étendue ou la plage de valeurs réelles parmi
les 1024, qu’il faut prendre pour faire la correspondance avec celles de la couleur
(ou du niveau de gris) qui est en général de 256.
Plus le gamma est faible plus le contraste est faible ; l’image perd sa saturation et
devient pâle, elle n’a plus aucune dynamique car elle a perdu sa luminance. Inversement,
à un gamma élevé correspond un contraste élevé et une forte dynamique ; les couleurs sont
40
CHAPITRE III. LES IMAGES SATELLITAIRES MÉTÉOROLOGIQUES
vives, très saturées avec des noirs et des blancs presque purs, parfois trop lumineux.?
III.5. Conclusion
L’objectif de ce chapitre était la présentation des divers canaux de SEVIRI, ainsi que
les différentes compositions RGB menées par des travaux des recherches dans ce domaine.
Nous avons commencé par une description des canaux visible, infrarouge et vapeur d’eau.
Par la suite nous avons présenté les 6 combinaisons RGB les plus utilisées. ?
Le prochain chapitre aura pour but de présenter la conception de notre système, en
précisant le type du système choisi et d’autres détails pertinents pour notre système.
41
Chapitre IV
Conception
CHAPITRE IV. CONCEPTION
IV.1. Introduction
L’état de l’art que nous avons établi dans les chapitres précédents nous a permis de
comprendre et de situer clairement les notions de base pour la conception et la réalisation
de notre projet ; ainsi dans le processus de développement de notre système. Nous propo-
sons une conception qui va décrire d’une manière non ambiguë notre système. Nous allons
donner l’architecture globale de notre système et ceci selon une vue interne (structures
et comportements des composants), puis nous allons détailler les fonctionnalités de cette
architecture avant de présenter sa réalisation.
IV.2. Objectif
Notre objectif est de réaliser un système capable pour segmenter les images satellitaires
météorologiques puis la détection automatique des phénomènes hydrométéores (nuages,
neige, brouillard, ...etc.) par la méthode de Support Vector Clustering SVC.
43
CHAPITRE IV. CONCEPTION
44
CHAPITRE IV. CONCEPTION
45
CHAPITRE IV. CONCEPTION
Procédure TransformationEspaceColoré()
Début
N :=0 ; // Nombre d’exemple
Pour i :=1 jusqu’à ImW faire
Pour j :=1 jusqu’à ImH faire
X=byte(roud(0.299 ∗ GetRV alue(Image1[i, j] + 0.587 ∗ GetGV alue(Image1[i, j] + 0.114 ∗
GetBV alue(Image1[i, j])));
Y=byte(roud(0.299 ∗ GetRV alue(Image2[i, j] + 0.587 ∗ GetGV alue(Image2[i, j] + 0.114 ∗
GetBV alue(Image2[i, j])));
Image3[X, Y ] := selecte.point;
N := N + 1;
Fin pour ;
Fin pour ;
Fin.
46
CHAPITRE IV. CONCEPTION
1. Le noyau utilisé.
2. Les paramètres du noyau.
Début
N := nombre d’exemple ;
n :=nombre de vecteur support ;
examinAll :=True ; //pour contrôler que tout les points ont été testés
numchange :=0 ; //pour compter le nombre de plan modifiée
i :=1 ;
Tant que ((numchange > 0) ou (examinAll)) faire
Si (examinAll) alors
Pour (i :=0 jusqu’à N-1) faire
- Chercher les points qui violent les conditions KKT parmi tous les points.
- Choisir deux multiplicateurs de Lagrange à l’aide d’une heuristique pour optimiser
conjointement.
- Ajuster l’hyperplan relativement et donc changé les vecteurs supports.
Fin pour
Sinon
i :=0 ;
47
CHAPITRE IV. CONCEPTION
Algorithme : Etiquetage
48
CHAPITRE IV. CONCEPTION
49
CHAPITRE IV. CONCEPTION
original :
Procédure TransformationEspacGéométrique ()
Début
i :=1 ;
k :=1 ;
Tanque k<=NbPoints faire
si k<=ImW*i alors
Pour j :=1 jusqu’à ImH faire
ImageSegmeté[i, j] :=slecteColor(tablePoint[k].cluster) ;
k :=k+1 ;
Fin pour
Fin si
i :=i+1 ;
Fin tanque
Fin.
50
CHAPITRE IV. CONCEPTION
Procédure SélectionPhénomène()
Début
Switche phénomène selectionner do
Case phénomène 1 :
Debut
Pour i :=1 jusqu’à ImW faire
Pour j :=1 jusqu’à ImH faire
Si imageSegmenté[i, j]=color1 alors image[i, j] :=color1 ;
Fin pour ;
Fin pour ;
Break ;
Fin ;
.
.
Case phénomène 6 :
Debut
Pour i :=1 jusqu’à ImW faire
Pour j :=1 jusqu’à ImH faire
Si imageSegmenté[i, j]=color6 alors image[i, j] :=color6 ;
Fin pour ;
Fin pour ;
Break ;
51
CHAPITRE IV. CONCEPTION
Fin ;
Fin ;
Fin.
IV.5. Conclusion
Dans ce chapitre, nous avons donné une présentation générale du système et la manière
selon laquelle le système doit être réalisé. Le système est composé d’un ensemble de
fonctionnalités, chaque fonctionnalité reçoit un ensemble d’entrées et offre des résultats
en sorties, qui seront utilisées pour aider à la prise de décision.
52
Chapitre V
Implémentation et résultats
CHAPITRE V. IMPLÉMENTATION ET RÉSULTATS
V.1. Introduction
Dans le chapitre précédent nous avons présenté une conception du système proposé
pour segmenter les images satellitaires météorologiques par la méthode de SVC.
Dans cette partie nous allons présenter l’environnement informatique support de notre
système, puis passer à la deuxième partie qui sera consacré à la présentation de la réali-
sation de notre application ainsi que certains résultats obtenus.
A la fin du chapitre, on va donner une discussion des résultats obtenu entre les défé-
rentes images satellitaires. En fonction des différents canaux.
54
CHAPITRE V. IMPLÉMENTATION ET RÉSULTATS
Pour augmenter la lisibilité de notre programme et faciliter les différents tests nécessaires,
on a essayé de le partitionner en un ensemble de modules.
55
CHAPITRE V. IMPLÉMENTATION ET RÉSULTATS
56
CHAPITRE V. IMPLÉMENTATION ET RÉSULTATS
Cette nouvelle fenêtre permet de parcourir les dossiers et choisir les images satellitaires
météorologiques d’extension Bitmap .bmp .
Une opération pareille est réalisée pour le bouton Ouvrir image 2.
Pour confirmer le chargement des images on clique sur OK.
57
CHAPITRE V. IMPLÉMENTATION ET RÉSULTATS
58
CHAPITRE V. IMPLÉMENTATION ET RÉSULTATS
59
CHAPITRE V. IMPLÉMENTATION ET RÉSULTATS
Remarque : Ces résultats obtenus sont loin d’être les résultats donnés par les modèles
météorologiques parce que ces modèles sont très puissants et très développés et utilisent de
grands serveurs. Ce travail est le début d’un projet de segmentation des images satellitaires
météorologiques par les machines à vecteurs supports au laboratoire LESIA de notre
université. Les résultats peuvent être améliorés en multipliant le nombre de canaux et en
approfondissant l’analyse des paramètres de la méthode SVC.
V.5. Conclusion
Dans ce chapitre, nous avons décrit les aspects de réalisation du système. Tout dŠa-
bord, nous avons commencé par une brève présentation de l’environnement exploité, où
nous avons montré les motivations pour ce choix.
Le reste du chapitre a fourni des détails sur l’environnement, montré comment implé-
menter les différentes structures et les algorithmes proposés. Enfin, certains résultats ont
été présentés.
60
CHAPITRE V. IMPLÉMENTATION ET RÉSULTATS
61
Bibliographie
A.Ben-Hur, D.Horn, H.T.Siegelmann, and V.Vapnik.A : Support vector method for hie-
rarchical clustering. In Advances in Neural Information Processing Systems 13. MIT
Press, 2001.
D.M. J.Tax and R.P.W.Duin. : Support vector domain description. Pattern Recognition
Letters, 20(11-13) :1191-1199, 1999.
J.Han, M.Kamber, and J.Pei. : Data mining : concepts and techniques. Morgan Kaufmann
Pub, 2011.
Jianhua Yang, Vladimir Estivill-Castro and Stephan K.Chalup. : Support Vector Cluste-
ring Through Proximity Gragh Modelling. School of Electrical Engineering and Com-
puter Science. The University of Newcastle, Callaghan, NSW 2308, Australia.
Abdelhamid DJEFFAL : Utilisation des méthodes Support Vector Machine (SVM) dans
l’analyse des bases de données. Université Mohamed Khider - Biskra. Thèse de doctorat
2012.
62
BIBLIOGRAPHIE
A.K.Jain and R.C.Dubes. : Algorithms for clustering data. Prentice Hall, Englewood Cliffs,
NJ, 1988.
A.K. Jain. : Data clustering : 50 years beyond k-means. Pattern Recognition Letters,
31(8) :651-666, 2009.
J.W. Van Ness. : Admissible clustering procedures. Biometrika, pages 422-424, 1973.
Olivier Bousquet : Introduction aux Support Vector Machines (SVM). Centre de Mathé-
matiques Appliquées Ecole Polytechnique, Palaiseau. Orsay 2001.
Regueb Saleh, Rais Houssem Eddine : Sélection des dattes par la méthode SVM. Mémoire
d’ingénieure d’état en informatique, Faculté des Sciences exactes et des Sciences de la
nature et de la vie. Université de Biskra Juin 2009.
63
BIBLIOGRAPHIE
M.Tarhouni, K.Laabidi, S.Zidi, M.Ksouri : Surveillance des systèmes complexes par sépa-
rateurs a vaste marge (SVM). Université des Sciences et Technologies de Lille 2010.
Martin Law et Antoine Cornuéjols : Une introduction aux machines à vecteurs supports
(ou séparateurs à vastes marges - SVM).
K.P.Soman R.Loganathan V.Ajay : Machine learning with SVM and other kernel ethods.
Eastern economy edition.
Larry M.Manevitz et Malik Yousef : One-Class SVMs for Document Classification. De-
partment of Computer Science. University of Haifa, Journal of Machine Learning Re-
search 2001.
Asma Rabaoui, Manuel Davy, Stéphane Rossignol, Zied Lachiri, Noureddine Ellouze :
Sélection de descripteurs audio pour la classification des sons environnementaux avec
des SVMs mono-classe.
Rui Zhang, Shaoyan Zhang, Yang Lan, Jianmin Jiang : Network Anomaly Detection Using
One Class Support Vector Machine. Proceedings of the International MultiConference
of Engineers and Computer Scientists 2008, Hong Kong.
Quang-Anh Tran, Haixin Duan et Xing Li : One-class Support Vector Machine for Ano-
maly Network Traffic Detection. Tsinghua University.
Hany Alashwal, Safaai Deris and Razib M. Othman : One-Class Support Vector Machines
for Protein Protein Interactions Prediction. International Journal of Biological and Life
Sciences 2005.
O.diop. : Détection de nuages de poussière dans les images Météosat à l’aide des attri-
buts de textures et de la fusion de segmentations : application à la zone sahélienne du
continent africain. Thèse doctorat, INSA, RENNE, 2007.
dos santos anaëlle , kang sari. simon grégory : Acquisition des images satellites. http:
//the-overtake.ifrance.com/part3.html.
64
BIBLIOGRAPHIE
65