DM Chapitre4 Clustering (Suite HAC)
DM Chapitre4 Clustering (Suite HAC)
DM Chapitre4 Clustering (Suite HAC)
Cette méthode consiste à regrouper les données de manière hiérarchique, en commençant par des clusters individuels
pour finalement aboutir à un seul cluster contenant toutes les données. Il existe deux types de clustering hiérarchique :
agglomératif (ascendant) et diviseur (descendant).
Exemple: DIANA, AGNES, …
agglomératif diviseur
2. Les algorithmes de clus tering
Clustering hiérarchique
o Commence par considérer tous les points de données comme un seul cluster
o À chaque étape, le cluster existant est divisé en clusters plus petits, en cherchant à maximiser la
différence entre les sous-clusters.
o Ce processus se poursuit jusqu'à ce que chaque cluster contienne un seul élément.
Remarque: Le clustering hiérarchique agglomératif est plus couramment utilisé en raison de sa capacité à générer une
hiérarchie de clusters, ce qui permet une analyse plus approfondie des relations entre les clusters. En revanche, le
clustering hiérarchique divisif est moins couramment utilisé en raison de sa complexité (difficile à mettre en œuvre) et
de sa sensibilité aux paramètres.
2. Les algorithmes de clus tering
Les deux principaux types de clustering hiérarchiques
2. Les algorithmes de clustering
Matrice de distance initiale
P1 P2 P3 P4 …
Algorithme basique
P1 0
1. Calcul de la matrice de distance entre tous les points de données P2 1,20 0
(matrice de similarité) P3 0,80 2,10 0
2. Initialisation des clusters en considérant chaque point de données
P4 1,98 1,02 2,42 0
comme un cluster individuel
3. Répéter … …
4. Fusion les clusters les plus similaires
5. Mettre à jour la matrice de distance
6. Jusqu’à ce qu’il ne reste plus qu’un seul cluster P1,P3 P2 P4 …
P1,P3 ?
P1 P1 P2 ? 0
P3 P3
P4 ? 1,02 0
P2 P2
… … … …
P4 P4
2. Les algorithmes de clus tering
Comment définir la distance inter-cluster?
+ *
+ Similarité ? * *
+ + * *
+ *
+ *
(d)
2. Les algorithmes de clustering
Comment définir la distance inter-cluster?
Qu'en concluez-vous?
Source: https://www.sciencedirect.com/science/article/pii/S1319157822001380
2. Les algorithmes de clustering
Avantages et Inconvénients de chaque type de liaison
1.Single Link (liaison simple) :
1. Avantage : Moins sensible aux clusters de forme allongée.
2. Inconvénient : Sensible au bruit et aux valeurs aberrantes.
Distance
2.Identifier les clusters : Les éléments individuels sont représentés par des
lignes horizontales en bas du dendrogramme, tandis que les clusters sont
formés en fusionnant ces éléments à mesure que vous remontez le
dendrogramme.
Distance
2.Identifiez la plus grande distance verticale sans couper une branche
horizontale. Cela vous donne une idée du nombre de clusters que vous
pouvez former.
5.Le nombre de clusters est égal au nombre de fois que la ligne horizontale
coupe les branches verticales.
N.B: Il est important de noter que cette méthode est plus qualitative que quantitative et peut
nécessiter une certaine subjectivité.
2. Les algorithmes de clus tering
Points forts et Points faibles du clustering hiérarchique
Le clustering hiérarchique présente plusieurs points forts et points faibles, qui sont importants à considérer lors de son utilisation
dans l'analyse de données.
+++ ---
1. Pas besoin de spécifier le nombre de clusters à l'avance : 1. Sensible au bruit et aux valeurs aberrantes : Le
N'importe quel nombre de clusters souhaité peut être clustering hiérarchique peut être sensible au bruit et aux
obtenu en coupant le dendrogramme au niveau approprié. valeurs aberrantes, ce qui peut entraîner des
regroupements incohérents ou non significatifs.
2. Interprétabilité : Le dendrogramme généré par le 2. Coût computationnel élevé : Le clustering hiérarchique
clustering hiérarchique offre une visualisation claire de la peut être coûteux en termes de calcul, en particulier pour
structure hiérarchique des clusters, ce qui facilite de grandes quantités de données, car il nécessite le calcul
l'interprétation des résultats et la compréhension des de toutes les distances entre les points de données.
relations entre les clusters.
3. Flexibilité : Le clustering hiérarchique peut être utilisé 3. Difficulté à gérer de grandes quantités de données :
avec différentes mesures de distance et méthodes de Pour de grandes quantités de données, le dendrogramme
liaison, ce qui le rend adaptable à une variété de types de peut devenir difficile à interpréter, et le processus de
données et de distributions. découpage de la hiérarchie en clusters peut devenir plus
complexe.
2. Les algorithmes de clustering
Exercice1 : Application de l’algorithme Agglomeratif
X Y
Soit data set suivante:
P1 0,40 0,53
P2 0,22 0,38
P3 0,35 0,32
P4 0,26 0,19
P5 0,08 0,41
P6 0,45 0,30
Question:
1. Représenter les points sous forme d’un graphe scatter
2. Trouver les clusters à l’aide de la technique Single Link. Utilisez la distance euclidienne et dessinez le
dendrogramme