DM Chapitre4 Clustering (Suite HAC)

2.
Les algorithmes de clustering

Clustering hiérarchique
Cette méthode consiste à regrouper les données de manière hiérarchique, en commençant par des clusters individuels
pour finalement aboutir à un seul cluster contenant toutes les données. Il existe deux types de clustering hiérarchique :
agglomératif (ascendant) et diviseur (descendant).
Exemple: DIANA, AGNES, …
agglomératif diviseur
2. Les algorithmes de clus tering
 Clustering hiérarchique
- Produire un ensemble de clusters imbriqués organisés sous forme d'arbre hiérarchique.

- En commençant par les clusters les plus similaires et en fusionnant progressivement les clusters jusqu'à ce que
tous les points de données soient regroupés en un seul cluster.
- Peut être visualisé sous forme de dendrogramme
- Un diagramme sous forme d'arbre qui enregistre les séquences de fusions ou de divisions
2. Les algorithmes de clustering
 Les deux principaux types de clustering hiérarchiques
1. Clustering hiérarchique agglomératif (ou ascendant)

o Commence par considérer chaque point de données comme un cluster individuel.
o À chaque étape, les paires de clusters les plus proches les uns des autres sont fusionnés.
o Ce processus se poursuit jusqu'à ce que tous les points de données soient regroupés dans un seul
cluster.
2. Clustering hiérarchique divisive (ou descendant) :
o Commence par considérer tous les points de données comme un seul cluster
o À chaque étape, le cluster existant est divisé en clusters plus petits, en cherchant à maximiser la
différence entre les sous-clusters.
o Ce processus se poursuit jusqu'à ce que chaque cluster contienne un seul élément.
Remarque: Le clustering hiérarchique agglomératif est plus couramment utilisé en raison de sa capacité à générer une
hiérarchie de clusters, ce qui permet une analyse plus approfondie des relations entre les clusters. En revanche, le
clustering hiérarchique divisif est moins couramment utilisé en raison de sa complexité (difficile à mettre en œuvre) et
de sa sensibilité aux paramètres.
 Les deux principaux types de clustering hiérarchiques
Matrice de distance initiale
P1 P2 P3 P4 …
 Algorithme basique
P1 0
1. Calcul de la matrice de distance entre tous les points de données P2 1,20 0
(matrice de similarité) P3 0,80 2,10 0
2. Initialisation des clusters en considérant chaque point de données
P4 1,98 1,02 2,42 0
comme un cluster individuel
3. Répéter … …
4. Fusion les clusters les plus similaires
5. Mettre à jour la matrice de distance
6. Jusqu’à ce qu’il ne reste plus qu’un seul cluster P1,P3 P2 P4 …
P1,P3 ?
P1 P1 P2 ? 0
P3 P3
P4 ? 1,02 0
P2 P2
… … … …
P4 P4
 Comment définir la distance inter-cluster?
+ *
+ Similarité ? * *
+ + * *
+ *
+ *
(d)
(a): Single Linkage: Mesure la similarité entre deux clusters en

utilisant la distance la plus courte entre les points de chaque cluster
 la similarité entre deux clusters est déterminée par la paire de
points la plus proche entre les deux clusters
(b): Complete Linkage: mesure la similarité entre deux clusters en

utilisant la distance la plus longue entre les points de chaque cluster
la similarité entre deux clusters est déterminée par la paire de
points la plus éloignée entre les deux clusters.
(c): Average Linkage: mesure la similarité entre deux clusters en

utilisant la distance moyenne entre tous les points des deux clusters
(d) (d): Centroid Linkage: mesure la similarité entre deux clusters en

utilisant la distance entre les centroïdes (moyennes) des deux
clusters.
Qu'en concluez-vous?
Source: https://www.sciencedirect.com/science/article/pii/S1319157822001380
 Avantages et Inconvénients de chaque type de liaison
1.Single Link (liaison simple) :
1. Avantage : Moins sensible aux clusters de forme allongée.
2. Inconvénient : Sensible au bruit et aux valeurs aberrantes.
2.Complete Link (liaison complète) :

1. Avantage : Moins sensible au bruit que la liaison simple.
2. Inconvénient : Peut avoir du mal à gérer les clusters de forme allongée.
3.Average Link (liaison moyenne) :

1. Avantage : Généralement robuste et adapté à divers types de clusters.
2. Inconvénient : Peut être sensible aux clusters de taille inégale.
3. Centroid Link (Liaison du centroide):

1. Avantage: Minimise la variance intra-cluster.
2. Inconvénient : La sensibilité à la présence de valeurs aberrantes.
Remarque: Il est important de noter que les performances de ces méthodes peuvent varier en fonction de la
distribution des données, de la présence de bruit ou de valeurs aberrantes, et de la nature des clusters que vous
recherchez. Dans la pratique, il est souvent recommandé de tester plusieurs méthodes sur vos données et de
choisir celle qui produit les résultats les plus pertinents pour votre problème spécifique.
 Comment lire un dendrogramme
Pour lire un dendrogramme, suivez ces étapes :
1.Comprendre l'axe vertical : L'axe vertical représente la distance ou la
similarité entre les éléments ou les clusters. Plus les branches sont longues,
plus la distance entre les éléments est grande. Plus les branches sont
courtes, plus les éléments sont similaires.
Distance
2.Identifier les clusters : Les éléments individuels sont représentés par des
lignes horizontales en bas du dendrogramme, tandis que les clusters sont
formés en fusionnant ces éléments à mesure que vous remontez le
dendrogramme.
3.Trouver les points de fusion : Là où les lignes se connectent, cela

représente le point où les clusters se sont fusionnés. Ces points de fusion
indiquent la similarité entre les clusters. Observations
4.Interpréter les branches : Les branches du dendrogramme indiquent la
distance entre les clusters ou les éléments individuels. Plus les branches
sont longues, plus la distance est grande.
 Nombre de clusters optimal
Pour identifier le nombre de clusters à partir d'un dendrogramme, Voici
les étapes à suivre :
1.Tracez le dendrogramme en utilisant une méthode de regroupement

hiérarchique agglomératif (HAC).
Distance
2.Identifiez la plus grande distance verticale sans couper une branche
horizontale. Cela vous donne une idée du nombre de clusters que vous
pouvez former.
3.Tracez une ligne horizontale à travers cette distance maximale.
4.Comptez combien de fois cette ligne horizontale croise les branches

verticales du dendrogramme. Chaque intersection représente un cluster. Observations
5.Le nombre de clusters est égal au nombre de fois que la ligne horizontale
coupe les branches verticales.
N.B: Il est important de noter que cette méthode est plus qualitative que quantitative et peut
nécessiter une certaine subjectivité.
 Points forts et Points faibles du clustering hiérarchique
Le clustering hiérarchique présente plusieurs points forts et points faibles, qui sont importants à considérer lors de son utilisation
dans l'analyse de données.
+++ ---
1. Pas besoin de spécifier le nombre de clusters à l'avance : 1. Sensible au bruit et aux valeurs aberrantes : Le
N'importe quel nombre de clusters souhaité peut être clustering hiérarchique peut être sensible au bruit et aux
obtenu en coupant le dendrogramme au niveau approprié. valeurs aberrantes, ce qui peut entraîner des
regroupements incohérents ou non significatifs.
2. Interprétabilité : Le dendrogramme généré par le 2. Coût computationnel élevé : Le clustering hiérarchique
clustering hiérarchique offre une visualisation claire de la peut être coûteux en termes de calcul, en particulier pour
structure hiérarchique des clusters, ce qui facilite de grandes quantités de données, car il nécessite le calcul
l'interprétation des résultats et la compréhension des de toutes les distances entre les points de données.
relations entre les clusters.
3. Flexibilité : Le clustering hiérarchique peut être utilisé 3. Difficulté à gérer de grandes quantités de données :
avec différentes mesures de distance et méthodes de Pour de grandes quantités de données, le dendrogramme
liaison, ce qui le rend adaptable à une variété de types de peut devenir difficile à interpréter, et le processus de
données et de distributions. découpage de la hiérarchie en clusters peut devenir plus
complexe.
 Exercice1 : Application de l’algorithme Agglomeratif
X Y
Soit data set suivante:
P1 0,40 0,53
P2 0,22 0,38
P3 0,35 0,32
P4 0,26 0,19
P5 0,08 0,41
P6 0,45 0,30
Question:
1. Représenter les points sous forme d’un graphe scatter
2. Trouver les clusters à l’aide de la technique Single Link. Utilisez la distance euclidienne et dessinez le
dendrogramme

DM Chapitre4 Clustering (Suite HAC)

Transféré par

Droits d'auteur :

Formats disponibles

DM Chapitre4 Clustering (Suite HAC)

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

DM Chapitre4 Clustering (Suite HAC)

Transféré par

Droits d'auteur :

Formats disponibles

2.

Les algorithmes de clustering

- Produire un ensemble de clusters imbriqués organisés sous forme d'arbre hiérarchique.

1. Clustering hiérarchique agglomératif (ou ascendant)

2. Clustering hiérarchique divisive (ou descendant) :

(a): Single Linkage: Mesure la similarité entre deux clusters en

(b): Complete Linkage: mesure la similarité entre deux clusters en

(c): Average Linkage: mesure la similarité entre deux clusters en

(d) (d): Centroid Linkage: mesure la similarité entre deux clusters en

2.Complete Link (liaison complète) :

3.Average Link (liaison moyenne) :

3. Centroid Link (Liaison du centroide):

3.Trouver les points de fusion : Là où les lignes se connectent, cela

1.Tracez le dendrogramme en utilisant une méthode de regroupement

3.Tracez une ligne horizontale à travers cette distance maximale.

4.Comptez combien de fois cette ligne horizontale croise les branches

Vous aimerez peut-être aussi