Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Chap - Analyse D'associations - Partie 01-18-19

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 12

Chapitre 2.

Analyse d’associations

Ali BERRICHI, Département d’informatique, Faculté des Sciences, UMBBoumerdes, aberrichi@umbb.dz, ali.berrichi@gmail.com
1
Analyse d’associations
• Apparue années 1990’ :

• Découvrir des relations intéressantes cachées dans de


grands ensembles de données.

• Les relations découvertes peuvent être représentées sous


la forme de:
− Règles d'association ou
− Ensembles d'articles fréquents.

2
Le problème de découverte de règles d’association

• Etant donné un ensemble de transactions, trouver des


règles qui prédisent l’occurrence d’un article (Item), en se
basant sur les occurrences des autres articles (Items).

Exemple: Panier de la ménagère (Market-Basket Transactions)

TID Items

1 Pain, Lait
2 Pain, Couches, Coca, Œufs
Exemple de règles d’association :
3 Lait, Couches, Coca, Café {Couches}  {Coca},
4 Pain, Lait, Couches, Coca {Lait, Pain}  {Œufs, Café},
5 Pain, Lait, Couches, Café
{Coca, Pain}  {Lait},
.. …..
.. ……
3
Pourquoi analyser ces données ?
− Apprendre davantage sur le comportement d'achat de leurs
clients.
− Soutenir une variété d'activités, telles que des promotions
marketing, la gestion des stocks et la gestion de la relation
client.
−Exemple : {Couches bébés} {Coca}:
−une relation forte entre la vente de couches -bébés et Coca,
−car beaucoup de clients qui achètent des couches achètent
aussi coca-cola.
−Ce type de règles peut aider à identifier de nouvelles
opportunités de ventes croisées des produits aux clients.

- Applications aux autres domaines : la bioinformatique, le


diagnostic médical, le Webmining, et l’analyse de données
scientifiques, etc.
4
Bref aperçu sur l’état de la recherche
• IEEE- 2014-Analyzing Alzheimer's disease gene expression dataset using
clustering and association rule mining
• IEEE- 2015-Analysing road accident data using association rule mining
• IEEE-2009-Research of Association Rules in Analyzing Technique of Football
Match
• SD - 2005-A novel manufacturing defect detection method using association rule
mining techniques
• SD - 2014 -Pattern mining in tourist attraction visits through association rule
learning on bluetooth tracking data a case study of Ghent belgium
• SD - 2015 Association Rule Mining in Korean Herbal Prescriptions of the Early
20th Century
• SD - 2016 - Application Of Association Rules In Clinical Data Mining A Case Study
For Identifying Adverse Drug Reactions
• Etc.
Deux questions clés

1. Découvrir des modèles à partir d’un ensemble


volumineux de données de transactions peut
être coûteux en calcul.

2. Certains des modèles découverts sont


potentiellement fallacieux, parce qu'ils peuvent
se produire tout simplement par hasard.

6
Définition: Itemset Fréquent
 Itemset (Ensemble d’articles)
– Une collection d’un ou plusieurs items
• Exemple: {Lait, Pain, Couches bébé}
– k-itemset TID Items
• Un itemset qui contient k items 1 Pain, Lait
• Compteur de Support () 2 Pain, Couches, Coca, Oeufs
– Fréquence d’occurrence d’un itemset 3 Lait, Couches, Coca, Café
– Exemple: ({Lait, Pain, Couches}) = 2 4 Pain, Lait, Couches, Coca
• Support 5 Pain, Lait, Couches, Café

– Fraction de transactions qui contiennent


un itemset
– Ex. s({Lait, Pain, Couches}) = 2/5
• Itemset Fréquent
– Un itemset ayant un support supérieur ou
égal à un seuil minsup.
Définition: Règle d’association
 Règle d’association TID Items

– Une expression d’implication de la forme 1 Pain, Lait


X  Y, où X and Y sont des itemsets 2 Pain, Couches, Coca, Oeufs
– Exemple: 3 Lait, Couches, Coca, Café
{Lait, Couches}  {Coca} 4 Pain, Lait, Couches, Coca
5 Pain, Lait, Couches, Café
 Métriques d’Evaluation des règles
– Support (s)
 Fraction de transactions qui Example:
contiennent X et Y tous les deux. {Lait , Couches}  Coca
– Confiance (c)
Mesure la fréquence d’articles  (Lait , Couches, Coca ) 2

s   0.4
dans Y apparaissant dans les |T| 5
transactions qui contiennent X.
 (Lait, Couches, Coca ) 2
c   0.67
 (Lait , Couches ) 3
La tâche de fouille de Règles d’association
• Etant donné un ensemble de transactions T,
l’objectif de fouille de règles d’association est de
trouver toutes les règles ayant :
– support ≥ seuil minsup
– confidence ≥ seuil minconf

• L’approche naïve (Brute-force approach):


– Lister toutes les règles d’association possibles
– Calculer le support et la confiance de chaque règle
– Elaguer (éliminer) les règles qui ne satisfont pas les
seuils minsup et minconf
 Prohibitive en termes de temps!
La tâche de fouille de Règles d’association
TID Items
1 Pain, Lait Exemple de Règles:
2 Pain, Couches, Coca, Oeufs {Lait,Couches}  {Coca} (s=0.4, c=0.67)
3 Lait, Couches, Coca, Café {Lait, Coca}  {Couches} (s=0.4, c=1.0)
4 Pain, Lait, Couches, Coca {Couches, Coca}  {Lait} (s=0.4, c=0.67)
5 Pain, Lait, Couches, Café {Coca}  {Lait, Couches} (s=0.4, c=0.67)
{Couches}  {Lait, Coca} (s=0.4, c=0.5)
{Lait}  {Couches, Coca} (s=0.4, c=0.5)
Observations:
• Toutes les règles ci-dessus sont des partitions binaires du même itemset:
{Lait, Couches, Coca}
• Règles extraites du m^ itemset: support identique- confiance différentes

•Si l’itemset = pas fréquent  toutes les 6 règles candidates = écartées


sans calculer leurs valeurs de confiance.

• Donc, nous devons décomposer le problème en deux sous tâches


majeures: Itemsets fréquents ____ règles d’association fortes
Fouille de Règles d’association
• Approche en deux étapes:
1. Génération d’Itemsets Fréquents
– Générer tous les itemsets ayant un support  minsup

2. Génération des Règles


– Générer les règles de haute confiance à partir de chaque
itemset fréquent, où chaque règle est une partition binaire
d’un itemset fréquent

• Les calculs pour la génération des itemsets


fréquents sont généralement plus coûteux que
ceux pour la génération des règles.
Génération d’itemsets fréquents
Etant donné d items, il null
y a 2d itemsets
candidats possibles
A B C D E

AB AC AD AE BC BD BE CD CE DE

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Vous aimerez peut-être aussi