01 Introduction DM
01 Introduction DM
01 Introduction DM
Introduction
Data Mining
FBR.2020-2020.ISG Tunis.
1
Introduction
Données Informations
Information présentée Une information est
sous forme une donnée à laquelle
conventionnelle, un sens et une
en vue d'être traitée interprétation ont été
donnés
Connaissances
Règles utilisant les
informations et les
données pour en
déduire d'autres
2
Introduction
3
Plan
4
Motivation
5
Motivation
6
Qu’est-ce que le data mining ?
Data mining :
Extraction d’informations intéressantes (non triviales, implicites,
préalablement inconnues et potentiellement utiles) à partir de
grandes bases de données.
Autres appellations:
• ECD (Extraction de Connaissances à partir de Données)
• KDD (Knowledge Discovery from Databases)
• Analyse de données/patterns, business intelligence,
fouille de données, etc …
7
Qu’est-ce que le data mining ?
8
Qu’est-ce que le data mining ?
Comment ?
Autres Applications
• Text mining : news groups, emails, documents Web.
• Optimisation des requêtes
11
Exemple Data mining
Marketing ciblé
Trouver un « modèle » pour regrouper les clients partageant les mêmes
caractéristiques. Pour chaque groupe, adopter une démarche marketing
particulière
Analyse croisée
Associations/co-relations entre ventes de produits
Prédiction basée sur ces associations
12
Exemple Data mining
Applications
L’analyse d’une BD de transactions d’un supermarché permet
d’étudier le comportement des clients :
réorganiser les rayons
Ajuster les promotions
L’analyse de données médicales :
Support pour la recherche
L’analyse de données financières :
Prédire l’évolution des actions
Organismes de crédit (dresser des profils de clients)
13
Exemple Data mining
Applications
Détection de fraudes
en santé, services de cartes de crédit, télécommunications, etc.
Approche
Utiliser les données historiques pour construire des modèles de
comportements frauduleux puis utiliser les techniques de datamining pour
retrouver des instances similaires
Exemples
Assurances auto: détecter les personnes qui collectionnent les accidents et les
remboursements
Blanchiment d’argent: détecter les transactions suspectes (US Treasury's
Financial Crimes Enforcement Network)
14
Exemple Data mining
Applications
Demande de crédit bancaire:
• Célibataire ou marié?
• En retraite?
• Intervalle de salaire?
15
Exemple Data mining
16
Processus général du ECD
17
Processus du ECD
Données intéressantes
Nettoyage de données
Intégration
19
Architecture typique d’un système de Data Mining
Interface graphique
Data
BD’s Warehouse
20
Data Mining: sur quels types de données
• BD’s relationnelles
• Data warehouses
• BD’s transactionnelles
• BD’s avancées
o BD’s objet et objet-relationnelles
o BD’s spatiales
o Séries temporelles
o BD’s Textes et multimedia
o BD’s Hétérogènes
o WWW 21
Data Mining: Confluence de
plusieurs Disciplines
Technologie BD Statistique
Informatique
22
Classification des systèmes
• Fonctionnalité générale
Data mining descriptif
Data mining prédictif
• Application ciblée
23
Classification des systèmes
BD fouillée
Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active,
spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc.
Connaissance recherchée
Association, classification, clustering, tendance, analyse de déviation, etc.
Multiples fonctions aux différents niveaux
Techniques utilisées
BD, data warehouse (OLAP), apprentissage, clustering, statistiques,
visualisation, réseaux de neurones, arbre de décision, SVM etc.
Applications
télécommunication, banque, analyse de fraude, ADN, finance, Web, …
24
Problématiques
Méthodologie et interaction
Différents types de connaissances à extraire
Prise en compte des connaissances des experts
Langages de requête et data mining ad-hoc
Expression et visualisation des résultats
Prise en compte des données incomplètes ou avec bruit
Évaluation des motifs: notion d’intérêt
Performance et mise en échelle
Efficacité des algorithmes
Méthodes Parallèles, distribuées et incrémentales
Diversité des types de données
Relationnels, objets complexes, texte, …
25
Résumé