Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

01 Introduction DM

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 26

Année universitaire 2020/2021

Introduction
Data Mining

FBR.2020-2020.ISG Tunis.
1
Introduction

Données Informations
Information présentée Une information est
sous forme une donnée à laquelle
conventionnelle, un sens et une
en vue d'être traitée interprétation ont été
donnés

Connaissances
Règles utilisant les
informations et les
données pour en
déduire d'autres
2
Introduction

3
Plan

• Motivation: Pourquoi le Data mining?


• Ce qu’est le Data mining?
• Data Mining: Sur quels types de données?
• Fonctionnalités du Data mining
• Intérêt des motifs (patterns)
• Classification des systèmes de Data mining
• Problèmes rencontrés

4
Motivation

Problème de l’explosion de données


Les outils automatiques de collecte de données font que les Bases de Données
(BD’s) contiennent énormément de données (Ex: La base de données des
transactions d’un super marché).
« Les volumes de données vont augmenter d’un facteur trente d’ici à 2025 pour

atteindre 35 zettaoctets (1021) au niveau mondial », affirme Sébastien Verger

5
Motivation

Motivation: Le besoin crée l’invention

Beaucoup de données mais peu de connaissances !


Solution: Data warehousing et data mining
Data warehousing et OLAP (On Line Analytical Processing)
Extraction de connaissances intéressantes (règles, régularités, patterns,
contraintes) à partir de données

6
Qu’est-ce que le data mining ?

Data mining :
Extraction d’informations intéressantes (non triviales, implicites,
préalablement inconnues et potentiellement utiles) à partir de
grandes bases de données.

Autres appellations:
• ECD (Extraction de Connaissances à partir de Données)
• KDD (Knowledge Discovery from Databases)
• Analyse de données/patterns, business intelligence,
fouille de données, etc …

7
Qu’est-ce que le data mining ?

Le data mining est


• l’ensemble des méthodes scientifiques
• destinées à l’exploration et l’analyse
• de (souvent) grandes bases de données informatiques
• en vue de détecter dans ces données des profils-type, des
comportements récurrents, des règles, des liens, des tendances
inconnues (non fixées a priori), des structures particulières
restituant de façon concise l’essentiel de l’information utile
• pour l’aide a la décision

Selon le MIT, le data mining est l’une des 10 technologies


emergentes qui changeront le monde au XXIe siecle

8
Qu’est-ce que le data mining ?

Le data mining est l’extraction des informations cachées dans des


bases de données volumineuses.

Comment ?

Utilisant des techniques d’analyse et d’apprentissage automatique et


des logiciels spécialisés.
9
Qu’est-ce que le data mining ?

Les 2 types de méthodes de data mining


• Les méthodes descriptives (recherche de patterns ):
o visent a mettre en évidence des informations présentes mais cachées par
le volume des données (c’est le cas des segmentations de clientèle et des
recherches d’associations de produits sur les tickets de caisse)
o réduisent, résument, synthétisent les données.
o il n’y a pas de variable a expliquer

• Les méthodes prédictives (modélisation) :


o visent a extrapoler de nouvelles informations a partir des informations
présentes.
o expliquent les données
o il y a une variable a expliquer 10
Pourquoi faire ?

 Analyse de données et aide à la décision


• Analyse de marché
• Marketing ciblé, gestion des relations client, analyse des
achats des clients, ventes croisées, segmentation du marché
• Analyse de risque
• Détection de fraudes

 Autres Applications
• Text mining : news groups, emails, documents Web.
• Optimisation des requêtes

11
Exemple Data mining

Analyse de marché et management


Les sources de données à analyser ?
Transactions avec carte de crédit, carte de fidélité, sondages

Marketing ciblé
Trouver un « modèle » pour regrouper les clients partageant les mêmes
caractéristiques. Pour chaque groupe, adopter une démarche marketing
particulière

Analyse croisée
Associations/co-relations entre ventes de produits
Prédiction basée sur ces associations
12
Exemple Data mining

Applications
L’analyse d’une BD de transactions d’un supermarché permet
d’étudier le comportement des clients :
réorganiser les rayons
Ajuster les promotions
L’analyse de données médicales :
Support pour la recherche
L’analyse de données financières :
Prédire l’évolution des actions
Organismes de crédit (dresser des profils de clients)

13
Exemple Data mining

Applications
Détection de fraudes
en santé, services de cartes de crédit, télécommunications, etc.
Approche
Utiliser les données historiques pour construire des modèles de
comportements frauduleux puis utiliser les techniques de datamining pour
retrouver des instances similaires
Exemples
Assurances auto: détecter les personnes qui collectionnent les accidents et les
remboursements
Blanchiment d’argent: détecter les transactions suspectes (US Treasury's
Financial Crimes Enforcement Network)

14
Exemple Data mining

Applications
Demande de crédit bancaire:
• Célibataire ou marié?
• En retraite?
• Intervalle de salaire?

15
Exemple Data mining

16
Processus général du ECD

Le processus ECD (Extraction de connaissances à partir de données)


KDD – Knowledge discovery in Databases
• Graphes d'Induction
• Echantillonnage • Réseaux de neurones • Tests statistiques
• Préparation des données • Analyse discriminante • Re-échantillonnage
• Visualisation des données • Régression logistique

17
Processus du ECD

Data mining: étape clé dans Evaluation de patterns


l’extraction de connaissances
Data Mining

Données intéressantes

Data Warehouse Sélection

Nettoyage de données

Intégration

Bases de données ou fichiers


18
Etapes du Processus ECD

1. Comprendre le domaine d’application


2. Création d’un ensemble de données (sélection)
3. Nettoyage et pré-traitement des données (peut prendre 60% de l’effort)
4. Choix des fonctionnalités du data mining
• classification, consolidation, régression, association, clustering.
5. Choix de(s) l’algorithme(s) d’extraction
6. Datamining: Recherche des motifs (patterns) intéressants
7. Evaluation des Patterns et présentation
• visualisation, transformation, suppression des patterns redondants, etc.
8. Utilisation de la connaissance extraite

19
Architecture typique d’un système de Data Mining

Interface graphique

Evaluation des motifs

Module Data mining


Base de
BD ou Datawarehouse connaissances
Nettoyage & intégration Filtrage

Data
BD’s Warehouse

20
Data Mining: sur quels types de données

• BD’s relationnelles
• Data warehouses
• BD’s transactionnelles
• BD’s avancées
o BD’s objet et objet-relationnelles
o BD’s spatiales
o Séries temporelles
o BD’s Textes et multimedia
o BD’s Hétérogènes
o WWW 21
Data Mining: Confluence de
plusieurs Disciplines

Technologie BD Statistique
Informatique

Apprentissage Data Mining Visualisation

Théorie de l’information Autres


Disciplines

22
Classification des systèmes

• Fonctionnalité générale
Data mining descriptif
Data mining prédictif

• Différentes vues, différentes classifications


Types de BD’s à fouiller
Types de connaissances à découvrir
Types de techniques utilisées

• Application ciblée

23
Classification des systèmes

BD fouillée
Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active,
spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc.
Connaissance recherchée
Association, classification, clustering, tendance, analyse de déviation, etc.
Multiples fonctions aux différents niveaux
Techniques utilisées
BD, data warehouse (OLAP), apprentissage, clustering, statistiques,
visualisation, réseaux de neurones, arbre de décision, SVM etc.
Applications
télécommunication, banque, analyse de fraude, ADN, finance, Web, …
24
Problématiques

Méthodologie et interaction
Différents types de connaissances à extraire
Prise en compte des connaissances des experts
Langages de requête et data mining ad-hoc
Expression et visualisation des résultats
Prise en compte des données incomplètes ou avec bruit
Évaluation des motifs: notion d’intérêt
Performance et mise en échelle
Efficacité des algorithmes
Méthodes Parallèles, distribuées et incrémentales
Diversité des types de données
Relationnels, objets complexes, texte, …

25
Résumé

• Data Mining: Découverte de motifs intéressants à partir de grandes


quantités de données
• Une évolution naturelle de la technologie des SGBD, très demandée
par diverses applications
• Un processus d’ECD inclut les étapes: nettoyage, intégration,
sélection, transformation, data mining, évaluation des patterns,
présentation de la connaissance
• La fouille peut se faire sur différents types d’entrepôts de données
• Fonctionnalités: discrimination, association, classification,
Clustering, analyse de tendances, etc.
• Classification de SDM
• Problématiques du data Mining
26

Vous aimerez peut-être aussi