1 Introduction PDF

MINEURE
« DATA SCIENCE »
Frédéric Pennerath
frederic.pennerath@centralesupelec.fr
Objectifs et modalité du cours
« Théorie et pratique en science des données »
Un volet « théorique » :
• Cours sur le 1er créneau horaire en A007
• Applications du cours de machine learning
• Traitement des données au sens large (stockage, manipulation, visualisation, etc)
• Un peu d’algorithmique (fouille de données, traitement de flux)
Un volet « pratique » :
• TP sur le 2ème créneau horaire en A305-306
– Participation à un challenge de challengedata.ens.fr
• Utilisation d’outils variés pour traiter des données :
– Pour les manipuler, les transformer, etc : Python, Numpy, Panda
– Pour les stocker, y accéder : SQL (SQLite), NoSQL (MongoDB)
– Pour les exploiter, les analyser : Machine Learning (Scikit-Learn, Weka), Big Data (Spark),
visualisation
Une évaluation sur les deux volets :

• Soit présentation des résultats au challenge (méthode, résolution, analyse, etc)
• Soit analyse, évaluation (tests) et synthèse d’un article scientifique
• Dans les 2 cas : exposé de 45 min + rapport
Mineure « Data Science » Frédéric Pennerath
Esquisse de contenu (non contractuel…)
Semaine
Partie cours Partie pratique
1 Introduction. Challenge ENS (choix libre)

Présentation de Panda / Scikit-Learn (Panda, Scikit-Learn)
2 Recherche d’information sur le Web
3 Systèmes de recommandation
4 Extraction de thèmes (topic modelling) et

clustering de documents
5 Analyse de réseaux BE analyse de réseaux
6 Technique d’échantillonnage BE sur l’échantillonnage
7 Map/Reduce et Big Data BE Spark
8 Fouille de données. Analyse de flux de données. Exposés
9 Exposés Exposés

Introduction
SCIENCE DES DONNÉES

DATA MINING, DATA SCIENCE, BIG DATA, …

Les enjeux socio-économiques des données
Etre productif :
• Recherche d’information sur le Web (Just google it!)
Vendre :
• Comprendre les besoins de ses clients :
– Système de recommandation en ligne (Amazon, etc)
– Ciblage publicitaire (Criteo, etc)
– Analyse du panier de la ménagère
• Veiller à sa réputation et à sa visibilité (webmarketing)
– Usage du Web (Google Analytics, Search Engine Optimization, etc)
– Forums, blogs et logiciels de e-réputation
– Réseaux sociaux et marketing viral
Aider à la prise de décision : Des enjeux éthiques / juridiques

• Anticiper les besoins et les dérives : • Respect de la vie privée
– Contrôle des dépenses (santé, etc) et des recettes (fisc, etc)
– Prévention des risques (santé, pollution, criminalité) • Surveillance des citoyens
– Scoring de clients (assurance) • Droits liés aux données (CNIL, etc)
• Détecter les anomalies dans des flux de données :
– Détection de transactions frauduleuses
– Lutte contre les trafics et le terrorisme
Créer une nouvelle « économie des données »

– Fournisseurs de données ouvertes : www.data.gouv.fr
– Entreprises de collecte et de synthèse de données : www.data-publica.com
– Entreprises de conseil en Data Science et plateformes de mise en relation (kaggle.com)
– Entreprises informatiques (éditeurs de logiciel de e-reputation, plateforme de ciblage publicitaire www.criteo.com, etc)
– Last but not least : collecteurs de données (Google, Facebook, LinkedIn, Airbnb, etc)
Les enjeux scientifiques des données
et le data mining
• En biologie :
– Expressions de gènes (transcriptome, relation gène / protéines)
– Paléontologie et évolutions
• En médecine :
– Pharmacovigilance
• En chimie :
– Prédiction de la toxicité des molécules, mécanismes réactionnels
• En physique :
– Astronomie : répertoire des corps célestes
– Expériences en physique des particules (LHC au CERN)
• En sciences environnementales :
– Comprendre les milieux naturels, l’impact de l’homme, etc
• En sciences sociales :
– Analyse d’opinions sur le Web
– Analyse des recherches sur le Web : Google Trends

Les enjeux informatiques des données :
le Big Data et les 3V (Volume,Velocity,Variety)
Volume : de plus en plus de données The 10 V’s by G. Firican
– Disque dur 3.5 pouces en To octets) (1012 1. Volume
– Volume total de 3 zettaoctets (3 ⋅ 1021 octets = 102. 9
disques dur)
Velocity
– Plusieurs milliard de pages Web 3. Variety
4. Variability
Velocity : de moins en moins de temps pour les 5. traiter
Veracity
16
– Data centers. Ex Google : 1M serveurs, 10 Pflops (10 6. flops), 1000 Gbit/s, 600 MW
Validity
d’électricité consommée
7. Vulnerability
– Production de données ininterrompue : discussions, capteurs, videos, etc
8. Volatility
(3 ⋅ 1011 emails / j, Google: 20 Po / j (1015 o/j), Facebook : 30 Po / j)
9. Visualization
10. Value
Variety : des données de plus en plus diverses
– Bases de données relationnelles (SGBDR) : SI des entreprises
The 11 V by F. Pennerath
– Données semi-structurées (XML, NoSQL)
– Textes : Web, textes numérisés (OCR), etc. 11. Vacuity
– Des données multimédia : images, sons, films…
– Des données topologiques : Web, réseaux sociaux, réseaux bio…
– Mais en pratique
Des données géographiques, spatio-temporelles, lesMap,
: GIS (Google 2ersetc),
V ne GPS, …
concernent pas grand monde…
Les origines scientifiques de la science des données
Intelligence Artificielle Systèmes

Statistiques
(AI) informatiques
-70s
Modèles Apprentissage
Analyse de données « symbolique »
(multidimensionnalité) neuronaux Bases
80s
Représentation de données
des connaissances
90s
Apprentissage « numérique » Extraction des Fouille de
connaissances à données
00s partir de données (Data Mining)
Deep
Networks Big Data
10s
Data Science(s)

La hiérarchie de la connaissance en IA
• Niveau du raisonnement : inférence logique,

probabiliste, …
L’extraction de connaissances
• Ex : si le canal est gelé, la température était négative

• Ex : si le canal est gelé, la température est probablement
négative
Connaissances
• Niveau sémantique : interprétation
• Ex : G=oui,T= -5 signifie que le canal est gelé
et que la température est de -5 °C
Informations • En informatique : modèles sémantiques d’un
langage
• Niveau syntaxique
• Ex : G=oui,T=-5
• En informatique : syntaxe d’un
Données langage

L’aide à la décision et
les bases de données décisionnelles (data warehouse)
Fouille de • Prédiction des évolutions de la demande

données • Nouveaux services à valeur ajoutée, etc
Aide à la décision
Exploration de • Visualisation interactive (datacube

données OLAP)
• Intégration de données hétérogènes

Entrepôts de données
• Consolidation, reporting
Systèmes d’information • Bases de données (SGBDR)
• Données des ventes, des

Données achats, des salaires, etc

Le processus d’extraction de connaissances
(KDD: Knowledge Discovery from Data)
2. Récupération 3. Sélection des

Données Données
(data wrangling/munging)
formatées données
brutes
4. Prétraitement
des données
1. Question
ouverte vis-à-vis
des données
5. Fouille des
données
8. Interprétation 6. Post-traitement
Expert du des résultats des résultats
domaine
d’application 7.Visualisation
des résultats

EXEMPLES DE TYPES DE DONNÉES
ET
DES PROBLÈMES ASSOCIÉS

Les données structurées
des systèmes d’information (SGBDR, NoSQL)
Transactions
Client
Réf. Client Article Quantité Remise Date
Réf. Nom
1 1 1 4 0% 15/3/10
1 Roland Garros
2 2 2 400 20 % 15/3/10 Boutique
… 2 Heptathlon
…
Articles
Réf. Nom Cordage Catégorie Stock Prix achat Prix vente
1 Raquette Master false exp 40 400. 800.

300
2 Raquette First true deb 2000 30. 60.
Smash
…

Exemples de problèmes
Prédire :
– Régression.
estimer le chiffre d’affaire d’un nouveau magasin
– Classification supervisée.
estimer la probabilité qu’un client pratique un sport donné à partir de l’historique de ses achats
Comprendre :
– Classification non supervisée (clustering)
identifier des familles de fournisseurs et de clients pour faire un mailing ciblé
– Trouver des associations
trouver des associations entre articles achetés pour faire une promotion efficace
Suggérer :
– Système de recommandation
proposer sur les sites d’achat en ligne des articles aux clients à partir de leurs profils
Optimiser :
– Trouver des motifs optimaux
trouver des promotions d’articles combinés dont l’espérance de gain est maximale.

Fouille de textes et de données semi-structurées

Rechercher :
– Les textes associés à une liste de mots clés
Caractériser :
– La langue d’un article, …
– Détection de spam
– Désambiguïser les entités nommées (ex : Henri et Raymond Poincaré)
– Qualifier un texte de positif ou négatif (sentiment analysis, opinion mining)
Regrouper / organiser
– Associer automatiquement des mots clés d’un thésaurus à un texte
– Extraire les thématiques d’un corpus de textes (clustering, analyse sémantique latente)
– Regrouper, indexer une collection de textes par sujets
Transformer
– Traduire un texte (Google Translate)
– Résumer un texte

Données de type graphe :
les réseau du Web et les réseaux sociaux
Visualisation de 100000
pages de Wikipedia
(source : Tulip/INRIA)
Visualisation de 30% du
Web en 2005
(source : Wikipedia)
Utilisateurs de Twitter faisant
référence à #occupiedwallstreet
(source: Marc Smith/Wikimedia)

les réseaux biologiques
Réseaux d’interaction entre gènes, protéines, métabolites, etc (images : Biomine & Cytoscape)

données chimiques
Base de données de molécules et réactions chimiques (image : antiviraux contre le SIDA NCI & Marvin)

Analyse topologique de réseaux
Crawling du Web
Analyse de la diffusion d’information dans les réseaux sociaux
Identification des nœuds névralgiques (ex. PageRank, HITS)
Classification / régression de nœuds ou arêtes

Classification de nœuds de confiance dans un réseau (TrustRank)
Estimation du risque d’une pathologie chez un patient
Classification / régression sur des graphes ou sous-graphes

Extraction de chemins d’expression entre gènes et pathologies
Estimation de grandeurs physico-chimiques des molécules (QSAR/QSPR)
Classification des molécules (toxicité, cancérogénicité)
Assistance à la synthèse de molécules : prédiction d’un plan de synthèse
Clustering
Clustering de communautés dans un réseau social
Regroupement de gènes
Regroupement de molécules ou de réactions par familles

Exemple d’application : aide à la synthèse
Motif
conf = 100 %
fréq = 18/7400

Proposition d’articles
Recherche d’information / Fouille de textes et extractions de thèmes :
1. Accelerating Innovation Through Analogy Mining (KDD 17)
2. Ranking Relevance in Yahoo Search (KDD 16)
3. Reducing the Sampling Complexity of Topic Models (KDD 14)
4. Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis (ICML 14)
5. Distributed Representations of Words and Phrases and their Compositionality (NIPS 13)
6. Document Summarization Based on Data Reconstruction (AAAI 12)
7. Dynamic Topic Models (ICML 06)
8. Maximizing the Spread of Influence through a Social Network (KDD 03)
9. Document clustering based on non-negative matrix factorization SIGIR 03)
10. Stuff I've seen: a system for personal information retrieval and re-use (SIGIR 03)
11. Beyond independent relevance: methods and evaluation metrics for subtopic retrieval(SIGIR 03)
12. Scaling personalized web search (WWW 03)
13. Optimizing Search Engines using Clickthrough Data (KDD 02)
14. Latent Dirichlet Allocation (NIPS 01)
Systèmes de recommendation et e-commerce :

1. FRAUDAR: Bounding Graph Fraud in the Face of Camouflage (KDD 16)
2. Optimisation d’enchères (KDD 12)
3. Accelerated Singular Value Thresholding for Matrix Completion (KDD 12)
4. Towards a theory model for product search (WWW 11)
5. Factorizing personalized Markov chains for next-basket recommendation (WWW 10)
6. Collaborative Filtering with Temporal Dynamics (KDD 09)
7. Predictive discrete latent factor models for large scale dyadic data (KDD 07)
8. Show me the money!: deriving the pricing power of product features by mining consumer reviews (KDD 04)
9. Methods and metrics for cold-start recommendations (SIGIR 02)

Proposition d’articles
Réseaux sociaux :
1. node2vec: Scalable Feature Learning for Networks (KDD 16)
2. Compact and Scalable Graph Neighborhood Sketching (KDD 16)
3. Efficient Algorithms for Public-Private Social Networks (KDD 15)
4. Efficient SimRank Computation via Linearization (KDD 14)
5. Scalable Influence Estimation in Continuous-Time Diffusion Networks (NIPS 13)
6. Learning to Discover Social Circles in Ego Networks (NIPS 12)
7. Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations (KDD 05)
8. Realistic, Mathematically Tractable Graph Generation and Evolution, Using Kronecker Multiplication. (PKDD 05)
Fouille de données, fouille de flux, Big Data, données spatiales et temporelles

1. Ranking Causal Anomalies via Temporal and Dynamical Analysis on Vanishing Correlations (KDD 16)
2. City-Scale Map Creation and Updating using GPS Collections (KDD 16)
3. Taxi Driving Behavior Analysis in Latent Vehicle-to-Vehicle Networks: A Social Influence Perspective (KDD 16)
4. Compressed Linear Algebra for Large-Scale Machine Learning (VLDB 15)
5. DBSCAN Revisited: Mis-Claim, Un-Fixability, and Approximation (SIGMOD 15)
6. Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS) (NIPS 14)
7. A space efficient streaming algorithm for triangle counting using the birthday paradox (KDD 13)
8. Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping (KDD 12)
9. Dense Subgraph Maintenance under Streaming Edge Weight Updates for Real-time Story Identification (VLDB 12)
10. Connecting the Dots Between News Articles (KDD 10)
11. Finding Frequent Items in Data Streams (VLDB 08)
12. Training Linear SVMs in Linear Time (KDD 06)
13. Robust and fast similarity search for moving object trajectories (SIGMOD 05)
14. Mining High-Speed Data Streams (KDD 00)
15. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise (KDD 96)
16. BIRCH: an efficient data clustering method for very large databases (SIGMOD 96)

1 Introduction PDF

Transféré par

Droits d'auteur :

Formats disponibles

1 Introduction PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

1 Introduction PDF

Transféré par

Droits d'auteur :

Formats disponibles

MINEURE

Une évaluation sur les deux volets :

1 Introduction. Challenge ENS (choix libre)

2 Recherche d’information sur le Web

4 Extraction de thèmes (topic modelling) et

6 Technique d’échantillonnage BE sur l’échantillonnage

7 Map/Reduce et Big Data BE Spark

8 Fouille de données. Analyse de flux de données. Exposés

Mineure « Data Science » Frédéric Pennerath

SCIENCE DES DONNÉES

Mineure « Data Science » Frédéric Pennerath

Aider à la prise de décision : Des enjeux éthiques / juridiques

Créer une nouvelle « économie des données »

Mineure « Data Science » Frédéric Pennerath

Intelligence Artificielle Systèmes

Mineure « Data Science » Frédéric Pennerath

• Niveau du raisonnement : inférence logique,

• Ex : si le canal est gelé, la température était négative

Mineure « Data Science » Frédéric Pennerath

Fouille de • Prédiction des évolutions de la demande

Exploration de • Visualisation interactive (datacube

• Intégration de données hétérogènes

Systèmes d’information • Bases de données (SGBDR)

• Données des ventes, des

Mineure « Data Science » Frédéric Pennerath

2. Récupération 3. Sélection des

Mineure « Data Science » Frédéric Pennerath

Mineure « Data Science » Frédéric Pennerath

1 Raquette Master false exp 40 400. 800.

Mineure « Data Science » Frédéric Pennerath

Mineure « Data Science » Frédéric Pennerath

Mineure « Data Science » Frédéric Pennerath

Mineure « Data Science » Frédéric Pennerath

Mineure « Data Science » Frédéric Pennerath

Mineure « Data Science » Frédéric Pennerath

Mineure « Data Science » Frédéric Pennerath

Classification / régression de nœuds ou arêtes

Classification / régression sur des graphes ou sous-graphes

Mineure « Data Science » Frédéric Pennerath

Mineure « Data Science » Frédéric Pennerath

Systèmes de recommendation et e-commerce :

Mineure « Data Science » Frédéric Pennerath

Fouille de données, fouille de flux, Big Data, données spatiales et temporelles

Mineure « Data Science » Frédéric Pennerath

Vous aimerez peut-être aussi