1 Introduction PDF
1 Introduction PDF
1 Introduction PDF
« DATA SCIENCE »
Frédéric Pennerath
frederic.pennerath@centralesupelec.fr
Objectifs et modalité du cours
« Théorie et pratique en science des données »
Un volet « théorique » :
• Cours sur le 1er créneau horaire en A007
• Applications du cours de machine learning
• Traitement des données au sens large (stockage, manipulation, visualisation, etc)
• Un peu d’algorithmique (fouille de données, traitement de flux)
Un volet « pratique » :
• TP sur le 2ème créneau horaire en A305-306
– Participation à un challenge de challengedata.ens.fr
• Utilisation d’outils variés pour traiter des données :
– Pour les manipuler, les transformer, etc : Python, Numpy, Panda
– Pour les stocker, y accéder : SQL (SQLite), NoSQL (MongoDB)
– Pour les exploiter, les analyser : Machine Learning (Scikit-Learn, Weka), Big Data (Spark),
visualisation
3 Systèmes de recommandation
9 Exposés Exposés
• En biologie :
– Expressions de gènes (transcriptome, relation gène / protéines)
– Paléontologie et évolutions
• En médecine :
– Pharmacovigilance
• En chimie :
– Prédiction de la toxicité des molécules, mécanismes réactionnels
• En physique :
– Astronomie : répertoire des corps célestes
– Expériences en physique des particules (LHC au CERN)
• En sciences environnementales :
– Comprendre les milieux naturels, l’impact de l’homme, etc
• En sciences sociales :
– Analyse d’opinions sur le Web
– Analyse des recherches sur le Web : Google Trends
Modèles Apprentissage
Analyse de données « symbolique »
(multidimensionnalité) neuronaux Bases
80s
Représentation de données
des connaissances
90s
Apprentissage « numérique » Extraction des Fouille de
connaissances à données
00s partir de données (Data Mining)
Deep
Networks Big Data
10s
Data Science(s)
Connaissances
• Niveau sémantique : interprétation
• Ex : G=oui,T= -5 signifie que le canal est gelé
et que la température est de -5 °C
Informations • En informatique : modèles sémantiques d’un
langage
• Niveau syntaxique
• Ex : G=oui,T=-5
• En informatique : syntaxe d’un
Données langage
8. Interprétation 6. Post-traitement
Expert du des résultats des résultats
domaine
d’application 7.Visualisation
des résultats
Comprendre :
– Classification non supervisée (clustering)
identifier des familles de fournisseurs et de clients pour faire un mailing ciblé
– Trouver des associations
trouver des associations entre articles achetés pour faire une promotion efficace
Suggérer :
– Système de recommandation
proposer sur les sites d’achat en ligne des articles aux clients à partir de leurs profils
Optimiser :
– Trouver des motifs optimaux
trouver des promotions d’articles combinés dont l’espérance de gain est maximale.
Caractériser :
– La langue d’un article, …
– Détection de spam
– Désambiguïser les entités nommées (ex : Henri et Raymond Poincaré)
– Qualifier un texte de positif ou négatif (sentiment analysis, opinion mining)
Regrouper / organiser
– Associer automatiquement des mots clés d’un thésaurus à un texte
– Extraire les thématiques d’un corpus de textes (clustering, analyse sémantique latente)
– Regrouper, indexer une collection de textes par sujets
Transformer
– Traduire un texte (Google Translate)
– Résumer un texte
Visualisation de 100000
pages de Wikipedia
(source : Tulip/INRIA)
Visualisation de 30% du
Web en 2005
(source : Wikipedia)
Utilisateurs de Twitter faisant
référence à #occupiedwallstreet
(source: Marc Smith/Wikimedia)
Réseaux d’interaction entre gènes, protéines, métabolites, etc (images : Biomine & Cytoscape)
Base de données de molécules et réactions chimiques (image : antiviraux contre le SIDA NCI & Marvin)
Clustering
Clustering de communautés dans un réseau social
Regroupement de gènes
Regroupement de molécules ou de réactions par familles
Motif
conf = 100 %
fréq = 18/7400