Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

01 Intro RegLin RegLogBin

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 47

Machine Learning

ESI

Février 2020

Benatchba - Aries

1
DEFINITION DU ML

Définition 1: Processus qui permet à la


machine d'apprendre
automatiquement, sans être
explicitement programmé pour cela
[Arthur Samuel, 1959].

2
DEFINITION DU ML

Definition 2: A computer program is said


to learn from experience E with respect to
some tasks T and some performance
P, if its performance on T, as measured
by P, improves with expérience E [Tom
Mitchell 97].

3
Exemple

E: Programme qui analyse ce que vous faites


lorsque vous marquez les emails que vous
recevez en Spam et non Spam
T: Classer automatiquement vos mails (Spam/
not Spam)
P: Le nombre d’Emails correctement classés
(Spam/not Spam)

5
TYPE D’APPRENTISSAGES

Machine Learning

Apprentissage Apprentissage Apprentissage Apprentissage


Supervisé Non supervisé Semi-Supervisé Par renforcement

Système de recommandation

6
Types d’apprentissages

 Apprentissage supervisé: Apprend à la


machine à faire quelque chose de précis.
 Apprentissage non supervisé: On laisse la
machine apprendre seule (inférer des
connaissances sur les données - découvrir des
structures cachées dans les données(patterns)).
 Apprentissage par renforcement: Apprendre
les actions à prendre, à partir d'expériences, de
façon à optimiser une récompense quantitative
au cours du temps [Référence à rajouter].
7
EXEMPLES ML

Voiture autonome (Uber en Arizona)


Classer des objets célestes (Supernova:
étoiles en fin de vie, Galaxies)
Reconnaissance vocale
Reconnaissance palmaire
Optimisation combinatoire
Discrimination du genre

11
Top 10 des algorithmes ML

 Régression logistique,
 Arbre de décision,

 Random Forest,

 Classifieur Naive Bayes,

 Support Vector Machine (SVM),

 Réseaux de neurones,

 K plus proche voisins,

 K-means,

 Apriori.

[Référence à rajouter]

12
Apprentissage Supervisée

Exemple [Rajouter Référence]:


 un banquier veut prédire les chances d’un client à
rembourser son prêt,
 Il va se baser sur certains éléments tels que :
âge, profession, et revenu, pour décider de l’octroi ou
non d’un prêt.
 La règle d’octroi du prêt, est apprise au préalable à partir
de clients, qui ont déjà eu des prêts, dont les
caractéristiques ainsi que la variable prêt remboursé sont
connues.

14
Apprentissage Supervisée

Entrée : Un ensemble d’apprentissage constitué de m


observations (données):
 D = {(O1,Y1), ..., (Om,Ym)} où les Oi , i = 1, ..., m sont
un ensemble de données qualitatives ou
quantitatives.

 Oi sont des données explicatives (ensemble de


caractéristiques, attributs) et Yi , i = 1, ..., m, les
valeurs d’affectation.
Objectif : Construire à partir de D un modèle qui permette
de prévoir la sortie (Yk) d’une nouvelle entrée (Ok ).

15
Classification Supervisée

Attributs/Caractéristiques

X1 X2 … Xn Y
O1
Observations

O2
.
.
.
Om

16
Apprentissage Supervisée

Classification Régression

Prédire une Prédire une


valeur discrète valeur continue
(Classe) (Prix d’une
maison)

17
Classification Supervisée

Classifieur: Toute application mesurable (t)


t:X Y
 Ol nouvelle observation

 t l’affecte à une classe t(Ol )

 Question : Est-ce que t(Ol )= Yl ?

Définir une mesure de qualité d’un classifieur


Régression: On mesure la perte (l’erreur commise)
P(y, t(O)) = |y-t(O)|p
p=2 Erreur quadratique moyenne

18
Classification Supervisée

Données linéairement
séparables

19
Classification Supervisée

20
Classification Supervisée

22
Classification non supervisée

1. Clustering (Tâche descriptive)


Entrée : un ensemble de m objets
D = {(O1,Y1), ..., (Om,Ym)} où les Oi , i = 1, ..., m sont un
ensemble de données qualitatives et/ou quantitatives.
Objectif:
 regrouper ces données en classes homogènes :
 données similaires vont être dans la même classe
(Grande homogénéité),
 données dissemblables vont être dans des classes
différentes (Bonne séparation des classes).

24
Classification non supervisée

1. Clustering (Tâche descriptive)

Définir une mesure de qualité d’une méthode de


clustering [Rajouter Référence]

25
Classification non supervisée

2. Règles d’association (Tâche descriptive)


Entrée : Un ensemble de m observations( données):
 D = {O1, ..., Om} où les Oi , i = 1, ..., m sont des
données qualitatives ou quantitatives.

Objectif : Trouver des associations significatives entre les


items d’une base de données transactionnelles (Mettre
en valeur des corrélations potentielles entre les attributs)

Définir une mesure de qualité d’une règle d’association

26
Méthodes les plus utilisées

2. Règles d’association (Tâche descriptive)


Exemple [Rajouter Référence]:
 500 clients font leurs courses au supermarché le
vendredi soir.
 Sur ces 500 clients, 100 achètent des fruits et sur ces
100, 30 achètent du lait,
alors, on peut dire que
« si l’on achète des fruits, alors on achète du lait »
Règle d’association , avec une mesure de support de
100/500 = 20% et un seuil de confiance de 30/100 = 30%.

27
Apprentissage semi-supervisé

Classe de techniques d’apprentissage


automatique qui utilise un ensemble de
données avec labels(classées) et sans
labels (non classées).
L’utilisation de données non-
étiquetées, en combinaison avec des
données étiquetées, permet d’améliorer
significativement la qualité de
l’apprentissage [Rajouter Référence].
31
Apprentissage semi-supervisé

Autre intérêt : L’´etiquetage de données


nécessite l’intervention d’un expert :
Lorsque les jeux de données deviennent très
grands, cette opération peut être fastidieuse.
Dans ce cas, l’apprentissage semi-
supervisée, qui ne nécessite que quelques
étiquettes, devient intéressante.

32
Apprentissage semi-supervisé

Classification semi-supervisée :
entraîner sur des données avec labels et
exploiter les données (beaucoup) sans
labels.
Clustering semi-supervisé : clustering
des donnéees sans labels en s’aidant des
données avec labels.

33
Apprentissage par renforcement

[Rajouter Référence]

35
Plan
Sélection d’attributs
 Préparation des données (TP) (Réduction de la
dimensionnalité)
 Apprentissage Supervisé
Régression logistique
Arbres de décision – Forêts aléatoires
Naive Bayes – SVM – RN - KNN Sur-
Apprentissage
 Apprentissage non supervisé
/ Sous-
Clustering Apprentissage
Règles d’association

 Apprentissage par renforcement


7

37
Préparation des données

 Collecterles données
 Nettoyer les données
 Valeurs omises-Observations dupliquées- mauvaises
annotations- bruits.
 Transformer les données
 Discrétisation-Normalisation-Binarisation-Création de nouvelles
caractéristiques (Attributs)
 Échantillonnage et fractionnement des données
 Déséquilibre des classes
 Données sont fractionnées en données d’apprentissage et de
test.

39
Apprentissage Supervisée

Classification Régression

Prédire une Prédire une


valeur discrète valeur continue
(Classe) (Prix d’une
maison)

41
Régression linéaire*

Base de données sur le prix des maisons en fonction de la


superficie
Superficie Prix (Y)
2104 399 900
1600 369 000
.1416 232 000
.3000 539 900
. .
. .
. . Nous voulons prédire le prix d’une
maison selon sa superficie
* Cours Machine Learning Coursera d’Andrew Ng

43
Régression Linéaire*

Données d’apprentissage

Algorithme d’apprentissage

Superficie Modèle : h  Prix

44
Régression linéaire*

Prenons, comme exemple, une seule variable superficie


(x1) et trouvons un modèle :

h (x) = 0 + 1 x1,

On doit déterminer 0 et 1 de manière à ce que h (x) soit


le plus proche de y pour toutes observations Cela
revient à trouver les valeurs de 0 et 1 qui vont minimiser
l’erreur:
| h (x1) – y| pour chaque observation

45
Régression linéaire*

Cela revient à minimiser une fonction objectif (erreur) que


l’on peut exprimer de la manière suivante:

m
J(0 , 1)=(1/2m)  (h (x1(i))-y(i))2
i=1

L’algorithme que nous allons utiliser est celui de la


descente du gradient.

46
Régression linéaire*

Algorithme de la descente du gradient: (1 variable expl.)


 Initialiser les valeurs de 0 et 1 aléatoirement ∂

 Répéter jusqu’à convergence



0C = 0 -  J(0 , 1)
∂0
Mise à jour de 0 et 1


1C = 1 -  J(0 , 1)
∂1
0 = 0C , 1 = 1C
Que représente  J( ,  )?
0 1
1

47
Régression linéaire*

Algorithme de la descente du gradient: (1 Var.)


 Initialiser les valeurs de 0 1 2 … n aléatoirement

 Répéter jusqu’à convergence


m
0C = 0 -*1/m  (h (x1 (i))-y (i))
i=1
m
1C = 1 -  *1/m(h (xk(i))-y (i))*xk(i)
i=1
0 = 0C , 1 = 1C
 Où  est un paramètre d’apprentissage (Learning rate).

48
Régression linéaire*

Algorithme de la descente du gradient: (plusieurs Var.)


 Initialiser les valeurs de 0 1 2 … n aléatoirement

 Répéter jusqu’à convergence


m
0C = 0 -*1/m  (h (x1 (i))-y (i))
i=1 1 kn
m
kC = k -  *1/m(h (xk(i))-y (i))*xk(i)
i=1
0 = 0C , 1 = 1C … n = nC
 Où  est un paramètre d’apprentissage (Learning rate).

49
Régression logistique binaire*

Données d’apprentissage

Régression logistique binaire

Nouvelle Modèle : h  Probabilité


observation

51
Régression logistique binaire*

Soient:
 Soit X = {x1, x2, … xn} n variables explicatives
(attributs/ caractéristiques).
Classe
positive
Y Variable expliquée à prédire, Y  {0, 1}.
Classe
négative
M observations (Données supervisées): Pour
chaque observation on a la classe
d’appartenance.

52
Régression logistique binaire*

X1 X2 … Xn Y
O1 1
O2 0
. .
. .
. .
Om 0

Exemple: Classe 0 Mail n’est pas un spam, Classe 1: Mail est un spam

Objectif: Prédire la valeur de Y pour une nouvelle observation.

53
Régression logistique binaire*

 0  h (x)  1.
 Pour passer d’une valeur réelle à une valeur
comprise entre 0 et 1, on applique la fonction
logistique (fonction sigmoid)
1
h (x) =
TX
1+ e-

 La valeur de h (x) va estimer la probabilité que


y=1 étant donnée x.
* Cours Machine Learning Coursera d’Andrew Ng

54
Régression logistique binaire*

Exemple:
 Si h (x) = 0.7 cela veut dire que le message à
70% de chance d’être un spam. On note cela:

= p(y=1 | x; ):
 h (x)

probabilité que y=1 étant donné x.


 Avant de voir comment appliquer la régression
logistique binaire, nous allons nous intéresser à
la fonction logistique

55
Régression logistique binaire

Soit la fonction suivante


1
f (z) =
1+ e-z
1,2

0,8

0,6

0,4

0,2

0 z

56
Régression logistique binaire*
Revenons à notre fonction 1
h (x) =
TX
1+ e-

h (x)
1,2

0,8

0,6

0,4

0,2

0 T X
Classe 0 0 Classe 1

57
Régression logistique binaire*

1
X2
h (x) = 1+ e-(0 + 1 x1 +…+ nxn )

1
h (x) =
1+ e-(0 + 1 x1 )
X1

58
Régression logistique binaire*

Nous allons appliquer la méthode de la descente du


gradient pour trouver les valeurs de k

 Définir
une fonction de coût dont la valeur va
dépendre de y et h (x)

60
Régression logistique binaire*

 Si y=1 et h(x) 1 alors la fonction de coût doit


tendre vers 0
 Si y=1 et h(x) 0 alors la fonction de coût doit
être élevée
 Si y=0 et h(x) se rapproche de 0 alors la
fonction de coût doit tendre vers à 0
 Si y=0 et h(x) se rapproche de 1 alors la
fonction de coût doit être élevée

61
Régression logistique Binaire*

Nous allons appliquer la méthode de la descente


du gradient pour trouver les valeurs de k
Définir une fonction de coût
Coût (h (x), y) Coût (h (x), y)
Y=1 Y=0

-log(1-h (x))
-log(h (x))

h (x) 0h (x) 1 h (x)

62
Régression Logistique binaire*

- log(h (x)) si y =1

Coût (h (x),y) =
- log(1-h (x)) si y = 0

Coût (h (x),y) = - y log(h (x)) – (1-y) log(1-h (x))

m
J(1 , 2, …, n) = 1/m  Coût (h (x(i)),y(i))
i=1

Objectif : Trouver 1 , 2, …, n qui minimise J

63
Régression Logistique binaire

Algorithme de la descente du gradient: (plusieurs variables


expl.)
 Initialiser les valeurs de 0 et 1 aléatoirement

 Répéter jusqu’à convergence



0 = 0 -  J(0 , 1 ,,, n)
∂0 Mise à jour de 0 … k


k = k -  J(0 , 1 ,,, n)
∂k

64

Vous aimerez peut-être aussi