01 Intro RegLin RegLogBin
01 Intro RegLin RegLogBin
01 Intro RegLin RegLogBin
ESI
Février 2020
Benatchba - Aries
1
DEFINITION DU ML
2
DEFINITION DU ML
3
Exemple
5
TYPE D’APPRENTISSAGES
Machine Learning
Système de recommandation
6
Types d’apprentissages
11
Top 10 des algorithmes ML
Régression logistique,
Arbre de décision,
Random Forest,
Réseaux de neurones,
K-means,
Apriori.
[Référence à rajouter]
12
Apprentissage Supervisée
14
Apprentissage Supervisée
15
Classification Supervisée
Attributs/Caractéristiques
X1 X2 … Xn Y
O1
Observations
O2
.
.
.
Om
16
Apprentissage Supervisée
Classification Régression
17
Classification Supervisée
18
Classification Supervisée
Données linéairement
séparables
19
Classification Supervisée
20
Classification Supervisée
22
Classification non supervisée
24
Classification non supervisée
25
Classification non supervisée
26
Méthodes les plus utilisées
27
Apprentissage semi-supervisé
32
Apprentissage semi-supervisé
Classification semi-supervisée :
entraîner sur des données avec labels et
exploiter les données (beaucoup) sans
labels.
Clustering semi-supervisé : clustering
des donnéees sans labels en s’aidant des
données avec labels.
33
Apprentissage par renforcement
[Rajouter Référence]
35
Plan
Sélection d’attributs
Préparation des données (TP) (Réduction de la
dimensionnalité)
Apprentissage Supervisé
Régression logistique
Arbres de décision – Forêts aléatoires
Naive Bayes – SVM – RN - KNN Sur-
Apprentissage
Apprentissage non supervisé
/ Sous-
Clustering Apprentissage
Règles d’association
37
Préparation des données
Collecterles données
Nettoyer les données
Valeurs omises-Observations dupliquées- mauvaises
annotations- bruits.
Transformer les données
Discrétisation-Normalisation-Binarisation-Création de nouvelles
caractéristiques (Attributs)
Échantillonnage et fractionnement des données
Déséquilibre des classes
Données sont fractionnées en données d’apprentissage et de
test.
39
Apprentissage Supervisée
Classification Régression
41
Régression linéaire*
43
Régression Linéaire*
Données d’apprentissage
Algorithme d’apprentissage
44
Régression linéaire*
h (x) = 0 + 1 x1,
45
Régression linéaire*
m
J(0 , 1)=(1/2m) (h (x1(i))-y(i))2
i=1
46
Régression linéaire*
∂
1C = 1 - J(0 , 1)
∂1
0 = 0C , 1 = 1C
Que représente J( , )?
0 1
1
47
Régression linéaire*
48
Régression linéaire*
49
Régression logistique binaire*
Données d’apprentissage
51
Régression logistique binaire*
Soient:
Soit X = {x1, x2, … xn} n variables explicatives
(attributs/ caractéristiques).
Classe
positive
Y Variable expliquée à prédire, Y {0, 1}.
Classe
négative
M observations (Données supervisées): Pour
chaque observation on a la classe
d’appartenance.
52
Régression logistique binaire*
X1 X2 … Xn Y
O1 1
O2 0
. .
. .
. .
Om 0
Exemple: Classe 0 Mail n’est pas un spam, Classe 1: Mail est un spam
53
Régression logistique binaire*
0 h (x) 1.
Pour passer d’une valeur réelle à une valeur
comprise entre 0 et 1, on applique la fonction
logistique (fonction sigmoid)
1
h (x) =
TX
1+ e-
54
Régression logistique binaire*
Exemple:
Si h (x) = 0.7 cela veut dire que le message à
70% de chance d’être un spam. On note cela:
= p(y=1 | x; ):
h (x)
55
Régression logistique binaire
0,8
0,6
0,4
0,2
0 z
56
Régression logistique binaire*
Revenons à notre fonction 1
h (x) =
TX
1+ e-
h (x)
1,2
0,8
0,6
0,4
0,2
0 T X
Classe 0 0 Classe 1
57
Régression logistique binaire*
1
X2
h (x) = 1+ e-(0 + 1 x1 +…+ nxn )
1
h (x) =
1+ e-(0 + 1 x1 )
X1
58
Régression logistique binaire*
Définir
une fonction de coût dont la valeur va
dépendre de y et h (x)
60
Régression logistique binaire*
61
Régression logistique Binaire*
-log(1-h (x))
-log(h (x))
62
Régression Logistique binaire*
- log(h (x)) si y =1
Coût (h (x),y) =
- log(1-h (x)) si y = 0
m
J(1 , 2, …, n) = 1/m Coût (h (x(i)),y(i))
i=1
63
Régression Logistique binaire
∂
k = k - J(0 , 1 ,,, n)
∂k
64