2 - Apprentissage Supervisé
2 - Apprentissage Supervisé
2 - Apprentissage Supervisé
Sans entrer dans des calculs statistiques détaillés, une règle empirique pour obtenir un modèle
de régression linéaire décent consiste à ajuster la ligne qui traverse l'espace qui minimise la
distance de chacun des points de données variables indépendants par rapport à la ligne droite.
Cette méthode d'estimation est appelée estimation des moindres carrés ordinaires (OLS:
ordinary least squares). Supposons que nous examinions une seule variable X, le nuage de
points (tracé de Y contre X comme points de données) fournit des indices visuels sur la
répartition des points de données et la tendance approximative entre X et Y.
Pour ajuster manuellement une ligne de régression, il faut visualiser la ligne qui passe par les
points de telle sorte que la distance de chaque point par rapport à la ligne soit minimale. Une
fois la ligne tracée (par exemple sur un papier millimétré), on peut facilement calculer
l'ordonnée à l'origine et la pente comme coefficients approximatifs (bruts) pour le modèle de
régression. Une ligne intuitive de meilleur ajustement sur un nuage de points ressemblerait à
ceci.
3 – Calcule de R² :
R² = ∑ ¿ ¿ ¿ où : y^ = b0 + b1x et y’ = Moyenne de y
4 – R² :
Calculer R Squared en utilisant la régression linéaire :
R-carré Le R au camé est une mesure de performance utile pour comprendre dans quelle
mesure le modèle de régression s'est adapté aux données d'apprentissage Par exemple, un R
au came de 80 % indique que 80 % des données d'apprentissage correspondent au modèle de
régression Une valeur R-cané plus élevée indique généralement un meilleur ajustement du
modèle
5 – Erreur d’estimation standard
Erreur d’estimation standard(Standard Error of Estimation) utilisée dans l’analyse de regression
(Erreur quadratique moyenne)(Mean Squarred Error)
√
' 2
SEOE = Σ ( y− y ) où n : nombre d’observation
n−2
Erreur standard de l'estimation (Standard Error of the Estimate) utilisée dans fanalyse de
régression (erreur quadratique moyenne) (Mean Squared Error: Pour évaluer la précision d'une
droite d'estimation, nous devons introduire une métrique de l'erreur. Pour cela on utilise
souvent l'erreur quadratique moyenne (ou mean squared error). Terreur quadratique moyenne
est vraiment primordiale en machine leaming. C'est souvent la métrique d'erreur qui est
utilisée (c'est ce qu'on appelle la loss function). Il y a plusieurs raisons à ça L'erreur quadratique
moyenne est la moyenne des camées des différences entre les valeurs prédites et les vraies
valeurs
Où y observed sont les valeurs réelles observées, y predicted sont les valeurs précites par le modèle, n est
le nombre d'observations et p est le nombre de variables indépendantes.
Ainsi, l’erreur standard d'estimation mesure la précision des chiffres estimés c'est-à-dire qu'il est possible
de vérifier la qualité et la représentativité de la ligne de régression en tant que description de la relation
moyenne entre les deux séries.
En utilisant le quantile de la distribution de Student :
Vous pouvez calculer les bornes supérieur et inférieur de l’intervalle de confiance pour chaque valeur
prédite. Les bornes sont généralement calculées en utilisant la formule suivantes :
Borne_Sup = valeur prédite + (quantile*SEE)
Borne_Inf = valeur prédite - (quantile*SEE)
Ces bornes représentes l’intervalle de confiance autour de la valeur prédite indiquant la plage dans laquelle
la vraie valeur de la variable dépendante est susceptible de se situer avec une certaine proba
Il est important de noter que les intervalles de confiance basé sur l’erreur standard d’estimation supposent
que les résidus suivent une distribution normale et que les erreurs sont indépendantes et identiquement
distribuées. Ses hypothèses doivent être vérifiée pour interpréter correctement les intervalles de
confiances.
Analyse de la valeur de résidus :
Résidus = valeur observé(réelle) – valeur prédite(ligne de régression)
Les résidus représentent donc les écarts entre les valeurs réelles et les valeurs prédits par le modèle .ils
peuvent être positifs et négatives. selon que la valeur observé est supérieur ou inferieur a la valeur prédits
L’analyse des résidus est importante dans la régression linéaire pour évaluer la qualité de l’ajustement du
modèle.
Des résidus normaux(proche de zéro, avec une distribution aléatoire et une variance constante ) indiquent
un bon ajustement du modèle
Des résidus non normaux (non proches de zéro, avec une distribution non aléatoire ou une variance non
constante) indiquent un mauvais ajustement du modèle.
La Fonction coût :
La fonction coût en régression lineaire est utilisée pour mesurer l’écart entre les valeurs prédits par le
modèle de regression et les valeurs réelles obsérvéede la variable dépendantes.l’objectif est de trouvé les
coefficientde regression qui minimisent cette fonction de coût ,afin de trouver la meilleur estimation
possible de la relation entre la variable idependante et la variable dépendante . c’est la somme des carré
des residus
RMSE =
√ ∑ ( y true− y pred )2
n
Une valeur plus faible de l’erreur quadratique moyenne indique une meilleure adéquation du modèle aux
donnée ,càd que les prédictions du modèle sont en générale plus proche des valeurs réelles.
Cependant,il est important de noter que l’interpretation de la valeur de l’erreur quadratique moyenne
dépend du contexte et des unités
L’analyse de l’erreur absolue moyenne (MAE : Mean Absolute Error) :
La formule de la fonction coût basée sur l’erreur absolue moyenne est la suivante :
1
MAE = ( ¿∗∑ ( y observed − y predicted )
n
Où y_observed sont les valeurs réelles obsérvées , y_predicted sont les valeurs prédits par le modèle et n le
nombre d’observation
L’erreur absolue moyenne est une mesure altérnative
Calculer la descente de gradient :
1 – initialiser les paramètre : commencer par initialiser les paramètre de modèle , càd la pente(b1)et
l’ordonnée à l’origine(b0) [on peut les initialiser par des valeurs aleatoires ou nulles]
2 – Calculer la prédiction : utiliser les parametre actuelle pour effectuer la prédiction des valeur y
(y_predicted) a partir des variables d’entrée x [y_predicted = b0 + b1x]
3 – Calculer l’erreur : Comparez les valeurs prédites avec les valeurs réelle obsérvée pour calculer
l’erreur ( Erreur = yobserved - y_predicted)
4 – Calculer les gradients : utiliser l’erreur pour calculer les gradients des paramètres par rapport à
la fonction coût . pour la régression lineaire simple , les gradient sont donnée par les formules
suivantes :
gradient b1 = (-2/n)*∑ ( x∗erreur ) ;
gradient b0 = (-2/n)*∑ ( erreur )
5 – Mettre à jour les paramètres : utiliser les gradients calculés pour mettre à jour les paramètres en
utilisant la formule de la descente de gradients :
B1_new = b1 –(taux apprentissage*gradient_b1 )
B0_new = b0 –(taux apprentissage*gradient_b1 )
6 – Répéter les étapes de 2 à 5 : Répéter les étapes 2 à 5 jusqu’à ce que la convergence soit atteinte
, càd que la fonction coût ne diminue plus significativement ou que le nombre d’itération prédéfinie
soit atteinte
7 – renvoyer les paramètres : (manquante)
L'algorithme de descente de gradient est utilisé pour optimiser les paramètres d'un
modèle de régression linéaire en minimisant la fonction de coût
Il est important de noter que la performance de l’algorithme de descente de gradient
peut être influencée par le choix du taux d'apprentissage.
Un taux d'apprentissage trop élevé peut conduire à une convergence lente ou à une
divergence.
Tandis qu'un taux d'apprentissage trop faible peut ralentir la convergence.
Il est souvent nécessaire de tester différents taux d'apprentissage pour trouver celui qui
donne les meilleurs résultats .
i=1
Etant donne un ensemble des données d'entrainement avec m échantillons, la fonction du côut
plus utilisée erreur quadratique moyenne (MSE) entre les sorties attendues (y) et les sorties
estimées d'hypothèse (x) est désignée par : h(x) = θ0 + θ1*x1+ θ2*x2+……+ θn*xn
La fonction du coût est une fonction convexe ; ça veut dire qu'elle n'a pas des minimums
locaux. Donc, elle a un minimum globale unique
Notre objectif est de trouver les paramètres du modèle de manière à ce que la fonction de
coût soit minimale
Algorithmes du gradient :
Mettre à jour les poids θj en utilisant leurs anciennes valeurs , leurs gradients et le pas alpha
Si la fonction du coût J < ε on s’arrête ; sinon on revient à l’étape 2
Le pas :
Le pas alpha est une valeur entre 0 et 1 , alpha ∈ ]0,1]
Si le pas est grand on risque de manquer la solution optimale .
S il est petit prend du temps à converger
Il ya une technique pour le mettre à jour
Les gradients :
le gradients de chaque de chaque poids est calculé en utilisant le dérivé partiel de la fonction coût par
rapport à ce poids . Donc , le gradient d’un poids θj est calculé comme suit , où (i) représente un
échantillon :
n j
∂J 1
∑ ∂∂θjy ∗∂( y xi )
i=1
=
∂ θj N ❑
Nous commençons par initialiser les paramètres du modèle avec des valeurs aléatoires , c’est ce qu’on
appelle aussi l’initialisation aléatoires
1 – Nous devons maintenant mesurer l’évolution de la fonction coût en fonction de l’évolution de ces
paramètres
2 – Par conséquents , nous calculons les dérivées partielles
On a définit précédament Xi comme étant un vecteur de x1,x2,……,xn . Faisant la même chose pour les
θi :
Les gradients :
Le gradient de chaque poids est calculé en utilisantle derivé partiel de la fonction du côut par rapport a
ce poids . Donc,le gradient d’un poids est calculé comme suit :
( i)
∂J 1
= ∑ xj ( h ( x )− y )
∂ θj N j
Nous avons obtenue les voisin les plus proches en calculons la distance euclidienne ce qu’ il est donnes
trois voisins les plus proches dans la catégorie a et deux voisins les plus proches dans la catégorie B ,
comme le montre l’image ci-dessous .
Comme nous pouvons le voir , les trois voisin les plus proches sont de la catégorie A donc ce nouveau point
de données doit également être de la même catégorie .
Il n’ y a pas de moyen specifique de determiner la meilleur valeur pour k , nous devns donc
experimenter avec differente valeur pour trouver la meilleur .
Une valeur tres faible pour k telle que K=1 ou K= 0 peut être bruyante et provoquer des
effets aberrentes dans le modele
Des valeurs elve pour k sont preferable , mais ils peuvent entrené des complication
Il est toujours nécessaire de déterminer la valeur de k , ce qui peut parfois être difficile
Le coût de calcul est élevée, car la distance entre deux points de données de tous les
échantillons d’apprentissage est calculé .