Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Question de Cours en Analyse Des Donnees S5

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 5

QUESTION DE COURS EN ANALYSE DES DONNEES 

: S5

ANALYSE DES DONNEES :


L'analyse des données est le processus qui consiste à examiner et à interpréter des données
afin d'élaborer des réponses à des questions. Les principales étapes du processus d'analyse
consistent à cerner les sujets d'analyse, à déterminer la disponibilité de données
appropriées, à décider des méthodes qu'il y a lieu d'utiliser pour répondre aux questions
d'intérêt, à appliquer les méthodes et à évaluer, résumer et communiquer les résultats.
LA REGRESSION LINEAIRE :
La régression est un des méthodes les plus connues et les plus appliquées en statistique pour
l’analyse de données quantitatives. Elle est utilisée pour établir une liaison entre une
variable quantitative et une ou plusieurs autres variables quantitatives, sous la forme d’un
modèle. Si on s’intéresse à la relation entre deux variables, on parlera de régression simple
en exprimant une variable en fonction de l’autre. Si la relation porte entre une variable et
plusieurs autres variables, on parlera de régression multiple. La mise en œuvre d’une
régression impose l’existence d’une relation de cause à effet entre les variables prises en
compte dans le modèle.
LA DEMARCHE D’UNE ANALYSE DE DONNEE :
 Mesurer le pouvoir explicatif global du modèle
 Evaluer l’influence des variables exogènes dans le modèle
 Sélectionner les variables les plus déterminantes
 Evaluer la qualité du modèle lors de la prédiction
 Estimer les paramètres tout en exploitant les données
LE NIVEAU DE SIGNIFICATION :
Ou seuil de risque (alpha) ; est un seuil qui détermine si le résultat d’une étude peut être
considéré comme statistiquement significatif après que les tests statistiques prévus ont été
réalisés. Le niveau de signification est le plus souvent défini sur 5 % (ou 0,05). Cependant,
d’autres niveaux peuvent être utilisés en fonction de l’étude. Cela représente la probabilité
de rejeter l’hypothèse nulle lorsqu’elle est vraie.
L’INTERVALLE DE CONFIANCE :
La précision statistique d’un test s’exprime en calculant l’intervalle de confiance qui indique
la marge d’erreur lorsqu’on généralise une estimation obtenue sur un échantillon à
l’ensemble de la population représentée. La longueur de l’intervalle de confiance augmente
lorsque la taille de l’échantillon augmente.
QU’EST-CE QU’UN TEST STATISTIQUE ?
Un test statistique permet d’évaluer à quel point les données vont à l’encontre d’une
certaine hypothèse, l’hypothèse nulle aussi appelée H0. Sous H0, les données sont générées
par le hasard. H0 est opposée à une hypothèse appelée hypothèse alternative,
notée H1 ou Ha. Souvent, l’hypothèse alternative est celle à laquelle l’utilisateur souhaite
aboutir. Chaque test adhère à trois étapes : 1- Formulation des hypothèses, 2-Régle de
décision, 3-Prise de décision.
Il existe 3 tests à établir par la personne qui exerce l’analyse des données :
LE PREMIER EST NOMME TEST GLOBAL OU TEST DE FISHER : il sert à tester à tel point le
modèle constitué, d’une variable endogène et de plusieurs variables exogènes, est
globalement significatif :
1- FORMULATION DES HYPOTHESES :
H0 : si alpha i = 0 : le modèle est globalement non significatif
Ha : si alpha i ≠ 0 : le modèle est globalement significatif
2- REGLE DE DECISION :
Si Fcal > Flue : on accepte H1
Si Fcal < Flue : on accepte H0
3- PRISE DE DECISION :
On calcul Fcal à la base du tableau ANOVA puis on la compare au Flue (K, DDL)
LE DEUXIEME TEST EST NOMME TEST PARTICULIER OU TEST DE STUDENT : il sert à justifier
la significativité bilatérale de chaque variables exogènes une par une

1- FORMULATION DES HYPOTHESES :


H0 : si alpha i = 0 : les paramètres (les variables exogènes) sont non significatives
Ha : si alpha i ≠ 0 : les paramètres (les variables exogènes) sont significatives
2- REGLE DE DECISION :
Si Tcal > Tlue : on accepte H1
Si Tcal < Tlue : on accepte H0
3- PRISE DE DECISION :
On calcul Tcal à la base du tableau de COEFFICIENT puis on la compare au Tlue (seuil de
risque= ?)
LE TROISIEME TEST CONSISTE A TESTER LE PROBLEME DE MULTI-COLINEARITE ENTRE LES
RESIDUS, NOMME AUSSI PAR LE TEST DURBAN-WATSON (DW) :

La valeur de DW peut être détecté soit du tableau récapitulatif des modèles soit on la trouve
comme une simple donnée. Ce test se base aussi sur 3 étapes : formulation des hypothèses,
règle de décision et prise de décision.
1- FORMULATION DES HYPOTHESES :
H0 : si P = 0 : Indépendance entre les résidus (pas de problèmes de multi-co)
Ha : si P i ≠ 0 : interdépendance entre les résidus (problèmes de multi-co)
2- REGLE DE DECISION :

Entre 0 et DL : autocorrélation positive (on accepte H1)


Entre DL et DU : Doute
Entre DU et 4-DU : autocorrélation nulle (on accepte H0)
Entre 4-DU et 4-DL : Doute
Entre 4-DL et 4 : autocorrélation négative (on accepte H1)

3- PRISE DE DECISION :
La prise de décision dans ce cas consiste à retracer la règle de décision tout en remplaçant la
valeur min et max de DW à savoir DL et DU ainsi qu’aux valeurs de 4-DL et 4-DU. Puis on
chercher à repérer la valeur de DW entre ces différents intervalles pour rédiger notre
commentaire : soit doute, soit on accepte H1 soit on accepte H0.
LES INFORMATIONS QU’ON PEUT TIRER DES OUTPUTS DU LOGICIEL SPSS :
1) Tableau ANOVA :
L’analyse de la variance (ANOVA) a pour objectif d’étudier l’influence d’un ou plusieurs
facteurs sur une variable quantitative. Nous nous intéresserons ici au cas où les niveaux, ou
modalités, des facteurs sont fixés par l’expérimentateur. On parle alors de modèle fixe.

Il nous permet de tester la significativité global d’un modèle en calculant le Fcal = SCE/K /
SCR/DDL tout en la comparant au Flue (K, DDL). Dans notre cas : Fcal = 4.33/2 / 1621.28/41
en d’autres termes, Fcal = 2.167 /41.571.
Si Fcal > Flue : on dit que le modèle est globalement significatif (c’est-à-dire qu’il existe au
moins une variable significative).
Si Fcal < Flue : on dit que le modèle est globalement non significatif.
Le degré de liberté DDL : représente la qualité d’informations fournies par les données que
vous pouvez consommer pour estimer les valeurs des paramètres. Cette valeur et déterminé
par le nombre d’observation (n) et le nombre de variables exogènes du modèles (K).
DDL= n-K-1 lors de l’existence d’une constante Ao / soit DDL= n-K lors de l’inexistence d’une
constante dans notre modèle.
2) Tableau de COEFFICIENT :

Le tableau de coefficient sert à calculer si la valeur du T de student est significativement


différente de 0 c’est-à-dire de savoir si les variables exogènes du modèle sont
significativement différentes de 0 ou non.
Pour faire, il faut calculer Tcal = la valeur absolue de B / Erreur standart, puis on la compare
à T lue avec un seuil de risque déterminer.
Si Tcal > Tlue : on dit que les paramètres (variables exogènes) sont significativement
différentes de 0
Si Tcal < Tlue : on dit que les paramètres (variables exogènes) sont non significativement
différentes de 0.
Pour plus d’informations :
Les coefficients non standardisés : Ce sont les valeurs brutes des constantes, appelés les
« B ».
Par exemple, à partir du tableau ci-dessus, on voit que la droite de régression peut s’écrire :
           Y = .824*X – 3.622
Où Y représente la variable dépendante DVP et X représente la variable indépendante F02J
Erreur standard : sert à calculer la valeur de t en vue de tester si le coefficient (et donc la
prédiction) est significativement différent de 0.
3) Tableau récapitulatif des modèles :

Le tableau récapitulatif des modèles qui regroupe à la fois les valeurs de R, R deux et du R
deux et la valeur de DW :
R représente le coefficient de corrélation : Il s’agit de la corrélation que l’on peut constater
entre les données prédites par la droite calculée et les données réellement observées. Il
mesure l’intensité et le sens de variation entre deux variables. Le coefficient de corrélation
est compris entre -1<R<1 :

 Plus le coefficient est proche de 1, plus la relation linéaire positive entre les variables
est forte.
 Plus le coefficient est proche de -1, plus la relation linéaire négative entre les
variables est forte.
 Plus le coefficient est proche de 0, plus la relation linéaire entre les variables est
faible.
R² représente le coefficient de détermination : Le coefficient de détermination (R², soit le
carré du coefficient de corrélation linéaire r) est un indicateur qui permet de juger la qualité
d’une régression linéaire simple. En d’autres termes, le coefficient de détermination nous
renseigne sur la variation de la variable endogène en pourcentage par rapport à la variation
des variables exogènes.
NB : R2 augmente toujours lorsque vous ajoutez un prédicteur (variable exogène) au
modèle, même lorsque ce prédicteur n'apporte aucune amélioration réelle au modèle. La
valeur de R2 ajusté intègre le nombre de prédicteurs dans le modèle pour vous aider à
choisir le modèle correct.
R² ajusté : Le R² ajusté est une version modifiée du R², il est ajusté pour tenir compte du
nombre de variables exogènes dans le modèle. Le R² ajusté n’augmente que si le nouveau
paramètre améliore le modèle plus que prévu. Il peut même diminuer quand un paramètre
améliore le modèle moins que prévu. Le R² ajusté est toujours inférieur au R².

Vous aimerez peut-être aussi