ClLA ESAK

Cours statistiques
Licence appliquée
Introduction
La mesure est le processus d'association des nombres avec

des grandeurs physiques et des phénomènes.
Autrement dit, elle est l'obtention de la grandeur d'une
quantité par rapport à une norme convenue.
La mesure est précisément la démarche par laquelle on passe
du monde théorique à celui de l’ opérationnalisation.
Introduction
Par une mesure, on affecte un nombre ou un chiffre à la

propriété d'un concept.
La portée et l'application de la mesure dépendent du contexte
et de la discipline.
Ainsi s'opérationnalisent, par des mesures, des concepts (ou
des construits) abstraits (le concept de soi physique, la
motivation, le Burnout, le « Grit »...)
Introduction
Une mesure peut inclure de nombreux éléments tels que des

tests normatifs, les échelles de mesure, des enquêtes
informels, des informations recueilles par des entretiens, des
analyses de contenus multimédias (texte, image, vidéos) et
des données d'observation.
Statistiques de première génération
Les niveaux de mesure

Trois niveaux de propriétés empiriques des objets pour lesquelles les
nombres peuvent servir de modèles. Chacune de ces distributions se
caractérise, au niveau mathématique, par le type de transformation
que l'on peut opérer sur l'ensemble de l'échelle sans en modifier la
nature.
Echelles d'intervalles
Les nombres peuvent servir à représenter les différences
ou les distances entre les chiffres. On obtient des échelles
de classement à intervalles égaux. Les opérations de
détermination de l'égalité des intervalles et des différences
sont possibles.
Les échelles d'intervalles supportent toute transformation
affine de type y=ax + b.
Echelles ordinales
Les séries numériques considèrent les objets selon leur classement
ou rang. Les opérations de détermination du rang (inférieur à,
supérieur à) sont réalisables.
Les mesures ordinales soutiennent toute transformation monotone
croissante. Ce type de fonction respecte l'ordre de données.
On peut noter que les rangs statistiques sont déterminés de façon
qui garantie la constance de la somme des rangs.
Echelles nominales
Les nombres étiquettent des objets ou des classes d'objets. On ne
peut pas classer ces objets. En exemple, les réponses oui/non et les
couleurs appartiennent à cette famille.
Les seules opérations empiriques possibles sont les relations
d'égalité et d'inégalité entre les objets.
Les variables nominales (V.N) sont de type qualitatives (genre,
réponses,...)
Statistiques descriptives
Les statistiques descriptives sont une série de coefficients descriptifs

qui présentent un ensemble de données, ils peuvent être une
représentation de la population complète ou un échantillon extrait
de la population.
Les mesures de tendance centrale et les mesures de dispersion sont
les deux types de statistiques descriptives.
La moyenne, la médiane et le mode sont des exemples de mesures

de tendance centrale, tandis que l'écart type, la variance, les
intervalles de confiances de la moyenne, les variables minimum et
maximum, l'aplatissement et l'asymétrie sont des exemples de
mesures de dispersion.
La moyenne arithmétique (m)

C’est un indice statistique qui reflète la tendance centrale d'une
distribution (appelée tendance centrale ou indice de position).
On calcule généralement deux types de moyennes : la moyenne

obtenue sur un groupe d'individus dans la même situation, ou la
moyenne obtenue par le même individu dans des situations
différentes.
La variance (s2) reflète la dispersion des valeurs autour de la

moyenne (La variance est nulle, si tous les scores sont similaires). Si
la variance est importante sur le plan théorique et méthodologique,
elle n'est pas toujours simple à interpréter. Par conséquent, l'écart
type, qui est la racine carrée de la variance, est fréquemment utilisé.
Intervalle de confiance de la moyenne

L'estimation ponctuelle de la moyenne de la population à partir de
celle de l'échantillon n'indique pas le risque d'erreur.
Il s'agit de déterminer un intervalle contenant la valeur de la
moyenne de la population avec un risque d'erreur décidé à l'avance.
µ: la moyenne inconnue de la population
X : la moyenne calculée sur l’échantillon
S : l’écart type de l’échantillon
n : la taille de l’échantillon
L’intervalle de confiance à 95 % d’une moyenne μ nous indique

les bornes entre lesquelles on estime sa position.
On connait pas avec exactitude sa vraie valeur, mais on peut
dire qu’elle a 95 chance sur 100 d’être comprise dans cet
intervalle.
On peut dire en complément qu’il y a quand même 5 chance sur
100 pour que μ soit à l’extérieur de cet intervalle.
Loi normale :distribution qui suit le modèle mathématique de la

loi normale (loi de Gauss, ou de Laplace-Gauss).
Dans la pratique, on considère souvent une distribution comme
normale si elle comporte un seul "sommet" et qui est symétrique
avec un aplatissement modéré de part et d'autre de ce sommet.
La fonction de répartition des fréquences est égale pour chaque

valeur du caractère à la fréquence cumulée de cette valeur.
Le mode est la valeur du caractère dont l’effectif est le plus grand.
Le maximum est la plus grande valeur du caractère effectivement
obtenue.
Le minimum est la plus petite valeur du caractère effectivement
obtenue.
La médiane partage la série statistique en deux groupes de même
effectif.
Les quartiles sont trois valeurs du caractère qui partage la série

statistique en quatre groupes de même effectif :
- le 1-ier quartile est la valeur du caractère à partir de laquelle la
fréquence cumulée atteint ou dépasse 0.25.
- le 2-ième quartile est un indice qui est confondu avec la médiane.
- le 3-ième quartile est la valeur du caractère à partir de laquelle la
On peut définir les déciles. Il y a 9 déciles :

le 1-ier décile est la valeur du caractère à partir de laquelle la fréquence
cumulée atteint ou dépasse 0.1.
le 9-ième décile est la valeur du caractère à partir de laquelle la
On peut aussi définir le centile (il y a 99 centiles)
le 1-ier centile est la valeur du caractère à partir de laquelle la
le 99-ième centile est la valeur du caractère à partir de laquelle la
Le quantile d’ordre p (p un réel de [0,1[), est la valeur du caractère à

partir de laquelle la fréquence cumulée atteint ou dépasse p.
Le semi-interquartile est égal à 1/2(Q3−Q1) où Q1 et Q3 indique le
premier et le troisième quartile.
L’interquartile est égal à Q3−Q1 où Q1 et Q3 désigne le premier et le
troisième quartile.
L’interdécile est égal à D9−D1 où D1 et D9 désigne le premier et le
neuvième décile.
Coefficients pour
tester la normalité
Normalité
Test de normalité
Les trois étapes de présentation des données statistiques:

1) La représentation graphique du phénomène étudié s’il est
possible.
2) La synthèse des résultats obtenus à l’aide d’un tableau qui
regroupes les catégories.
3) L’analyse des résultats obtenus pour faciliter au lecteur du
manuscrit la tâche.
Statistiques inférentielles
Les tests sont des aspects fondamentaux de l'inférence statistique, et

ils sont fréquemment utilisés pour distinguer les affirmations
scientifiques du bruit statistique lors de l'interprétation des données
expérimentales scientifiques.
Les hypothèses sont basées sur un échantillon de la population et

sont des conjectures concernant un modèle statistique de la
population.
Définition : le test statistique donne une règle permettant de décider

si l’on peut rejeter une hypothèse, en fonction des observations
relevées sur des échantillons.
Hypothèse nulle : l’hypothèse dont on cherche à savoir si elle peut

être rejetée, notée H0, souvent définie comme une absence de
différence.
Hypothèse alternative : hypothèse concurrente, notée H1.
Tests d’hypothèses
L'hypothèse nulle H0 et l'hypothèse alternative H1 sont utilisées dans

les tests statistiques, qui sont des techniques permettant de tirer des
conclusions ou de porter des jugements basés sur les statistique.
Le test de signification est utilisé pour déterminer la force de la

preuve contre l'hypothèse nulle.
L'hypothèse nulle est généralement définie comme "aucun effet" ou

"aucune différence".
Tests paramétriques
Un test est dit paramétrique si son objet est de tester certaine

hypothèse relative à un ou plusieurs paramètres d'une variable
aléatoire. Ils sont considérés comme des tests robustes.
Dans la plupart des cas, ces tests sont basés sur la
considération de la loi normale et supposent donc explicitement
l'existence d'une variable aléatoire de référence X qui suit une
loi de Laplace-Gauss ou un effectif important (>30).
Tests t de Student
Le test-t de Student permet de comparer les moyennes de deux groupes

d’échantillons.
Il s’agit donc de savoir si les moyennes des deux groupes sont
significativement différentes au point de vue statistique.
Il existe trois types du test-t de Student:
•Le test-t de Student pour échantillon unique.
•Le test-t de Student comparant deux groupes indépendants.
•Le test-t de Student comparant deux groupes dépendants ou appariés.
Le test-t de Student pour échantillon unique
La statistique du test est donné par la formule suivante:

Le test-t de Student pour deux groupes indépendants
1) Cas où les variances des 2 populations

sont égales
La statistique du test est donné par:

Le test-t de Student pour deux groupes indépendants
2) Cas où les variances des 2 populations sont

inégales
Exemple
L'analyse de variance à un facteur
L'analyse de variance à un facteur de variabilité: (Anova à un

facteur)
Il s'agit ici d'étudier l'influence d'un seul facteur de variabilité sur un
paramètre quantitatif.
Ceci revient à comparer les moyennes de plusieurs populations
supposées normales et de même variance à partir d'échantillons
aléatoires simples et indépendants les uns des autres.
Cette analyse peut être considérée comme une généralisation du test de
Student.
Il faut passer à la table pour voir la signification de F

L'analyse de variance à un facteur : (Anova à un facteur)
L'analyse de variance à un facteur : (Anova à un facteur)
Anova à un facteur: sortie SPSS des statistiques descriptives

Anova à un facteur
Anova à un facteur: sortie SPSS des résultats du test (valeurs

de F sont non significatifs)
Somme
des carrés
divisée par
ddl. = variabilité
inter et intra.
Inter/intra
Anova à un facteur
Anova à un facteur: sortie SPSS des résultats du test

(valeurs de F sont significatifs : un test post hoc est exigé)
Anova à un facteur
• Anova est le rapport de la variabilité inter sur la

variabilité intra
• Inter = effet
• intra = terme d ’erreur
• Anova significative demande des comparaisons a
posteriori ou des tests post hoc
Les tests post-hoc
Les tests post-hoc

Le test Least Significative Difference (LSD)
Cette méthode simple permet de comparer les moyennes
deux à deux grâce au test de Student.
Méthode de Newman Keuls
L'essentiel de ce test réside dans une approche
séquentielle ou l'on teste les comparaisons entre paires en
choisissant la valeur critique en se basant sur l'étendue de
la comparaison.
Le test de Tukey
Le test de Tukey utilise la même procédure du test de
Newman-Keuls, mais la valeur critique choisie pour une
étendue reste considérée pour les autres comparaisons.
Les tests post-hoc
Le test de Duncan
C’est un test puissant qui suit la procédure du test de Newman-
Keuls, mais il utilise pour les valeurs critiques la table de
Duncan.
Le test de Dunnet
Il est généralement utilisé pour comparer des groupes
expérimentaux à un groupe de contôlr.
Le test de Scheffé :
La méthode de Scheffé se base sur les contrastes. La
contraste est une somme pondérée de moyennes.
Analyse de covariance Ancova
La corrélation de Pearson
La corrélation de Pearson
Le coefficient de corrélation multiple r exprime l'intensité de
l’association entre la variable à expliquer et la variable explicative.
Le coefficient r se situe entre -1 et 1.

• une valeur proche de +1 montre une forte liaison positive.
• une valeur proche de -1 montre également une forte liaison négative
• une valeur proche de 0 montre une absence de relation linéaire (un
autre type de liaison peut être considéré) .
Tests paramétriques
Le coefficient de détermination r²
Ce coefficient est le carré du coefficient de corrélation. Il est
généralement exprimé en pourcentage.
Il traduit la qualité d'une régression en résumant la part de
l'information totale prise en compte par le modèle de régression.
La corrélation multiple et partielle
La corrélation multiple
Les coefficients de corrélation multiples expriment l'intensité de

la liaison entre la variable dépendante à expliquer et
l'ensemble des variables explicatives.
Les corrélations partielles
Cette corrélation considère l’association entre deux variables ,
en contrôlant l'influence d’une troisième variable.
Par exemple, on peut rechercher la corrélation entre l’indice de
masse corporelle et l’habitude alimentaire pour une tranche
d’âge donnée.
Tests non paramétriques
Le test de Mann Whitney

C'est un test non-paramétrique qui permet de tester les moyennes de
deux échantillons indépendants.
L’exécution du test est fondée sur le classement des sujets dans un
ordre croissant de l'ensemble des observations.
Le test de Kruskall Wallis
Le test de Kruskall Wallis

Ce test est préféré à l'analyse de variance à un facteur lorsque les
hypothèses de normalité des différents échantillons sont violés.
Il vise à tester l'égalité de plusieurs échantillons indépendantes.
C'est toujours un test qui est basé sur les rangs.
Tests non paramétriques
Le test du coefficient de corrélation de Spearman

C’est un test non-paramétrique équivalent au le coefficient de
corrélation de Pearson. Les coefficients de corrélation des
rangs sont très utiles pour tester l'indépendance de deux
variables non gaussiennes ou lorsque l'échantillon est réduit.
Le test de corrélation des rangs de Kendall
C'est l'équivalent du test du coefficient de corrélation de
Spearman mais pour des observations appariées.

ClLA ESAK

Transféré par

Droits d'auteur :

Formats disponibles

ClLA ESAK

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ClLA ESAK

Transféré par

Droits d'auteur :

Formats disponibles

Cours statistiques

La mesure est le processus d'association des nombres avec

Par une mesure, on affecte un nombre ou un chiffre à la

Une mesure peut inclure de nombreux éléments tels que des

Les niveaux de mesure

Les statistiques descriptives sont une série de coefficients descriptifs

La moyenne, la médiane et le mode sont des exemples de mesures

La moyenne arithmétique (m)

On calcule généralement deux types de moyennes : la moyenne

La variance (s2) reflète la dispersion des valeurs autour de la

Intervalle de confiance de la moyenne

L’intervalle de confiance à 95 % d’une moyenne μ nous indique

Loi normale :distribution qui suit le modèle mathématique de la

La fonction de répartition des fréquences est égale pour chaque

Les quartiles sont trois valeurs du caractère qui partage la série

On peut définir les déciles. Il y a 9 déciles :

Le quantile d’ordre p (p un réel de [0,1[), est la valeur du caractère à

Les trois étapes de présentation des données statistiques:

Les tests sont des aspects fondamentaux de l'inférence statistique, et

Les hypothèses sont basées sur un échantillon de la population et

Définition : le test statistique donne une règle permettant de décider

Hypothèse nulle : l’hypothèse dont on cherche à savoir si elle peut

L'hypothèse nulle H0 et l'hypothèse alternative H1 sont utilisées dans

Le test de signification est utilisé pour déterminer la force de la

L'hypothèse nulle est généralement définie comme "aucun effet" ou

Un test est dit paramétrique si son objet est de tester certaine

Le test-t de Student permet de comparer les moyennes de deux groupes

La statistique du test est donné par la formule suivante:

1) Cas où les variances des 2 populations

La statistique du test est donné par:

2) Cas où les variances des 2 populations sont

L'analyse de variance à un facteur de variabilité: (Anova à un

Il faut passer à la table pour voir la signification de F

Anova à un facteur: sortie SPSS des statistiques descriptives

Anova à un facteur: sortie SPSS des résultats du test (valeurs

Anova à un facteur: sortie SPSS des résultats du test

• Anova est le rapport de la variabilité inter sur la

Les tests post-hoc

Le coefficient r se situe entre -1 et 1.

Les coefficients de corrélation multiples expriment l'intensité de

Le test de Mann Whitney

Le test de Kruskall Wallis

Le test du coefficient de corrélation de Spearman

Vous aimerez peut-être aussi