Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Notes de Cours Bio Statique

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 26

NOTES DE COURS (BIO)STATISTIQUE

(ABC; L2; S3, BOE/BMP; L3; S5)

Département de Biologie

Mohamed El Houmed, Ph.D.

Octobre, 2023

(Version 1.0)

1
Table des matières
CHAPITRE I. NOTIONS DE BASE ..................................................................................................... 3

I.1. Introduction .................................................................................................................. 3

I.2. Population et Échantillon ............................................................................................... 5


1.3. Unité statistique et Variables ......................................................................................... 6

I.4. Les modalités d’un caractère : ........................................................................................ 7

I.5. Observations ................................................................................................................. 8

I.6. Série statistique ............................................................................................................. 8

I.7. Données ....................................................................................................................... 8

CHAPITRE II. PRESENTATION DE DONNEES ....................................................................................... 9

II.1. Mesures de fréquence .................................................................................................. 9

II.2. Les échelles de classification d’un caractère (ou d’une variable) .................................... 11

II.3 L’échelle de classement ............................................................................................... 12


II.4 Statistique de la Santé ................................................................................................. 13

II.5 Le regroupement des données .................................................................................... 13

II.6. Présentation graphique .............................................................................................. 15

CHAPITRE III. STATISTIQUE DESCRIPTIVE ........................................................................................ 17

III.1. Mesures de tendance centrale ou paramètres de position........................................... 17


III. 1 1. La Moyenne........................................................................................................... 17

III. 1. 2. La Médiane ........................................................................................................... 20


III.1.3. Quartiles ................................................................................................................. 21

III.1.4. Déciles et percentiles ........................................................................................... 21


III.2. MESURES DE DISPERSION ......................................................................................... 22

II.2. 1 L’étendue............................................................................................................. 22

II.2. 2 L’écart interquartile,.............................................................................................. 22

III.2. 3 La variance .......................................................................................................... 23

III.2. 4 L’écart-type ........................................................................................................ 24

III.2.5. L’intervalle semi-interquartile ............................................................................... 25

III.2.6. Coefficient de variation ........................................................................................ 25

IV.- CONCLUSION ............................................................................................................ 26

2
CHAPITRE I. NOTIONS DE BASE

I.1. Introduction
La statistique est une branche des mathématiques qui s’occupe de la collecte, de

l’analyse et de l’interprétation des données. Elle est utilisée dans de nombreux domaines,

y compris la biologie, pour analyser et interpréter les données. Les concepts clés de la

statistique incluent :

Population et échantillon : La population est l’ensemble complet de toutes les

observations possibles, tandis que l’échantillon est un sous-ensemble de la population.

Les statistiques sont souvent calculées sur des échantillons plutôt que sur des

populations entières.

Variables : Les variables sont des caractéristiques mesurées dans une étude. Elles

peuvent être continues (par exemple, la taille ou le poids) ou catégorielles (par exemple,

le sexe ou la race).

Moyenne et médiane : La moyenne est la somme de toutes les observations

divisées par le nombre total d’observations. La médiane est la valeur qui divise l’ensemble

de données en deux parties égales.

Dispersion : La dispersion mesure à quel point les données sont étalées. Les

mesures de dispersion courantes incluent l’écart-type, la variance et l’écart interquartile.

Tests d’hypothèses : Les tests d’hypothèses sont utilisés pour déterminer si une

différence observée entre deux groupes est statistiquement significative ou simplement

due au hasard.

Régression : La régression est utilisée pour modéliser la relation entre deux

variables. Elle peut être utilisée pour prédire une variable à partir d’une autre variable.

En biologie, la statistique est utilisée pour étudier une grande variété de

phénomènes, tels que la propagation des maladies dans une population, l’étude des

relations entre les gènes et les caractéristiques physiques ou comportementales,

l’efficacité et la sécurité des médicaments, etc. Par exemple, les statistiques peuvent être

3
utilisées pour déterminer le taux d’incidence d’une maladie, les facteurs de risque

associés à une maladie, si un traitement est efficace ou non, etc.

Le mot statistique vient du mot latin « STATUS » situation ou état. Elle permet des

généralisations afin d’établir des indicateurs, des indices, des liaisons et des prévisions.

La statistique nous dit comment

⮚ Effectuer les mesures

⮚ Extraire l’information des données

⮚ Appréhender l’incertitude et revendiquer le droit à l’erreur

⮚ Quantifier le risque d’erreur

Connaître, c’est compter


Dans le but de :

⮚ Trouver et décrire une relation

Ex. Risque cardio-vasculaire et tabac

⮚ Prendre une décision

Ex. Efficacité d’un médicament

⮚ Prévoir et planifier

Ex. Budget prévisionnel (commune, gouvernement…)

La biostatistique est la branche de la statistique qui s’applique à la

collecte, l’analyse et l’interprétation des données biologiques, en particulier

celles liées à la biologie humaine, à la santé et à la médecine.

Domaines d’application de la Biostatistique

La biostatistique est utilisée dans de nombreux domaines de la biologie

et de la médecine pour analyser et interpréter les données. Voici quelques

exemples d’applications de la biostatistique :

Épidémiologie : La biostatistique est utilisée pour étudier la propagation

des maladies dans une population. Les statistiques peuvent être utilisées pour

déterminer le taux d’incidence d’une maladie, les facteurs de risque associés à

une maladie, etc.

4
Recherche clinique : La biostatistique est utilisée pour concevoir des

essais cliniques et analyser les résultats. Les statistiques peuvent être utilisées

pour déterminer si un traitement est efficace, si les effets secondaires sont

acceptables, etc.

Génétique : La biostatistique est utilisée pour étudier les relations entre

les gènes et les caractéristiques physiques ou comportementales. Les

statistiques peuvent être utilisées pour déterminer si un gène est associé à une

maladie, si deux gènes sont liés, etc.

Santé publique : La biostatistique est utilisée pour étudier les tendances

en matière de santé dans une population. Les statistiques peuvent être utilisées

pour déterminer le taux de mortalité, le taux de morbidité, etc.

Pharmacologie : La biostatistique est utilisée pour étudier l’efficacité et

la sécurité des médicaments. Les statistiques peuvent être utilisées pour

déterminer la dose optimale d’un médicament, si un médicament est efficace,

etc.

L’objet étudié est identifié par = ses caractéristiques,

caractères ou variables exprimés en termes de : ⮚ Mesure (aspect

quantitatif)

⮚ « Étiquetage » qualifiant (aspect qualitatif)

Pour avoir une signification en termes d’indicateurs les variables sont

traitées et présentées sous la forme de mesures de fréquences

I.2. Population et Échantillon


Population : ensemble (collection) d’êtres analogues ou unités

statistiques (individus, objets, germes…) Unité statistique : caractérisée par son

aspect ou caractère ou variable

L’échantillonnage est le processus de sélection d’un sous-ensemble de

personnes ou de phénomènes sociaux dans un univers plus vaste avec pour

5
objectif principal de tirer des conclusions sur le groupe plus large sur la base

des informations obtenues auprès du petit groupe 12. Il existe plusieurs

méthodes d’échantillonnage, notamment :

Échantillonnage aléatoire simple : Chaque membre de la population a

une chance égale d’être sélectionné pour l’échantillon. Cette méthode est

souvent utilisée lorsque la population est homogène.

Échantillonnage stratifié : La population est divisée en groupes

homogènes, appelés strates, et un échantillon est prélevé dans chaque strate.

Cette méthode est souvent utilisée lorsque la population est hétérogène.

Échantillonnage par grappes : La population est divisée en groupes,

appelés grappes, et un échantillon de grappes est prélevé. Ensuite, un

échantillon est prélevé dans chaque grappe sélectionnée. Cette méthode est

souvent utilisée lorsque la population est dispersée géographiquement.

1.3. Unité statistique et Variables


En statistique, une unité statistique (ou individu) est un élément quelconque de la

population étudiée. Elle peut être de natures différentes,

En statistique, une variable est une caractéristique commune à l’ensemble des

individus d’une étude. La valeur de cette caractéristique varie entre les individus.

Certaines variables s’expriment par un nombre, comme la taille ou le poids, tandis que

Unité Variables

statistique

Une personne Âge, sexe, profession, poids, taille, groupe sanguin.

Résultats analyses biologique. Niveau instruction…..

Un objet Nature (bois fer, plastique…),poids, couleur…

Un germe Nature (bactérie, virus, parasite…), forme, taille,

sensibilité aux antibiotiques…

6
Les variables peuvent être classées en plusieurs types, notamment :

Variables qualitatives : Les variables qualitatives sont des variables qui

s’expriment par des qualités plutôt que par des nombres. Elles peuvent être nominales,

ordinales ou binaires. Les variables qualitatives nominales ne peuvent pas être

hiérarchisées et sont souvent utilisées pour décrire des catégories. Les variables

qualitatives ordinales peuvent être classées les unes par rapport aux autres et sont

souvent utilisées pour décrire des échelles de valeurs. Les variables qualitatives binaires

ne possèdent que deux modalités possibles.

Variables quantitatives : Les variables quantitatives sont des variables qui

s’expriment par un nombre. Elles peuvent être discrètes ou continues. Les variables

quantitatives discrètes ne peuvent prendre que des valeurs entières, tandis que les

variables quantitatives continues peuvent prendre n’importe quelle valeur dans un

intervalle donné.

Exemples de variables :

Variable (caractère) peut s’exprimer en termes de:

Qualité(descriptif): caractère qualitatif (mots) (sexe,

profession, niveau d’instruction…)

Quantité: caractère quantitatif (chiffres) (poids,

taille….)

I.4. Les modalités d’un caractère :


Les modalités d’une variable sont les différentes catégories ou valeurs qu’elle peut

prendre. Les modalités d’une variable qualitative sont les différentes catégories d’une

nomenclature. Ces catégories doivent être exhaustives (chaque individu est affecté à une

modalité) et incompatibles (un individu ne peut être affecté à plusieurs modalités) de

façon à créer une partition.

Exemples de modalités,

• Sexe : « masculin », « féminin », « indéterminé » ou « non précisé »

7
• « Évolution de la maladie » : guérison, amélioration, état stationnaire,

aggravation, décès et éventuellement « non précisé » • « Nombre de malades

hospitalisés »: de 0 jusqu’au nombre total de sujets concernés

• Taille des sujets : va de la plus petite taille jusqu’à la plus élevée

I.5. Observations
L’observation en statistique est une méthode de collecte de données qui consiste

à recueillir des informations sur un échantillon ou une population. Les observations

peuvent être effectuées de manière directe ou indirecte, et peuvent être quantitatives ou

qualitatives. Les observations directes sont effectuées en temps réel, tandis que les

observations indirectes sont effectuées à partir de données déjà collectées.

L’observation statistique est une méthode courante utilisée pour collecter des

données dans les études statistiques. Elle permet de recueillir des informations sur les

variables d’intérêt, telles que la taille, le poids, l’âge, etc. Les observations peuvent être

effectuées sur des individus, des groupes ou des événements.

I.6. Série statistique


Une série statistique est une liste de valeurs d’un même ensemble, dans laquelle

l’ordre des termes n’est pas significatif. Une telle liste est en général obtenue à partir

d’une population au sens statistique du terme, c’est-à-dire des individus, des objets ou

des événements qui ont une caractéristique commune. Les séries statistiques sont

utilisées pour étudier les caractéristiques d’une population.

I.7. Données
Les données sont des informations brutes, non analysées, non organisées, non

liées, non interrompues, utilisées pour obtenir des informations après l’analyse. Les

données peuvent être collectées à l’aide de différentes méthodes telles que l’observation,

les enquêtes, les expériences, etc.

8
CHAPITRE II. PRESENTATION DE DONNEES

II.1. Mesures de fréquence


Les mesures de fréquence sont utilisées pour décrire la distribution des

données dans un ensemble de données. Voici quelques mesures de fréquence

courantes : C’est le nombre d’unités statistique. (ex-individus) portant même modalité

(même sexe ou même âge ou même stade de la maladie ou même groupe

sanguin……)

Cette fréquence peut être « absolue » ou « relative »

Fréquence absolue : La fréquence absolue est le nombre de fois qu’une

valeur apparaît dans un ensemble de données. Ainsi dans une population la

fréquence absolue de malades = nombre total de sujets ayant le caractère « malades

» contenus dans cette population

Fréquence relative : La fréquence relative est la proportion d’observations qui

ont une certaine valeur dans un ensemble de données. Elle est calculée en divisant la

fréquence absolue par la taille de l’ensemble de données.

Rapport de 2 quantités, de 2 fréquences absolues avec numérateur (N) et

dénominateur (D) Ex. nombre de reçus / nombre de candidats

La fréquence relative est calculée en divisant la fréquence absolue de chaque

valeur par le nombre total de données dans votre ensemble. La formule pour la

fréquence relative est donc :

Fréquences relatives les plus courantes : Proportion, Ratio, Taux.

Proportion

Rapport où numérateur (N) = une partie (sous-ensemble) du dénominateur. (D)

Résultat toujours compris entre 0 et 1 car N ≤ D. La proportion est estimée à un moment

9
donné

Ex: 300 candidats à un concours et 220 sujets ont été déclarés reçus : La

proportion de succès = 220 / 300 = 0,73 La modalité « reçu » a été observée 220 fois

Les 200 reçus font partie de l’ensemble des 300 candidats ils constituent un sous-

ensemble (une partie) de la totalité des candidats

Pour une interprétation plus aisée de la proportion on l’exprime en % soit

220x100/300=73% ou par rapport à 1000 soit 220x1000/300=730‰

Ratio

Rapport où numérateur et dénominateur expriment des modalités différentes

et mutuellement exclusives d'un même caractère (variable). Le numérateur n'est pas

compris dans le dénominateur. Ainsi, Sex Ratio = nombre de sujets de sexe Masculin /

Féminin. Ratio Tension artérielle = nombre hypertendus / Normo tendus. Ex. L’étude

de la mortalité au cours d’une épidémie a fait ressortir. 90 décès de sexe masculin vs

68 décès de sexe féminin soit : Sex Ratio des sujets décédés = 90/68 = 1,32 ce qui

signifie pour 1,32 décès masculins il y a 1 décès féminin ou pour 132 décès masculins

il y a 100 décès féminins Le sexe ratio est estimé par rapport à la valeur 1 (égalité de

la mortalité chez les 2 sexes) et exprime l’étendue du phénomène

Taux

Le Taux mesure la probabilité de survenue d’un événement au cours du temps

rapport où le numérateur est une partie du dénominateur Ex. Taux de mortalité générale

(TM). Nombre total de décès dans une région ou lieu donnés

10
II.2. Les échelles de classification d’un caractère (ou d’une variable)

Les échelles de classification d’un caractère (ou d’une variable) sont utilisées

pour classer les données en fonction de leurs caractéristiques. Il existe principalement

quatre types d’échelles de classification :

Échelle nominale : Cette échelle comporte un certain nombre de catégories,

dont la seule propriété est qu’elles sont toutes différentes les unes des autres (par

exemple, sexe, nationalité, type de diplôme, etc.).

Échelle ordinale : Dans cette échelle, les catégories qui la composent sont

munies d’une structure d’ordre, établie en fonction d’un critère donné (par exemple, de

moins à plus “quelque chose”: origine sociale, opinion plus ou moins favorable, stade

de développement psychologique, degré scolaire).

Échelle d’intervalle : Cette échelle permet la comparaison d’intervalles. Il est

possible de déterminer si deux intervalles sont ou ne sont pas de même étendue. Sur

une échelle d’intervalle, le zéro est situé de manière arbitraire.

Échelle de rapport : Cette échelle permet non seulement la comparaison

d’intervalles, mais également la comparaison de rapports. Il est possible de déterminer

si deux rapports sont ou ne sont pas égaux. Sur une échelle de rapport, le zéro a une

signification précise, puisqu’il désigne l’absence du caractère considéré (par exemple,

âge, salaire, taille, vitesse).

Il est important de noter que les techniques et les méthodes statistiques utilisées

dépendent du type d’échelle de classification des données.

Les modalités d'un caractère peuvent être réparties (classées) dans le sens d'une

échelle de classement.

11
II.3 L’échelle de classement

Il existe principalement 5 types d'échelles de classement :

Type de variable Description Exemples

Qualitative Les valeurs ne peuvent pas être hiérarchisées Couleur des


nominale yeux

Qualitative Les valeurs peuvent être hiérarchisées Niveau


ordinale d’éducation

Qualitative Les valeurs ne peuvent prendre que deux modalités Sexe


binaire

Quantitative Les valeurs peuvent prendre n’importe quelle valeur dans Taille
continue une plage donnée

Quantitative Les valeurs ne peuvent prendre que des valeurs entières Nombre
discrète d’enfants

Les termes “échelles de classement” et “échelles de classification” sont souvent

utilisés dans divers domaines, notamment les statistiques, la recherche et l’analyse de

données. Cependant, ils peuvent avoir des significations légèrement différentes selon le

contexte.

Échelles de classement : Ces échelles sont généralement utilisées pour ordonner

ou hiérarchiser des données ou des objets selon certains critères. Par exemple, dans une

enquête de satisfaction client, les clients peuvent être invités à évaluer leur expérience

sur une échelle de 1 à 5, où 1 signifie “très insatisfait” et 5 signifie "très satisfait". Ici, les

chiffres indiquent le rang ; ils sont utilisés pour mettre les variables en ordre.

Échelles de classification : Ces échelles sont utilisées pour regrouper des données

ou des objets en catégories ou en classes sur la base de certaines caractéristiques

communes. Par exemple, dans le domaine du marketing, on peut classer les clients en

différents segments (ou classes) en fonction de leurs comportements d’achat. Dans ce

cas, la classification est un système et non une opération.

12
Il est important de noter que ces termes peuvent être utilisés de manière

interchangeable dans certains contextes. Cependant, en général, le classement

implique un ordre ou une hiérarchie, tandis que la classification implique un

regroupement en catégories ou en classes.

II.4 Statistique de la Santé


Les variables en Statistique Sanitaire peuvent être regroupées suivant les

trois aspects qui permettent de caractériser la maladie : les personnes touchées, le

lieu et le moment où elles ont été affectées.

On trouve donc les trois grandes familles de variables :

-les variables de personnes,

-les variables de lieux

-et les variables de temps

II.5 Le regroupement des données


un tableau de fréquence à partir d’une série statistique ou d’un tableau

brut de données.

Série statistique

Ensemble des données résultant du dépouillement d’une

observation d’une population ou d’un groupe. Example d’une série

statistique.

13
Tableau brut des données

Tableau élémentaire de travail. Toutes les données y figurent, unité par unité et

variable par variable (tableau Excel…)

Tableau de fréquence

C’est une matrice à double entrée. Horizontalement on a les lignes. Verticalement

on a les colonnes

- Entre l’entête des colonnes et la colonne type, l’ensemble des rubriques forme

le corps du tableau.

- Le titre du tableau, en haut, comporte trois informations essentielles, à savoir,

14
le quoi, le quand et le ou, en plus de la source des données.

II.6. Présentation graphique


Histogramme

Il provient du mot grec « HISTOS » = tissu ou voile.

C’est un diagramme en surface contiguës.

Utile pour les distributions de variables quantitatives continues et discontinues

Polygone de fréquence

Ligne polygonale, construite à partir de l’histogramme.

Adapté à la représentation d’une variable quantitative continue mais aussi

discontinue.

Il convient généralement mieux que l’histogramme quand il s’agit de

représenter plusieurs distributions de fréquences sur un même système d’axes

15
Diagramme en bâtonnets ou en barres

Surfaces non contiguës.

Utilisées surtout pour les caractères qualitatifs nominaux ou ordinaux.

Diagramme en barres horizontales.

Variables qualitatives nominales

Diagramme circulaire ou à secteurs

En part de gâteau, camembert. Représentation d’une seule distribution

d’une variable qualitative nominale. Le camembert à la place d’un diagramme

En barres / le nombre de classes faible.

Pyramide

Double histogramme inversé et juxtaposé.

Pour la distribution d’une population selon l’âge et le sexe en démographie.

16
CHAPITRE III. STATISTIQUE DESCRIPTIVE
La statistique descriptive est une branche de la statistique qui regroupe les

nombreuses techniques utilisées pour décrire un ensemble relativement important de

données. Elle permet de résumer les données en une seule valeur représentative. Les

trois mesures de tendance centrale les plus courantes sont la moyenne arithmétique,

la médiane et le mode. Il existe également d’autres mesures de tendance centrale, telles

que les quartiles, les déciles et les percentiles, qui sont utilisées pour décrire la

dispersion des données et pour identifier les valeurs aberrantes. La statistique descriptive

est souvent utilisée pour décrire des caractéristiques d’un ensemble de données, telles

que la moyenne, l’écart-type, la variance, etc.

III.1. Mesures de tendance centrale ou paramètres de position


Les mesures de tendance centrale sont des indicateurs statistiques qui permettent

de résumer un ensemble de données en une seule valeur représentative. Les trois

mesures de tendance centrale les plus courantes sont :

La moyenne arithmétique, qui consiste à calculer la somme des valeurs et la

diviser par le nombre de valeurs.

La médiane, qui est le point milieu lorsque toutes les valeurs sont classées par

ordre croissant.

Le mode, qui est la valeur la plus typique de l’ensemble, c’est-à-dire celle qui

apparaît le plus souvent.

Il existe également d’autres mesures de tendance centrale, telles que les

quartiles, les déciles et les percentiles, qui sont utilisées pour décrire la dispersion des

données et pour identifier les valeurs aberrantes.

III. 1 1. La Moyenne

La moyenne arithmétique (simple ou non pondérée) est une mesure de tendance

centrale qui représente la valeur moyenne d’un ensemble de données numériques. Elle

est calculée en additionnant toutes les valeurs de l’ensemble de données et en divisant

17
le résultat par le nombre total de valeurs. La formule pour calculer la moyenne

arithmétique est la suivante :

Où xi est la i-ème valeur dans l’ensemble de données et n est le nombre total

de valeurs dans l’ensemble.

Moyenne arithmétique pondérée : La moyenne arithmétique pondérée est une

mesure de tendance centrale qui prend en compte les poids des différentes valeurs dans

un ensemble de données numériques. Elle est calculée en multipliant chaque valeur par

son poids, en additionnant les produits et en divisant le résultat par la somme des poids.

La formule pour calculer la moyenne arithmétique pondérée est la suivante :

Où xi est la i-ème valeur dans l’ensemble de données, wi est le poids associé à la

i-ème valeur et n est le nombre total de valeurs dans l’ensemble.

Exemple d’utilisation de la moyenne arithmétique pondérée :

Supposons que vous êtes un professeur et que vous voulez calculer la note finale

d’un étudiant pour un cours. Les notes de l’étudiant sont les suivantes :

Devoir 1 : 80/100

Devoir 2 : 90/100

Examen final : 85/100

Vous avez décidé que les devoirs compteront pour 30 % de la note finale et que

l’examen final comptera pour 70 % de la note finale. Pour calculer la note finale pondérée

de l’étudiant, vous pouvez utiliser la formule suivante :

18
La moyenne des devoirs est calculée en prenant la moyenne arithmétique simple

des notes des deux devoirs :

En utilisant ces valeurs dans la formule, nous pouvons calculer la note finale

pondérée de l’étudiant :

La note finale pondérée de l’étudiant est donc 85.

Moyenne géométrique : La moyenne géométrique est une mesure de tendance

centrale qui représente la racine n-ième du produit des valeurs dans un ensemble de

données numériques. Elle est souvent utilisée pour calculer des taux de croissance ou

des rendements sur une période donnée. La formule pour calculer la moyenne

géométrique est la suivante :

Où xi est la i-ème valeur dans l’ensemble de données et n est le nombre total

de valeurs dans l’ensemble.

Cependant, la moyenne géométrique peut ne pas être une mesure appropriée de

tendance centrale dans les cas suivants :

Lorsque les données contiennent des valeurs négatives ou nulles, car la moyenne

géométrique ne peut être calculée que pour des nombres positifs.

Lorsque les données contiennent des valeurs extrêmes, car la moyenne

géométrique est plus sensible aux valeurs extrêmes que la moyenne arithmétique.

19
Dans ces cas, il peut être plus approprié d’utiliser d’autres mesures de tendance

centrale, telles que la moyenne arithmétique ou la médiane.

III. 1. 2. La Médiane
La médiane est une mesure de tendance centrale qui représente la valeur du

milieu d’un ensemble de données triées par ordre croissant ou décroissant. Si l’ensemble

de données à un nombre impair de valeurs, la médiane est la valeur du milieu. Si

l’ensemble de données à un nombre pair de valeurs, la médiane est la moyenne des deux

valeurs du milieu. La formule pour calculer la médiane est la suivante :

Si le nombre d’observations n est impair :

Si le nombre d’observations n est pair :

Où xi est la i-ème valeur dans l’ensemble de données.

Valeur du caractère qui divise l’ensemble des valeurs observées disposées en

ordre croissant ou décroissant, en deux parties égales. En théorie : 50% > et 50% <

La médiane est une valeur de rang (n+1)/2

Les fréquences relatives cumulées permettent de situer la médiane aussi bien

sur la représentation tabulaire que graphique. N’est pas influencée par les valeurs

extrêmes contrairement à la moyenne arithmétique. utilisée la médiane pour

décrire une tendance centrale d’une distribution fortement asymétrique. Elle est

utilisée dans le cadre des variables quantitatives.

20
III.1.3. Quartiles
Les quartiles sont des mesures de tendance centrale qui divisent un ensemble

de données triées en quatre parties égales. Les quartiles sont souvent utilisés pour

décrire la dispersion des données et pour identifier les valeurs aberrantes. Les trois

quartiles sont notés Q1, Q2 et Q3.

Le premier quartile (Q1) est la valeur qui sépare les 25 % inférieurs des

données.

Le deuxième quartile (Q2) est la médiane, qui sépare les 50 % inférieurs des

données.

Le troisième quartile (Q3) est la valeur qui sépare les 75 % inférieurs des

données.

La différence entre le troisième quartile et le premier quartile est appelée

l’écart interquartile. C’est une mesure de dispersion de la série.

La formule pour calculer les quartiles dépend du nombre d’observations dans

l’ensemble de données. Si le nombre d’observations est impair, le deuxième quartile

est simplement la valeur du milieu. Si le nombre d’observations est pair, le deuxième

quartile est la moyenne des deux valeurs du milieu.

III.1.4. Déciles et percentiles


Les déciles et les percentiles sont des mesures de tendance centrale qui divisent

un ensemble de données triées en dix ou cent parties égales, respectivement. Les déciles

et les percentiles sont souvent utilisés pour décrire la dispersion des données et pour

identifier les valeurs aberrantes.

Les déciles évaluent sur une échelle d’un sur dix. Le premier décile (D1) est la

valeur qui sépare les 10 % inférieurs des données, le deuxième décile (D2) est la valeur

qui sépare les 20 % inférieurs des données, et ainsi de suite jusqu’au dixième décile (D10),

21
qui est la valeur qui sépare les 100 % inférieurs des données.

Les percentiles évaluent sur une échelle d’un sur cent. Le premier percentile (P1)

est la valeur qui sépare les 1 % inférieurs des données, le deuxième percentile (P2) est la

valeur qui sépare les 2 % inférieurs des données, et ainsi de suite jusqu’au centième

percentile (P100), qui est la valeur qui sépare les 100 % inférieurs des données.

La formule pour calculer les déciles et les percentiles dépend du nombre

d’observations dans l’ensemble de données. Si le nombre d’observations est impair, le

décile ou le percentile est simplement la valeur du milieu. Si le nombre d’observations

est pair, le décile ou le percentile est la moyenne des deux valeurs du milieu.

III.2. MESURES DE DISPERSION


Les mesures de dispersion sont des indicateurs statistiques qui permettent de

mesurer la variabilité des données dans un ensemble. Les mesures de dispersion les plus

courantes sont :

II.2. 1 L’étendue
L’étendue est la différence entre la plus grande et la plus petite valeur dans

l’ensemble de données.

II.2. 2 L’écart interquartile,


L’écart Interquartile est la différence entre le troisième quartile et le premier

quartile. Il représente la plage de valeurs qui contient 50% des données.

Il est souvent utilisé pour décrire la variabilité des données biologiques telles que

les concentrations de protéines, les taux de glucose, etc.

Par exemple, supposons que nous avons un ensemble de données représentant

les concentrations de protéines dans le sang de 10 patients. Les concentrations sont les

suivantes:

2.5, 3.0, 3.5, 4.0, 4.5, 5.0, 5.5, 6.0, 6.5 et 7.0

22
Pour calculer l’écart interquartile de cet ensemble de données :

Nous devons d’abord calculer le premier quartile (Q1) et le troisième quartile (Q3).

Pour ce faire, nous devons trier les données par ordre croissant et trouver la position de

Q1 et Q3 en utilisant les formules : (n + 1) / 4 et 3(n + 1) / 4 respectivement. Dans ce

cas-ci :

Q1 = (10 + 1) / 4 = 2.75. La position de Q1 n’est pas un nombre entier, donc nous

arrondissons au nombre entier supérieur : 3. Le troisième élément dans notre ensemble

de données est donc le premier quartile: 4.0.

Q3 = 3(10 + 1) / 4 = 8.25. La position de Q3 n’est pas un nombre entier, donc

nous arrondissons au nombre entier supérieur: 9. Le neuvième élément dans notre

ensemble de données est donc le troisième quartile: 6.5.

Nous pouvons maintenant calculer l’écart interquartile en soustrayant Q1 de Q3:

Écart interquartile = Q3 - Q1 = 2.5

Ainsi, l’écart interquartile pour cet ensemble de données est 2.5.

III.2. 3 La variance
La variance est une mesure de la dispersion des valeurs d’un échantillon ou d’une

variable aléatoire. Elle exprime la moyenne des carrés des écarts à la moyenne, aussi

égale à la différence entre la moyenne des carrés des valeurs de la variable et le carré de

la moyenne. La formule pour calculer la variance d’une série statistique d’une variable

réelle (x1, x2, …, xn), dont on a calculé la moyenne, est la suivante :

Où σ2 est la variance, n est le nombre d’observations dans l’échantillon, xi est

l’observation i, et μ est la moyenne de l’échantillon.

La variance = mesure de dispersion intéressante pour évaluer la variabilité

23
L’homogénéité ou non d’une population ou d’un groupe par rapport à

différentes variables. La variance la dispersion des observations autour de la moyenne

Influencée par les valeurs extrêmes

La variance est souvent utilisée pour décrire la variabilité des rendements d’un

investissement ou des résultats d’une enquête.

III.2. 4 L’écart-type
L’écart type qui est la racine carrée de la variance. Il mesure la dispersion des

données en termes d’unités standard. L’écart type est une mesure de la dispersion des

données autour de leur moyenne. Il est également connu sous le nom d’écart-type ou

de déviation standard.

Pour calculer l’écart type, il faut d’abord trouver la moyenne des données, puis

calculer la variance des données. La variance est calculée en soustrayant chaque point

de données de la moyenne, en élevant chaque résultat au carré, en additionnant tous les

résultats et en divisant par le nombre total de points de données. Ensuite, prenez la racine

carrée de la variance pour obtenir l’écart type.

La formule pour calculer l’écart type est la suivante :

ème
Où σ est l’écart type, n est le nombre total de points de données, xi est le i

point de données, μ est la moyenne des données

Il est souvent utilisé pour décrire la variabilité des résultats d’un test ou d’une

expérience scientifique. Par exemple, si les résultats d’un test sont très dispersés, cela

peut indiquer que le test n’est pas fiable ou que les conditions de l’expérience n’étaient

pas optimales.

24
III.2.5. L’intervalle semi-interquartile
L’intervalle semi-interquartile est un indice statistique qui décrit la variabilité (la

dispersion) d’un ensemble de résultats, particulièrement adapté dans le cas où l’on est

en présence d’une variable ordinale. Il est défini comme la moitié de l’écart situé entre le

troisième (Q3) et le premier (Q1) quartiles d’une distribution.

La formule pour calculer l’intervalle semi-interquartile est la suivante :

Plus les valeurs observées sont concentrées plus les quartiles Q1 et Q3 sont

rapprochés, plus Q est petit, témoignant d’une faible variabilité.

III.2.6. Coefficient de variation


Le coefficient de variation (CV) est une mesure de dispersion relative en théorie

des probabilités et statistiques. Il est défini comme le rapport entre l’écart-type et la

moyenne. Le CV est souvent exprimé en pourcentage et est utilisé pour comparer deux

séries de données d’unités différentes. La formule pour calculer le coefficient de variation

est la suivante :

Où σ est l’écart-type et μ est la moyenne.

25
IV.- CONCLUSION

Statistique descriptive trouve donc sa place dans le cadre de l’étude des

phénomènes et des évènements de santé. Regroupement, organisation et réduction

des données paramètres.

Cette simplification primordiale pistes de recherche : domaine

épidémiologique, clinique, biologique.

On résume souvent une série statistique par un indicateur de position (dit

aussi paramètre de tendance centrale) associé à un indicateur de dispersion.

Deux choix sont couramment proposés :

Le couple (moyenne ; écart type). Celui-ci est très sensible aux valeurs

extrêmes.

Le couple (médiane ; écart interquartile). Celui-ci n'est pas sensible aux valeurs

extrêmes mais est moins pratique à déterminer.

26

Vous aimerez peut-être aussi