Notes de Cours Bio Statique
Notes de Cours Bio Statique
Notes de Cours Bio Statique
Département de Biologie
Octobre, 2023
(Version 1.0)
1
Table des matières
CHAPITRE I. NOTIONS DE BASE ..................................................................................................... 3
II.2. Les échelles de classification d’un caractère (ou d’une variable) .................................... 11
II.2. 1 L’étendue............................................................................................................. 22
2
CHAPITRE I. NOTIONS DE BASE
I.1. Introduction
La statistique est une branche des mathématiques qui s’occupe de la collecte, de
l’analyse et de l’interprétation des données. Elle est utilisée dans de nombreux domaines,
y compris la biologie, pour analyser et interpréter les données. Les concepts clés de la
statistique incluent :
Les statistiques sont souvent calculées sur des échantillons plutôt que sur des
populations entières.
Variables : Les variables sont des caractéristiques mesurées dans une étude. Elles
peuvent être continues (par exemple, la taille ou le poids) ou catégorielles (par exemple,
le sexe ou la race).
divisées par le nombre total d’observations. La médiane est la valeur qui divise l’ensemble
Dispersion : La dispersion mesure à quel point les données sont étalées. Les
Tests d’hypothèses : Les tests d’hypothèses sont utilisés pour déterminer si une
due au hasard.
variables. Elle peut être utilisée pour prédire une variable à partir d’une autre variable.
phénomènes, tels que la propagation des maladies dans une population, l’étude des
l’efficacité et la sécurité des médicaments, etc. Par exemple, les statistiques peuvent être
3
utilisées pour déterminer le taux d’incidence d’une maladie, les facteurs de risque
Le mot statistique vient du mot latin « STATUS » situation ou état. Elle permet des
généralisations afin d’établir des indicateurs, des indices, des liaisons et des prévisions.
⮚ Prévoir et planifier
des maladies dans une population. Les statistiques peuvent être utilisées pour
4
Recherche clinique : La biostatistique est utilisée pour concevoir des
essais cliniques et analyser les résultats. Les statistiques peuvent être utilisées
acceptables, etc.
statistiques peuvent être utilisées pour déterminer si un gène est associé à une
en matière de santé dans une population. Les statistiques peuvent être utilisées
etc.
quantitatif)
5
objectif principal de tirer des conclusions sur le groupe plus large sur la base
une chance égale d’être sélectionné pour l’échantillon. Cette méthode est
échantillon est prélevé dans chaque grappe sélectionnée. Cette méthode est
individus d’une étude. La valeur de cette caractéristique varie entre les individus.
Certaines variables s’expriment par un nombre, comme la taille ou le poids, tandis que
Unité Variables
statistique
6
Les variables peuvent être classées en plusieurs types, notamment :
s’expriment par des qualités plutôt que par des nombres. Elles peuvent être nominales,
hiérarchisées et sont souvent utilisées pour décrire des catégories. Les variables
qualitatives ordinales peuvent être classées les unes par rapport aux autres et sont
souvent utilisées pour décrire des échelles de valeurs. Les variables qualitatives binaires
s’expriment par un nombre. Elles peuvent être discrètes ou continues. Les variables
quantitatives discrètes ne peuvent prendre que des valeurs entières, tandis que les
intervalle donné.
Exemples de variables :
taille….)
prendre. Les modalités d’une variable qualitative sont les différentes catégories d’une
nomenclature. Ces catégories doivent être exhaustives (chaque individu est affecté à une
Exemples de modalités,
7
• « Évolution de la maladie » : guérison, amélioration, état stationnaire,
I.5. Observations
L’observation en statistique est une méthode de collecte de données qui consiste
qualitatives. Les observations directes sont effectuées en temps réel, tandis que les
L’observation statistique est une méthode courante utilisée pour collecter des
données dans les études statistiques. Elle permet de recueillir des informations sur les
variables d’intérêt, telles que la taille, le poids, l’âge, etc. Les observations peuvent être
l’ordre des termes n’est pas significatif. Une telle liste est en général obtenue à partir
d’une population au sens statistique du terme, c’est-à-dire des individus, des objets ou
des événements qui ont une caractéristique commune. Les séries statistiques sont
I.7. Données
Les données sont des informations brutes, non analysées, non organisées, non
liées, non interrompues, utilisées pour obtenir des informations après l’analyse. Les
données peuvent être collectées à l’aide de différentes méthodes telles que l’observation,
8
CHAPITRE II. PRESENTATION DE DONNEES
sanguin……)
ont une certaine valeur dans un ensemble de données. Elle est calculée en divisant la
valeur par le nombre total de données dans votre ensemble. La formule pour la
Proportion
9
donné
Ex: 300 candidats à un concours et 220 sujets ont été déclarés reçus : La
proportion de succès = 220 / 300 = 0,73 La modalité « reçu » a été observée 220 fois
Les 200 reçus font partie de l’ensemble des 300 candidats ils constituent un sous-
Ratio
compris dans le dénominateur. Ainsi, Sex Ratio = nombre de sujets de sexe Masculin /
Féminin. Ratio Tension artérielle = nombre hypertendus / Normo tendus. Ex. L’étude
68 décès de sexe féminin soit : Sex Ratio des sujets décédés = 90/68 = 1,32 ce qui
signifie pour 1,32 décès masculins il y a 1 décès féminin ou pour 132 décès masculins
il y a 100 décès féminins Le sexe ratio est estimé par rapport à la valeur 1 (égalité de
Taux
rapport où le numérateur est une partie du dénominateur Ex. Taux de mortalité générale
10
II.2. Les échelles de classification d’un caractère (ou d’une variable)
Les échelles de classification d’un caractère (ou d’une variable) sont utilisées
dont la seule propriété est qu’elles sont toutes différentes les unes des autres (par
Échelle ordinale : Dans cette échelle, les catégories qui la composent sont
munies d’une structure d’ordre, établie en fonction d’un critère donné (par exemple, de
moins à plus “quelque chose”: origine sociale, opinion plus ou moins favorable, stade
possible de déterminer si deux intervalles sont ou ne sont pas de même étendue. Sur
si deux rapports sont ou ne sont pas égaux. Sur une échelle de rapport, le zéro a une
Il est important de noter que les techniques et les méthodes statistiques utilisées
Les modalités d'un caractère peuvent être réparties (classées) dans le sens d'une
échelle de classement.
11
II.3 L’échelle de classement
Quantitative Les valeurs peuvent prendre n’importe quelle valeur dans Taille
continue une plage donnée
Quantitative Les valeurs ne peuvent prendre que des valeurs entières Nombre
discrète d’enfants
données. Cependant, ils peuvent avoir des significations légèrement différentes selon le
contexte.
ou hiérarchiser des données ou des objets selon certains critères. Par exemple, dans une
enquête de satisfaction client, les clients peuvent être invités à évaluer leur expérience
sur une échelle de 1 à 5, où 1 signifie “très insatisfait” et 5 signifie "très satisfait". Ici, les
chiffres indiquent le rang ; ils sont utilisés pour mettre les variables en ordre.
Échelles de classification : Ces échelles sont utilisées pour regrouper des données
communes. Par exemple, dans le domaine du marketing, on peut classer les clients en
12
Il est important de noter que ces termes peuvent être utilisés de manière
brut de données.
Série statistique
statistique.
13
Tableau brut des données
Tableau élémentaire de travail. Toutes les données y figurent, unité par unité et
Tableau de fréquence
on a les colonnes
- Entre l’entête des colonnes et la colonne type, l’ensemble des rubriques forme
le corps du tableau.
14
le quoi, le quand et le ou, en plus de la source des données.
Polygone de fréquence
discontinue.
15
Diagramme en bâtonnets ou en barres
Pyramide
16
CHAPITRE III. STATISTIQUE DESCRIPTIVE
La statistique descriptive est une branche de la statistique qui regroupe les
données. Elle permet de résumer les données en une seule valeur représentative. Les
trois mesures de tendance centrale les plus courantes sont la moyenne arithmétique,
que les quartiles, les déciles et les percentiles, qui sont utilisées pour décrire la
dispersion des données et pour identifier les valeurs aberrantes. La statistique descriptive
est souvent utilisée pour décrire des caractéristiques d’un ensemble de données, telles
La médiane, qui est le point milieu lorsque toutes les valeurs sont classées par
ordre croissant.
Le mode, qui est la valeur la plus typique de l’ensemble, c’est-à-dire celle qui
quartiles, les déciles et les percentiles, qui sont utilisées pour décrire la dispersion des
III. 1 1. La Moyenne
centrale qui représente la valeur moyenne d’un ensemble de données numériques. Elle
17
le résultat par le nombre total de valeurs. La formule pour calculer la moyenne
mesure de tendance centrale qui prend en compte les poids des différentes valeurs dans
un ensemble de données numériques. Elle est calculée en multipliant chaque valeur par
son poids, en additionnant les produits et en divisant le résultat par la somme des poids.
Supposons que vous êtes un professeur et que vous voulez calculer la note finale
d’un étudiant pour un cours. Les notes de l’étudiant sont les suivantes :
Devoir 1 : 80/100
Devoir 2 : 90/100
Vous avez décidé que les devoirs compteront pour 30 % de la note finale et que
l’examen final comptera pour 70 % de la note finale. Pour calculer la note finale pondérée
18
La moyenne des devoirs est calculée en prenant la moyenne arithmétique simple
En utilisant ces valeurs dans la formule, nous pouvons calculer la note finale
pondérée de l’étudiant :
centrale qui représente la racine n-ième du produit des valeurs dans un ensemble de
données numériques. Elle est souvent utilisée pour calculer des taux de croissance ou
des rendements sur une période donnée. La formule pour calculer la moyenne
Lorsque les données contiennent des valeurs négatives ou nulles, car la moyenne
géométrique est plus sensible aux valeurs extrêmes que la moyenne arithmétique.
19
Dans ces cas, il peut être plus approprié d’utiliser d’autres mesures de tendance
III. 1. 2. La Médiane
La médiane est une mesure de tendance centrale qui représente la valeur du
milieu d’un ensemble de données triées par ordre croissant ou décroissant. Si l’ensemble
l’ensemble de données à un nombre pair de valeurs, la médiane est la moyenne des deux
ordre croissant ou décroissant, en deux parties égales. En théorie : 50% > et 50% <
sur la représentation tabulaire que graphique. N’est pas influencée par les valeurs
décrire une tendance centrale d’une distribution fortement asymétrique. Elle est
20
III.1.3. Quartiles
Les quartiles sont des mesures de tendance centrale qui divisent un ensemble
de données triées en quatre parties égales. Les quartiles sont souvent utilisés pour
décrire la dispersion des données et pour identifier les valeurs aberrantes. Les trois
Le premier quartile (Q1) est la valeur qui sépare les 25 % inférieurs des
données.
Le deuxième quartile (Q2) est la médiane, qui sépare les 50 % inférieurs des
données.
Le troisième quartile (Q3) est la valeur qui sépare les 75 % inférieurs des
données.
un ensemble de données triées en dix ou cent parties égales, respectivement. Les déciles
et les percentiles sont souvent utilisés pour décrire la dispersion des données et pour
Les déciles évaluent sur une échelle d’un sur dix. Le premier décile (D1) est la
valeur qui sépare les 10 % inférieurs des données, le deuxième décile (D2) est la valeur
qui sépare les 20 % inférieurs des données, et ainsi de suite jusqu’au dixième décile (D10),
21
qui est la valeur qui sépare les 100 % inférieurs des données.
Les percentiles évaluent sur une échelle d’un sur cent. Le premier percentile (P1)
est la valeur qui sépare les 1 % inférieurs des données, le deuxième percentile (P2) est la
valeur qui sépare les 2 % inférieurs des données, et ainsi de suite jusqu’au centième
percentile (P100), qui est la valeur qui sépare les 100 % inférieurs des données.
est pair, le décile ou le percentile est la moyenne des deux valeurs du milieu.
mesurer la variabilité des données dans un ensemble. Les mesures de dispersion les plus
courantes sont :
II.2. 1 L’étendue
L’étendue est la différence entre la plus grande et la plus petite valeur dans
l’ensemble de données.
Il est souvent utilisé pour décrire la variabilité des données biologiques telles que
les concentrations de protéines dans le sang de 10 patients. Les concentrations sont les
suivantes:
2.5, 3.0, 3.5, 4.0, 4.5, 5.0, 5.5, 6.0, 6.5 et 7.0
22
Pour calculer l’écart interquartile de cet ensemble de données :
Nous devons d’abord calculer le premier quartile (Q1) et le troisième quartile (Q3).
Pour ce faire, nous devons trier les données par ordre croissant et trouver la position de
cas-ci :
III.2. 3 La variance
La variance est une mesure de la dispersion des valeurs d’un échantillon ou d’une
variable aléatoire. Elle exprime la moyenne des carrés des écarts à la moyenne, aussi
égale à la différence entre la moyenne des carrés des valeurs de la variable et le carré de
la moyenne. La formule pour calculer la variance d’une série statistique d’une variable
23
L’homogénéité ou non d’une population ou d’un groupe par rapport à
La variance est souvent utilisée pour décrire la variabilité des rendements d’un
III.2. 4 L’écart-type
L’écart type qui est la racine carrée de la variance. Il mesure la dispersion des
données en termes d’unités standard. L’écart type est une mesure de la dispersion des
données autour de leur moyenne. Il est également connu sous le nom d’écart-type ou
de déviation standard.
Pour calculer l’écart type, il faut d’abord trouver la moyenne des données, puis
calculer la variance des données. La variance est calculée en soustrayant chaque point
résultats et en divisant par le nombre total de points de données. Ensuite, prenez la racine
ème
Où σ est l’écart type, n est le nombre total de points de données, xi est le i
Il est souvent utilisé pour décrire la variabilité des résultats d’un test ou d’une
expérience scientifique. Par exemple, si les résultats d’un test sont très dispersés, cela
peut indiquer que le test n’est pas fiable ou que les conditions de l’expérience n’étaient
pas optimales.
24
III.2.5. L’intervalle semi-interquartile
L’intervalle semi-interquartile est un indice statistique qui décrit la variabilité (la
dispersion) d’un ensemble de résultats, particulièrement adapté dans le cas où l’on est
en présence d’une variable ordinale. Il est défini comme la moitié de l’écart situé entre le
Plus les valeurs observées sont concentrées plus les quartiles Q1 et Q3 sont
moyenne. Le CV est souvent exprimé en pourcentage et est utilisé pour comparer deux
est la suivante :
25
IV.- CONCLUSION
Le couple (moyenne ; écart type). Celui-ci est très sensible aux valeurs
extrêmes.
Le couple (médiane ; écart interquartile). Celui-ci n'est pas sensible aux valeurs
26