Analyse de Données
Analyse de Données
Analyse de Données
1. Révision
1. Définition de données
Données : ensemble des caractéristiques-propriétés (propres à l’objet) (en statistiques caractères)
d’un objet quelconque – entreprise : nom social/forme juridique/taille …
Données ne sont pas traitées, sous forme brute, contrairement à l’information + accessibles à tout le
monde
Information pour l’informaticien / données pour statisticiens
Base de données : ensemble des tables
2. Typologie
i.e. catégorisation
Classification : on classe les objets selon les caractéristiques
Unité d’étude : objet/individu
Critères :
- Nature : Possibilité de quantifier la propriété ou non (ex : sexe non quantifiable, ou niveau
d’études), mais pour les deux on peut quantifier la fréquence ou l’effectif, pas la modalité →
données quantitatives ou qualitatives : critère nature
- Architecture : comment la donnée est organisée → donnée structurée, i.e. peut être
représentée sous forme de tableau (ex : tableau statisticien, table informaticien, tableur
outil) (colonne, ligne, cellule) / ou non structurée, i.e. textes
Etudiant sexe age
E1 C11 C12
E2 C21 C22
S.Q.L = ex: select from table étudiant where sexe=M and taille= 1.60
Les données structurées sont facilement manipulables avec SQL
Les données non structurées utilisent le langage No SQL pour les Big Data (texte, vidéo,
image, icones comme j’aime)
Logiciels utilisés
En Vivo
Mongo DB : Vectorisation de caractères on donne à chaque lettre un index (coder chaque
lettre par un chiffre)
NLTK : comme python (ex : pour analyse des commentaires sur YouTube)
Analyse lexicale (trouver un mot comme unité), suivie par analyse sémantique (le sens),
analyse thématique, analyse des sentiments
Kits d’entretien
- Données varient selon le temps pour un individu (série temporelle ou chronologique pour
chiffre d’affaire d’une entreprise en 5 ans), selon les individus, ou selon l’échantillon :
variables sont des données qui varient selon ces 3 critères → on parle dès à présent de
variables
Si l’on fait varier à la fois l’échantillon et le temps : les données de panel / si l’on garde le
même échantillon c’est le cohrt
Les valeurs possibles que peut prendre une variable qualitative : modalités / les valeurs
quantitatives sont appelées valeurs
- Nombre d’individu qui présentent une modalité ou une valeur : effectif n → premier niveau
de traitement des données
- Fréquence : nombre d’étudiants n l’échantillon ou sondage (ni÷n) / sur la population N
recensement (ni÷N)
3. Définition d’analyses
Analyser : décomposer un tout (ensemble) en éléments + chercher les causes + traitements manuelle
ou automatique (rechercher les données, puis les collecter automatique ou manuelle, puis
représentation tabulaire/visuelle sous forme de graphiques, schémas, et icônes/synthétique sous
forme d’indicateurs, et interprétation : reporting)
La discipline qui regroupe tout ça : Data Science → mathématiques appliquées (optimisation …) /
analyse de données / informatique (utilisation – développement : développer des applications,
développement Web – recherche opérationnel, en fonction du critère d’optimalité)
Site Anaconda
Opérateur de somme : ∑, toujours appliqué à X / vi : valeur initale ; vf : valeur finale ; pi : pas
d’incrémentation
Vf
∑ Xi
I=Vi, pi
Propriétés d●e ∑:
① : ∑ Xi = X1+X2+ …. +Xn
②: ∑ a*Xi = a * ∑Xi
③: ∑a = n*a
④: ∑(a*Xi + b) = a∑Xi +bn
⑤: ∑(Xi+Yi) = ∑ Xi + ∑Yi
⑥: ∑ ∑X i j: bi-indexation
J i
Différents opérateurs : /X/ : valeur absolue = max {-X, X} + f(X) + dX (différentielle) + f(X)*dX (dx = X2
– X1) donc = longueur*largeur = aire + intégrale + lim
2. Les indicateurs :
De tendance centrale
- Mode : la valeur la plus fréquente
- Médiane : valeur de la variable qui divise la population ou l’échantillon en deux parties
égales ; i.e. 50%>me et 50%<me
Tri de la série :
Pour n est impair
X = 3, 11, 13, 15, 17
K= n-1 ÷ 2 = 5-1 ÷ 2 = 2
La médiane correspond à la position k+1, c’est donc la position 3 et le nombre 13
Pour n est pair
La médiane se trouve entre la position k et la postion k+1
X= 11, 13, 15, 3
Médiane = (11, 13) = (ei-1 + ei) ÷ 2 = 11+13 ÷ 2 = 12
- Moyenne
De dispersion
De concentration
Moyenne mobile : tendance : on calcule la moyenne entre chaque pic de hausse et de baisse sur un
graphique pour créer une droite (la tendance)
Formule générale de la moyenne :
Photo