Did Attica 1
Did Attica 1
Did Attica 1
Materiale aggiuntivo 1:
Statistica descrittiva univariata
Diagramma a bastoncini
Un grafico utile a rappresentare la distribuzione di frequenze di un carattere quantitativo discreto `e il diagramma a bastoncini (o ad aste). Per ogni valore osservato del carattere sullasse delle ascisse, si traccia un
segmento, parallelo allasse delle ordinate, di lunghezza pari alla frequenza relativa (o assoluta) del valore.
Esempio.
Un sito di vendite on line decide di investigare i tempi di consegna dei loro prodotti ai clienti. I dati ottenuti
su un insieme di 60 ordini sono i seguenti (espressi in giorni trascorsi fra chiusura dellordine e consegna del
corriere):
16 16 15 12 18 13 22 8 21 17 14 10 13 18 17 17 11 17 15 17 22 10 10 27 13 20 17 14 16 15
18 9 15 12 17 13 17 16 12 18 14 16 19 25 15 17 22 15 18 17 12 18 13 19 11 15 16 17 18 16
La tabella delle frequenze assolute `e
xi 8
ni 1
9 10 11 12 13 14 15 16 17 18 19 20 21 22 25 27
1 3 2 4 5 3 7 7 11 7 2 1 1 3 1 1
6
4
2
0
freq. ass.
10
Tempi di consegna
10
12
14
16
18
giorni
20
22
25
27
Fn (x) =
con
1lA (x) =
n
X
i=1
1
0
1l(
1,x] (xi )
x2A
x2
/ A.
La sua rappresentazione grafica si basa sulle frequenze relative cumulate delle osservazioni. Ad ogni valore delle
osservazioni sullasse delle ascisse `e associato il corrispondente valore della frequenza relativa cumulata. Questi
punti sono poi uniti da una funzione a gradini.
In dettaglio, consideriamo linsieme ordinato dei diversi valori osservati x(1) , x(2) , . . . , x(K) e le corrispondenti
frequenze relative fj e relative cumulate Fj , con j = 1, 2, . . . , K. Se il carattere `e continuo e quindi non ci sono
valori ripetuti nelle osservazioni allora fj = n1 e Fj = nj , 8 j.
A questo punto si rappresentano i punti (x(j) , Fj ) e si disegna una funzione costante a tratti, con valore pari a
0 prima di x(1) , con valore costante pari a Fj nellintervallo [x(j) , x(j+1) ), j = 1, . . . , K 1 e valore 1 da x(j) in
poi. Si `e in questo modo tracciata una funzione a gradini monotona non decrescente a valori in [0, 1] con salti
pari alle frequenze relative fj .
Esempio.
Rappresentiamo la funzione di ripartizione empirica delle osservazioni sui tempi di consegna. La tabella delle
frequenze relative `e
xi
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
25
27
ni
1
1
3
2
4
5
3
7
7
11
7
2
1
1
3
1
1
60
fi
0.0167
0.0167
0.0500
0.0333
0.0667
0.0833
0.0500
0.1167
0.1167
0.1833
0.1167
0.0333
0.0167
0.0167
0.0500
0.0167
0.0167
1
Fi
0.0167
0.0333
0.0833
0.1167
0.1833
0.2667
0.3167
0.4333
0.5500
0.7333
0.8500
0.8833
0.9000
0.9167
0.9667
0.9833
1.0000
0.6
0.4
0.2
0.0
freq. cum.
0.8
1.0
10
15
20
giorni
25
30
ni
10
20
60
10
100
fi
0.1
0.2
0.6
0.1
1
Fi
0.1
0.3
0.9
1
1.0
0.6
0.4
0.2
0.0
freq. cum.
0.8
110
120
130
140
lunghezza foglie
150
160
170
Propriet`
a della media aritmetica
n
P
Indichiamo con x
a = n1
xi la media aritmetica delle osservazioni.
i=1
2. La media aritmetica `e compresa fra il minimo x(1) e il massimo x(n) delle osservazioni, x(1) x
a x(n) .
n
n
P
P
1
1
x
a = n
xi
x(1) = x(1)
n
1
n
x
a =
n
P
3.
i=1
n
P
i=1
xi
1
n
i=1
n
P
i=1
x(n) = x(n)
xi = n
xa
i=1
Questa propriet`
a `e una conseguenza diretta della definizione di media aritmetica.
4. La somma degli scarti fra le osservazioni e la loro media aritmetica `e 0.
n
n
n
n
n
n
P
P
P
P
P
P
(xi x
a ) = ( xi ) ( x
a ) = ( xi ) (n
xa ) =
xi
xi = 0
i=1
i=1
i=1
i=1
i=1
i=1
i=1
i=1
i=1
N.B. La media aritmetica di una trasformazione qualsiasi delle osservazioni NON `e la trasformazione della media
delle osservazioni.
!
n
n
1X
1X
f (xi ) 6= f
xi
n i=1
n i=1
6. La media aritmetica `e il valore che minimizza la somma degli scarti al quadrato fra le osservazioni e una
costante c.
n
n
n
n
n
P
P
P
P
P
f (c) =
(xi c)2 =
(xi x
a + x
a c)2 =
(xi x
a )2 +
(
xa c)2 + 2 (xi x
a )(
xa c) =
=
=
n
P
i=1
n
P
i=1
(xi
i=1
x
a ) + n(
xa
c) + 2(
xa
c)
n
P
i=1
(xi
x
a ) =
i=1
(xi
x
a )2 + n(
xa
c)2 .
n
P
i=1
(xi
i=1
x
a ) + n(
xa
c)2 + 2(
xa
i=1
c) 0 =
i=1
Quindi f (c) `e una somma di due addendi non negativi e il suo minimo si ottiene annullando il secondo addendo,
cio`e quando c = x
a .
7. Media aritmetica di una popolazione divisa in sottogruppi.
Consideriamo il caso in cui le n osservazioni provengano da G sottogruppi.
G
P
Ogni sottogruppo `e di numerosit`
a nj , j = . . . , G, per cui
nj = n.
j=1
1
nj
nj
P
i=1
Propriet`
a della varianza
n
P
Indichiamo con 2 = n1
(xi
x
a )2 la varianza delle osservazioni.
i=1
i=1
i=1
i=1
3. La varianza si pu`
o calcolare anche come la media dei quadrati delle osservazioni meno il quadrato della media
delle osservazioni.
n
n
n
n
n
n
P
P
P
P
P
P
1
(xi x
a )2 = n1
x2i + n1
x
2a 2
xa n1
xi = n1
x2i + x
2a 2
x2a = n1
x2i x
2a
n
i=1
i=1
i=1
i=1
i=1
i=1
i=1 j=1
n P
n
P
1
(xi
2
2n
i=1 j=1
n
P
2 2n1 2
n(xi
i=1
i=1 j=1
n P
n
P
x
a )2 + 2n1 2
(xj x
a )2
i=1 j=1
n
n
P
P
x
a )2 2 2n1 2
(xi x
a )
(xj
i=1
j=1
2 2n1 2
n P
n
P
x
a )]2 =
i=1 j=1
(xi
x
a )(xj
x
a ) =
i=1 j=1
x
a ) =
1
n
n
P
x
a )2
(xi
0=
i=1
Indichiamo con
e con
2
j
1
nj
xji ,
nj
P
i=1
(xji
1
nj
x
j ) la varianza del j imo gruppo, con j = 1, . . . , G.
nj
P
i=1
nj
G
1X X j
=
(x
n j=1 i=1 i
nj
G
1X X j
=
(x
n j=1 i=1 i
x
j )
x
a )
nj
G
1X X j
=
(x
n j=1 i=1 i
nj
G
1X X
+
(
xj
n j=1 i=1
G
=
Esempio: 3
A: nA = 5
B: nB = 6
C: nC = 9
x
a =
2
gruppi
x
A = 3
x
B = 4
x
C = 5
2
A
2
B
2
C
35+46+59
5+6+9
= 4.2
25+36+49
20
1X
nj
n j=1
x
a )
x
j + x
j
G
1X
+2
(
xj
n j=1
2
j
1X
nj (
xj
n j=1
x
a )2
=2
=3
=4
x
a )
x
a )
nj
X
i=1
(xji
x
j )
Mediana e quartili
Consideriamo le osservazioni di una carattere quantitativo (non suddiviso in classi) organizzate in una tabella
di frequenze.
Il valore della mediana si pu`
o determinare attraverso la seguente procedura:
1. se esiste un valore xj nella tabella di frequenze la cui frequenza relativa cumulata `e esattamente Fj = 0.5
allora la mediana `e
xj + xj+1
Me =
2
2. se invece non esiste un valore xj nella tabella di frequenze con frequenza relativa cumulata Fj = 0.5, allora
la mediana `e quel valore xj la cui frequenza relativa cumulata supera per prima il valore 0.5, cio`e
Me = inf{xi : Fi > 0.5}
I valori dei quartili si ottengono allo stesso modo considerando, al posto del valore 0.5, i valori 0.25 per determinare il primo quartile e 0.75 per determinare il terzo quartile.
Esercizio
Unazienda che produce e vende formaggio ha in Friuli 20 punti vendita. Il fatturato settimanale (in migliaia
di Euro) dei punti vendita `e
24.5
32.1
25.1
33.0
26.3
33.4
26.7
33.7
27.2
33.8
28.1
34.1
28.9
34.2
29.7
34.7
30.8
35.8
31.6
35.9
Sia dai dati originali che dai dati raggruppati per classi come nel punto a) si calcolino:
c) Media aritmetica, mediana e moda
d) Varianza, scarto quadratico medio, coefficiente di variazione, dierenza interquartile e campo di variazione
Soluzioni
a)
classi
(24, 26]
(26, 28]
(28, 30.5]
(30.5, 33]
(33, 34.5]
(34.5, 36]
Totali
ni
2
3
3
4
5
3
20
Ni
2
5
8
12
17
20
fi
0.1
0.15
0.15
0.2
0.25
0.15
1
Fi
0.1
0.25
0.4
0.6
0.85
1
b)
classi
(24, 26]
(26, 28]
(28, 30.5]
(30.5, 33]
(33, 34.5]
(34.5, 36]
Totali
fi
0.1
0.15
0.15
0.2
0.25
0.15
1
ampiezza (di )
2
2
2.5
2.5
1.5
1.5
12
densita (hi )
0.05
0.075
0.06
0.08
0.166
0.1
0.00
0.05
densita'
0.10
0.15
Istogramma
24
26
28
30
32
34
36
Fatturati
c)
Dati originali
Media aritmetica:
20
X
i=1
Mediana:
xi = 619.6 ) Ma =
619.6
= 30.98
20
31.6 + 32.1
= 31.85
2
Moda: siccome non ci sono modalit`
a che si ripetono non esiste la moda.
n = 20,
x10 = 31.6,
x11 = 32.1
Me =
6
X
i=1
Mediana:
F3 = 0.4,
ci ni = 620.25 ) Ma =
F4 = 0.6
620.25
= 31.0125
20
Me = 30.5 +
0.5 0.4
= 31.75
0.08
Im ) : (Sm
(Me
Im ) = (0.5
30.5) : (33
Fm
30.5) = (0.5
1)
: (Fm
0.4) : (0.6
Fm
1)
0.4)
con m tale che 0.5 < Fi 0.5, e (Im , Sm ] `e lintervallo in cui si trova la mediana.
Moda: la classe modale `e (33, 34.5].
d)
Dati originali
Varianza e scarto quadratico medio:
20
X
i=1
x2i = 19448.88 )
1
19448.88
20
30.982 = 12.6836
(xi
i=1
30.98)2 = 253.672 )
p
=
Coefficiente di variazione:
CV =
253.672
= 12.6836
20
12.6836 = 3.561404
3.561404
= 0.1149582
30.98
27.2 + 28.1
= 27.65
2
33.8 + 34.1
= 33.95
2
27.65 = 6.3
24.5 = 11.4
c2i ni = 19458.94 )
19458.94
20
31.01252 = 11.17172
oppure, utilizzando la devianza basata sulla media calcolata sui dati in classi,
6
X
i=1
(ci
31.0125)2 ni = 223.4344 )
=
223.4344
= 11.17172
20
11.17172 = 3.342412
10
Coefficiente di variazione:
CV =
3.342412
= 0.1077763
31.0125
Dierenza interquartile:
F1 = 0.1,
F4 = 0.6,
F2 = 0.25
F5 = 0.85
)
)
Q1 = 26 +
Q3 = 33 +
0.25 0.1
2 = 28
0.15
0.75 0.6
1.5 = 33.9
0.25
Im ) : (Sm
(Q1
con m tale che Fm
Im ) : (Sm
(Q3
1
26) : (28
26) = (0.25
Fm
1)
: (Fm
Fm
0.1) : (0.25
0.1)
1)
< 0.25 Fm e
(Q3
Im ) = (0.25
< 0.75 Fm .
Im ) = (0.75
33) : (34.5
33) = (0.75
W = 33.9
11
Fm
1)
: (Fm
0.6) : (0.85
28 = 5.9
Fm
0.6)
1)