Lezione 1.5 new

1.5 - Variabilità,
concentrazione e asimmetria
G. Alleva - Statistica - Parte 1.5
1
Obiettivo: Misura della variabilità di una
distribuzione statistica
Mutabilità, Dispersione, Variabilità, Eterogeneità
E’ l’attitudine di un fenomeno a presentarsi con
manifestazioni diverse
Carattere qualitativo misurabile su scala nominale sconnessa
⇒ Indici di Eterogeneità
Carattere quantitativo ordinabile
⇒ Differenza interquartile
⇒ Scostamento semplice medio dalla mediana
⇒ Campo di variazione
Carattere quantitativo proporzionale
⇒ Scostamenti medi dalla media
* scostamento semplice medio
* scostamento quadratico medio
* varianza
* devianza
* coefficiente di variazione
⇒ Differenze medie
* Differenza semplice media
* Differenza quadratica media
G. Alleva - Statistica - Parte 1.5
2
1
Carattere mutabile: Eterogeneità
Sintesi della eterogeneità: indice S di Gini e l’indice H
(entropia)
Le situazioni estremali:
⇒
Minima eterogeneità (max omogeneità):
le frequenze sono concentrate su un’unica modalità
⇒
Massima eterogeneità (minima omogeneità):
tutte le modalità hanno lo stesso di frequenze
(frequenze equiripartite); se il numero di modalità è k,
ciascuna modalità presenta n/k frequenze
Minima
Massima
eterogeneità eterogeneità
Xu
nu
nu
X1
n/k
…
n/k
Xu
n
n/k
…
n/k
Xk
n/k
Totale
n
n
G. Alleva - Statistica - Parte 1.5
3
La somma dei quadrati delle frequenze relative Σ(nu/n)2 =
Σfu2= 1 in caso di minima eterogeneità e 1/k in caso di
massima eterogeneità. Infatti:
Xu
X1
…
Xu
…
Xk
Tot
Minima eterogeneità
nu
fu
n
1
n
1
fu 2
1
1
Massima eterogeneità
nu
fu
n/k
1/k
n/k
1/k
n/k
1/k
n/k
1/k
n/k
1/k
n
1
fu2
1/k2
1/k2
1/k2
1/k2
1/k2
1/k
Indice di eterogeneità assoluto:
S=1- Σfu2
con 0 ≤ S ≤ (k-1)/k
Indice di eterogeneità relativo:
(1 - Σf i )
S(rel) =
k -1
k
2
con 0 ≤ S(rel) ≤ 1
G. Alleva - Statistica - Parte 1.5
4
2
Un altro indice: l’entropia H:
H = - Σfu log fu
0 ≤ H ≤ log k
H(rel) = H/log k
G. Alleva - Statistica - Parte 1.5
5
Esempio: Eterogeneità del Senato della Repubblica (1979)
Xi
DC
PCI
PSI
MSI
PSDI
PRI
PPST
PLI
PR
Altri
Totale
nu
138
109
32
13
9
6
3
2
2
1
315
fu
0,43810
0,34603
0,10159
0,04127
0,02857
0,01905
0,00952
0,00635
0,00635
0,00317
fu^2
0,19193
0,11974
0,01032
0,00170
0,00082
0,00036
0,00009
0,00004
0,00004
0,00001
0,32505
log fu
fu log fu
-0,35843
-0,15703
-0,46088
-0,15948
-0,99316
-0,10089
-1,38437
-0,05713
-1,54407
-0,04412
-1,72016
-0,03276
-2,02119
-0,01925
-2,19728
-0,01395
-2,19728
-0,01395
-2,49831
-0,00793
-0,60650
S = 1 - 0,32505 =0,67495
S max = 9/10 = 0,9
S rel = 0,67495/0,9 = 0,749945
H = 0,60650
H max = log 10 = 1
H rel = 0,60650/1 = 0,60650
G. Alleva - Statistica - Parte 1.5
6
3
Variabilità (caratteri quantitativi)
X 2
Y -48
2
-1
2
1
2
3
2
55
2
2
M(X)=2
M(Y)=2
X e Y presentano la stessa media ma:
per la variabile X:
xi– M(X) = 0 ∀ i
∀ i,j
e anche
xi – xj = 0
e dunque X è una variabile priva di variabilità (carattere
statistico degenere);
per la variabile Y:
e anche
yi – M(Y) ≠ 0
yi – yj ≠ 0
∀i
∀ i, j
Si noti che:
⇒ se non c’è variabilità deve essere nulla ciascuna
differenza
⇒ le differenze dalle medie sono N, quelle tra coppie
di osservazioni sono N2 oppure N(N-1) se non
considero le differenze banali;
⇒ occorre fare una sintesi di tali differenze, ad
esempio attraverso una media. Due famiglie di indici:
gli scostamenti medi e le differenze medie
G. Alleva - Statistica - Parte 1.5
7
Requisiti degli indici di variabilità (I)
Fondamentali
I. I = 0, se e solo se non c’è una variabilità;
II. I > 0 al crescere della variabilità,
III. I non deve variare se le frequenze sono
moltiplicate per una costante;
Opzionali
IV. I non deve variare se aggiungo una costante a
tutte le osservazioni I(X) = I(X+b);
V. I deve essere espresso nella stessa unità di
misura di X.
G. Alleva - Statistica - Parte 1.5
8
4
Differenza interquartile
X0,75 – X0,25 (oppure Q3-Q1)
⇒ è l’intervallo che comprende il 50% dei dati
centrali
⇒ può non rispettare primo requisito
⇒ è robusto rispetto a dati anomali
Differenza interdecile
X0,9 – X0,1 comprende l’80% dei dati centrali
Campo di variazione (range)
xmax- xmin comprende tutti i dati
⇒ risente di dati anomali
(può essere utilizzato proprio per questo motivo)
G. Alleva - Statistica - Parte 1.5
9
Gli scostamenti medi
s
S(X)M
- che tipo di scostamento (assoluto,
quadratico, altro);
- da quale media;
Scostamento semplice medio dalla
mediana
n
∑X
S(X)Me =
i =1
i
k
− X 0,5
n
∑X
u =1
=
u
− X 0, 5 nu
n
⇒ è l’errore che si commette in
media sostituendo ai dati la
mediana
Scostamento semplice medio dalla
media aritmetica
n
S(X) =
i =1
i
− M (X ) |
k
u − M ( X ) | nu
=
n
n
G. Alleva - Statistica - Parte 1.5
∑| X
∑| X
u =1
10
5
Scostamento quadratico medio (standard
deviation)
2
∑ [ X − M ( X )]
2
∑ [ X − M ( X )] n
n
S(X) = σX =
2
i
i =1
n
k
=
u
u =1
u
n
⇒ è l’errore che si commette in media sostituendo ai
dati la media aritmetica
⇒ è espresso nell’unità di misura di X
Varianza (variance)
2
∑ [ X − M ( X )]
n
Var(X) = σ2X =
i =1
i
n
= M[X-M(X)]
2
∑ [X − M ( X )] n
k
=
2
u =1
u
u
n
=
⇒ è il quadrato dello scarto quadratico medio;
⇒ non è espressa nella stessa unità di misura di X;
⇒ è la media dei quadrati meno il quadrato della
media:
Var(X) = M(X2) – [M(X)]2
Devianza (variation)
Dev(X) = Σ[xi – M(X)]2 = Σ[xu – M(X)]2 nu
G. Alleva - Statistica - Parte 1.5
11
Esempio di calcolo in una serie
i
Xi
1
83,43
2
175,97
3
120,94
4
37
5
77,29
6
87,94
7
70,38
8
56,01
9
70,49
10
80,84
11
125,02
12
75,15
13
108,17
14
82,43
15
80,48
Somma 1331,54
Media
88,77
Xi-M1
-5,34
87,20
32,17
-51,77
-11,48
-0,83
-18,39
-32,76
-18,28
-7,93
36,25
-13,62
19,40
-6,34
-8,29
0,00
0,00
M1
Scostamento semplice medio
Devianza
Varianza
Scostamento quadratico medio
c.v.
Xi-M1 
5,34
87,20
32,17
51,77
11,48
0,83
18,39
32,76
18,28
7,93
36,25
13,62
19,40
6,34
8,29
350,05
23,34
(Xi-M1)2
28,51
7603,96
1034,95
2680,06
131,78
0,69
338,17
1073,17
334,13
62,87
1314,11
185,49
376,39
40,19
68,71
15273,18
1018,21
88,77
23,34
15273
1018,21
31,91
0,36
G. Alleva - Statistica - Parte 1.5
12
6
Dimostrazione che Var(X) = M1(X2) – [M1(X)]2
Indicando M1(X) = Mx
Var(X) = M(X- Mx)2 = M(X2+ Mx2 - 2 X Mx)
=Mx2 +(Mx)2 -2(Mx)2 =
=Mx2 -(Mx)2
che è anche M22-M12
G. Alleva - Statistica - Parte 1.5
13
Variabilità di una trasformazione lineare
Mentre M(Y)=M(aX+b) = aM(X)+b
Var(Y)=Var(aX+b) = a2Var(X)
σY = σaX+b = aσX
Dunque σ e σ2 risentono solo del cambiamento di unità
di misura (la varianza ne risente al quadrato)
Dimostrazione
Var(Y)=Var(aX+b) = M[aX+b - aM(X)-b]2 =
= M[aX - aM(X)]2 =
= M[a(X - M(X))]2 =
= a2M[X - M(X)]2 =
= a2Var(X)
G. Alleva - Statistica - Parte 1.5
14
7
Esempio
Var(X+100) = Var(X)
Var(X/1.000) = Var(X)/1.000.000
Var(3/2X + 12) = 9/4 Var(X)
Variabile standardizzata
Y = X – MX
σX
MY = 0
σY = 1
G. Alleva - Statistica - Parte 1.5
15
Confronto in termini di variabilità tra più caratteri
Posso dire che se σX > σY che
X è un carattere con maggiore variabilità di Y?
NO, la valutazione è infatti distorta per:
• diversa unità di misura di X e Y;
• diverso “ordine di grandezza” di X eY
Una soluzione:
il coefficiente di variazione CV
CV(X) = σX / MX
G. Alleva - Statistica - Parte 1.5
16
8
Esempio:Vendite di quattro prodotti
mese
Gen ’96
Feb ’96
Mar ’96
Apr ’96
Mag ’96
Giu ’96
Lug ’96
Ago ’96
Set ’96
Ott ’96
Nov ’96
Dic ’96
Gen ’97
Feb ’97
Mar ’97
Apr ’97
Mag ’97
Giu ’97
Lug ’97
Ago ’97
Set ’97
Ott ’97
Nov ’97
Dic ‘97
Prod. A
156
145
144
140
140
132
138
139
143
147
184
215
178
168
165
168
174
178
190
201
213
214
284
316
Media
Scost.Q. Medio
C.V.
178,00
44,86
0,2520
Prod. B
74
51
55
68
83
101
130
170
222
264
303
357
75
78
83
87
102
104
164
190
246
334
443
488
178,00
124,71
0,7006
Prod. C
54
103
105
151
154
151
153
153
201
204
203
252
102
152
154
151
201
205
201
206
210
251
253
302
Prod. D
98
138
147
194
185
186
188
203
244
234
210
233
201
208
214
219
253
255
264
254
258
310
311
357
178,00
55,75
0,3132
223,50
55,75
0,2494
G. Alleva - Statistica - Parte 1.5
17
Possiamo dire sulla base di CV(X) se il carattere
presenta molta o poca variabilità?
NO:
CV(X) non varia in un intervallo prestabilito di valori
Una soluzione è rappresentata dagli indici relativi di
variabilità.
Questi derivano dalla normalizzazione degli indici
assoluti di variabilità
Irel = (I – Imin) / (Imax – Imin) = I /Imax
Infatti Imin = 0.
Il problema è dunque quello di determinare il massimo
degli indici assoluti di variabilità
G. Alleva - Statistica - Parte 1.5
18
9
Indici relativi di variabilità
σX /max σX oppure Var(X)/max Var(X)
La distribuzione che massimizza la variabilità presenta le
osservazioni concentrate sulle due modalità estremali, che
possiamo indicare con l e L:
Distribuzione che massimizza la variabilità
xi
ni
xi ni
l
h
hl
L
N-h
(N-h)L
Tot
N
NM
Pertanto poiché hl + (N-h)L = NM,
conoscendo l, L, N e M posso determinare le frequenze h e Nh:
e quindi
hl + NL – hL = NM
h(l-L) = N(M-L)
h = N(M-L) = N(L-M)
l-L
L–l
N-h = N – N(L-M)
L-l
G. Alleva - Statistica - Parte 1.5
19
Carattere trasferibile o non trasferibile? Se il carattere X è
trasferibile l=0 e L=NM e le frequenze sono pari a h=N-1 e
N-h = 1. La distribuzione che massimizza la variabilità è:
xi
ni
xi ni
0
N-1
0
NM
1
NM
Tot
N
NM
Caso di carattere trasferibile
La varianza massima è quella che corrisponde alla
distribuzione massimante la variabilità
Varianza massima
(0-M)2 (N-1) + (NM-M)2 =
N
= M2 (N-1) + [M(N-1)]2 =
N
= M2(N-1) + M2(N-1)2 =
N
= M2(N-1) (1+N-1) =
N
= M2(N-1)
σX max è dunque M(N-1)0,5
G. Alleva - Statistica - Parte 1.5
20
10
Concentrazione
E’ un aspetto particolare della variabilità, con enfasi
sull’ordinamento dei dati.
Si misura con riferimento a caratteri trasferibili, tipicamente
alla distribuzione del reddito e di altri fenomeni economici.
Dati n individui e un ammontare complessivo A di un
carattere X, la distribuzione del carattere tra gli individui può
variare, con riferimento alla concentrazione tra le due
seguenti situazioni estremali:
- massima concentrazione: l’intero ammontare del carattere è
detenuto da un unico individuo (e i restanti n-1 ne sono
totalmente sprovvisti);
- equidistribuzione (assenza di concentrazione): tutti gli
individui possiedono la medesima quantità A/n = M1(X) del
carattere.
Distribuzione di X
Rango
1
2
…
i
…
n-1
n
Caso
Equidistribuzione
Massima
generico
concentrazione
X(1)
X(2)
…
X(i)
…
X(n-1)
X(n)
A/n = M
A/n = M
…
A/n = M
…
A/n = M
A/n = M
0
0
…
0
…
0
A
G. Alleva - Statistica - Parte 1.5
21
Indicando con:
Pi le frequenze relative cumulate;
Qi gli ammontari relativi cumulati, si avrà:
Rango Pi (in ogni
Caso generico
caso)
1
1/n
X(1) / A
2
2/n
(X(1)+X(2)) / A
…
…
i
i/n
(X(1)+X(2)+…+X(i)) / A
…
…
…
n-1
(n-1) / n
(X(1)+…+X(n-1))/A
n
n/n = 1
A/A=1
Distribuzione di
Qi
Equidistribuzione
Massima
concentrazione
M / nM = 1/n
0
2M / nM = 2/n
0
…
…
i/n
0
…
…
(n-1) / n
0
A/A = 1
A/A = 1
Si può osservare che:
Qi è sempre minore, a Pi (uguale solo nel caso di
equidistribuzione): Qi ≤ Pi per ogni i
Pertanto per misurare la concentrazione si può considerare la
somma delle differenze:
Σ(Pi – Qi) e l’indice R = Σ (Pi – Qi) per i: 1, …, n-1
ΣP
Σ i
- R= 0 in caso di equidistribuzione (Pi = Qi)
- R=1 in caso di massima concentrazione Σ(Pi – Qi) = ΣPi per
i: 1, …, n-1
G. Alleva - Statistica - Parte 1.5
22
11
Curva di concentrazione
i
1
2
3
4
5
6
7
8
9
10
Xi
1
3
4
7
18
22
50
100
300
500
1005
Pi
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
Xi cum
1
4
8
15
33
55
105
205
505
1005
Qi
0,0010
0,0040
0,0080
0,0149
0,0328
0,0547
0,1045
0,2040
0,5025
1,0000
Curva di concentrazione
Qi
1
0,9
0,8
0,7
segmento di equidistribuzione
0,6
0,5
0,4
0,3
0,2
0,1
Curva di concentrazione
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
G. Alleva - Statistica - Parte 1.5
0,9
Pi
1
23
Misura della concentrazione: il rapporto di
concentrazione R
Caso di serie
R = Σ(Pi – Qi) per i: 1, …, n-1
ΣPi
0≤R≤1
Caso di seriazione
R = Area di concentrazione / Area di max concentrazione
C.d. formula dei trapezi
Area max concentrazione = ½
Area di concentrazione = ½ - Σ(Pi+1 – Pi) (Q i+1+ Qi) /2
R = 1 - Σ(Pi+1 – Pi) (Q i+1+ Qi)
0≤R≤1
per i: 1, …, n-1
G. Alleva - Statistica - Parte 1.5
24
12
Esempio
Reddito Famiglie
1 - 1,5
2
1,5 - 2,5
10
2,5 - 6
25
6 - 10
17
10 - 25
5
59
Xi
1,25
2
4,25
8
17,5
Ai
2,5
20
106,25
136
87,5
352,25
ni cum
2
12
37
54
59
Ai cum
2,5
22,5
128,75
264,75
352,25
Pi
0,03390
0,20339
0,62712
0,91525
1,00000
Qi
0,00710
0,06388
0,36551
0,75160
1,00000
Pi+1 - Pi Qi+1 +Qi
0,03390 0,00710
0,16949 0,07097
0,42373 0,42938
0,28814 1,11710
0,08475 1,75160
0,000241
0,012029
0,181942
0,321878
0,14844
0,664529
R= 1 - 0,664529 = 0,3355
G. Alleva - Statistica - Parte 1.5
25
Un’altra misura della concentrazione:
l’indice di concentrazione δp di Gini
Si consideri la seguente partizione della distribuzione del
reddito di N individui.
rango
i
1
2
…
…
…
p
p+1
…
…
…
N
reddito
X(i)
X(1)
X(2)
…
…
…
X(p)
X(p+1)
…
…
…
X(N)
p redditieri più poveri
che detengono complessivamente un reddito pari a
p
Σ X(i)
i=1
N-p redditieri più ricchi
che detengono complessivamente un reddito pari a
N
Σ X(i)
i=p+1
G. Alleva - Statistica - Parte 1.5
26
13
Si noti che la media del reddito detenuto
dai p individui più ricchi è in generale
maggiore della media generale del reddito:
N
N
Σ X(i)
Σ X(i)
i=p+1
≥ i=1
N-p
N
(uguale solo se xi = M per ogni i) e dunque
N
Σ X(i)
i=p+1
≥ N-p
N
N
Σ X(i)
i=1
esisterà un δp tale che
N
Σ X(i)
i=p+1
N
δp
= N-p
N
Σ X(i)
i=1
(δp ≥ 1 essendo le due frazioni proprie)
δp cresce al crescere della concentrazione
G. Alleva - Statistica - Parte 1.5
27
N
δp log
Σ X(i)
i=p+1
= log
N-p
N
N
Σ X(i)
i=1
N
δp = log
Σ X(i)
N-p
N
/ log
i=p+1
N
Σ X(i)
i=1
G. Alleva - Statistica - Parte 1.5
28
14
Calcolo del delta di Gini
Caso di serie: δ 5
Xi
3
1,5
14
3
5
9
0
6
3
22
3
18
5
1) ordino i dati2) se p=5, N - p = 12 - 5 = 7
rango i X(i)
1
0
ammontare totale: 89,5
2
1,5
somma ultimi 7 redditi: 79
3
3
-0,23 = 4,319
4
3
δ 5 = LOG(7 / 12)
5
3
LOG(79 / 89,5) -0,05
6
5
7
5
8
6
9
9
10 14
11 18
12 22
Tot
90
Caso di seriazione: δ 20
X
0-2
2-4
4-8
8-12
n
8
22
31
9
70
p = 20; N - p = 50
x
A
log(50 / 70)
=
δ 20 =
1
8
log((90+186+30) / 350)
3
66
6 186
10
90
350 G. Alleva - Statistica - Parte 1.5
-0,146 = 2,204
-0,058
29
Altro esempio
Se il 20% degli individui più ricchi deteneva al tempo
0 il 40% del reddito e al tempo 1 il 50% come è
variata la concentrazione?
0δ
= log0,2/log0,4= 1,76
1δ
= log0,2/log0,5 = 2,32
G. Alleva - Statistica - Parte 1.5
30
15
La forma della distribuzione: la misura dell’asimmetria
Esiste un centro di simmetria nella distribuzione di una
variabile X?
Ovvero un valore k tale che | x(i)-k | = | x(n-i+1)- k |, per
ogni i?
k
k
k
k
G. Alleva - Statistica - Parte 1.5
31
Un primo indice
Poiché se esiste simmetria la media è uguale alla
mediana si può usare l’indice M1(x) – X0.5
allora M1(x) – X0.5 = 0 se vi è simmetria
⇒ è condizione necessaria ma non sufficiente, ovvero
M1(x) – X0.5 = 0 costituisce solo un indizio di
simmetria
M1(x) – X0.5 ≠ 0 dà certezza di asimmetria
⇒ il segno della differenza segnala asimmetria positiva
o negativa
G. Alleva - Statistica - Parte 1.5
32
16
Un secondo indice
Poiché se esiste simmetria
(X0,75 – X0,5) – (X0,5 – X0,25) = 0
allora si può considerare l’indice assoluto
(X0,75 – X0,5) – (X0,5 – X0,25) = X0,25 + X0,75 – 2X0,5
o quello relativo
(X0,75 – X0,5) – (X0,5 – X0,25)
(X0,75 – X0,5) + (X0,5 – X0,25)
Anche per tale indice:
⇒ l’uguaglianza a 0 è condizione necessaria ma non
sufficiente di simmetria
⇒ il segno della differenza segnala asimmetria
positiva o negativa
Un terzo indice
Poiché se esiste simmetria il centro K = M(X), allora
µ3 = Σ(xi-M)3/N = 0.
Indice di asimmetria di Fisher γ1 = µ3 / σ3X
Stesse osservazioni, ma affidabilità del segno.
G. Alleva - Statistica - Parte 1.5
33
17