1.5 - Variabilità, concentrazione e asimmetria G. Alleva - Statistica - Parte 1.5 1 Obiettivo: Misura della variabilità di una distribuzione statistica Mutabilità, Dispersione, Variabilità, Eterogeneità E’ l’attitudine di un fenomeno a presentarsi con manifestazioni diverse Carattere qualitativo misurabile su scala nominale sconnessa ⇒ Indici di Eterogeneità Carattere quantitativo ordinabile ⇒ Differenza interquartile ⇒ Scostamento semplice medio dalla mediana ⇒ Campo di variazione Carattere quantitativo proporzionale ⇒ Scostamenti medi dalla media * scostamento semplice medio * scostamento quadratico medio * varianza * devianza * coefficiente di variazione ⇒ Differenze medie * Differenza semplice media * Differenza quadratica media G. Alleva - Statistica - Parte 1.5 2 1 Carattere mutabile: Eterogeneità Sintesi della eterogeneità: indice S di Gini e l’indice H (entropia) Le situazioni estremali: ⇒ Minima eterogeneità (max omogeneità): le frequenze sono concentrate su un’unica modalità ⇒ Massima eterogeneità (minima omogeneità): tutte le modalità hanno lo stesso di frequenze (frequenze equiripartite); se il numero di modalità è k, ciascuna modalità presenta n/k frequenze Minima Massima eterogeneità eterogeneità Xu nu nu X1 n/k … n/k Xu n n/k … n/k Xk n/k Totale n n G. Alleva - Statistica - Parte 1.5 3 La somma dei quadrati delle frequenze relative Σ(nu/n)2 = Σfu2= 1 in caso di minima eterogeneità e 1/k in caso di massima eterogeneità. Infatti: Xu X1 … Xu … Xk Tot Minima eterogeneità nu fu n 1 n 1 fu 2 1 1 Massima eterogeneità nu fu n/k 1/k n/k 1/k n/k 1/k n/k 1/k n/k 1/k n 1 fu2 1/k2 1/k2 1/k2 1/k2 1/k2 1/k Indice di eterogeneità assoluto: S=1- Σfu2 con 0 ≤ S ≤ (k-1)/k Indice di eterogeneità relativo: (1 - Σf i ) S(rel) = k -1 k 2 con 0 ≤ S(rel) ≤ 1 G. Alleva - Statistica - Parte 1.5 4 2 Un altro indice: l’entropia H: H = - Σfu log fu 0 ≤ H ≤ log k H(rel) = H/log k G. Alleva - Statistica - Parte 1.5 5 Esempio: Eterogeneità del Senato della Repubblica (1979) Xi DC PCI PSI MSI PSDI PRI PPST PLI PR Altri Totale nu 138 109 32 13 9 6 3 2 2 1 315 fu 0,43810 0,34603 0,10159 0,04127 0,02857 0,01905 0,00952 0,00635 0,00635 0,00317 fu^2 0,19193 0,11974 0,01032 0,00170 0,00082 0,00036 0,00009 0,00004 0,00004 0,00001 0,32505 log fu fu log fu -0,35843 -0,15703 -0,46088 -0,15948 -0,99316 -0,10089 -1,38437 -0,05713 -1,54407 -0,04412 -1,72016 -0,03276 -2,02119 -0,01925 -2,19728 -0,01395 -2,19728 -0,01395 -2,49831 -0,00793 -0,60650 S = 1 - 0,32505 =0,67495 S max = 9/10 = 0,9 S rel = 0,67495/0,9 = 0,749945 H = 0,60650 H max = log 10 = 1 H rel = 0,60650/1 = 0,60650 G. Alleva - Statistica - Parte 1.5 6 3 Variabilità (caratteri quantitativi) X 2 Y -48 2 -1 2 1 2 3 2 55 2 2 M(X)=2 M(Y)=2 X e Y presentano la stessa media ma: per la variabile X: xi– M(X) = 0 ∀ i ∀ i,j e anche xi – xj = 0 e dunque X è una variabile priva di variabilità (carattere statistico degenere); per la variabile Y: e anche yi – M(Y) ≠ 0 yi – yj ≠ 0 ∀i ∀ i, j Si noti che: ⇒ se non c’è variabilità deve essere nulla ciascuna differenza ⇒ le differenze dalle medie sono N, quelle tra coppie di osservazioni sono N2 oppure N(N-1) se non considero le differenze banali; ⇒ occorre fare una sintesi di tali differenze, ad esempio attraverso una media. Due famiglie di indici: gli scostamenti medi e le differenze medie G. Alleva - Statistica - Parte 1.5 7 Requisiti degli indici di variabilità (I) Fondamentali I. I = 0, se e solo se non c’è una variabilità; II. I > 0 al crescere della variabilità, III. I non deve variare se le frequenze sono moltiplicate per una costante; Opzionali IV. I non deve variare se aggiungo una costante a tutte le osservazioni I(X) = I(X+b); V. I deve essere espresso nella stessa unità di misura di X. G. Alleva - Statistica - Parte 1.5 8 4 Differenza interquartile X0,75 – X0,25 (oppure Q3-Q1) ⇒ è l’intervallo che comprende il 50% dei dati centrali ⇒ può non rispettare primo requisito ⇒ è robusto rispetto a dati anomali Differenza interdecile X0,9 – X0,1 comprende l’80% dei dati centrali Campo di variazione (range) xmax- xmin comprende tutti i dati ⇒ risente di dati anomali (può essere utilizzato proprio per questo motivo) G. Alleva - Statistica - Parte 1.5 9 Gli scostamenti medi s S(X)M - che tipo di scostamento (assoluto, quadratico, altro); - da quale media; Scostamento semplice medio dalla mediana n ∑X S(X)Me = i =1 i k − X 0,5 n ∑X u =1 = u − X 0, 5 nu n ⇒ è l’errore che si commette in media sostituendo ai dati la mediana Scostamento semplice medio dalla media aritmetica n S(X) = i =1 i − M (X ) | k u − M ( X ) | nu = n n G. Alleva - Statistica - Parte 1.5 ∑| X ∑| X u =1 10 5 Scostamento quadratico medio (standard deviation) 2 ∑ [ X − M ( X )] 2 ∑ [ X − M ( X )] n n S(X) = σX = 2 i i =1 n k = u u =1 u n ⇒ è l’errore che si commette in media sostituendo ai dati la media aritmetica ⇒ è espresso nell’unità di misura di X Varianza (variance) 2 ∑ [ X − M ( X )] n Var(X) = σ2X = i =1 i n = M[X-M(X)] 2 ∑ [X − M ( X )] n k = 2 u =1 u u n = ⇒ è il quadrato dello scarto quadratico medio; ⇒ non è espressa nella stessa unità di misura di X; ⇒ è la media dei quadrati meno il quadrato della media: Var(X) = M(X2) – [M(X)]2 Devianza (variation) Dev(X) = Σ[xi – M(X)]2 = Σ[xu – M(X)]2 nu G. Alleva - Statistica - Parte 1.5 11 Esempio di calcolo in una serie i Xi 1 83,43 2 175,97 3 120,94 4 37 5 77,29 6 87,94 7 70,38 8 56,01 9 70,49 10 80,84 11 125,02 12 75,15 13 108,17 14 82,43 15 80,48 Somma 1331,54 Media 88,77 Xi-M1 -5,34 87,20 32,17 -51,77 -11,48 -0,83 -18,39 -32,76 -18,28 -7,93 36,25 -13,62 19,40 -6,34 -8,29 0,00 0,00 M1 Scostamento semplice medio Devianza Varianza Scostamento quadratico medio c.v. Xi-M1 5,34 87,20 32,17 51,77 11,48 0,83 18,39 32,76 18,28 7,93 36,25 13,62 19,40 6,34 8,29 350,05 23,34 (Xi-M1)2 28,51 7603,96 1034,95 2680,06 131,78 0,69 338,17 1073,17 334,13 62,87 1314,11 185,49 376,39 40,19 68,71 15273,18 1018,21 88,77 23,34 15273 1018,21 31,91 0,36 G. Alleva - Statistica - Parte 1.5 12 6 Dimostrazione che Var(X) = M1(X2) – [M1(X)]2 Indicando M1(X) = Mx Var(X) = M(X- Mx)2 = M(X2+ Mx2 - 2 X Mx) =Mx2 +(Mx)2 -2(Mx)2 = =Mx2 -(Mx)2 che è anche M22-M12 G. Alleva - Statistica - Parte 1.5 13 Variabilità di una trasformazione lineare Mentre M(Y)=M(aX+b) = aM(X)+b Var(Y)=Var(aX+b) = a2Var(X) σY = σaX+b = aσX Dunque σ e σ2 risentono solo del cambiamento di unità di misura (la varianza ne risente al quadrato) Dimostrazione Var(Y)=Var(aX+b) = M[aX+b - aM(X)-b]2 = = M[aX - aM(X)]2 = = M[a(X - M(X))]2 = = a2M[X - M(X)]2 = = a2Var(X) G. Alleva - Statistica - Parte 1.5 14 7 Esempio Var(X+100) = Var(X) Var(X/1.000) = Var(X)/1.000.000 Var(3/2X + 12) = 9/4 Var(X) Variabile standardizzata Y = X – MX σX MY = 0 σY = 1 G. Alleva - Statistica - Parte 1.5 15 Confronto in termini di variabilità tra più caratteri Posso dire che se σX > σY che X è un carattere con maggiore variabilità di Y? NO, la valutazione è infatti distorta per: • diversa unità di misura di X e Y; • diverso “ordine di grandezza” di X eY Una soluzione: il coefficiente di variazione CV CV(X) = σX / MX G. Alleva - Statistica - Parte 1.5 16 8 Esempio:Vendite di quattro prodotti mese Gen ’96 Feb ’96 Mar ’96 Apr ’96 Mag ’96 Giu ’96 Lug ’96 Ago ’96 Set ’96 Ott ’96 Nov ’96 Dic ’96 Gen ’97 Feb ’97 Mar ’97 Apr ’97 Mag ’97 Giu ’97 Lug ’97 Ago ’97 Set ’97 Ott ’97 Nov ’97 Dic ‘97 Prod. A 156 145 144 140 140 132 138 139 143 147 184 215 178 168 165 168 174 178 190 201 213 214 284 316 Media Scost.Q. Medio C.V. 178,00 44,86 0,2520 Prod. B 74 51 55 68 83 101 130 170 222 264 303 357 75 78 83 87 102 104 164 190 246 334 443 488 178,00 124,71 0,7006 Prod. C 54 103 105 151 154 151 153 153 201 204 203 252 102 152 154 151 201 205 201 206 210 251 253 302 Prod. D 98 138 147 194 185 186 188 203 244 234 210 233 201 208 214 219 253 255 264 254 258 310 311 357 178,00 55,75 0,3132 223,50 55,75 0,2494 G. Alleva - Statistica - Parte 1.5 17 Possiamo dire sulla base di CV(X) se il carattere presenta molta o poca variabilità? NO: CV(X) non varia in un intervallo prestabilito di valori Una soluzione è rappresentata dagli indici relativi di variabilità. Questi derivano dalla normalizzazione degli indici assoluti di variabilità Irel = (I – Imin) / (Imax – Imin) = I /Imax Infatti Imin = 0. Il problema è dunque quello di determinare il massimo degli indici assoluti di variabilità G. Alleva - Statistica - Parte 1.5 18 9 Indici relativi di variabilità σX /max σX oppure Var(X)/max Var(X) La distribuzione che massimizza la variabilità presenta le osservazioni concentrate sulle due modalità estremali, che possiamo indicare con l e L: Distribuzione che massimizza la variabilità xi ni xi ni l h hl L N-h (N-h)L Tot N NM Pertanto poiché hl + (N-h)L = NM, conoscendo l, L, N e M posso determinare le frequenze h e Nh: e quindi hl + NL – hL = NM h(l-L) = N(M-L) h = N(M-L) = N(L-M) l-L L–l N-h = N – N(L-M) L-l G. Alleva - Statistica - Parte 1.5 19 Carattere trasferibile o non trasferibile? Se il carattere X è trasferibile l=0 e L=NM e le frequenze sono pari a h=N-1 e N-h = 1. La distribuzione che massimizza la variabilità è: xi ni xi ni 0 N-1 0 NM 1 NM Tot N NM Caso di carattere trasferibile La varianza massima è quella che corrisponde alla distribuzione massimante la variabilità Varianza massima (0-M)2 (N-1) + (NM-M)2 = N = M2 (N-1) + [M(N-1)]2 = N = M2(N-1) + M2(N-1)2 = N = M2(N-1) (1+N-1) = N = M2(N-1) σX max è dunque M(N-1)0,5 G. Alleva - Statistica - Parte 1.5 20 10 Concentrazione E’ un aspetto particolare della variabilità, con enfasi sull’ordinamento dei dati. Si misura con riferimento a caratteri trasferibili, tipicamente alla distribuzione del reddito e di altri fenomeni economici. Dati n individui e un ammontare complessivo A di un carattere X, la distribuzione del carattere tra gli individui può variare, con riferimento alla concentrazione tra le due seguenti situazioni estremali: - massima concentrazione: l’intero ammontare del carattere è detenuto da un unico individuo (e i restanti n-1 ne sono totalmente sprovvisti); - equidistribuzione (assenza di concentrazione): tutti gli individui possiedono la medesima quantità A/n = M1(X) del carattere. Distribuzione di X Rango 1 2 … i … n-1 n Caso Equidistribuzione Massima generico concentrazione X(1) X(2) … X(i) … X(n-1) X(n) A/n = M A/n = M … A/n = M … A/n = M A/n = M 0 0 … 0 … 0 A G. Alleva - Statistica - Parte 1.5 21 Indicando con: Pi le frequenze relative cumulate; Qi gli ammontari relativi cumulati, si avrà: Rango Pi (in ogni Caso generico caso) 1 1/n X(1) / A 2 2/n (X(1)+X(2)) / A … … i i/n (X(1)+X(2)+…+X(i)) / A … … … n-1 (n-1) / n (X(1)+…+X(n-1))/A n n/n = 1 A/A=1 Distribuzione di Qi Equidistribuzione Massima concentrazione M / nM = 1/n 0 2M / nM = 2/n 0 … … i/n 0 … … (n-1) / n 0 A/A = 1 A/A = 1 Si può osservare che: Qi è sempre minore, a Pi (uguale solo nel caso di equidistribuzione): Qi ≤ Pi per ogni i Pertanto per misurare la concentrazione si può considerare la somma delle differenze: Σ(Pi – Qi) e l’indice R = Σ (Pi – Qi) per i: 1, …, n-1 ΣP Σ i - R= 0 in caso di equidistribuzione (Pi = Qi) - R=1 in caso di massima concentrazione Σ(Pi – Qi) = ΣPi per i: 1, …, n-1 G. Alleva - Statistica - Parte 1.5 22 11 Curva di concentrazione i 1 2 3 4 5 6 7 8 9 10 Xi 1 3 4 7 18 22 50 100 300 500 1005 Pi 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Xi cum 1 4 8 15 33 55 105 205 505 1005 Qi 0,0010 0,0040 0,0080 0,0149 0,0328 0,0547 0,1045 0,2040 0,5025 1,0000 Curva di concentrazione Qi 1 0,9 0,8 0,7 segmento di equidistribuzione 0,6 0,5 0,4 0,3 0,2 0,1 Curva di concentrazione 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 G. Alleva - Statistica - Parte 1.5 0,9 Pi 1 23 Misura della concentrazione: il rapporto di concentrazione R Caso di serie R = Σ(Pi – Qi) per i: 1, …, n-1 ΣPi 0≤R≤1 Caso di seriazione R = Area di concentrazione / Area di max concentrazione C.d. formula dei trapezi Area max concentrazione = ½ Area di concentrazione = ½ - Σ(Pi+1 – Pi) (Q i+1+ Qi) /2 R = 1 - Σ(Pi+1 – Pi) (Q i+1+ Qi) 0≤R≤1 per i: 1, …, n-1 G. Alleva - Statistica - Parte 1.5 24 12 Esempio Reddito Famiglie 1 - 1,5 2 1,5 - 2,5 10 2,5 - 6 25 6 - 10 17 10 - 25 5 59 Xi 1,25 2 4,25 8 17,5 Ai 2,5 20 106,25 136 87,5 352,25 ni cum 2 12 37 54 59 Ai cum 2,5 22,5 128,75 264,75 352,25 Pi 0,03390 0,20339 0,62712 0,91525 1,00000 Qi 0,00710 0,06388 0,36551 0,75160 1,00000 Pi+1 - Pi Qi+1 +Qi 0,03390 0,00710 0,16949 0,07097 0,42373 0,42938 0,28814 1,11710 0,08475 1,75160 0,000241 0,012029 0,181942 0,321878 0,14844 0,664529 R= 1 - 0,664529 = 0,3355 G. Alleva - Statistica - Parte 1.5 25 Un’altra misura della concentrazione: l’indice di concentrazione δp di Gini Si consideri la seguente partizione della distribuzione del reddito di N individui. rango i 1 2 … … … p p+1 … … … N reddito X(i) X(1) X(2) … … … X(p) X(p+1) … … … X(N) p redditieri più poveri che detengono complessivamente un reddito pari a p Σ X(i) i=1 N-p redditieri più ricchi che detengono complessivamente un reddito pari a N Σ X(i) i=p+1 G. Alleva - Statistica - Parte 1.5 26 13 Si noti che la media del reddito detenuto dai p individui più ricchi è in generale maggiore della media generale del reddito: N N Σ X(i) Σ X(i) i=p+1 ≥ i=1 N-p N (uguale solo se xi = M per ogni i) e dunque N Σ X(i) i=p+1 ≥ N-p N N Σ X(i) i=1 esisterà un δp tale che N Σ X(i) i=p+1 N δp = N-p N Σ X(i) i=1 (δp ≥ 1 essendo le due frazioni proprie) δp cresce al crescere della concentrazione G. Alleva - Statistica - Parte 1.5 27 N δp log Σ X(i) i=p+1 = log N-p N N Σ X(i) i=1 N δp = log Σ X(i) N-p N / log i=p+1 N Σ X(i) i=1 G. Alleva - Statistica - Parte 1.5 28 14 Calcolo del delta di Gini Caso di serie: δ 5 Xi 3 1,5 14 3 5 9 0 6 3 22 3 18 5 1) ordino i dati2) se p=5, N - p = 12 - 5 = 7 rango i X(i) 1 0 ammontare totale: 89,5 2 1,5 somma ultimi 7 redditi: 79 3 3 -0,23 = 4,319 4 3 δ 5 = LOG(7 / 12) 5 3 LOG(79 / 89,5) -0,05 6 5 7 5 8 6 9 9 10 14 11 18 12 22 Tot 90 Caso di seriazione: δ 20 X 0-2 2-4 4-8 8-12 n 8 22 31 9 70 p = 20; N - p = 50 x A log(50 / 70) = δ 20 = 1 8 log((90+186+30) / 350) 3 66 6 186 10 90 350 G. Alleva - Statistica - Parte 1.5 -0,146 = 2,204 -0,058 29 Altro esempio Se il 20% degli individui più ricchi deteneva al tempo 0 il 40% del reddito e al tempo 1 il 50% come è variata la concentrazione? 0δ = log0,2/log0,4= 1,76 1δ = log0,2/log0,5 = 2,32 G. Alleva - Statistica - Parte 1.5 30 15 La forma della distribuzione: la misura dell’asimmetria Esiste un centro di simmetria nella distribuzione di una variabile X? Ovvero un valore k tale che | x(i)-k | = | x(n-i+1)- k |, per ogni i? k k k k G. Alleva - Statistica - Parte 1.5 31 Un primo indice Poiché se esiste simmetria la media è uguale alla mediana si può usare l’indice M1(x) – X0.5 allora M1(x) – X0.5 = 0 se vi è simmetria ⇒ è condizione necessaria ma non sufficiente, ovvero M1(x) – X0.5 = 0 costituisce solo un indizio di simmetria M1(x) – X0.5 ≠ 0 dà certezza di asimmetria ⇒ il segno della differenza segnala asimmetria positiva o negativa G. Alleva - Statistica - Parte 1.5 32 16 Un secondo indice Poiché se esiste simmetria (X0,75 – X0,5) – (X0,5 – X0,25) = 0 allora si può considerare l’indice assoluto (X0,75 – X0,5) – (X0,5 – X0,25) = X0,25 + X0,75 – 2X0,5 o quello relativo (X0,75 – X0,5) – (X0,5 – X0,25) (X0,75 – X0,5) + (X0,5 – X0,25) Anche per tale indice: ⇒ l’uguaglianza a 0 è condizione necessaria ma non sufficiente di simmetria ⇒ il segno della differenza segnala asimmetria positiva o negativa Un terzo indice Poiché se esiste simmetria il centro K = M(X), allora µ3 = Σ(xi-M)3/N = 0. Indice di asimmetria di Fisher γ1 = µ3 / σ3X Stesse osservazioni, ma affidabilità del segno. G. Alleva - Statistica - Parte 1.5 33 17