i=1 xi = x1 + x2 + ... + xn−1 + xn. Proprietà fondamentali sono n. ∑ i=1 cxi = c( n.
∑ i=1 xi) b. ∑ i=a xi = xa se a = b e n. ∑ i=1 c = nc. Statistica Medica – p.2/39 ...
Statistica Medica Sez. 1 - Analisi esplorativa dei dati
Statistica Medica – p.1/39
La sommatoria Il simbolo
P
è noto come sommatoria.
n X
xi = x1 + x2 + . . . + xn−1 + xn
i=1
Proprietà fondamentali sono n X i=1
b X i=a
cxi = c
Ã
n X
xi
i=1
xi = xa se a = b e
!
n X
c = nc
i=1
Statistica Medica – p.2/39
Unità e variabili statistiche Il soggetto su cui vengono misurate le variabili di interesse è l’unità statistica dello studio Le variabili possono essere • •
Continue Discrete • Binarie • Categoriche • Conteggio
Statistica Medica – p.3/39
Descrizione di una variabile • •
Misure di centralità Misure di dispersione (variabilità)
Statistica Medica – p.4/39
Centralità: media aritmetica Data una variabile x, misurata su n soggetti, la media aritmetica campionaria è pari a n X 1 x¯ = xi n i=1
È molto sensibile ai valori estremi, e in tal caso non è una buona misura di centralità. È un operatore lineare, valendo se yi = c1 xi + c2 ∀i allora y¯ = c1 x¯ + c2 Statistica Medica – p.5/39
DataSet 1 - Peso alla nascita Si è osservato il peso alla nascita dei bambini (20) nati vivi in una data settimana in un ospedale privato di San Diego (California) VAR/CASE BW CASE:1 3265.00 CASE:2 3260.00 CASE:3 3245.00 CASE:4 3484.00 CASE:5 4146.00 CASE:6 3323.00 CASE:7 3649.00 CASE:8 3200.00 CASE:9 3031.00 CASE:10 2069.00
CASE:11 CASE:12 CASE:13 CASE:14 CASE:15 CASE:16 CASE:17 CASE:18 CASE:19 CASE:20
2581.00 2841.00 3609.00 2838.00 3541.00 2759.00 3248.00 3314.00 3101.00 2834.00
Statistica Medica – p.6/39
DataSet 1 - Media artimetica • x ¯ = 3265 •
sostituendo il peso #1 con 500g si ottiene
x¯ = 3028.7
Statistica Medica – p.7/39
Misure di centralità: mediana Si supponga che le n osservazioni siano ordinate. La mediana campionaria è •
la ( n+1 2 )-ma osservazione se n è dispari
•
la media aritmetica della ( n2 )-ma e la ( n2 + 1)-ma osservazione se n è pari
Statistica Medica – p.8/39
DataSet 1 - Mediana Siccome n è pari, la mediana è la media della 10-ma e 11-ma osservazione ordinata 3245 + 3248 = 3246.5 Mediana = 2
Statistica Medica – p.9/39
DataSet 2 - Globuli bianchi Conteggio dei globuli (x1000) bianchi all’ammissione di 9 pazienti in Allentown (Pennsylvania) VAR/CASE CASE:1 CASE:2 CASE:3 CASE:4 CASE:5 CASE:6 CASE:7 CASE:8 CASE:9
WB 7.00 35.00 5.00 9.00 8.00 3.00 10.00 12.00 8.00
La mediana è pari a 8.
Statistica Medica – p.10/39
Confronto media-mediana
Statistica Medica – p.11/39
Confronto media-mediana (cont.) Si ha quindi l’indice di skewness Skewness = M edia − M ediana
e la distribuzione sarà • • •
simmetrica se Skewness ' 0
asimmetrica a sinistra se Skewness > 0 asimmetrica a destra se Skewness < 0
Statistica Medica – p.12/39
La moda La moda è il valore di una variabile che si osserva con maggiore frequenza in un determinato campione Una distribuzione può essere unimodale, bimodale, trimodale, ... Giorni tra due periodi mestruali consecutivi in un campione di donne giovani (18-25 anni) GG
n
GG
n
GG
n
24
5
29
96
34
7
25
10
30
63
35
3
26
28
31
24
36
2
27
64
32
9
37
1
28
185
33
2
38
1
Statistica Medica – p.13/39
La media geometrica La media geometrica è pari a x¯g = e
1 n
Pn
i=1
log xi
utile nel caso di distribuzioni molto asimmetriche, con regolarità del tipo log(2k+1 c) − log(2k c) = log(2)
Statistica Medica – p.14/39
La media geometrica (cont.) Distribuzione della minima concentrazione inibitoria (MIC) di penicillina G per N. gonorrhoeae (JAMA, 220, 205-208, 1972) Conc.
n
Conc.
n
0.03125=20 c
21
0.250=23 c
19
0.0625=21 c
6
0.50=24 c
17
0.125=22 c
8
1.0=25 c
3
dove c = 0.03125 e x¯g = e
21 log(0.03125)+...+3 log(1.0) 74
= e−0.846 = 0.143 Statistica Medica – p.15/39
Misure di variabilità Si considerino due campioni di misurazioni del colesterolo eseguite con due tecniche, una autoanalitica e l’altra microenzimatica Autoanalitica 177, 193, 195, 209, 226
mg/ml
Microenzimatica 192, 197, 200, 202, 209
mg/ml
x¯ = 200
Statistica Medica – p.16/39
Il range Il range è la differenza tra l’osservazione con il valore più grande e quella con il valore più piccolo. In simboli è pari a range = max(xi ) − min(xi )
Per la tecnica autoanalitica è pari a 49 mg/ml, per la tecnica microenzimatica a 17 mg/ml È molto semplice da calcolare ma molto sensibile ai valori estremi e dipende dall’ampiezza campionaria n.
Statistica Medica – p.17/39
Percentili Il percentile p-esimo è un lavore Vp tale che il p% del campione assume valori inferiori ad esso. Il percentile p-esimo è deFInito come •
la (k + 1)-ma osservazione (ordinata) se np/100 non è un intero. k è l’intero più grande inferiore a np/100
•
la media delle osservazioni np/100-ma e np/100 + 1-ma osservazione (ordinata) se np/100 è un intero
Statistica Medica – p.18/39
Percentili - Dataset 1 Si calcoli il 10-mo e 90-mo percentile del campione di pesi neonatali CASE:10 CASE:11 CASE:16 CASE:20 CASE:14 CASE:12
• • •
2069.00 2581.00 2759.00 2834.00 2838.00 2841.00
CASE:9 CASE:19 CASE:8 CASE:3 CASE:17 CASE:2
3031.00 3101.00 3200.00 3245.00 3248.00 3260.00
CASE:1 CASE:18 CASE:6 CASE:4 CASE:15 CASE:13
3265.00 3314.00 3323.00 3484.00 3541.00 3609.00
CASE:7 3649.00 CASE:5 4146.00
Si calcola np/100, pari a 20 × 0.1 = 2 e 20 × 0.9 = 18
Si calcola la media tra l’osservazione ordinata n. 2 e 3 (2759 + 2581)/2 = 2670 Si calcola la media tra l’osservazione ordinata n. 18 e 19 (3609 + 3649)/2 = 3629 Statistica Medica – p.19/39
Percentili - Dataset 2 Si calcoli il 20-mo percentile del campione di globuli bianchi CASE:6 CASE:3 CASE:1
• • •
3.00 5.00 7.00
CASE:5 CASE:9 CASE:4
8.00 8.00 9.00
CASE:7 CASE:8 CASE:2
10.00 12.00 35.00
Si calcola np/100, pari a 9 × 0.2 = 1.8
Si trova il k -mo intero inferiore a 1.8 (ovvero 1) Il percentile è il k + 1 = 1 + 1-mo valore ordinato, ovvero 5
Statistica Medica – p.20/39
La varianza campionaria La varianza campionaria è deFInita come s2 =
Pn
2 (x − x ¯ ) i i=1 n−1
La deviazione standard campionaria è deFInita come s=
Si noti che
Pn
x) i=1 (xi −¯ n
sP
n i=1 (xi
− x¯)2 n−1
=0
Statistica Medica – p.21/39
Misurazioni di colesterolo •
Tecnica autoanalitica s2 = [(177 − 200)2 + . . . + (226 − 200)2 ]/4 = 1360/4 = 340 s=
•
√
340 = 18.4
Tecnica microenzimatica s2 = [(192 − 200)2 + . . . + (209 − 200)2 ]/4 = 158/4 = 39.5 s=
√
39.5 = 6.3
Statistica Medica – p.22/39
Varianza - formula alternativa Se la media è già calcolata, allora può essere utile usare P s2 =
n 2 x i=1 i
− n¯ x2 n−1
Per la tecnica microanalitica si ha 5 X
x2i = 1772 + . . . + 2262 = 201360
i=1
2 201360 − 5 × 200 s2 = = 1360/4 = 340 4
Statistica Medica – p.23/39
Varianza - proprietà I Si supponga di avere due campioni y1 , . . . , yn e x1 , . . . , xn , dove yi = xi + c ∀i = 1, . . . , n
Se le due varianze campionarie sono indicate come s2x e s2y , si ha che s2x = s2y
Statistica Medica – p.24/39
Varianza - proprietà II Si supponga di avere due campioni y1 , . . . , yn e x1 , . . . , xn , dove yi = cxi ∀i = 1, . . . , n c > 0
Se le due varianze campionarie sono indicate come s2x e s2y , si ha che s2y = c2 s2x
Statistica Medica – p.25/39
Il coefFIciente di variazione Il coefFIciente di variazione CV è deFInito come s CV = × 100 x¯
che è insensibile alla scala (ovvero a trasformazioni del tipo cx) Per i pesi neonatali espressi in grammi si ha CV = 445.3/3166.9 × 100 = 14.1%
e per gli stessi pesi espressi in once (∼ 28.3) CV = 15.7/111.71 × 100 = 14.1% Statistica Medica – p.26/39
Caso di studio - BHS 78-79 Dati provenienti dal Bougalusa Heart Study (J Chron Dis, 1987), sulla riproducibilità dei fattori di rischio cardiovascolari nei bambini Misurazioni prese per lo stesso bambino in due momenti successivi, ogni 3 anni Fattore
n
Media
sd
CV(%)
Altezza (cm)
364
142.6
0.31
0.2
Peso (cm)
365
39.5
0.77
1.9
Pliche (mm)
362
15.2
0.51
3.4
PAS (mm Hg)
337
104.0
4.97
4.8
PAD (mm Hg)
337
64.0
4.57
7.1
Col. totale
395
160.4
3.44
2.1
Col. HDL
349
56.9
5.89
10.4 Statistica Medica – p.27/39
Dati raggruppati La struttura generale dei dati raggruppati è simile a Gruppi ≥ y1 , < y 2
.. .
≥ yk , < yk+1
Val. Centrali Frequenza y1 +y2 2
f1
yk +yk+1 2
fk
m1 =
.. .
mk =
.. .
Statistica Medica – p.28/39
Dataset 4 - Pesi alla nascita Pesi alla nascita (once) di n = 100 bambini consecutivi in un ospedale di Boston 58 120 123 104 121 111 91 104 128 133 118 86 134 132 68 121 122 115 106 115 92 115 94 98 107 124 138 138 125 127 108 118 67 146 122 104 99 105 108 135 132 95 124 132 126 125 115 144 98 89 32 83 155 93 88 102 104 87 133 121 140 112 105 85 89 122 98 88 104 112 138 128 100 94 108 137 89 103 122 135 96 127 112 116 115 110 119 108 124 115 161 124 141 113 85 101 109 109 110 64
Statistica Medica – p.29/39
Dataset 4 - Pesi alla nascita Pesi
alla
G
nascita m
f
[29.5, 69.5)
49.5
5
[69.5, 89.5)
79.5
10
[89.5, 99.5)
94.5
11
[99.5, 109.5)
104.5
19
[109.5, 119.5)
114.5
17
[119.5, 129.5)
124.5
20
[129.5, 139.5)
134.5
12
[139.5, 169.5)
154.5
6
(once)
di
100
bambini
Statistica Medica – p.30/39
Media artimetica ponderata La media aritmetica campionaria ponderata è pari a x¯g =
Per il dataset 4 è pari a
Pk
i=1 fi mi Pk i=1 fi
5(49.5) + . . . + 6(154.5) x¯g = = 11045/100 = 110.45 5 + ... + 6
Statistica Medica – p.31/39
Varianza ponderata La varianza campionaria ponderata è pari a s2g =
Pk
s2g =
Pk
2 f (m − x ¯ ) g i i i=1 Pk ( i=1 fi ) − 1
ovvero
Per il dataset 4 è pari a s¯2g
2 − n¯ 2 f m x i g i=1 i n−1
[5(49.5)2 + . . . + 6(154.5)2 ] − 100(110.452 ) = = 5443475/99 = 549.85 100 − 1
Statistica Medica – p.32/39
Istogramma Per il calcolo dell’istogramma, la tabella deve essere estesa Gruppi ≥ y1 , < y2 .. . ≥ yk , < yk+1
Val. Centrali m1 =
y1 +y2 2
.. . mk =
yk +yk+1 2
Frequenza
Ampiezza
f1 .. .
a1 = y 2 − y 1 .. .
fk
ak = yk+1 − yk
Densità h1 = .. . hk =
f1 a1
fk+1 ak
L’istogramma è uno stimatore della distribuzione
Statistica Medica – p.33/39
Dataset 4 - Istogramma Calcolo G
dell’ampiezza m
f
a
h
[29.5, 69.5)
49.5
5
40
0.125
[69.5, 89.5)
79.5
10
20
0.5
[89.5, 99.5)
94.5
11
10
1.1
[99.5, 109.5)
104.5
19
10
1.9
[109.5, 119.5)
114.5
17
10
1.7
[119.5, 129.5)
124.5
20
10
2
[129.5, 139.5)
134.5
12
10
1.2
[139.5, 169.5)
154.5
6
30
0.2
e
della
densità
Statistica Medica – p.34/39
0.0
0.005
0.010
0.015
0.020
Dataset 4 - Istogramma (Cont.)
40
60
80
100
120
140
160
BW
Statistica Medica – p.35/39
Box Plot Il BoxPlot è un modo per rappresentare graFIcamente una distribuzione rispetto a centralità e variabilità Per un campione di ampiezza n
• • •
la profondità della mediana (m) è pari a n/2 se n è pari, a (n + 1)/2 se n è dispari il baffo superiore (H) è pari a l’osservazione (m + 1)/2-ma se m è dispari, alla media tra l’osservazione m/2-ma e quella m/2 + 1 se m è pari un valore estremo è un valore tale per cui x > H + 1.5 × (H − h) o x < h − 1.5 × (H − h)
•
un outlier è un valore tale per cui x > H + 3 × (H − h) o x < h − 3 × (H − h)
Statistica Medica – p.36/39
Dataset 4 - Ordinato I simboli * indicano i BAFFI, mentre # i valori estremi e ## gli outliers ## 32 58 # 64 67 68 83 85 85 86 87 88 88 89 89 89 91 92 93 94 94 95 96 98 98 *98 99* 100 101 102 103 104 104 104 104 104 105 105 106 107 108 108 108 108 109 109 110 110 111 112 112 112 113 115 115 115 115 115 115 116 118 118 119 120 121 121 121 122 122 122 122 123 124 124 124 *124 125* 125 126 127 127 128 128 132 132 132 133 133 134 135 135 137 138 138 138 140 141 144 146 155 161 # ##
Statistica Medica – p.37/39
Dataset 4 - Boxplot Siccome n = 100, si ha che m = 50 è la media dell’osservazione più grande 50/2 e 50/2 + 1, ovvero (125+124)/2=124.5
• H
è la media dell’osservazione più piccola 50/2 e 50/2 + 1, ovvero (98+99)/2=98.5
• h •
i limiti per i valori estremi sono quindi x > 124.5 + 1.5(124.5 − 98.5) = 163.5 x < 59.5
e per gli outliers x > 124.5 + 3(124.5 − 98.5) = 202.5 x < 20.5 Statistica Medica – p.38/39
40
60
80
100
120
140
160
Dataset 4 - Boxplot (Cont.)
Statistica Medica – p.39/39