TRASFORMARE DATI IN INFORMAZIONE Appunti del Corso di ...

26 downloads 361 Views 1MB Size Report
4.18 Statistiche riassuntive dell'et`a dei docenti di Statistica, per qua- lifica, 2005 ( fonte: Ministero per l'Universit`a e la Ricerca). . . . . 62. 4.19 Statistiche ...
TRASFORMARE DATI IN INFORMAZIONE Appunti del Corso di Statistica I Mario Romanazzi

ii

Indice Dai dati alla distribuzione 1.1 Variabili statistiche . . . . 1.2 Popolazione e campioni . 1.3 Perch`e casualizzare . . . . 1.4 Calcolo statistico . . . . . 1.5 Distribuzioni di frequenze

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

3 3 4 6 7 7

Distribuzioni numeriche 11 2.1 Presentazioni ramo-foglie . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Istogrammi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3 Tipologie distributive . . . . . . . . . . . . . . . . . . . . . . . . 18 Statistiche ordinate e quantili 3.1 Statistiche ordinate . . . . . . . 3.2 Quantili . . . . . . . . . . . . . 3.3 Diagrammi scatola-baffi . . . . 3.4 Funzioni di ripartizione . . . . 3.5 Dal campione alla popolazione

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

23 23 24 28 32 38

Media 4.1 4.2 4.3 4.4 4.5 4.6 4.7

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

41 41 44 45 48 51 56 58

Distribuzione gaussiana 5.1 La curva gaussiana . . . . . . . . 5.2 La famiglia gaussiana . . . . . . 5.3 Aree sottese alla curva gaussiana 5.4 Applicazioni . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

65 65 69 70 73

e deviazione standard Media . . . . . . . . . . Momenti . . . . . . . . . Deviazione standard . . Minimi quadrati . . . . Trasformazioni . . . . . Scala standard . . . . . Unit` a divise in gruppi .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

iii

iv

INDICE

Confrontare distribuzioni 79 6.1 Ordinamento in distribuzione . . . . . . . . . . . . . . . . . . . . 80 6.2 Curve di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . 84 Relazioni tra variabili 7.1 Distribuzioni congiunte . . . . 7.2 Distribuzioni marginali . . . . 7.3 Distribuzioni subordinate . . 7.4 Dipendenza in senso statistico

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

87 88 91 92 99

Regressione e correlazione 8.1 Funzioni di regressione . . . . . . . . . 8.2 Propriet` a della funzione di regressione 8.3 Correlazione statistica . . . . . . . . . 8.4 Distribuzione gaussiana bivariata . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

103 103 105 109 111

. . . . . . . . . . . . . . . . . . . . . . . . quadrati

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

117 117 121 124 127 130

. . . .

Correlazione lineare 9.1 Covarianza . . . . . . . . . . . 9.2 Combinazioni lineari . . . . . . 9.3 Propriet` a della covarianza . . . 9.4 Retta dei minimi quadrati . . . 9.5 Propriet` a della retta dei minimi

. . . .

. . . .

. . . .

Elenco delle tabelle 1.1

Nazionalit` a dei premi Nobel per la Fisica. . . . . . . . . . . . . .

2.2

Numero di componenti delle famiglie, censimenti 1961-2001 (fonte: ISTAT). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sviluppo costiero e superficie delle regioni. . . . . . . . . . . . . . Ramo-foglia dello sviluppo costiero delle regioni. . . . . . . . . . Ramo-foglia della magnitudo dei terremoti. . . . . . . . . . . . . Ramo-foglia dell’intervallo di tempo (ore) tra due terremoti successivi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Et` a dei premi Nobel per la Fisica (a destra) e la Letteratura (a sinistra), 1901-2006. . . . . . . . . . . . . . . . . . . . . . . . . . SAU delle aziende agricole, 2000 e 2005 (fonte: ISTAT). . . . . .

2.3 2.4 2.5 2.6 2.7 2.8

Et` a dei presidenti della Repubblica Italiana e degli Stati Uniti, 1945-2006. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10 Decili del reddito familiare, 2004 (fonte: Banca d’Italia). . . . . . 3.11 Ramo-foglia dell’intervallo di tempo (giorni) tra due pagamenti successivi con carta di credito. . . . . . . . . . . . . . . . . . . .

8 12 13 14 14 15 16 17

3.9

4.12 Scostamenti delle et` a dei Presidenti dalla media (a sinistra Presidenti italiani, a destra americani). . . . . . . . . . . . . . . . . . 4.13 Scostamenti delle et` a dei premi Nobel per la Fisica dalla media. . 4.14 Temperature medie giornaliere (◦ C) a New York, gennaio 2006. . 4.15 Temperature medie giornaliere (◦ C) a New York, gennaio 2006. . 4.16 Statistiche riassuntive delle temperature medie giornaliere a New York, gennaio 2006. . . . . . . . . . . . . . . . . . . . . . . . . . 4.17 Statistiche riassuntive del reddito delle famiglie italiane, per titolo di studio del capofamiglia, 2004 (fonte: Banca d’Italia). . . . . . 4.18 Statistiche riassuntive dell’et` a dei docenti di Statistica, per qualifica, 2005 (fonte: Ministero per l’Universit` a e la Ricerca). . . . . 4.19 Statistiche riassuntive del primo numero estratto sulle ruote di Napoli, Roma e Venezia, 2006. . . . . . . . . . . . . . . . . . . . 5.20 Decili positivi della normale standard. . . . . . . . . . . . . . . . v

24 27 30 46 48 54 54 56 60 62 63 72

vi

ELENCO DELLE TABELLE 5.21 Aree di intervalli centrati sulla media di N (µ, σ). . . . . . . . . . 5.22 Temperatura corporea. . . . . . . . . . . . . . . . . . . . . . . . .

73 74

7.23 Caratteristiche di alcuni modelli di autovetture . . . . . . . . . . 88 7.24 Immatricolati a Ca’ Foscari per genere e facolt` a, a. a. 2002/03. . 89 7.25 Famiglie italiane per classi quintiliche di reddito 2002 e 2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . 90 7.26 Trasferimenti di residenza interregionali, per area di origine e destinazione, 2002 (fonte: ISTAT). . . . . . . . . . . . . . . . . . 91 7.27 Popolazione con 18 anni e pi` u per genere, et` a e indice di massa corporea (IMC), 1999 (fonte: ISTAT). . . . . . . . . . . . . . . . 93 7.28 Immatricolati a Ca’ Foscari. Distribuzioni subordinate della facolt` a, per genere. . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 7.29 Immatricolati a Ca’ Foscari. Distribuzioni subordinate del genere, per facolt` a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 7.30 Distribuzioni subordinate del titolo di studio del coniuge Y , per titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia). 95 7.31 Immatricolati a Ca’ Foscari per genere e facolt` a, a. a. 2002/03. Frequenze teoriche di indipendenza. . . . . . . . . . . . . . . . . 101 8.32 Reddito medio familiare (migliaia di euro) in funzione del numero di percettori di reddito, 2004 (fonte: Banca d’Italia). . . . . . . . 104 8.33 Distribuzione congiunta con variabili indipendenti in media e dipendenti in distribuzione. . . . . . . . . . . . . . . . . . . . . . 105 9.34 Bilanci familiari. Distribuzione congiunta del numero di componenti delle famiglie e del numero di figli, 2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.35 Reti segnate e subite e punteggio finale nella stagione 2007-08 del campionato di calcio di serie A e B. . . . . . . . . . . . . . . . . . 9.36 Ramo-foglia della differenza reti nella stagione 2007/08 del campionato di calcio di serie B. . . . . . . . . . . . . . . . . . . . . . 9.37 Scomposizione della varianza per la regressione lineare delle emissioni di CO2 sulla cilindrata dell’Esempio 73. . . . . . . . . . . .

118 120 124 134

Elenco delle figure 1.1

Titolo di studio del capofamiglia, 2004 (fonte: Banca d’Italia). .

9

2.2 2.3

SAU delle aziende agricole, 2005 (fonte: ISTAT). . . . . . . . . . Numero di componenti delle famiglie, censimento 2001 (fonte: ISTAT). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tipologie distributive. . . . . . . . . . . . . . . . . . . . . . . . . Cifre decimali di π (linea tratteggiata: approssimazione uniforme).

18

2.4 2.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13

19 21 22

Reddito familiare e decili, 2004 (fonte: Banca d’Italia). . . . . . . 28 Intervallo di tempo (giorni) tra due pagamenti successivi con carta di credito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Et` a dei premi Nobel per la Fisica e la Letteratura, 1901-2006. . . 31 Funzione di ripartizione della SAU delle aziende agricole, 2005. . 33 Funzione di ripartizione del numero di componenti delle famiglie, censimento 2001 (fonte: ISTAT). . . . . . . . . . . . . . . . . . . 35 Funzione di ripartizione empirica della magnitudo dei terremoti (terremoti con magnitudo maggiore o uguale a 4, 22/12-29/12/2006). 36 Et` a degli ordinari di Statistica, 2005 (fonte: Ministero per l’Universit` a e la Ricerca). . . . . . . . . . . . . . . . . . . . . . . . . . 39 Lunghezza delle parole della Costituzione italiana. . . . . . . . . 39

4.14 Migliori tempi (secondi) nelle maratone maschili. . . . . . . . . . 4.15 Effetto su media e mediana della perturbazione dell’et` a minima dei presidenti italiani. . . . . . . . . . . . . . . . . . . . . . . . . 4.16 Velocit` a (km/h) nella maratona maschile. . . . . . . . . . . . . . 4.17 Et` a dei docenti di Statistica, per qualifica (R: ricercatori; A: associati; O: ordinari), anno 2005. . . . . . . . . . . . . . . . . . 4.18 Et` a (punteggi standard) dei docenti di Statistica, per qualifica (R: ricercatori; A: associati; O: ordinari), anno 2005. . . . . . . . 4.19 Primo estratto sulle ruote di Napoli, Roma e Venezia (2006). . . 5.20 Curve di densit` a gaussiane. . . . . . . . . . . . . . . . . . . . . . 5.21 Funzione di densit` a e di ripartizione della normale standard (sono evidenziati i quartili). . . . . . . . . . . . . . . . . . . . . . . . . vii

43 45 52 57 58 63 67 71

ELENCO DELLE FIGURE 5.22 Temperatura corporea. Approssimazione gaussiana dell’istogramma empirico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.23 Temperatura corporea. Approssimazione gaussiana della funzione di ripartizione e dei quantili empirici. . . . . . . . . . . . . 5.24 Teorema centrale di convergenza. Approssimazione gaussiana della somma dei punteggi ottenuti in n lanci di un dado. . . . . . 6.25 Tempi nella maratona maschile e femminile. . . . . . . . . . . . . 6.26 Funzioni di ripartizione delle et` a dei premi Nobel per la Fisica e la Letteratura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.27 Funzioni di ripartizione delle et` a dei docenti di Statistica, per qualifica (2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.28 Curve di dispersione dei tempi nella maratona di maschi e femmine. 6.29 Curve di dispersione delle et` a dei docenti di Statistica, per qualifica (2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.30 Bilanci familiari. Distribuzioni subordinate del titolo di studio del coniuge Y , per titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.31 Diagramma di dispersione delle et` a del capofamiglia e del coniuge, 2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . 7.32 Diagrammi scatola-baffi delle distribuzioni subordinate dell’et` a del coniuge, per classi di et` a del capofamiglia, 2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.33 Numero di figli in funzione dell’et` a media dei coniugi, 2004 (*: funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x ± sY |x , la retta orizzontale indica la media marginale del numero di figli; fonte: Banca d’Italia). . . . . . . . . . . . . . 8.34 Et` a del coniuge in funzione dell’et` a del capofamiglia, 2004 (*: funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x±sY |x , la retta orizzontale indica l’et` a media marginale del coniuge; fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . 8.35 Funzioni di densit` a gaussiane. . . . . . . . . . . . . . . . . . . . . 8.36 Curve di livello della densit` a gaussiana, con centroide e funzione di regressione. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

75 76 77 80 81 83 85 86

96 97

98

106

110 114 115

9.37 Campionato di calcio di serie B 2007-08. Diagramma di dispersione del numero di reti segnate (subite) e del punteggio finale (*: centroide). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.38 Cilindrata ed emissioni di CO2 . (*: centroide; retta dei minimi quadrati yˆ(x) in grassetto; rette yˆ(x) ± se tratteggiate). . . . . . 133 9.39 Campionato di calcio di serie B. Diagramma di dispersione della differenza reti e del punteggio finale(*: centroide; retta dei minimi quadrati yˆ(x) in grassetto; rette yˆ(x) ± se tratteggiate). . . . . . 135

2

ELENCO DELLE FIGURE 9.40 Campionato di calcio di serie B. Diagramma di dispersione dei valori teorici e dei residui standardizzati (a sinistra); Q-Q plot dei residui standardizzati (a destra). . . . . . . . . . . . . . . . . 136

Dai dati alla distribuzione La Statistica `e una metodologia per l’analisi scientifica di fenomeni variabili. Descrivere, interpretare, prevedere fenomeni variabili sono i suoi obiettivi principali. Esempi familiari di fenomeni variabili sono il genere, il peso e la statura di una persona; la marca, il colore, il chilometraggio di un’autovettura; il numero di componenti, il numero di figli ed il reddito di una famiglia, la lunghezza (numero di lettere) di una parola.

1.1

Variabili statistiche

Si definisce variabile statistica un fenomeno osservabile, suscettibile di presentare manifestazioni diverse, dette modalit` a della variabile. Cos`ı, il genere di una persona `e una variabile statistica dicotomica, le cui modalit` a sono femmina e maschio. Il numero di componenti di una famiglia `e una variabile statistica le cui modalit` a sono i numeri naturali 1, 2, 3, ..., fino ad un valore massimo dipendente dal particolare collettivo oggetto di studio. Il peso e la statura di una persona sono variabili statistiche le cui modalit` a sono numeri decimali compresi in un intervallo limitato. Distinguiamo le variabili qualitative, le cui modalit` a sono nomi o aggettivi, da quelle quantitative, le cui modalit` a sono numeri. All’interno della classe delle variabili qualitative `e utile distinguere le variabili le cui modalit` a sono ordinabili secondo un criterio oggettivo da quelle per le quali un tale criterio non esiste. A loro volta, le variabili quantitative si dividono in discrete e continue, a seconda che le modalit` a siano numeri naturali o numeri decimali. Il titolo di studio di una persona `e una variabile qualitativa le cui modalit` a — licenza elementare, licenza media, diploma di scuola superiore, laurea — sono ordinabili. La regione (o stato estero) di nascita di un cittadino italiano `e invece una variabile qualitativa le cui modalit` a — Piemonte, Valle d’Aosta, ..., Sicilia, Sardegna — non sono ordinabili. Il numero di componenti di una famiglia `e una variabile discreta, mentre la superficie dell’abitazione in cui la famiglia vive `e una variabile continua. Questa nomenclatura `e importante perch`e la metodologia di analisi dei dati dipende dalla natura delle variabili. Non si devono confondere le variabili con le unit` a di rilevazione, cio`e le entit` a su cui le variabili d’interesse sono osservate. Supponiamo di rilevare il 3

4

DAI DATI ALLA DISTRIBUZIONE

numero di pagine dei manoscritti custoditi nella Biblioteca Marciana di Venezia: le unit` a di rilevazione sono i manoscritti, la variabile `e il numero di pagine. Se volessimo rilevare la durata degli studi universitari (laurea triennale), le unit` a di rilevazione sono i laureati triennali, la variabile `e la durata degli studi, definita come misura dell’intervallo di tempo compreso tra data di immatricolazione e data di laurea. Un’analisi statistica si dice univariata o multivariata a seconda che sulle unit` a di rilevazione si osservi una sola variabile o pi` u di una. Lo scrutinio delle schede elettorali `e una rilevazione univariata che classifica le schede in base al voto espresso da ciascun elettore: schede valide, ripartite secondo il partito (o la coalizione), schede bianche e schede nulle. Sarebbe invece un’indagine multivariata un questionario compilato dai laureati triennali con quesiti rigurdanti il genere, l’anno di nascita, il comune di residenza, il diploma di scuola superiore, il voto di diploma, il corso di laurea ed il punteggio di laurea. Indagini di questo tipo permettono di studiare la rete di associazioni e interdipendenze tra le diverse variabili. Nelle indagini multivariate si distinguono le variabili d’interesse principale, alle quali si riferiscono gli obiettivi della ricerca, dalle variabili di stratificazione, spesso qualitative, che aggiungono contesto al fenomeno indagato e possono contribuire alla sua interpretazione. Il genere `e una tipica variabile di stratificazione nelle indagini sulle caratteristiche fisiche (peso, statura) o sulle condizioni professionali delle persone. In Italia, l’area geografica di residenza `e ancora un’importante variabile di stratificazione nelle indagini sulle caratteristiche socio-demografiche e reddituali delle famiglie.

1.2

Popolazione e campioni

La Statistica non si occupa solo dell’analisi dei dati dopo la loro rilevazione. Essa svolge un ruolo importante anche prima, nella definizione di procedure di rilevazione che permettano di ricavare dai dati conclusioni significative. L’uso di metodi di casualizzazione nelle operazioni che conducono alla selezione delle unit` a di rilevazione `e una caratteristica cruciale della Statistica. Dopo che l’obiettivo di un’indagine `e stato stabilito e le variabili sono state specificate, viene definita la popolazione di riferimento, cio`e l’insieme delle unit` a sulle quali le variabili d’interesse sono osservabili. Consideriamo, ad esempio, un’indagine sulle caratteristiche professionali dei laureati a tre anni dal conseguimento del titolo. Le variabili d’interesse comprendono caratteristiche anagrafiche (genere, et` a, comune di residenza, stato civile), curriculum scolastico (corso di laurea, data e voto di laurea), posizione lavorativa corrente. Se l’indagine `e riferita al 1/7/2007, la popolazione di riferimento `e costituita da tutti i laureati nell’anno accademico 2003/04. La rilevazione dei dati `e completa se riguarda tutte le unit` a della popolazione, campionaria se riguarda una parte della popolazione. L’esempio tipico di rilevazione completa `e il censimento della popolazione svolto con cadenza decennale. Le rilevazioni campionarie sono meno costose e pi` u rapide di quelle complete.

1.2. POPOLAZIONE E CAMPIONI

5

Esse per` o richiedono una pianificazione accurata ed un’analisi dei dati pi` u sofisticata. L’estensione alla popolazione dei risultati campionari comporta un errore ` compito della Statistica specificare le modalit` dovuto al campionamento. E a di rilevazione e di analisi dei dati in modo da consentire una valutazione accurata ed un controllo dell’errore. Si definisce piano di campionamento l’insieme delle operazioni mediante le quali si individuano le unit` a da includere nel campione. Il modello di riferimento per tutti i piani di campionamento `e il campionamento casuale semplice. Supponiamo di dover selezionare un campione di n elementi da una popolazione di N elementi. La popolazione `e assimilata ad un’urna contenente N biglietti numerati da 1 a N . Dall’urna si prelevano in sequenza, a caso e senza reinserimento (come nelle estrazioni del lotto), n biglietti i cui numeri identificano le unit` a della popolazione che formeranno il campione. La procedura presuppone che la numerosit` a campionaria sia fissata in anticipo e che sia disponibile un elenco delle unit` a della popolazione. Nelle rilevazioni campionarie reali si usano accorgimenti per ridurre l’errore di campionamento. Le tecniche pi` u diffuse sono la stratificazione ed il campionamento a pi` u stadi. Nel campionamento stratificato la popolazione `e divisa in sottopopolazioni (strati) utilizzando caratteristiche note delle unit` a di rilevazione (comune di residenza, genere) e da ciascuna sottopopolazione `e estratto un campione casuale semplice. Se le sottopopolazioni sono internamente omogenee rispetto alle variabili obiettivo, la stratificazione produce un errore di campionamento inferiore a quello di un campione casuale semplice di pari numerosit` a. Il campionamento a pi` u stadi `e usato quando le unit` a appartengono ad una struttura gerarchica, come quella amministrativa. Un esempio `e l’indagine sui bilanci familiari svolta dalla Banca d’Italia (www.bancaditalia.it) con cadenza biennale. Esempio 1 (Bilanci familiari) La Banca d’Italia `e uno dei maggiori produttori italiani di dati e statistiche, soprattutto in campo economico e finanziario. Nella sua indagine sui bilanci familiari la popolazione di riferimento `e l’insieme di tutte le famiglie italiane. Il piano di campionamento `e a due stadi: le unit` a di primo stadio sono i comuni, quelle di secondo stadio le famiglie. La procedura prevede inoltre la stratificazione delle unit` a di primo stadio, i comuni, in base alla regione d’appartenenza e alla classe di ampiezza demografica. All’interno di ogni strato viene selezionato un campione contenente tutti i comuni con pi` u di 40· 000 abitanti pi` u altri comuni scelti in modo da assegnare ai comuni di maggiore dimensione una pi` u elevata probabilit` a di inclusione. Le famiglie sono successivamente estratte a caso dalle liste anagrafiche dei comuni selezionati nel primo stadio. Nell’indagine del 2004 sono state intervistate 8 · 012 famiglie, estratte a caso dalle liste anagrafiche di 344 comuni1 . L’Istituto Nazionale di Statistica (ISTAT, www.istat.it) `e il principale produttore italiano di statistiche ufficiali. Tra i suoi compiti istituzionali la realiz1 Banca d’Italia, I bilanci delle famiglie italiane nell’anno 2004, Suypplementi al bollettino statistico, Anno XVI, N. 7, 17/1/2006.

6

DAI DATI ALLA DISTRIBUZIONE

zazione di censimenti generali: popolazione e abitazioni, industria e servizi, agricoltura. L’ISTAT realizza anche importanti indagini campionarie periodiche: consumi delle famiglie, condizioni di vita (progetto coordinato dall’Unione Europea), professioni. Esempio 2 (Consumi delle famiglie) L’indagine sui consumi delle famiglie rileva, con periodicit` a annuale, le spese sostenute dalle famiglie residenti in Italia per acquistare beni e servizi destinati al consumo. L’obiettivo `e stimare il livello e la struttura della spesa, e la sua dinamica temporale, anche in relazione alle caratteristiche economiche, sociali e territoriali delle famiglie. I risultati sono utilizzati anche per la stima della povert` a in Italia. Le unit` a di rilevazione sono le famiglie incluse nel campione ed i rispettivi componenti. Come nell’indagine sui bilanci familiari, il piano di campionamento `e a due stadi: le unit` a di primo stadio sono i comuni, quelle di secondo stadio le famiglie. La scelta dei comuni avviene mediante un campionamento casuale stratificato in base all’ampiezza demografica; tutti i comuni capoluogo di provincia sono inclusi nel campione. Le famiglie sono selezionate in modo casuale dalle liste anagrafiche comunali. La numerosit` a campionaria `e di circa 28 · 000 famiglie, residenti in 480 comuni.

1.3

Perch` e casualizzare

Secondo l’opinione corrente, il campione perfetto riproduce, su scala ridotta, tutte le caratteristiche della popolazione, `e una popolazione in miniatura. Esso tuttavia `e irrealizzabile perch`e `e proprio la necessit` a di studiare qualche propriet` a non nota della popolazione che ci spinge ad usare le rilevazioni campionarie. La casualizzazione ha il compito di ridurre l’impatto dei fattori di distorsione per mezzo di una procedura di selezione delle unit` a autocorrettiva ed imparziale. Nel campionamento casuale semplice, questa imparzialit` a `e rivelata dal fatto che tutti gli elementi della popolazione hanno pari probabilit` a di entrare nel campione, indipendentemente dalle loro caratteristiche. Nelle indagini reali, i piani di campionamento effettuano un controllo esplicito di poche variabili note, lasciando alla casualizzazione il compito di mettere sotto controllo gli altri fattori di variazione, noti e non noti. Questo avviene, ad esempio, nel campionamento stratificato. La casualizzazione consente di usare metodi probabilistici per valutare l’errore che si commette quando i risultati campionari vengono estesi alla popo` questa la caratteristica pi` lazione. E u importante del campionamento casuale. Nella fase di pianificazione dell’indagine diventa possibile confrontare piani di campionamento diversi e scegliere quello adeguato al problema. Nella fase finale, `e possibile presentare in modo trasparente i risultati, accompagnandoli con valutazioni numeriche dell’errore di campionamento. Nel campionamento per quote, molto usato in pratica, la selezione delle unit` a da includere nel campione deve rispettare vincoli rigorosi riguardanti le variabili di stratificazione ma all’interno degli strati `e delegata in ultima istanza

1.4. CALCOLO STATISTICO

7

all’intervistatore. L’estensione alla popolazione dei risultati di queste procedure richiede cautela perch`e non `e possibile arrivare ad una quantificazione dell’errore. Emerge qui un aspetto cruciale. L’errore derivante da un campionamento per quote potrebbe essere addirittura inferiore a quello di un campionamento stratificato di numerosit` a comparabile, ma non ci sono strumenti in grado di valutarlo.

1.4

Calcolo statistico

La rivoluzione informatica sta avendo un impatto formidabile sulla Statistica. Grazie all’aumento della velocit` a dei processori e della capacit` a di archiviazione nella memoria dei computer, il calcolo statistico `e divenuto accessibile anche ai singoli studiosi e alle piccole organizzazioni. Molti programmi di gestione ed analisi dei dati incorporano una parte importante della metodologia statistica. Segnaliamo il programma R, distribuito gratuitamente dall’omonima fondazione (www.r-project.org/foundation/main.html) in versioni compatibili con la maggior parte dei sistemi operativi. L’atto di nascita ufficiale `e l’articolo di R. Ihaka e R. Gentleman “R: a language for data analysis and graphics”, apparso nel 1996 sul Journal of Computational and Graphical Statistics. Da allora il software si `e sviluppato grazie al contributo dei ricercatori del Comprehensive R Archive Network (CRAN). R `e un linguaggio di programmazione e un ambiente di calcolo le cui risorse permettono di specificare ed eseguire un insieme di comandi, visualizzare i risultati in formato testo, visualizzare i grafici in una finestra ausiliaria, accedere ad archivi esterni, anche in rete, per importare dati e grafici, archiviare in modo permanente risultati e grafici. R `e depositato all’indirizzo www.r-project.org. Merita una prova.

1.5

Distribuzioni di frequenze

Scopo di un’indagine statistica `e far emergere le propriet` a generali di un collettivo, non certo le caratteristiche delle singole unit` a. Per ottenere questo risultato, un passaggio fondamentale `e la costruzione della distribuzione di frequenze secondo le modalit` a della variabile. Si tratta di un’operazione di classificazione dei dati, mediante la quale ad ogni modalit` a si associa il numero di unit` a di rilevazione che la possiedono. Questo numero `e la frequenza assoluta della modalit` a in questione. Al posto delle frequenze assolute, per agevolare i confronti, `e spesso preferibile considerare le frequenze relative, che si ottengono dividendo le frequenze assolute per la loro somma, pari al numero delle unit` a rilevate2 . La distribuzione di frequenze descrive la composizione di un collettivo secondo le modalit` a della variabile oggetto di studio. Dal punto di vista matematico, essa costituisce una partizione dell’insieme delle unit` a di rilevazione in sottoinsiemi (classi), uno per ogni modalit` a della variabile, comprendenti ciascuno unit` a 2 La somma delle frequenze assolute ` e uguale al numero delle unit` a di rilevazione se le modalit` a sono incompatibili ed esaustive, condizione che supponiamo sempre verificata.

8

DAI DATI ALLA DISTRIBUZIONE

aventi la stessa modalit` a. La frequenza assoluta `e il numero di elementi di ogni classe della partizione della quale rappresenta la misura. L’interpretazione in chiave statistica di un fenomeno scaturisce dalla lettura della corrispondente distribuzione. Le domande pi` u comuni sono: quali sono le modalit` a pi` u/meno rappresentate? c’`e una modalit` a dominante? la distribuzione `e concentrata su poche modalit` a o `e tendenzialmente omogenea 3? Esempio 3 (Premi Nobel) Dal 1901 al 2006 il premio Nobel per la Fisica `e stato assegnato a 178 scienziati. Qual `e la nazionalit` a dei vincitori? La distribuzione secondo la nazionalit` a degli scienziati mostra che 76 premi, pari al 42.7%, sono andati a scienziati statunitensi4 , 24 a scienziati tedeschi (13.5%), 20 a scienziati inglesi (11.2%). La distribuzione `e fortemente concentrata: le prime tre nazionalit` a totalizzano il 67.4% dei premi. Nazionalit` a ALGERIA AUSTRIA BIELORUSSIA CANADA CINA DANIMARCA FRANCIA GERMANIA GIAPPONE INDIA

Premi 1 2 1 2 2 3 10 24 3 1

% 0.6 1.1 0.6 1.1 1.1 1.7 5.6 13.5 1.7 0.6

Nazionalit` a IRLANDA ITALIA OLANDA PAKISTAN REGNO UNITO RUSSIA STATI UNITI SVEZIA SVIZZERA

Premi 1 5 9 1 20 8 76 4 5

% 0.6 2.8 5.1 0.6 11.2 4.5 42.7 2.3 2.8

Tabella 1.1: Nazionalit` a dei premi Nobel per la Fisica. Presentazioni grafiche appropriate aiutano a cogliere le caratteristiche di una distribuzione in modo assai pi` u efficace di una tabella di frequenze. Per le variabili qualitative si utilizza il diagramma a rettangoli distanziati, che associa ad ogni modalit` a un rettangolo con base di ampiezza costante ed altezza uguale alla frequenza relativa. Nel grafico che ne risulta il rettangolo pi` u alto corrisponde alla moda della distribuzione, la modalit` a con la massima frequenza. Esempio 4 (Titolo di studio del capofamiglia) Dal campione Banca d’Italia del 2004 abbiamo estratto i dati riguardanti il titolo di studio del capofamiglia. La Figura 1.1 descrive la corrispondente distribuzione. La moda `e licenza media inferiore (35.7% delle famiglie), seguita da diploma di scuola media superiore (25.7%) e licenza elementare (24.0%). Solo l’8.3% dei capifamiglia ha un titolo di studio universitario. 3 Una distribuzione ` e omogenea se tutte le modalit` a hanno la stessa frequenza. Una distribuzione `e degenere se tutte le unit` a di rilevazione presentano la medesima modalit` a. 4 La nazionalit` a `e rilevata alla data di conferimento del premio. Numerosi premi Nobel sono di origine tedesca, emigrati negli Stati Uniti durante le persecuzioni razziali hitleriane o dopo la seconda guerra mondiale.

9

1.5. DISTRIBUZIONI DI FREQUENZE

10 15 20 25 30 35 0

5

Frequenza %

Bilanci Familiari 2004

Nessuno

L.Ele.

M.Inf.

M.Sup.

Laurea

Titolo di Studio del Capofamiglia

Figura 1.1: Titolo di studio del capofamiglia, 2004 (fonte: Banca d’Italia).

10

DAI DATI ALLA DISTRIBUZIONE

Distribuzioni numeriche Le distribuzioni di frequenza per dati numerici presentano due importanti differenze rispetto ai dati non numerici. In primo luogo, per evitare la proliferazione delle modalit` a, `e quasi sempre necessario dividere l’intervallo di variazione 5 dei dati in intervalli disgiunti. Ogni dato `e poi attribuito all’intervallo di pertinenza mediante la consueta operazione di classificazione. In secondo luogo, poich`e i dati formano un sottoinsieme dell’insieme dei numeri reali, la distribuzione di frequenze `e interpretabile come un sistema di pesi assegnati ai punti della retta numerica. Il peso `e positivo dove il fenomeno `e presente, `e pari a zero dove il fenomeno `e assente. I pesi pi` u elevati identificano gli intervalli di maggior concentrazione del fenomeno. Esempio 5 (Dimensione delle famiglie) Le rilevazioni ISTAT documentano puntualmente il processo di trasformazione delle famiglie italiane. La Tabella 2.2 mette a confronto le distribuzioni di frequenza del numero di componenti delle famiglie in occasione dei censimenti dal 1961 al 2001. La variabile `e discreta, con modalit` a 1, 2, ...; per evitare dettagli inutili le famiglie con 6 componenti o pi` u sono aggregate in un’unica classe. I dati mostrano che nell’intervallo di tempo considerato il numero delle famiglie aumenta in misura considerevole e la loro dimensione si riduce. Le famiglie con pi` u di 4 componenti passano dal 27.0% del 1961 al 7.5% nel 2001, mentre le famiglie con un solo componente passano dal 10.6% al 24.9%. La moda, pari a 3 componenti nel 1961 e 1971, scende a 2 componenti dal 1981 in poi. Dietro questi numeri possiamo scorgere i mutamenti intervenuti nella societ` a italiana.

2.1

Presentazioni ramo-foglie

La presentazione ramo-foglie6 ha la peculiarit` a di visualizzare la distribuzione di frequenze di una variabile numerica, mantenendo la possibilit` a di leggere i dati rilevati. L’esempio seguente ne illustra la costruzione. 5 L’intervallo

di variazione ha come estremi il minimo ed il massimo dei dati osservati. ramo-foglie (stem-and-leaf display) e diagramma scatola-baffi (box-andwhisker display) sono stati proposti dal matematico e statistico americano John W. Tukey (1915-2000). 6 Presentazione

11

12

DISTRIBUZIONI NUMERICHE

N. Componenti 1 2 3 4 5 6 e pi` u Media N. Famiglie (Migliaia)

1961 10.6 19.6 22.4 20.4 12.6 14.4 3.6 13747

Famiglie(%) 1971 1981 1991 12.9 17.9 20.6 22.0 23.6 24.7 22.4 22.1 22.2 21.2 21.5 21.2 11.8 9.5 7.9 9.7 5.4 3.4 3.3 3.0 2.8 15981 18632 19909

2001 24.9 27.1 21.6 19.0 5.8 1.7 2.6 21811

Tabella 2.2: Numero di componenti delle famiglie, censimenti 1961-2001 (fonte: ISTAT). Esempio 6 (Sviluppo costiero delle regioni) La Tabella 2.3 riporta i dati su sviluppo costiero e superficie delle 15 regioni con sbocco sul mare. Lo sviluppo costiero corretto, ottenuto dividendo lo sviluppo costiero per la radice quadrata della superficie, varia da un minimo di 0.51 per il Molise ad un massimo di 10.54 per la Sardegna. Per costruire il ramo-foglie `e necessario individuare le cifre pi` u significative dei dati, che formeranno i rami, mentre le rimanenti cifre formeranno le foglie. Nel nostro caso possiamo far coincidere le cifre pi` u significative con quelle intere. Riportiamo di seguito la suddivisione ramo-foglia per alcune regioni. Regione Basilicata Lazio Sardegna

Sviluppo costiero 0.59 2.72 10.54

Ramo 0 2 10

Foglia 59 72 54

La presentazione ramo-foglie `e una tabella formata da due colonne separate da una linea verticale. Nella colonna di sinistra si elencano i valori dei rami, uno per riga, dal pi` u piccolo al pi` u grande, considerando tutti i valori intermedi. Nella colonna di destra in ogni riga si elencano le foglie appartenenti al corrispondente ramo, ordinate in senso crescente. Se le foglie sono formate da una sola cifra, esse si succedono una dopo l’altra, senza caratteri di separazione. Se sono formate da pi` u di una cifra, tra una foglia e l’altra si inseriscono caratteri di separazione, come “,” o “;”. La posizione dell’eventuale punto decimale `e indicata nella legenda. Il ramo-foglie dello sviluppo costiero `e riportato nella Tabella 2.4. Come si legge una presentazione ramo-foglie? ` evidente che i rami rappresentano intervalli di numeri reali e che il numero E di foglie appartenenti a ciascun ramo `e la frequenza assoluta dei dati compresi nel corrispondente intervallo. Pertanto un ramo-foglie descrive una distribuzione di frequenze di intervalli di numeri reali aventi tutti la medesima ampiezza. Nell’Esempio 6 il ramo 0 `e l’intervallo [0, 1) mentre il ramo 10 `e l’intervallo [10, 11). La frequenza delle regioni con uno sviluppo costiero compreso nell’in-

13

2.1. PRESENTAZIONI RAMO-FOGLIE Regione Liguria Toscana Lazio Campania Calabria Sicilia Sardegna Veneto Friuli V.-G. Emilia R. Marche Abruzzo Molise Puglia Basilicata

Sviluppo Costiero (A, km) 346 573 357 461 710 1425 1636 156 110 130 172 124 34 830 59

Superficie (B,kmq) 5421 22997 17208 13595 15080 25707 24089 18379 7844 22123 9694 10799 4438 19363 9992

√ A/ B 4.69 3.77 2.72 3.95 5.78 8.89 10.54 1.15 1.24 0.87 1.75 1.19 0.51 5.96 0.59

Tabella 2.3: Sviluppo costiero e superficie delle regioni. tervallo [1, 2) `e pari a 4, il numero di foglie del ramo 1. I rami privi di foglie sono intervalli con frequenza nulla. Viceversa, il ramo col massimo numero di foglie `e l’intervallo (classe) modale della distribuzione, cio`e l’intervallo con la massima frequenza delle unit` a rilevate. Dalla presentazione ramo-foglie si possono estrarre i dati rilevati semplicemente accostando ramo e foglia, avendo cura di inserire l’eventuale punto decimale nella posizione indicata dalla legenda. Nell’Esempio 6 il dato minimo `e 0.51, il dato massimo `e 10.54 e la mediana, o valore centrale 7 , `e 2.72. Se ruotiamo di 90 gradi in senso anti-orario la tabella, la presentazione ramofoglie `e leggibile come un diagramma delle frequenze dei dati osservati sulla retta reale. La linea verticale `e la retta dei numeri reali e i rami indicano gli estremi degli intervalli in cui `e stato diviso l’intervallo di variazione della distribuzione. L’altezza delle colonnine formate dalle foglie misura la frequenza dei dati nel corrispondente intervallo ed il suo andamento pu` o fornire elementi utili ai fini interpretativi. Nell’Esempio 6 tutti i dati, tranne quelli di Sicilia e Sardegna, si collocano tra 0 e 6, il che significa che la distribuzione `e sbilanciata verso sinistra, sui valori pi` u bassi dell’intervallo di variazione. Si pu` o verificare che le regioni del versante adriatico, ad eccezione della Puglia, hanno valori compresi tra 0 e 2, mentre le regioni dei versanti ionico e tirrenico, tranne la Basilicata, hanno valori superiori a 2. Il fatto che i dati di Sicilia e Sardegna siano isolati, nella parte destra del ramo-foglie, segnala che il loro sviluppo costiero `e molto 7 La mediana ` e il valore che, nella successione ordinata dei dati, `e preceduto e seguito dallo stesso numero di dati. Se la numerosit` a `e dispari la mediana `e unica. Se la numerosit` a `e pari esiste una coppia di valori centrali ed in questo caso si considera usualmente come mediana la semisomma di questi due valori.

14

DISTRIBUZIONI NUMERICHE

n = 15 2| 72 si legge 2.72 km

0 1 2 3 4 5 6 7 8 9 10

51,59,87 15,19,24,75 72 77,95 69 78,96

89 54

Tabella 2.4: Ramo-foglia dello sviluppo costiero delle regioni. pi` u alto delle altre regioni. Esempio 7 (Magnitudo dei terremoti) La Tabella 2.5 mostra la distribuzione della magnitudo8 dei terremoti rilevati nella settimana dal 22/12 al 29/12 del 2006 (fonte: United States Geological Survey; terremoti con magnitudo M ≥ 4). In questo intervallo di tempo sono stati rilevati 48 terremoti con magnitudo compresa tra 4.0 e 7.1. La distribuzione `e sbilanciata verso sinistra e la mediana `e 5.0. L’intervallo di tempo (in ore) tra due terremoti successivi (Tabella 2.69 ) ha una distribuzione monotona decrescente; il dato minimo `e 0.02, il dato massimo `e 19.2 e la mediana `e pari a 1.9. Questo significa che met` a dei dati `e concentrata nell’intervallo (0, 1.9] e la restante parte nell’intervallo [1.9, 20). Sono presenti due dati isolati nella parte destra del ramo-foglie, molto distanti dal resto della distribuzione, rispettivamente uguali a 16.8 e 19.2.

n = 48 5| 1 si legge 5.1

4 4 5 5 6 6 7

0022344 555555667788899 00000112222234 55677889 03 9 1

Tabella 2.5: Ramo-foglia della magnitudo dei terremoti. 8 La magnitudo ` e una misura fisica dell’intensit` a di un terremoto direttamente correlata all’energia sprigionata. 9 Per brevit` a sono stati omessi, ed indicati con “:”, molti rami vuoti.

15

2.2. ISTOGRAMMI

n = 47 2| 1 si legge 2.1 ore

0 1 2 3 4 5 6 7 8 9 10 : 16 : 19

0122334444557779 23578899 123678 12268 0445 11 2 1 6 5 8 2

Tabella 2.6: Ramo-foglia dell’intervallo di tempo (ore) tra due terremoti successivi. Quando la stessa variabile `e rilevata in due gruppi diversi, possiamo confrontarne le distribuzioni disponendo fianco a fianco le rispettive presentazioni ramo-foglie. Esempio 8 (Premi Nobel) La presentazione ramo-foglie appaiata dell’et` a dei premi Nobel per la Fisica e la Letteratura (Tabella 2.7) ne mette in risalto le differenze. La seconda distribuzione `e traslata verso destra, su et` a pi` u avanzate, rispetto alla prima. Le et` a mediane sono pari a 53 (Fisica) e 63 anni (Letteratura).

2.2

Istogrammi

Se la numerosit` a dei dati numerici `e elevata, lo strumento appropriato per rappresentare la distribuzione `e l’istogramma. Diversamente dalla presentazione ramo-foglie, esso non richiede che l’intervallo di variazione della variabile sia diviso in intervalli di ampiezza costante. Supponiamo di aver fissato sulla retta dei numeri reali un insieme di intervalli che formano una partizione dell’intervallo di variazione. Per costruire l’istogramma basta tracciare sopra ogni intervallo un rettangolo avente come base l’intervallo corrispondente e come altezza la frequenza relativa divisa per l’ampiezza dell’intervallo. Quest’ultima quantit` a `e chiamata densit` a di frequenza relativa e svolge un ruolo fondamentale nell’analisi delle distribuzioni numeriche. Esempio 9 (SAU delle aziende agricole) Un annoso problema dell’agricoltura italiana `e la frammentazione della propriet` a terriera. Gli ultimi anni, anche

16

nLett = 103 nF is = 177 6| 9 si legge 69 anni

DISTRIBUZIONI NUMERICHE

5 42 9987665 44432222110 999888776666555 33332222110000000 999999888887777 4444433332222111110 9998887666655 30 5

2 3 3 4 4 5 5 6 6 7 7 8 8

5 1111234 555567777788899 0000012222222233344444 555556666666777778888899999999 0000011123333333444444 55555666666777889999999 000000111112233333444444 556677888 01112222334 56667789 004 78

Tabella 2.7: Et` a dei premi Nobel per la Fisica (a destra) e la Letteratura (a sinistra), 1901-2006. per effetto delle politiche europee, hanno fatto registrare una forte diminuzione del numero di aziende ed un parallelo aumento della superficie agricola utilizzata (SAU) media. La Tabella 2.810 riporta le stime della distribuzione delle aziende agricole italiane per classi di SAU riferite al 2000 e al 2005. I dati derivano da un’indagine campionaria dell’ISTAT che ha coinvolto per il 2005 52· 984 aziende11 . I dati mostrano che dal 2000 al 2005 diminuisce la % delle aziende con SAU inferiore a 2 ettari mentre aumenta la % delle aziende di tutte le altre classi. L’aumento `e pi` u accentuato nelle classi da 2 a 20 ettari. Tuttavia questa trasformazione non cambia le caratteristiche generali della distribuzione che rimane monotona decrescente, con una fortissima concentrazione delle aziende nelle classi fino a 2 ettari di SAU: 28.5 aziende per ettaro ogni 100 aziende nella classe fino ad 1 ettaro, 20.9 aziende per ettaro ogni 100 aziende nella classe da 1 a 2 ettari, solo 8.03 aziende per ettaro ogni 100 aziende nella classe da 2 a 5 ettari. Avendo le classi ampiezze diverse, l’analisi della distribuzione richiede l’uso della densit` a di frequenza. L’istogramma riportato nella Figura 2.2 illustra con chiarezza questi risultati.

La densit` a di frequenza relativa `e una grandezza non negativa e dimensionale12 , la cui unit` a di misura `e il reciproco dell’unit` a di misura della variabile. Nell’Esempio 9 l’unit` a di misura della densit` a `e (ettari)−1 . Vale la pena sottolineare la differenza tra frequenza e densit` a di frequenza. La frequenza misura 10 L’ampiezza

della prima classe `e stimata uguale a 1, quella dell’ultima uguale a 100. Struttura e produzioni delle aziende agricole italiane – Anno 2005. Collana Statistiche in Breve. 12 La frequenza relativa ` e compresa tra 0 e 1 ed `e una grandezza adimensionale, derivando da un conteggio. 11 ISTAT,

17

2.2. ISTOGRAMMI Classi di SAU (ettari) 200. In ogni classe, il coefficiente angolare della poligonale `e il corrispondente valore della densit` a di frequenza. La funzione di ripartizione risolve qualsiasi problema relativo alla distribuzione. La percentuale delle aziende con SAU compresa tra 10 e 40 ettari `e ottenibile come FX (40) − FX (10) = 95.6 + 0.11(40 − 30) − 85.4 = 11.3%. Analogamente, la percentuale delle aziende con SAU maggiore di 60 ettari `e pari a 100 − FX (60) = 100 − 97.8 − 0.03(60 − 50) = 1.9%. Dalla funzione di ripartizione si ottengono facilmente i quantili di qualsiasi ordine. Consideriamo, ad esempio, il quantile x0.90 . Esso divide la distribuzione in due intervalli: l’intervallo a sinistra di x0.90 comprendente le aziende con SAU minore o uguale di x0.90 , l’intervallo a destra di x0.90 comprendente le aziende con SAU maggiore o uguale di x0.90 . La frequenza relativa di entrambi `e esprimibile in termini della funzione di ripartizione; in particolare, la percentuale delle aziende agricole con SAU minore o uguale a x 0.90 `e identicamente uguale all’ordine del quantile, 90%, e questo valore altro non `e che il valore assunto da FX nel punto x0.90 . Vale cio`e l’uguaglianza FX (x0.90 ) = 90%. Dall’espressione di FX si deduce che 10 < x0.90 < 20, quindi l’equazione risolvente `e FX (x0.90 ) = 85.4 + 0.76(x0.90 − 10) = 90%

35

3.4. FUNZIONI DI RIPARTIZIONE

60 40 0

20

F. Ripartizione (%)

80

100

Dimensione delle Famiglie (Censimento 2001)

0

1

2

3

4

5

6

7

Numero di Componenti

Figura 3.10: Funzione di ripartizione del numero di componenti delle famiglie, censimento 2001 (fonte: ISTAT). la cui soluzione `e x0.90 = 16.05 ettari. Questo procedimento equivale a calcolare la funzione inversa della funzione di ripartizione, cio`e −1 x0.90 = FX (90%).

Nei due esempi precedenti la funzione di ripartizione risulta continua in tutto il suo dominio. Questo risultato non `e valido per le variabili discrete in cui la frequenza `e distribuita sulla retta numerica in pacchetti discreti. Esempio 20 (Dimensione delle famiglie) Consideriamo il censimento del 2001. Per ogni numero reale x < 1, FX (x) = 0 perch`e non ci sono unit` a osservabili in questo intervallo. Per x = 1, FX (1) = 24.9%, coincidente con la frequenza relativa delle famiglie con 1 componente. Questo valore resta invariato per ogni 1 ≤ x < 2, non potendosi osservare famiglie con un numero frazionario di componenti. Per x = 2, FX (2) = 52.0%, valore uguale alla somma delle frequenze relative delle famiglie con 1 e 2 componenti. La funzione di ripartizione `e dunque una funzione costante a tratti, con punti di discontinuit` a coincidenti con le modalit` a aventi frequenza positiva (Figura 3.10). La sua espressione

36

STATISTICHE ORDINATE E QUANTILI

0.6 0.4 0.0

0.2

F. Ripartizione

0.8

1.0

Terremoti con magnitudo maggiore o uguale a 4

4.0

4.5

5.0

5.5

6.0

6.5

7.0

Magnitudo

Figura 3.11: Funzione di ripartizione empirica della magnitudo dei terremoti (terremoti con magnitudo maggiore o uguale a 4, 22/12-29/12/2006). completa `e riportata di seguito.  0, x < 1,     24.9, 1 ≤ x < 2,      52.0, 2 ≤ x < 3, 73.6, 3 ≤ x < 4, FX (x) =   92.6, 4 ≤ x < 5,     98.4, 5 ≤ x < 6,    100, x ≥ 6.

La funzione di ripartizione assume solo alcuni valori dell’intervallo [0, 1] il che comporta che quantili di ordine diverso possono coincidere. Si verifica facilmente, ad esempio, che x0.6 = x0.7 = 3 perch`e la funzione di ripartizione “salta” da 52.0% a 73.6%, senza passare per i valori intermedi.

La distribuzione di un campione di n elementi di una variabile numerica ha le stesse propriet` a di una variabile discreta in cui ogni valore osservato ha

37

3.4. FUNZIONI DI RIPARTIZIONE

una frequenza relativa costante, pari a 1/n. La corrispondente funzione di ripartizione, chiamata funzione di ripartizione empirica e indicata col simbolo Fbn per distinguerla da quella della popolazione, ha il classico andamento “a gradini” tipico delle distribuzioni discrete, con punti di discontinuit` a in corrispondenza ai dati campionari. Esempio 21 (Magnitudo dei terremoti) Il diagramma della funzione di ripartizione empirica (Figura 3.11) fornisce le stesse informazioni della presentazione ramo-foglie (Tabella 2.5), anche se in modo diverso. L’intervallo di variazione dei dati `e l’intervallo in cui 0 < Fbn < 1. Gli intervalli in cui il fenomeno `e pi` u (meno) presente sono quelli in cui le variazioni di Fbn , misurate dall’altezza dei “gradini”, si succedono a breve (lunga) distanza l’una dall’altra. I dati sparsi sono invece preceduti da lunghi intervalli in cui Fbn `e costante. Riassumiamo di seguito le propriet` a della funzione di ripartizione, insieme con le principali formule operative.

D1. Il dominio di FX `e l’insieme dei numeri reali e il codominio `e l’intervallo [0, 1], essendo FX la frequenza relativa dell’intervallo (−∞, x]. D2. Quando x tende all’estremo inferiore o superiore dell’intervallo di variazione, FX tende rispettivamente a 0 e a 1, cio`e lim FX (x) = 0, lim FX (x) = 1.

x→−∞

x→+∞

D3. FX `e una funzione monotona non decrescente: se x1 < x2 , allora FX (x1 ) ≤ FX (x2 ). D4. FX `e continua almeno nell’intorno destro di x: lim FX (x + ) = FX (x).

→0+

D5. La frequenza relativa dell’intervallo (a, b] `e identicamente uguale alla differenza FX (b) − FX (a). D6. Per le variabili continue la derivata di FX nel punto x0 coincide col valore della densit` a in x0 : d FX (x)|x=x0 = fX (x0 ). dx D7. La differenza tra il limite destro ed il limite sinistro di FX nel punto x0 coincide col valore della frequenza relativa puntuale di x0 25 : FX (x0 ) − lim+ FX (x0 − ) = fX (x0 ). →0

25 Per

le variabili continue questo valore `e pari a 0, perch`e lim→0+ FX (x0 − ) = FX (x0 ), essendo FX una funzione continua.

38

STATISTICHE ORDINATE E QUANTILI

D8. Per le variabili continue il quantile d’ordine p `e il valore che assume la funzione inversa di FX calcolata in p: −1 xp = F X (p), 0 < p < 1.

Questo valore esiste ed `e unico per ogni 0 < p < 1 perch`e FX `e una funzione continua monotona crescente. D9. Nel caso delle variabili discrete, per superare le difficolt` a create dalle discontinuit` a di FX , la definizione viene modificata come segue: xp = inf {x : FX (x) ≥ p} .

3.5

Dal campione alla popolazione

L’analisi di dati campionari deve farsi carico di un duplice compito: da un lato descrivere adeguatamente le caratteristiche del campione, dall’altro inferire da queste le caratteristiche della popolazione da cui il campione proviene. Nella fase iniziale dello studio vengono preferiti gli strumenti che consentono un’esplorazione dettagliata dei dati e nello stesso tempo favoriscono la formazione di ipotesi riguardanti la popolazione. Presentazione ramo-foglie e diagramma scatola-baffi sono esempi emblematici al riguardo. La presentazione ramo-foglie usa la statistica ordinata campionaria completa, il che permette di indagare le peculiarit` a dei dati ma pu` o anche far emergere caratteristiche distributive dalle quali partire per elaborare le prime ipotesi sul profilo della popolazione. Il diagramma scatola-baffi usa invece una sintesi molto pi` u stringata dei dati — i quartili — per valutare posizione, dispersione e forma. Questi elementi forniscono un primo riscontro delle evidenze scaturite dalla presentazione ramofoglie e possono costituire il punto di partenza per la formulazione di ipotesi pi` u specifiche riguardanti posizione, dispersione e forma della popolazione. Un aspetto che merita di essere sottolineato `e l’uso nel diagramma scatolabaffi di statistiche campionarie robuste, capaci di sopportare con un minimo di distorsione un’elevata percentuale di contaminazione del campione.

Esempio 22 (Ordinari di Statistica) Al 31/12/2005 le universit` a italiane avevano in organico 341 ordinari di Statistica, 265 dei quali maschi, pari al 77.7% del totale. La Figura 3.12 confronta i diagrammi scatola-baffi dell’et` a della popolazione degli ordinari maschi e di un campione casuale 26 di n = 35 unit` a. Nella popolazione l’et` a ha una distribuzione unimodale asimmetrica, sbilanciata a destra, con un dato esterno alle barriere in corrispondenza di x = 37 anni. I quartili sono x.25 = 54, x0.5 = 59, x0.75 = 64. Il campione rispecchia abbastanza fedelmente le caratteristiche della popolazione, ma sono evidenti le approssimazioni dovute all’errore di campionamento. I quartili del campione 26 Estrazioni

senza reinserimento.

39

3.5. DAL CAMPIONE ALLA POPOLAZIONE

Camp

Pop

Ordinari di Statistica (2005)

40

50

60

70

Età

Figura 3.12: Et` a degli ordinari di Statistica, 2005 (fonte: Ministero per l’Universit` a e la Ricerca). ` inesatta soprattutto la rappresentaziosono x.25 = 57, x0.5 = 60, x0.75 = 63. E ne della coda sinistra dove i tre dati esterni alla barriera inferiore sono in realt` a riconducibili ad una ben precisa caratteristica della popolazione. L’estensione alla popolazione delle propriet` a osservate su un campione non `e mai scontata, richiede l’adozione di metodi di rilevazione adeguati e deve comprendere la quantificazione dell’errore dovuto al campionamento, almeno riguardo ai parametri pi` u importanti della popolazione.

Camp1 Camp2

Costituzione Italiana

5

10

15

Lunghezza delle parole

Figura 3.13: Lunghezza delle parole della Costituzione italiana.

40

STATISTICHE ORDINATE E QUANTILI

Il piano di campionamento pu` o presentare caratteristiche molto diverse, ma dovrebbe sempre prevedere forme di casualizzazione. L’esempio seguente adotta un campionamento a grappoli: da una popolazione divisa in G gruppi si seleziona a caso un campione di g < G gruppi le cui unit` a sono poi sondate esaustivamente. Esempio 23 (Costituzione italiana) La Costituzione italiana `e formata da 139 articoli, a loro volta divisi in paragrafi. Qual `e la lunghezza delle parole di un testo cos`ı particolare? Per rispondere alla domanda abbiamo scelto un campione casuale di 10 articoli in ciascuno dei quali abbiamo scelto a caso un paragrafo. Nel campione di parole cos`ı ottenuto abbiamo isolato nomi, aggettivi, verbi ed avverbi, scartando tutto il resto. La Figura 3.13 mostra i diagrammi scatola-baffi della lunghezza delle parole di due campioni ottenuti con la procedura descritta sopra. Le numerosit` a campionarie sono risultate uguali a 151 e 152 parole, rispettivamente. In entrambi i casi viene suggerita una distribuzione unimodale, forse simmetrica. La parte centrale della distribuzione potrebbe andare da 5 a 10 lettere. Anche in questo caso `e evidente l’errore introdotto dal campionamento: la ripetizione dell’esperimento campionario, a parit` a di con` lo studio di questa variabilit` dizioni, produce risultati diversi. E a campionaria che fornisce gli elementi per valutare l’errore di campionamento.

Media e deviazione standard Media e deviazione standard forniscono una sintesi di dati numerici che particolarmente semplice ed efficace per le distribuzioni unimodali simmetriche. Inoltre, nell’analisi di campioni casuali, l’estensione alla popolazione `e sostenuta da importanti risultati teorici, come la legge dei grandi numeri e il teorema centrale di convergenza.

4.1

Media

La media27 dei dati x1 , . . . , xn , `e uguale alla somma dei dati divisa per la loro numerosit` a, cio`e28 xn = (x1 + . . . + xi + . . . + xn )/n n X =( xi )/n. i=1

Il simbolo xn `e impiegato per la media campionaria; per la media della popolazione si usa di preferenza il simbolo µX 29 . Esempio 24 (Presidenti) L’et` a media dei Presidenti della Repubblica al momento dell’elezione `e (IT )

µX

= (58 + 63 + 63 + 66 + 71 + 71 + 74 + 74 + 79 + 81 + 82)/11 = 782/11 ' 71.1

mentre l’et` a mediana `e 71 anni, un valore molto vicino. Per i Presidenti ame(U S) ricani del secondo dopoguerra l’et` a media `e µX = 630/11 ' 52.3, un valore assai pi` u basso della mediana che `e pari a 56 anni. A cosa si deve questa differenza? 27 Il

Ptermine media indica sempre la media aritmetica. `e il simbolo di sommatoria. 29 Questa convenzione riguarda altri indici, come la deviazione standard e il coefficiente di correlazione lineare. 28

41

42

MEDIA E DEVIAZIONE STANDARD

Per le distribuzioni di frequenza delle variabili discrete, la formula di calcolo della media diventa30 xn = (X1 n1 + . . . + Xh nh + . . . + XH nH )/n =(

H X

h=1

Xh nh )/n =

H X

Xh f h ,

h=1

in cui fh = nh /n `e la frequenza relativa della generica modalit` a Xh . Per ottenere la media basta dunque sommare le modalit` a della variabile moltiplicate per le rispettive frequenze relative. Esempio 25 (Dimensione delle famiglie) Negli ultimi cinquant’anni il numero medio di componenti delle famiglie diminuisce costantemente passando da 3.6 componenti nel 1961 a 2.6 nel 2001 (Tabella 2.2). Per il 2001 la formula di calcolo `e (01)

µX

= 1 × 0.249 + 2 × 0.271 + 3 × 0.216 + . . . ' 2.6.

Il risultato esatto non `e ottenibile dai dati della tabella a causa dell’accorpamento in un’unica classe delle famiglie con 6 componenti o pi` u. La media aritmetica, come la moda e la mediana, `e usata per descrivere puntualmente la posizione di una distribuzione sulla retta numerica. Se la distribuzione `e simmetrica, la sua media coincide col centro di simmetria c. Infatti, sotto l’ipotesi di simmetria, le modalit` a della variabile saranno c con frequenza n0 , c − a1 e c + a1 con frequenza n1 , . . ., c − aH e c + aH con frequenza nH . Qui a1 , . . . , aH sono numeri reali positivi e le frequenze n0 , n1 , . . . , nH hanno come ` evidente che, qualunque sia la somma n, la numerosit` a delle unit` a rilevate. E scelta di c, a1 , . . . , aH e di n0 , n1 , . . . , nH , la somma dei dati `e nc e la media `e c31 . Quindi, se la distribuzione `e simmetrica, media e mediana sono uguali32 . Se la distribuzione `e anche unimodale, la moda d` a una diagnosi coincidente con quella degli altri due indici. Se la distribuzione `e unimodale asimmetrica, i tre indici danno misure di posizione diverse. Pi` u precisamente, se la distribuzione `e sbilanciata a sinistra xmoda ≤ x0.5 ≤ xn , mentre, se la distribuzione `e sbilanciata a destra, l’ordinamento `e rovesciato xn ≤ x0.5 ≤ xmoda . 30 Se la modalit` a X1 ha frequenza n1 , il dato corrispondente si ripete n1 volte nell’n-upla campionaria, pertanto nel calcolo della media X1 dovr` a essere moltiplicato per n1 . Lo stesso vale per le modalit` a X 2 , . . . , XH . 31 Almeno una delle frequenze n , n , . . . , n 0 1 H dev’essere positiva. 32 Nel caso discreto, la mediana pu` o differire da c se la sua frequenza n 0 `e nulla.

43

4.1. MEDIA

Esempio 26 (Bilanci familiari) La distribuzione del reddito familiare (Figura 3.6) `e unimodale asimmetrica, fortemente sbilanciata a sinistra. Nel campione di 8012 famiglie la classe modale `e [15000, 20000), il reddito mediano 24200 euro e il reddito medio 29870. La differenza tra media e mediana, in rapporto allo scarto interquartilico, `e (29870 − 24200)/(37220 − 15820) ' 0.26. Questo risultato indica che la distanza tra i due indici di posizione `e circa 1/4 della distanza tra il terzo ed il primo quartile, un valore tutt’altro che trascurabile.

0.004 0.000

Densità

0.008

Maratona Maschile

300

350

400

450

500

550

Tempo (Scarto da 2 ore, secondi)

Figura 4.14: Migliori tempi (secondi) nelle maratone maschili.

Esempio 27 (Maratona) La Figura 4.14 mostra l’istogramma delle migliori prestazioni registrate in competizioni ufficiali. I tempi, in secondi, sono espressi come differenza rispetto a due ore. La distribuzione `e unimodale asimmetrica, sbilanciata a destra. La classe modale `e [500, 525), il tempo mediano 492 secondi, il tempo medio 481 secondi. La differenza tra media e mediana, in rapporto allo scarto interquartilico, `e (481 − 492)/(518 − 458) ' −0.18. Gli esempi precedenti suggeriscono che la differenza tra media e mediana pu` o fornire una diagnosi del grado di asimmetria di una distribuzione. Per agevolare

44

MEDIA E DEVIAZIONE STANDARD

l’interpretazione `e opportuno dividere la differenza per lo scarto interquartilico (xn − x0.5 )/(x0.75 − x0.25 ). Se il rapporto tende a 0, la diagnosi `e di simmetria. Un rapporto negativo o positivo suggerisce una distribuzione sbilanciata a destra o a sinistra33 . La moda si posiziona in corrispondenza del picco pi` u alto dell’istogramma e la mediana `e il punto di dimezzamento della sua area. L’interpretazione della media `e pi` u sofisticata: essa rappresenta il baricentro dell’istogramma. Questa propriet` a scaturisce dal seguente modello fisico della distribuzione di frequenza. Se su un’asta rigida graduata riportiamo la posizione dei dati osservati ed applichiamo a ciascuno un peso uguale alla corrispondente frequenza, la media viene a cadere proprio nel punto in cui si deve sospendere l’asta affinch`e resti in equilibrio, cio`e nel baricentro. Alla luce di questo risultato appare ovvio che la media delle distribuzioni simmetriche sia il centro di simmetria. Esso spiega anche la scarsa resistenza della media alla contaminazione del campione con dati estremi. Consideriamo il campione x1 , . . . , xn con media xn . Supponiamo che, al posto di x1 , si legga per errore x e1 = x1 +e, in cui e `e un numero reale qualsiasi. ` chiaro che la media diventa x∗ = xn + e/n e pu` E o divergere arbitrariamente n dal valore esatto.

Esempio 28 (Presidenti) Supponiamo di sostituire l’et` a minima x(1) = 58 (corrispondente a F. Cossiga) con un dato perturbato, inferiore. Se, ad esempio, x e(1) = 57, la media perturbata risulta x∗n = 71. La mediana, da parte sua, non varia affatto. Per modificare la mediana `e infatti necessario sostituire almeno la met` a dei dati campionari. La Figura 4.15 mostra la variazione della media e della mediana quando l’et` a minima varia da 58 a 40. La mediana `e assai pi` u resistente della media alla contaminazione del campione. Pertanto il confronto dei due indici, oltre a dare informazioni sulla forma della distribuzione, pu` o rivelare la presenza di dati contaminanti nelle code della distribuzione.

4.2

Momenti

La media `e il rappresentante pi` u noto della famiglia dei momenti. Si definisce momento di ordine s (s pu` o assumere i valori 1, 2, . . .) la media aritmetica delle potenze di esponente s dei dati34 (s)

mX = (

n X

xsi )/n.

i=1

33 Una

distribuzione sbilanciata a sinistra viene detta asimmetrica positivamente, perch`e la differenza xn − x0.5 `e positiva, essendo la media maggiore della mediana. Analogamente, una distribuzione sbilanciata a destra viene detta asimmetrica negativamente. P (s) 34 Per una distribuzione di frequenze, la formula di calcolo ` e mX = H h=1 Xh fh .

45

4.3. DEVIAZIONE STANDARD

0.0

Non Robustezza della Media

−0.5 −1.0 −1.5

Errore nell’indice di posizione

media mediana

−15

−10

−5

0

Errore nel dato

Figura 4.15: Effetto su media e mediana della perturbazione dell’et` a minima dei presidenti italiani. (s)

Il simbolo mX `e riservato ai momenti campionari; i momenti della popolazione (s) si indicano con µX . I momenti pi` u usati sono quello d’ordine 1, coincidente con la media, e quelli d’ordine 2 e 3. Esempio 29 (Et` a dei Presidenti) Il momento d’ordine 2 dell’et` a dei Presidenti italiani `e (2)

µX,IT = (582 + 632 + . . . + 822 )/11 = 56218/11 ' 5110.727 (2)

e quello dei Presidenti americani `e µX,U S = 3334.182.

4.3

Deviazione standard

La media ci informa dove si trova il baricentro della distribuzione. Se ci viene riferito che l’et` a media dei Presidenti italiani `e di circa 71.1 anni, siamo indotti a pensare che le et` a degli 11 Presidenti si collocano attorno a questo valore.

46

MEDIA E DEVIAZIONE STANDARD

La media tuttavia non d` a alcuna informazione circa la dispersione dei dati. Infatti distribuzioni con la stessa media possono presentare caratteristiche molto diverse. Se due studenti, A e B, hanno i seguenti voti (in trentesimi) A : 23, 24, 24, 25, 25, 25, 26, 26, 27, B : 20, 20, 24, 24, 25, 26, 26, 30, 30, il voto medio (e mediano), 25, `e lo stesso ma i voti di B sono pi` u dispersi dei ` chiaro che la media descrive meglio la distribuzione dei voti di A. voti di A. E La corretta interpretazione di un indice di posizione richiede che il suo adattamento alla distribuzione sia descritto da una misura della dispersione dei dati. Per la media questa misura `e la deviazione standard35 r Pn 2 i=1 (xi − xn ) sX = n r Pn 2 i=1 xi − (xn )2 . = n La quantit` a all’interno della radice, la varianza s2X , `e l’ingrediente base della deviazione standard, interpretabile come la media delle distanze al quadrato (xi − xn )2 dei dati dalla media. La seconda linea della formula, utilizzata per i calcoli, mostra che la varianza `e identicamente uguale alla differenza tra il momento secondo e il quadrato del momento primo (cio`e la media). Per le distribuzioni di frequenze la distanza quadratica di ogni modalit` a dalla media (Xh − xn )2 dev’essere moltiplicata per la corrispondente frequenza relativa v uH uX sX = t (Xh − xn )2 fh h=1

v uH uX =t Xh 2 fh − (xn )2 . h=1

n = 11 -0| 43 si legge -4.3 anni

31 01,01,51,81 99,79,29,29 09

-1 -0 0 1

33,03 43,23,23,13 37,37,57,77 27

Tabella 4.12: Scostamenti delle et` a dei Presidenti dalla media (a sinistra Presidenti italiani, a destra americani). 35 La

deviazione standard della popolazione si indica con la lettera greca σ X .

4.3. DEVIAZIONE STANDARD

47

Esempio 30 (Et` a dei Presidenti) La varianza dell’et` a degli 11 Presidenti `e la differenza tra il momento secondo e il quadrato del momento primo, (2)

2 σX,IT = µX,IT − (µX,IT )2

' 5110.727 − 5053.917 = 56.81.

q 2 La deviazione standard `e dunque σX,IT = σX,IT ' 7.5. Questo risultato ci informa che i dati, in media, distano dalla media µX,IT ' 71.1 circa 7.5 anni. La Tabella 4.12 mostra che gli scostamenti dei dati dalla media variano da un minimo di −13.1 (F. Cossiga) a +10.9 (S. Pertini). Nella presentazione ramo-foglie il valore 0 corrisponde alla media. L’intervallo centrato sulla media di semi-ampiezza uguale alla deviazione standard (71.1 ∓ 7.5) = (63.6, 78.6) contiene i dati la cui distanza dalla media `e inferiore o al massimo uguale alla deviazione standard. Nel nostro caso 5 dati hanno una distanza dalla media inferiore alla deviazione standard, mentre gli altri 6 hanno una distanza superiore. Per i Presidenti americani gli scostamenti dei dati dalla media variano da un minimo di −13.3 (J. F. Kennedy) a +12.7 (R. Reagan), l’intervallo centrato sulla media `e (57.3 ∓ 7.3) = (49.9, 64.6) e contiene 7 dati su 11. Media e deviazione standard sono indici espressi nella stessa unit` a di misura e quindi comparabili. La media indica, approssimativamente, la posizione della distribuzione sulla retta numerica. Il valore della deviazione standard36 consente di definire un intorno della media, l’intervallo (xn ∓ sX ), all’interno del quale si collocano i dati la cui distanza dalla media `e inferiore o al massimo uguale alla “distanza media”. Questo intervallo `e diverso da quello basato sui quartili estre` un risultato empirico sorprendente, ma utile, che all’interno mi (x0.25 , x0.75 ). E degli intervalli centrati sulla media (xn ∓ sX ), (xn ∓ 2sX ), (xn ∓ 3sX ) si trovano spesso percentuali dei dati approssimabili a 68%, 95%, 99%, rispettivamente. L’intervallo di semi-ampiezza pari a tre volte la deviazione standard in moltissimi casi comprende la quasi totalit` a dei dati37 . L’approssimazione `e migliore per le distribuzioni unimodali simmetriche, in particolare per le distribuzioni normali. Esempio 31 (Premi Nobel) Media e deviazione standard delle et` a dei premi (F ) (F ) Nobel per la Fisica sono µX = 53.8 e σX = 12.8 anni. Gli scostamenti dei dati dalla media (Tabella 4.13) vanno da un minimo di −28.75 ad un massimo di (F ) (F ) +34.25. L’intervallo (µX ∓ σX ) `e (41.0, 66.5) e contiene 120 casi osservati su (F ) (F ) 177, pari al 67.8% del totale. Un solo dato `e esterno all’intervallo (µ X ∓3σX ). 36 La deviazione standard assume valori non negativi ed ` e uguale a zero se e solo se la distribuzione `e degenere. 37 Equivalentemente, dati distanti dalla media pi` u di tre volte la deviazione standard sono molto rari. Tuttavia questa propriet` a non `e utilizzabile per la ricerca dei dati statisticamente anomali, perch`e sia la media che la deviazione standard possono esserne alterati.

48

MEDIA E DEVIAZIONE STANDARD

n = 177 1| 6 si legge 16 anni

-2 -2 -1 -1 -0 -0 0 0 1 1 2 2 3

9 3333210 999987777766655 4444432222222211100000 999998888888777776666655555555 4444433321111111 0000001111122222233344 5555555666666777778899999 000000112233444 6777888899 01222334 566 034

Tabella 4.13: Scostamenti delle et` a dei premi Nobel per la Fisica dalla media.

4.4

Minimi quadrati

A rigore, una distribuzione degenere38 `e una non-distribuzione, in cui tutte le unit` a rilevate presentano esattamente la stessa determinazione, c, della variabile. La corrispondente distribuzione di frequenze vale 100% nel punto c, 0% dappertutto altrove. Supponiamo di aver osservato i dati x1 , . . . , xi , . . . , xn . La ricerca di un indice di posizione equivale a determinare una costante c, cio`e una distribuzione degenere, che approssima al meglio i dati. Idealmente, il calcolo della media ai dati veri x1 , . . . , xi , . . . , xn sostituisce i dati costanti c, . . . , c, . . . , c, producendo gli errori x1 − c, . . . , xi − c, . . . , xn − c. Qui sorge un problema interessante: qual `e la costante c ottimale, che riduce al minimo l’errore? Per risolverlo, `e necessario aggregare gli errori elementari x1 − c, x2 − c, . . . , definendo una misura dell’errore totale. La misura pi` u utilizzata `e la media dei quadrati degli errori elementari ((x1 − c)2 + . . . + (xi − c)2 + . . . + (xn − c)2 )/n n X = n−1 (xi − c)2 . i=1

Poich`e i dati x1 , . . . , xn sono fissi, l’espressione precedente `e una funzione dipendente solo da c, che pu` o assumere ogni valore reale. Indichiamo con L2 (c) questa funzione39 . Si dimostra il seguente risultato. 38 Non si deve confondere la distribuzione degenere, in cui le determinazioni della variabile sono costanti, con la distribuzione uniforme in cui la densit` a di frequenza `e costante su tutto l’intervallo di variazione. Nelle distribuzioni uniformi la variabile assume determinazioni diverse. Pn 39 L (c) = n−1 2 e una semplice trasformazione della norma euclidea del vettore 2 i=1 (xi −c) ` degli errori (x1 − c, . . . , xn − c).

49

4.4. MINIMI QUADRATI

Teorema 1 (Propriet` a dei minimi quadrati) La media dei quadrati degli errori dei dati x1 , . . . , xn dalla costante c `e minima quando c `e la media di x1 , . . . , xn . In questo caso essa coincide con la varianza. La dimostrazione del teorema richiede un lemma introduttivo. Lemma 2 (Scostamenti dalla media) La media degli errori dei dati x1 , . . . , xn dalla loro media `e identicamente nulla. Dimostrazione. Dobbiamo provare che risulta n−1

n X i=1

(xi − xn ) = 0.

A tale scopo basta mostrare che n X i=1

(xi − xn ) = (x1 − xn ) + (x2 − xn ) + . . . + (xn − xn ) = 0.

Sciogliendo le parentesi e sommando algebricamente i termini simili otteniamo n n n X X X xi − xi = 0 xi − nxn = perch`e nxn =

Pn

i=1

i=1

i=1

i=1

xi .

Dimostrazione. Consideriamo dapprima il termine generico (xi − c)2 della Pn −1 2 funzione L2 (c) = n i=1 (xi − c) . Aggiungendo e togliendo la media x n otteniamo l’espressione equivalente (xi − c)2 = {(xi − xn ) + (xn − c)}

2

= (xi − xn )2 + 2(xn − c)(xi − xn ) + (xn − c)2 .

Se sostituiamo questa espressione in L2 (c) risulta L2 (c) = n−1

n X i=1

(xi − xn )2 + 2n−1 (xn − c)

n X i=1

(xi − xn ) + (xn − c)2

perch`e (xn − c) `e costante rispetto all’indice della sommatoria e pu` o essere messo in evidenza. Il secondo termine `e identicamente nullo in base al Lemma 2, pertanto L2 (c) = n−1

n X i=1

=

s2X

(xi − xn )2 + (xn − c)2

+ (xn − c)2 .

50

MEDIA E DEVIAZIONE STANDARD

L’ultima espressione mostra che L2 (c) `e la somma di due termini non negativi, dei quali solo il secondo dipende da c. Per minimizzare L2 (c) si deve dunque minimizzare (xn − c)2 rispetto a c e per farlo si deve porre c = xn . ` una semplice conseguenza del teorema precedente la formula di calcolo E della varianza. Corollario 3 (Formula di calcolo della varianza) (2)

(1)

s2X = mX − (mX )2 n X = n−1 x2i − (xn )2 . i=1

Dimostrazione. In base al Teorema 1, per ogni numero reale c, vale la seguente identit` a n X (xi − c)2 − (xn − c)2 . s2X = n−1 i=1

La dimostrazione si ottiene sostituendo nell’espressione precedente c = 0. Il messaggio del Teorema 1 `e chiaro. Se l’obiettivo `e minimizzare la media dei quadrati degli errori, non ci sono alternative alla media aritmetica. Qualsiasi altra scelta c 6= xn produrrebbe infatti un aumento della media dei quadrati degli errori, pari a (xn − c)2 . Esempio 32 (Carta di credito) In media, tra un pagamento e l’altro, passano x62 = 431/62 ' 6.96 giorni (Tabella 3.11). La varianza della distribuzione `e s2X = 6741/62 − (431/62)2 ' 60.4 e quindi sX ' 7.77 giorni. L’intervallo (xn ∓ sX ) risulta (0, 14.7) e comprende l’83.9% dei dati. La mediana della distribuzione `e x0.5 = 4 giorni. Se al posto della media usassimo la mediana, la media dei quadrati degli errori sarebbe maggiore di 60.4. In base al Teorema 1, ponendo c = x0.5 si otterrebbe L2 (x0.5 ) = s2X + (xn − x0.5 )2 ' 60.4 + (6.96 − 4)2 ' 69.2, con un incremento rispetto al valore ottimale del 14.5%. A prima vista, il Teorema 1 sembra far tabula rasa degli indici di posizione diversi dalla media, come ad esempio la mediana. Le cose non stanno cos`ı. Il teorema riposa sull’adozione di una particolare misura aggregata degli errori elementari xi −c che `e additiva e quadratica. L’adozione di una diversa forma di aggregazione porterebbe a risultati diversi. Un esempio importante `e la media degli errori assoluti n X −1 L1 (c) = n | xi − c | . i=1

51

4.5. TRASFORMAZIONI per la quale la costante ottimale40 `e la mediana.

Teorema 4 (Propriet` a dei minimi errori assoluti) La media degli errori in valore assoluto dei dati x1 , . . . , xn dalla costante c `e minima quando c `e la mediana di x1 , . . . , xn . Esempio 33 (Carta di credito) La media degli errori assoluti dalla mediana risulta n X L1 (x0.5 ) = ( | xi − x0.5 |)/62 = 343/62 ' 5.53. i=1

La media degli errori assoluti rispetto alla media `e invece L1 (x0.5 ) = (

n X i=1

| xi − x62 |)/62 = 378.2258/62 ' 6.10 > L1 (x0.5 ),

come previsto dal teorema.

4.5

Trasformazioni

L’analisi statistica dei dati richiede talvolta di operare trasformazioni della variabile X riconducibili a funzioni matematiche t(X) il cui effetto `e di definire una nuova variabile Y = t(X). Ai dati osservati originariamente x1 , . . . , xi , . . . , xn subentrano i dati trasformati y1 = t(x1 ), . . . , yi = t(xi ), . . . , yn = t(xn ) il cui studio `e eseguibile con gli strumenti grafici ed analitici usuali. Il problema statistico `e di riuscire a dedurre le caratteristiche distributive della variabile trasformata Y da quelle della variabile d’origine X, evitando di ripetere ex novo tutta l’analisi.

Esempio 34 (Maratona) Se X `e il tempo impiegato a coprire il percorso, la velocit` a41 V `e calcolabile mediante la formula V = s0 /X, in cui s0 = 42.195 km `e la distanza fissata ufficialmente. Il 28/9/2003 P. Tergat stabil`ı il record mondiale di 2 ore, 4 minuti e 55 secondi, corrispondente ad una velocit` a v = 20.27 km/h. La trasformazione in questo caso `e monotona decrescente, non lineare. La curva di densit` a della velocit` a (Figura 4.16) `e unimodale asimmetrica, con un picco molto pronunciato nella classe (19.65, 19.70), fortemente sbilanciata a sinistra. I quartili della distribuzione sono v0.25 = 19.68, v0.5 = 19.75, v0.75 = 19.84 km/h ed `e facile verificare la seguente relazione con i quartili dei tempi vp = s0 /x1−p . Media e deviazione standard delle velocit` a sono v ' 19.778, s V ' 0.1219 km/h e non c’`e una particolare relazione con la media e la deviazione standard dei tempi. In particolare, v 6= s0 /x = 19.77725. P = n−1 n e una semplice trasformazione della norma L1 del vettore i=1 | xi − c | ` (x1 − c, . . . , xn − c). 41 Velocit` a media su tutto il percorso. 40 L

1 (c)

52

MEDIA E DEVIAZIONE STANDARD

3 2 0

1

Densità

4

5

Migliori Risultati Maratona Maschile

19.6 19.7 19.8 19.9 20.0 20.1 20.2 20.3 Velocità (km/h)

Figura 4.16: Velocit` a (km/h) nella maratona maschile. Un esempio di trasformazione `e l’algoritmo utilizzato per calcolare l’importo delle bollette delle utenze domestiche. In generale, se X `e il consumo, l’importo da pagare `e Y = t(X). Esempio 35 (Consumi di energia elettrica) Riportiamo di seguito la statistica ordinata dei consumi bimestrali di energia elettrica (in kw/h) di un campione di 11 famiglie 141, 146, 150, 158, 166, 178, 209, 230, 237, 294, 405. Il sistema tariffario prevede un costo fisso c0 ed un prezzo variabile a seconda del consumo, c1 per i consumi fino a x0 , c2 > c1 per quelli eccedenti x0 . La formula matematica per calcolare l’importo della bolletta `e  c0 + c1 X, se X ≤ x0 , Y = t(X) = c0 + c1 x0 + c2 (X − x0 ), se X > x0 , una trasformazione monotona crescente di X. Applicando la formula ai consumi del nostro campione con c0 = 3.5, c1 = 0.0944, c2 = 0.1138 ed x0 = 150 kw/h, si ottengono i seguenti risultati (valori in euro) 16.8, 17.3, 17.7, 18.5, 19.4, 20.8, 24.4, 26.8, 27.5, 34.1, 46.7.

53

4.5. TRASFORMAZIONI

Il consumo mediano di energia `e x(6) = 178 e l’importo mediano `e y(6) = 20.8. Si verifica che le mediane sono legate dalla relazione y0.5 = t(x0.5 ). Media e deviazione standard dei consumi sono x11 = 210, sX = 76.5 kw/h. Media e deviazione standard degli importi sono y 11 = 24.55, sY = 8.69 ed anche in questo caso non emerge una relazione con le corrispondenti statistiche di X. Gli esempi precedenti suggeriscono che, se la trasformazione t(.) `e monotona, `e possibile ricavare i quantili di Y da quelli di X. Se t(.) `e monotona crescente, essa conserva l’ordinamento, cio`e y(i) = t(x(i) ), i = 1, . . . , n. Data la relazione tra le statistiche ordinate e i quantili, questo implica che yp = t(xp ). Se t(.) `e monotona decrescente, essa inverte l’ordinamento, cio`e y(i) = t(x(n−i+1) ), i = 1, . . . , n, pertanto yp = t(x1−p ). Abbiamo cos`ı dimostrato il seguente teorema. Teorema 5 (Quantili di trasformazioni monotone) Se Y = t(X) `e una trasformazione monotona di X, allora  t(xp ), se t(.) `e monotona crescente, yp = t(x1−p ), se t(.) `e monotona decrescente.

Una trasformazione lineare `e sempre riconducibile all’espressione Y = a + bX, in cui a e b, i coefficienti della trasformazione, sono numeri reali qualsiasi42 . Essa `e interpretabile come la composizione di due trasformazioni: una traslazione, il termine additivo a, e un cambiamento di scala, il prodotto bX 43 . Sono casi particolari delle trasformazioni lineari le trasformazioni di pura scala, quando a = 0, e le traslazioni, quando b = 1. Nella misura della temperatura, il passaggio dalla scala Celsius alla scala Fahrenheit `e definito dalla relazione TF = 32 + (9/5)TC , una trasformazione lineare con a = 32 e b = 9/5. La sostituzione della lira con l’euro ha richiesto la conversione delle grandezze monetarie mediante la relazione Yeuro = Ylire /1927.36, una trasformazione di pura scala con b = 1/1927.36. Osserviamo infine che la trasformazione Y = −X, che opera una riflessione speculare dei dati X rispetto allo zero, `e una trasformazione lineare con a = 0 e b = −1. 42 Supporremo

43 Se

sempre b 6= 0, onde evitare che Y abbia una distribuzione degenere. b < 0, il cambiamento di scala comprende il rovesciamento del verso della scala.

54

MEDIA E DEVIAZIONE STANDARD

n = 31 4| 1 si legge 41◦ F

2 2 3 3 4 4 5

44 0144 5777888 0111444 577899 11223

Tabella 4.14: Temperature medie giornaliere (◦ C) a New York, gennaio 2006. Esempio 36 (Temperature a New York) La Tabella 4.14 mostra le temperature medie giornaliere, in gradi Fahrenheit, registrate nel mese di gennaio 2006 a New York, Central Park. Ad esempio, la temperatura del 15/1/2006 `e 24◦ F , corrispondente a −4.4◦C, circa. Poich`e lo zero della scala Celsius corrisponde a 32◦ F , dalla tabella risulta che solo 4 giorni hanno fatto registrare una temperatura media al di sotto di 0◦ C. Viceversa, 5 giorni hanno avuto una temperatura media superiore a 10◦ C. Come risulta dalla Tabella 4.15, il passaggio dall’una all’altra scala comporta una traslazione e una contrazione dell’intervallo unitario (la variazione di 1◦ F equivale ad una variazione di (5/9)C), ma queste trasformazioni non alterano le caratteristiche generali della distribuzione.

n = 31 0| 67 si legge 6.7◦ C

-0 0 0 1

44,44,11,06 11,11,17,28,28,28,33,33,33,44 50,50,50,67,67,67,72,83,83,89,94,94 06,06,11,11,17

Tabella 4.15: Temperature medie giornaliere (◦ C) a New York, gennaio 2006. Gli effetti delle trasformazioni lineari sulle distribuzioni statistiche sono descrivibili facilmente. Consideriamo dapprima il caso b > 0, in cui la trasformazione `e crescente. Se b < 1, il campo di variazione della variabile si riduce di un fattore pari a b e la propriet` a di normalizzazione delle distribuzioni di frequenza comporta che la densit` a di frequenza aumenta uniformemente di un fattore pari a 1/b. In un ipotetico istogramma, l’ampiezza di ogni classe si riduce, essendo moltiplicata per b, e la corrispondente densit` a di frequenza aumenta, essendo moltiplicata per 1/b. L’area, cio`e la frequenza relativa, non cambia perch`e le due variazioni si compensano esattamente. Se b > 1, si osserva l’effetto opposto: l’ampiezza del campo di variazione aumenta di un fattore pari a b e la densit` a di frequenza diminuisce uniformemente di un fattore pari a 1/b. Il termine additivo, a, produce una traslazione della curva di densit` a lungo la retta numerica, verso

55

4.5. TRASFORMAZIONI

sinistra se a < 0, verso destra se a > 0. In definitiva, quando b > 0, una trasformazione lineare modifica la posizione e la dispersione della distribuzione, ma l’andamento della curva di densit` a (unimodalit` a o multimodalit` a, simmetria o asimmetria, uniforme, ecc.) rimane immutato. Il caso b < 0 `e riconducibile al precedente, con l’aggiunta di una riflessione della curva di densit` a rispetto all’origine. Quest’ultima altera alcune caratteristiche della curva di densit` a: in una distribuzione unimodale il ramo crescente della curva di densit` a diventa quello decrescente e viceversa, l’asimmetria positiva diventa negativa e viceversa. La precedente discussione ha gi` a chiarito che una trasformazione lineare modifica sia la posizione che la dispersione di una distribuzione. Gli effetti sui quantili sono descritti dal Teorema 5, quelli sulla media e la deviazione standard sono descritti nel teorema seguente. Teorema 6 (Media e deviazione standard di trasformazioni lineari) Se i dati x1 , . . . , xn hanno media xn e deviazione standard sX , la media e la deviazione standard della trasformazione lineare Y = a + bX sono rispettivamente y n = a + bxn , sY =| b | sX . Dimostrazione. I dati trasformati sono y1 = a+bx1 , . . . yi = a+bxi , . . . , yn = a + bxn e la loro media `e y n = (y1 + . . . + yi + . . . + yn )/n = {(a + bx1 ) + . . . + (a + bxi ) + . . . + (a + bxn )} /n = {na + b(x1 + . . . + xi + . . . + xn )} /n = a + bxn .

Analogamente, la varianza dei dati trasformati `e  s2Y = (y1 − y n )2 + . . . + (yn − yn )2 /n  = (a + bx1 − a − bxn )2 + . . . + (a + bxn − a − bxn )2 /n  = b2 (x1 − xn )2 + . . . + b2 (xn − xn )2 /n = b2 s2X .

Estraendo la radice quadrata della varianza si ottiene la deviazione standard sY =| b | sX . ` importante notare che, mentre la media subisce una trasformazione uguale E a quella dei dati44 , la deviazione standard non risente del termine additivo a (la dimostrazione chiarisce che esso si elide nella differenza tra ciascun dato e 44 Questa

propriet` a `e definita equivarianza della media rispetto alle trasformazioni lineari.

56

MEDIA E DEVIAZIONE STANDARD

la media), ma solo del coefficiente di scala b, in valore assoluto. Si dimostra facilmente che questa propriet` a `e condivisa dal campo di variazione e dallo scarto interquartilico: y(n) − y(1) =| b | (x(n) − x(1) ,

y0.75 − y0.25 =| b | (x0.75 − x0.25 ).



F ◦ C

x(1) 24 −4.4

x0.25 37 2.8

x0.5 41 5.0

x 41.2 5.1

x0.75 47.5 8.6

x(n) 53 11.7

sX 7.8 4.3

Tabella 4.16: Statistiche riassuntive delle temperature medie giornaliere a New York, gennaio 2006. Esempio 37 (Temperature a New York) La Tabella 4.16 riporta alcune statistiche riassuntive, in gradi Fahrenheit e in gradi Celsius, delle temperature medie giornaliere di gennaio 2006 a New York. Il passaggio alla scala Celsius non richiede la conversione dei dati osservati. Poich`e la trasformazione TC = 5(TF − 32)/9 `e lineare e crescente, basta applicare i Teoremi 5 e 6. Per ottenere la temperatura media e la deviazione standard, i calcoli necessari sono x(◦ C) = 5(41.16 − 32)/9 ' 5.09,

sX (◦ C) = 5 × 7.8/9 ' 4.3. Analogamente, la temperatura mediana `e

x0.5 (◦ C) = 5(41 − 32)/9 ' 5.0.

4.6

Scala standard

Una trasformazione lineare crescente Y = a + bX, b > 0, modifica posizione e dispersione della distribuzione, lasciando per il resto inalterato l’andamento della curva di densit` a. Questo risultato suggerisce che la scelta della scala di misura di un fenomeno non `e obbligata, ma pu` o essere variata in funzione di particolari esigenze. In particolare, `e utile scegliere la scala di misura in modo che media e deviazione standard assumano valori costanti per tutte le distribuzioni, favorendone la comparabilit` a. Nel Teorema 6 abbiamo dimostrato che y n = a + bxn e sY =| b | sX . Se scegliamo a = −xn /sX e b = 1/sX , i dati trasformati avranno media nulla e deviazione standard unitaria. Questa particolare trasformazione, indicata con XST , `e chiamata standardizzazione ed implica l’adozione di una scala di misura45 dei dati tale che lo zero della scala corrisponde alla media della 45 Questa scala ` e chiamata scala standard e le coordinate dei dati rispetto ad essa sono chiamati punteggi standard.

57

4.6. SCALA STANDARD

distribuzione e la lunghezza del segmento unitario coincide con la deviazione standard. La scala standard `e adimensionale e facilmente interpretabile. Consideriamo il punteggio standard, xST = (x − xn )/sX , di una unit` a di rilevazione. La sua posizione `e inferiore, uguale o superiore alla media a seconda che xST < 0, xST = 0 oppure xST > 0. Inoltre il valore assoluto | xST | indica che la ` chiaro distanza dalla media `e pari a | xST | volte la deviazione standard. E che ai tre intervalli centrati sulla media (xn ∓ sX ), (xn ∓ 2sX ), (xn ∓ 3sX ) corrispondono sulla scala standard gli intervalli (−1, 1), (−2, 2), (−3, 3) i quali avranno la stessa frequenza relativa delle loro antiimmagini. Se la distribuzione `e unimodale simmetrica, queste frequenze relative sono prossime a 68%, 95%, 99%. Esempio 38 (Et` a dei Presidenti) Il punteggio standard dell’et` a di G. Gronchi `e −1.073. Esso indica che la sua et` a `e inferiore all’et` a media degli 11 Presidenti e lo scostamento dalla media `e di poco superiore alla deviazione standard. Il punteggio standard di L. Einaudi `e 0.386: egli `e dunque pi` u anziano della media, ma in misura contenuta perch`e lo scostamento dalla media `e meno della met` a della deviazione standard. Come si vede, l’interpretazione dei punteggi standard `e immediata e non richiede che siano noti i valori della media e della deviazione standard dei dati di partenza.

R

A

O

Docenti di Statistica per Qualifica (2005)

30

40

50

60

70

Età

Figura 4.17: Et` a dei docenti di Statistica, per qualifica (R: ricercatori; A: associati; O: ordinari), anno 2005.

La scala standard, essendo adimensionale, `e utilizzata per confrontare variabili con ordine di grandezza, e anche unit` a di misura, diversi. Si deve sottolineare che tale confronto non riguarda posizione e dispersione che sono state “parificate” dalla standardizzazione.

58

MEDIA E DEVIAZIONE STANDARD

Esempio 39 (Docenti di Statistica) Al 31/12/2005 le universit` a italiane avevano in organico 832 docenti di Statistica, ripartiti in ricercatori (27.0%), professori associati (32.0%), professori ordinari (41.0%). I diagrammi scatola-baffi delle et` a (Figura 4.17) riassumono le caratteristiche principali: l’et` a aumenta con la qualifica, la tipologia distributiva `e unimodale asimmetrica, sbilanciata a sinistra per i ricercatori e gli associati, a destra per gli ordinari. I diagrammi dei punteggi standard (Figura 4.18) perdono l’informazione sul legame tra et` a e qualifica ma conservano l’informazione sulla tipologia distributiva. La posizione della mediana rispetto alla media (corrispondente allo zero della scala) `e coerente con le caratteristiche delle tre distribuzioni.

R

A

O

Docenti di Statistica per Qualifica (2005)

−2

−1

0

1

2

Età (Punteggi Standard)

Figura 4.18: Et` a (punteggi standard) dei docenti di Statistica, per qualifica (R: ricercatori; A: associati; O: ordinari), anno 2005.

4.7

Unit` a divise in gruppi

Media e varianza sono gli elementi basilari di un classico modello di analisi di dati divisi in gruppi. I presupposti sono una partizione delle unit` a di rilevazione in H gruppi e una variabile numerica Y osservabile su ciascuna unit` a. Il dato (h) generico yi `e contraddistinto da due indici: l’indice h si riferisce al gruppo di appartenenza, 1 ≤ h ≤ H, l’indice i enumera le unit` a all’interno del gruppo, 1 ≤ i ≤ nh . Le numerosit` a dei gruppi sono n1 , . . . , nh , . . . , nH e la loro somma n1 + . . . + nH `e pari a n, la numerosit` a totale. Questa struttura si presenta in molte situazioni. Un esempio `e la rilevazione delle assenze per malattia dei dipendenti di un’impresa avente H > 1 unit` a locali. La variabile `e il numero di giorni di assenza per malattia, le unit` a di rilevazione sono i dipendenti e i gruppi sono le unit` a locali. L’ipotesi di partenza `e l’omogeneit` a delle assenze per malattia nelle diverse unit` a locali. Un altro esempio `e la durata degli studi di un campione di laureati triennali di varie

` DIVISE IN GRUPPI 4.7. UNITA

59

facolt` a. La variabile `e la durata degli studi, le unit` a di rilevazione sono i laureati triennali e i gruppi sono le facolt` a. In generale, la struttura di dati divisi in gruppi si presenta ogni volta che una variabile d’interesse principale Y `e rilevata congiuntamente ad una variabile di stratificazione X: le modalit` a della variabile di stratificazione definiscono i gruppi. L’ipotesi di base `e l’omogeneit` a dei gruppi, cio`e le distribuzioni parziali di Y nei diversi gruppi sono uguali. Questa ipotesi, molto restrittiva, `e spesso sostituita da ipotesi di uguaglianza di particolari indici di sintesi delle distribuzioni parziali, soprattutto indici di posizione come le mediane o le medie. Qui noi consideriamo le medie e le varianze parziali e presentiamo due classici teoremi. (h) Il primo teorema riguarda la relazione tra le medie parziali y nh , h = 1, . . . , H, e la media complessiva y T ot calcolata su tutti i dati ignorando la struttura di gruppo. Teorema 7 (Associativit` a della media) La media complessiva di dati divisi in gruppi `e uguale alla media ponderata delle medie parziali, con pesi uguali alle frequenze relative dei gruppi. Dimostrazione. La media complessiva `e la somma di tutti i dati divisa per la numerosit` a totale. La somma dei dati `e esprimibile come la somma dei totali parziali di ciascun gruppo. Consideriamo ad esempio il primo gruppo. La sua (1) (1) (1) (1) (1) media `e y n1 = (y1 +. . .+yn1 )/n1 e quindi il totale parziale `e y1 +. . .+yn1 = (1) n1 yn1 . La stessa relazione vale per gli altri gruppi. La media complessiva si pu` o dunque scrivere n o (1) (H) (H) yT ot = (y1 + . . . + yn(1) ) + . . . (y + . . . + y ) /n nH 1 1 (H) = (n1 y(1) n1 + . . . + nH y nH )/n

(H) = y (1) n1 (n1 /n) + . . . + y nH (nH /n).

L’ultima riga della precedente uguaglianza prova che la media a livello aggregato `e uguale alla media ponderata delle medie dei gruppi. Esempio 40 (Bilanci familiari) La Tabella 4.17 riporta il reddito familiare medio ed il reddito familiare mediano in base al titolo di studio del capofamiglia. Il reddito medio di tutte le famiglie, indipendentemente dal titolo di studio del capofamiglia, `e y T ot = 13446 × 0.064 + 20106 × 0.240 + 27942 × 0.357 + 36356 × 0.257

+54233 × 0.0833 ' 29483.

Si verifica facilmente che la mediana a livello aggregato, y 0.5 = 23833, non `e ottenibile come media ponderata delle mediane parziali. (h)2

Il secondo teorema riguarda la relazione tra le varianze parziali sY , h = 1, . . . , H, e la varianza complessiva s2T ot . Si dimostra che la varianza complessiva

60

MEDIA E DEVIAZIONE STANDARD Titolo di studio Senza titolo Licenza elementare Media inferiore Media superiore Laurea Tutti

Famiglie, % 6.4 24.0 35.7 25.7 8.3 100

Reddito mediano 12154 17398 24177 31641 45366 23833

Reddito medio 13446 20106 27942 36356 54233 29483

Tabella 4.17: Statistiche riassuntive del reddito delle famiglie italiane, per titolo di studio del capofamiglia, 2004 (fonte: Banca d’Italia). `e la somma di due componenti, la varianza “dentro i gruppi” s2W e la varianza “tra i gruppi” s2B 46 . La varianza dentro i gruppi misura la dispersione media dei dati all’interno dei gruppi. La sua espressione `e (1)2

(H)2

s2W = sY (n1 /n) + . . . + sY

(nH /n)

ed `e dunque uguale alla media ponderata delle varianze parziali, con pesi uguali alle frequenze relative dei gruppi. La varianza tra i gruppi misura la dispersione delle medie parziali rispetto alla loro media, la media complessiva. La sua espressione `e 2 (H) 2 s2B = (y (1) n1 − y T ot ) (n1 /n) + . . . + (y nH − y T ot ) (nH /n)

ed `e dunque uguale alla varianza delle medie parziali. Essa `e calcolabile come differenza tra le medie dei quadrati delle medie parziali ed il quadrato della media complessiva: (H)2 2 s2B = (y (1)2 n1 (n1 /n) + . . . + y nH (nH /n)) − y T ot .

La varianza dentro i gruppi `e pari a zero se, e solo se, le medie parziali assumono tutte lo stesso valore, coincidente con quello della media complessiva. Questo suggerisce che s2B `e una statistica idonea a controllare l’ipotesi di uguaglianza delle medie parziali. Teorema 8 (Scomposizione della varianza) La varianza complessiva verifica l’identit` a s2T ot = s2W + s2B . Dimostrazione. Il punto di partenza `e la definizione di varianza totale: s2T ot

=n

−1

nh H X X

h=1 i=1 46 I

(h)

(yi

− yT ot )2 .

nomi ricalcano i termini inglesi within-groups e between-groups variance.

` DIVISE IN GRUPPI 4.7. UNITA

61

La sua espressione rimane invariata se all’interno delle parentesi si aggiunge e toglie la media parziale y (h) : n o2 (h) (h) (yi − y T ot )2 = (yi − y (h) ) + (y (h) − yT ot ) (h)

= (yi

(h)

− y(h) )2 + 2(y (h) − y T ot )(yi

− y (h) ) + (y (h) − y T ot )2 .

Sostituendo la precedente espressione nella definizione di varianza totale ed applicando l’operatore somma, s2T ot risulta uguale alla somma di tre termini s2T ot = A + B + C, in cui A=n

−1

nh H X X

(h)

(yi

h=1 i=1

B = 2n−1

nh H X X

h=1 i=1

C = n−1

nh H X X

h=1 i=1

− y(h) )2 (h)

(y (h) − y T ot )(yi

− y(h) ),

(y (h) − yT ot )2 . (h)2

Nel termine A, la sommatoria interna `e pari alla varianza parziale sY plicata per nh , pertanto A = n−1

H X

(h)2

sY

molti-

nh = s2W .

h=1

Nel termine C, l’argomento della sommatoria interna non dipende dall’indice i e pu` o essere messo in evidenza ottenendo C = n−1

H X

h=1

(y (h) − yT ot )2 nh = s2B .

Infine, il termine B `e sempre identicamente nullo. Infatti B = 2n

−1

H X

h=1

e

P nh

(h) i=1 (yi

(y

(h)

− y T ot )

nh X i=1

(h)

(yi

− y (h) )

− y (h) ) = 0 per ogni h = 1, . . . , H, per il Lemma 2.

Il teorema di scomposizione della varianza `e l’esempio pi` u semplice di quella ricerca delle determinanti della variabilit` a dei dati che `e al centro della Statistica. Esso consente di quantificare la quota di variabilit` a di Y che `e attribuibile ad una variabile di stratificazione X, il rapporto s2B /s2T ot , e la quota di variabilit` a di Y

62

MEDIA E DEVIAZIONE STANDARD Qualifica Ricercatore Associato Ordinario Tutte

Numero di Docenti 225 266 341 832

Et` a mediana 41 46 59 51

Et` a media 43.3 49.7 57.4 51.1

Varianza 72.1 98.4 67.5 112.0

Tabella 4.18: Statistiche riassuntive dell’et` a dei docenti di Statistica, per qualifica, 2005 (fonte: Ministero per l’Universit` a e la Ricerca). “residua”, il rapporto complementare 1 − s2B /s2T ot . Gli sviluppi e le applicazioni inferenziali di questo risultato formano l’analisi della varianza, una metodologia che si deve in gran parte a R. A. Fisher47 . Esempio 41 (Docenti di Statistica) L’et` a dei docenti di Statistica aumenta al crescere della qualifica (Esempio 39), ma qual `e il peso delle differenze di et` a dovute alla qualifica sulla variabilit` a complessiva? La Tabella 4.18 riporta alcuni indici di sintesi della distribuzione. Le et` a mediane sono considerevolmente diverse dalle et` a medie, a causa dell’asimmetria delle distribuzioni (Figura 4.17). Inoltre la deviazione standard dell’et` a degli associati `e pi` u elevata di quella dei ricercatori e degli ordinari. L’et` a media di tutti i docenti, indipendentemente dalla qualifica, `e y T ot = (43.3 × 225 + 49.7 × 266 + 57.4 × 341)/832 ' 51.1. La componente dentro i gruppi della varianza `e s2W = (72.1 × 225 + 98.4 × 266 + 67.5 × 341)/832 ' 78.6 e quella tra i gruppi `e s2B = (43.32 × 225 + 49.72 × 266 + 57.42 × 341)/832 − 51.12 ' 33.4. La varianza complessiva `e s2T ot = s2W + s2B ' 112.0 ed il rapporto percentuale s2B /s2T ot `e pari a 29.8%. Pertanto circa il 30% della varianza complessiva dell’et` a dei docenti `e attribuibile alle differenze di qualifica. Media e varianza, e quindi anche le statistiche s2W , s2B , s2B /s2T ot , non sono ` pertanto opportuno che resistenti alla contaminazione dei dati campionari. E la scomposizione della varianza sia accompagnata dalla visualizzazione dei dati mediante presentazioni ramo-foglie o diagrammi scatola-baffi e dal confronto tra medie e mediane, al fine di individuare eventuali casi anomali. 47 Ronald A. Fisher (1890-1962), genetista e statistico inglese, ` e stato docente di genetica alle universit` a di Londra e Cambridge. Alcune sue opere (Statistical Methods for Research Workers (1925), Statistical Method and Scientific Inference (1956)) sono considerate dei classici della letteratura statistica.

` DIVISE IN GRUPPI 4.7. UNITA Ruota Napoli Roma Venezia Tutte

63

Numero di Concorsi 156 156 156 468

Mediana 45 48.5 52 49

Media 43.5 48.5 48.7 46.9

Varianza 689 693 741 713

Tabella 4.19: Statistiche riassuntive del primo numero estratto sulle ruote di Napoli, Roma e Venezia, 2006. Esempio 42 (Estrazioni del lotto) Sui 156 concorsi del 2006 abbiamo rilevato il primo numero uscito sulle ruote di Napoli, Roma e Venezia. Ci attendiamo tre distribuzioni uniformi sui numeri interi da 1 a 90. La Figura 4.19 riporta i diagrammi scatola-baffi dei dati standardizzati con la visualizzazione dell’intervallo di confidenza48 della mediana (incisione a “V”). Poich`e i tre intervalli hanno un’ampia zona di sovrapposizione e includono la media (corrispondente al punteggio standard zero), non emergono indicazioni che le mediane (e le medie) siano diverse. I tre grafici suggeriscono inoltre una distribuzione di tipo uniforme, in accordo con l’ipotesi iniziale. Le componenti dentro i gruppi e tra i gruppi della varianza sono s2W ' 708, s2B ' 5.63, pertanto il rapporto s2B /s2T ot ' 0.008 appare trascurabile.

Na Rm Ve

Primo Estratto Ruote di Napoli, Roma e Venezia (2006)

−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

Numero Estratto (Punteggi Standard)

Figura 4.19: Primo estratto sulle ruote di Napoli, Roma e Venezia (2006).

48 L’intervallo di confidenza, centrato sulla mediana campionaria, ha lo scopo di stimare la mediana della popolazione di riferimento. Esso `e la determinazione di un intervallo casuale avente un’alta probabilit` a di contenere la mediana della popolazione. Qui la probabilit` a `e pari a 0.95.

64

MEDIA E DEVIAZIONE STANDARD

Distribuzione gaussiana Media e deviazione standard sono particolarmente efficaci nel descrivere posizione e dispersione delle distribuzioni unimodali e simmetriche, di cui la distribuzione gaussiana `e l’esempio pi` u importante. Il suo ruolo di assoluto rilievo in Statistica e Probabilit` a `e dovuto al teorema centrale di convergenza, in base al quale le variabili riconducibili a somme o medie dei dati di un campionamento statistico ammettono, per numerosit` a elevate, un’approssimazione normale.

5.1

La curva gaussiana

La distribuzione gaussiana49, o normale, ha funzione di densit` a   1 1 x−µ 2 √ fX (x) = exp − ( ) , 2 σ σ 2π in cui x, la determinazione della variabile, `e un numero reale qualsiasi mentre µ e σ, i parametri della distribuzione, sono la media e la deviazione standard della distribuzione. Come richiesto per ogni curva di densit` a, l’area sottesa alla curva `e pari a 1. La dimostrazione, non elementare, `e riportata di seguito. Teorema 9 (Normalizzazione della curva gaussiana) Per ogni valore ammissibile dei parametri µ e σ i. fX (x) > 0; ii.

R∞

−∞

fX (x)dx = 1.

Dimostrazione.

√  2 `e un i. fX (x) > 0 perch`e σ 2π `e una costante positiva e exp − 21 ( x−µ σ ) valore positivo per ogni numero reale x, comunque si assegnino i valori di µ e σ. 49 C. F. Gauss (1777-1855) la us` o nel 1809 per studiare la distribuzione degli errori di misura nelle misure astronomiche.

65

66

DISTRIBUZIONE GAUSSIANA

ii. Indichiamo con A il valore, certamente positivo, dell’integrale della densit` a ` evidente che gaussiana. E     Z ∞ Z ∞ 1 1 1 x−µ 2 1 y−µ 2 √ exp − ( √ exp − ( ) dx · ) dy 2 σ 2 σ −∞ σ 2π −∞ σ 2π    Z ∞Z ∞ 1 1 x−µ 2 y−µ 2 exp − ( ) +( ) dxdy = 2 2πσ −∞ −∞ 2 σ σ = A2 .

Usando prima i cambiamenti di variabile u = (x − µ)/σ, v = (y − µ)/σ e passando poi alle coordinate polari u = ρ cos θ, v = ρ sen θ, l’integrale doppio precedente `e ricondotto alla seguente espressione   Z 2π Z ∞ 1 1 A2 = ρ exp − ρ2 dρdθ. 2π 0 2 0 Si verifica facilmente che    ∞  Z ∞ 1 1 =1 ρ exp − ρ2 dρ = − exp − ρ2 2 2 0 0 pertanto 1 A = 2π 2

Z



dθ = 1 0

e quindi A = 1.

La curva gaussiana (vedi Figura 5.20) `e unimodale e simmetrica con una caratteristica forma a campana col vertice in corrispondenza della media. Il seguente teorema ne riassume le principali propriet` a. Teorema 10 (Propriet` a della curva gaussiana) Sia X una distribuzione gaussiana di parametri µ e σ. La sua curva di densit` a presenta le seguenti caratteristiche i. `e simmetrica rispetto a x = µ; ii. `e monotona crescente per x < µ, monotona decrescente per x > µ; iii. `e convessa per x < µ − σ e x > µ + σ, concava nell’intervallo µ − σ < x < µ + σ; iv. tende a 0 quando x → ±∞.

67

5.1. LA CURVA GAUSSIANA

0.8

Densità Gaussiane

0.4 0.0

0.2

Funzione di Densità

0.6

N(0,1) N(−2,0.5) N(1,1.5)

−4

−2

0

2

4

x

Figura 5.20: Curve di densit` a gaussiane. Dimostrazione. i. fX (µ − h) = fX (µ + h), per ogni h > 0. ii. La derivata prima della funzione di densit` a `e d µ−x fX (x) = f 0 (x) = fX (x) 2 , dx σ pertanto f 0 (x) R 0 ⇐⇒ x Q µ. Il punto x = µ `e l’unico punto di massimo della funzione e quindi vale la disuguaglianza 1 0 < fX (x) ≤ fX (µ) = √ . σ 2π

68

DISTRIBUZIONE GAUSSIANA

iii. La derivata seconda della funzione di densit` a `e   2 d 1 (µ − x)2 00 fX (x) = f (x) = 2 fX (x) −1 , dx σ σ2 pertanto f 00 (x) R 0 ⇐⇒| µ − x |R σ. I punti di flesso, dove la tangente attraversa il grafico della funzione, sono x1 = µ − σ e x2 = µ + σ. Per x < µ − σ e x > µ + σ il grafico `e al di sopra della tangente, per µ − σ < x < µ + σ il grafico `e al di sotto della tangente. iv. La propriet` a si dimostra facilmente perch`e lim fX (x) = 0,

x→±∞

essendo fX (x) proporzionale ad una funzione esponenziale negativa.

Il significato statistico dei parametri µ e σ, anticipato in apertura, `e confermato dal seguente teorema. Teorema 11 (Media e deviazione standard della gaussiana) In ogni distribuzione gaussiana moda, mediana e media sono uguali al valore del parametro µ, mentre la deviazione standard `e uguale al valore del parametro σ. Dimostrazione. La moda `e uguale a µ perch`e x = µ `e l’unico punto di massimo della funzione di densit` a (Teorema 10 ii.). Mediana e media sono entrambe uguali a µ perch`e la funzione di densit` a `e simmetrica rispetto a x = µ (Teorema 10 i.). La varianza della distribuzione `e   Z ∞ 1 1 x−µ 2 (x − µ)2 √ exp − ( ) dx. 2 σ σ 2π −∞ Mediante il cambiamento di variabile u = (x − µ)/σ, il valore del precedente integrale risulta uguale a   Z ∞ σ2 1 B=√ u2 exp − u2 du. 2 2π −∞ Usando il metodo d’integrazione per parti in cui u funge da fattore finito e  u exp − 12 u2 funge da fattore differenziale, si ottiene ( ∞   ) Z ∞ σ2 1 2 1 2 B=√ −u exp(− u ) + exp − u du 2 2 2π −∞ −∞     Z ∞ 1 1 = σ2 √ exp − u2 du 2 2π −∞ = σ2

per il Teorema 9 ii.

5.2. LA FAMIGLIA GAUSSIANA

5.2

69

La famiglia gaussiana

Per indicare la distribuzione normale si usa la notazione N (µ, σ). La distribuzione normale di parametri µ = 0 e σ = 1 viene detta distribuzione normale standard. La famiglia normale, indicata con N (µ, σ) `e l’insieme avente come elementi tutte le distribuzioni normali. Si dimostra che tale insieme `e chiuso rispetto alle trasformazioni lineari, cio`e la trasformazione lineare di una distribuzione normale ha ancora una distribuzione normale, con parametri diversi, dipendenti dalla trasformazione.50 Teorema 12 (Chiusura di N (µ, σ) rispetto alle trasformazioni lineari) Se X ∼ N (µX , σX ) allora Y = a + bX ∼ N (µY = a + bµX , σY =| b | σX ). Dimostrazione. Il valore della funzione di ripartizione di Y nel punto y `e l’area sottesa alla curva di densit` a fY (y) nella semiretta (−∞, y]. Se b > 0, l’immagine inversa di tale insieme secondo la trasformazione lineare `e la semiretta (−∞, (y − a)/b]. Se b < 0, l’immagine inversa `e la semiretta [(y − a)/b, ∞). Pertanto  FX ((y − a)/b), se b > 0, FY (y) = 1 − FX ((y − a)/b), se b < 0. La funzione di densit` a di Y `e la derivata della funzione di ripartizione che risulta uguale a d 1 y−a FY (y) = fX ( ) dy |b| b   1 1 y − a − bµX 2 = exp − ( ) . | b | σX 2 | b | σX

fY (y) =

L’ultima espressione `e una densit` a normale di parametri µY = a + bµX , σY =| b | σX . Il teorema precedente mostra, in particolare, che ogni distribuzione normale `e una particolare trasformazione lineare della normale standard. Questo risultato `e cos`ı importante da meritare una proposizione a s`e stante. Corollario 13 (Ruolo della normale standard ) Se XST ∼ N (0, 1) e X ∼ N (µX , σX ), in cui µX `e un numero reale qualsiasi e σX `e un numero reale positivo, allora X = a + bXST , con a = µX e b = σX. . Dimostrazione. Il risultato `e un caso particolare del Teorema 12. Dal punto di vista matematico `e necessaria una sola distribuzione normale, che per semplicit` a, `e quella standard. Tutte le altre distribuzioni normali si ottengono da essa mediante una trasformazione lineare. Questo implica che la funzione di ripartizione, la funzione di densit` a e la funzione quantilica di X ∼ N (µX , σX ) sono esprimibili in funzione delle corrispondenti quantit` a della normale standard. 50 Altre importanti famiglie di distribuzioni godono di questa propriet` a. Si verifica facilmente, ad esempio, che se X ∼ R(α1 , α2 ) allora Y = a + bX ∼ R(β1 , β2 ). Se b > 0, βi = a + bαi , i = 1, 2; se b < 0, Y ∼ R(β2 , β1 ).

70

DISTRIBUZIONE GAUSSIANA

Teorema 14 (Funzione di ripartizione della normale) Nelle stesse ipotesi del Corollario 13, i. FX (x) = FXST ((x − µX )/σX ); ii. fX (x) = (σX )−1 fXST ((x − µX )/σX ); iii. xp = µX + σX xp,ST . Dimostrazione. i. Come nel Corollario 13, consideriamo la trasformazione lineare X = t(X ST ) = µX + σX XST e fissiamo un valore x di X. L’immagine inversa della semiretta (−∞, x] di X `e la semiretta (−∞, (x − µX )/σX ] di XST . Pertanto x − µX X ≤ x ⇐⇒ XST ≤ σX da cui segue FX (x) = FXST ((x − µX )/σX ). ii. La funzione di densit` a di X `e la derivata della funzione di derivazione, quindi d FX (x) dx d x − µX = FX ( ) dx ST σX 1 x − µX = fXST ( ). σX σX

fX (x) =

iii. La trasformazione X = µX + σX XST `e monotona crescente perch`e σX > 0. Il risultato `e dunque una conseguenza dell’equivarianza dei quantili rispetto a questa classe di trasformazioni.

5.3

Aree sottese alla curva gaussiana

Il Teorema 14 i. prende il nome di teorema di conservazione delle aree perch`e l’area sottesa alla curva di densit` a di X nella semiretta (−∞, x] `e uguale all’area sottesa alla curva di densit` a normale standard nella semiretta (−∞, xST ], in cui xST = (x − µX )/σX `e il punteggio standard di x. Pi` u in generale, l’area sottesa alla curva di densit` a di X nell’intervallo (x1 , x2 ], con x1 < x2 , risulta pari a FX (x2 ) − FX (x1 ) = FXST (

x2 − µ X x1 − µ X ) − FXST ( ). σX σX

71

5.3. AREE SOTTESE ALLA CURVA GAUSSIANA

0.8 0.0

0.2

0.4

0.6

Funzione di Ripartizione

0.6 0.4 0.0

0.2

Funzione di Densità

0.8

1.0

Normale Standard

1.0

Normale Standard

−3 −2 −1

0

1

2

3

−3 −2 −1

x

0

1

2

3

x

Figura 5.21: Funzione di densit` a e di ripartizione della normale standard (sono evidenziati i quartili). La funzione di ripartizione della normale standard (vedi Figura 5.21) 1 FXST (x) = √ 2π

Z

 1 2 exp − t dt 2 −∞ x



viene valutata mediante integrazione numerica approssimata e i risultati sono ordinati in apposite tabelle. In questo caso, infatti, la formula fondamentale del calcolo integrale51 non `e utilizzabile perch`  e non esiste in forma esplicita una funzione la cui derivata sia uguale a exp − 21 t2 . Tutti i programmi di analisi dei dati per computer offrono funzioni per valutare questo integrale. 51 La formula fondamentale del calcolo integrale afferma che l’integrale definito di una funzione continua g(x) nell’intervallo (a, b) `e uguale all’incremento che una sua qualsiasi funzione primitiva G(x) registra fra a e b,

Z

b

g(t)dt = G(b) − G(a). a

Una primitiva di g(x) `e una funzione la cui derivata coincide con g(x), d G(x) = g(x). dx

72

DISTRIBUZIONE GAUSSIANA

` conveniente tabulare l’area Esempio 43 (Aree della normale standard) E sottesa alla curva di densit` a normale standard in un intervallo centrato sulla media (pari a 0), al variare dell’estremo destro dell’intervallo. Indichiamo con H(z) tale area per un fissato numero reale z non negativo. Risulta evidentemente H(0) = 0 e limz→∞ H(z) = 1, Ad esempio H(1), il valore dell’area nell’intervallo (−1, 1), risulta approssimativamente uguale a 0.682690. Si ricava facilmente 1 1 + H(1) ' 0.841345, 2 2 1 1 FXST (−1) = − H(1) ' 0.158655. 2 2 FXST (1) =

Per la simmetria della distribuzione, l’area sottesa nella semiretta (1, ∞) `e uguale all”area sottesa nella semiretta (−∞, −1] e quest’ultima coincide con FXST (−1). L’area sottesa nell’intervallo (−1/2, 1] `e pari a 1 1 1 1 + H(1) − ( − H(1/2)) 2 2 2 2 1 = (H(1) + H(1/2)). 2

FXST (1) − FXST (−1/2) =

Analogamente, l’area sottesa nell’intervallo (1/2, 1] `e pari a F XST (1)−FXST (1/2) = ` importante osservare che H(3) ' 0.997300, cio`e l’inter− H(1/2)). E vallo (−3, 3) contiene pi` u del 99% dell’area totale. 1 2 (H(1)

La tabella sottostante riporta i decili positivi della normale standard (i decili negativi si ricavano per simmetria). Tavole pi` u dettagliate sono riportate nei manuali di Statistica e Probabilit` a. p xp

0.5 0

0.6 0.253347

0.7 0.524401

0.8 0.841621

0.9 1.28155

Tabella 5.20: Decili positivi della normale standard.

Esempio 44 (Aree e quantili di N (µX , σX )) Consideriamo la variabile X ∼ N (10, 5). Qual `e il valore della funzione di ripartizione in x1 = 15 e x2 = 0? Usando il teorema di conservazione delle aree, FX (x1 ) = FXST (x1,ST ) = FXST (1) ' 0.841345,

FX (x2 ) = FXST (x2,ST ) = FXST (−2) ' 0.0227501. Quanto valgono i quantili di X d’ordine 0.1 e 0.7? Per la propriet` a di equivarianza, x0.1 = µX + σX x0.1,ST = µX − σX x0.9,ST ' 3.592242, x0.7 = µX + σX x0.7,ST ' 12.622.

73

5.4. APPLICAZIONI Intervallo Area

µ±σ 0.68269

µ ± 2σ 0.9545

µ ± 3σ 0.9973

µ ± 4σ 0.999937

Tabella 5.21: Aree di intervalli centrati sulla media di N (µ, σ). Vale la pena osservare le particolari caratteristiche di concentrazione della distribuzione normale attorno alla media. Come mostra la Tabella 5.21, circa 68% dei dati si trovano ad una distanza dalla media non superiore ad 1 deviazione standard, mentre circa 95% (99%) dei dati si trovano ad una distanza non superiore a 2 volte (3 volte) la deviazione standard. Inversamente, un dato la cui distanza dalla media `e superiore a 3 volte la deviazione standard presenta caratteristiche di eccezionalit` a rispetto alla distribuzione normale perch`e meno di 1% dei dati presenta una distanza superiore. Esempio 45 (Dati statisticamente anomali) Nel diagramma scatola-baffi un dato statisticamente anomalo cade all’esterno dell’intervallo delimitato dalla barriera inferiore Binf = x0.25 − 1.5SIQ e dalla barriera superiore Bsup = x0.75 + 1.5SIQ. La costante 1.5 `e stata fissata da Tukey in modo che un’osservazione da una distribuzione Normale X ∼ N (µX , σX ) abbia un’elevatissima probabilit` a, che indichiamo con pN ORM , di rientrare nell’intervallo. Possiamo ora verificare che pN ORM `e approssimativamente uguale a 0.993. Per il teorema di conservazione delle aree pN ORM = FX (Bsup ) − FX (Binf )

= FXST (Bsup,ST ) − FXST (Binf,ST ).

Usando x0.25 = µX + σX x0.25,ST , x0.75 = µX + σX x0.75,ST , si ottiene Bsup,ST = 4x0.75,ST , Binf,ST = 4x0.25,ST , da cui segue pN ORM = FXST (4x0.75,ST ) − FXST (4x0.25,ST ) ' 0.993023.

Ovviamente, la probabilit` a che il dato sia esterno all’intervallo `e 1− p N ORM ' 0.006977, un valore trascurabile.

5.4

Applicazioni

La distribuzione gaussiana `e un modello matematico fondamentale della Statistica e della Probabilit` a. Essa `e usata per approssimare curve di densit` a empiriche unimodali e simmetriche, in cui la dispersione dei dati attorno alla media segue, almeno approssimativamente, la Tabella 5.21. In questi casi i parametri µ e σ vengono approssimati mediante la media xn e la deviazione standard sX del campione.

74

n = 130 35| 2 si legge 35.2◦ C P130 xi = 4785 Pi=1 130 2 i=1 xi = 176146.2

DISTRIBUZIONE GAUSSIANA

35 36 36 37 37 38

7899 011222222333333444444 55566666666666677777777777777888888888888888999999999999 000000000011111111111111111122222223333334444 578 2

Tabella 5.22: Temperatura corporea. Esempio 46 (Temperatura corporea) Il ramo-foglie della Tabella 5.22 riporta la temperatura corporea (◦ C) di un campione di di 130 soggetti52 . La distribuzione suggerisce un modello unimodale e simmetrico. Media e deviazione standard sono x130 ' 36.81 ed sX ' 0.4057. Gli intervalli x130 ±ksX , k = 1, 2, 3, comprendono rispettivamente il 69.2%, 94.6%, 99.2% dei dati, in buon accordo con con i valori attesi nell’ipotesi di normalit` a. La Figura 5.22 mostra l’andamento della densit` a empirica e della densit` a gaussiana approssimante, di espressione   1 1 x − x130 2 √ exp − ( fX (x) = ) . 2 sX sX 2π L’accuratezza dell’approssimazione si pu` o apprezzare mettendo a confronto ` interessante nole rispettive funzioni di ripartizione o i quantili (Figura 5.23). E tare che, secondo questa indagine, le temperature statisticamente regolari vanno da un minimo di 35.8◦ ad un massimo di 37.8◦ .

L’importanza della distribuzione gaussiana discende da un risultato di Teoria della Probabilit` a, il teorema centrale di convergenza. Esso afferma che la somma e la media standardizzate di un gran numero di osservazioni di una variabile numerica hanno distribuzioni ben approssimate da una normale standard. Il teorema presuppone che i dati siano ottenuti mediante campionamento casuale.

Esempio 47 (Somma dei punteggi di n lanci di un dado) Consideriamo il seguente esperimento. Lanciamo n volte un dado regolare e calcoliamo la P somma Tn = ni=1 Xi dei risultati (Xi indica il punteggio osservato nel lancio i-esimo). Supponiamo ora di ripetere M volte (M elevato) l’esperimento, ottenendo le determinazioni tn,1 , . . . , tn,M di Tn . Qual `e la distribuzione di Tn ? In base al teorema centrale di convergenza, quando n → ∞ la funzione di ripartizione di Tn,ST converge alla funzione di ripartizione della normale standard. 52 L’esempio ` e ripreso da A. L. Shoemaker, What’s Normal? Temperature, Gender and Heart Rate, Journal of Statistics Education 4, 1996.

75

5.4. APPLICAZIONI

0.8 0.6 0.4 0.0

0.2

Funzione di Densità

1.0

Densità Empirica e Curva Gaussiana

35.5

36.0

36.5

37.0

37.5

38.0

38.5

Temperatura Corporea (°C)

Figura 5.22: Temperatura corporea. Approssimazione gaussiana dell’istogramma empirico. La Figura 5.24 confronta gli istogrammi di Tn,ST per M = 10000, n1 = 10 e n2 = 50 con la curva normale standard. L’approssimazione `e buona, anche per i valori di n non elevati qui considerati.

76

DISTRIBUZIONE GAUSSIANA

Quantili

2 1 −1

0

Quantili Empirici

0.6 0.4 0.0

−2

0.2

Funzione di Ripartizione

0.8

3

1.0

Funzioni di Ripartizione

35.5

36.5

37.5

Temperatura Corporea (°C)

38.5

−2

−1

0

1

2

Quantili Teorici

Figura 5.23: Temperatura corporea. Approssimazione gaussiana della funzione di ripartizione e dei quantili empirici.

77

5.4. APPLICAZIONI

0.3 0.0

0.1

0.2

Funzione di densità

0.3 0.2 0.0

0.1

Funzione di densità

0.4

Somma del Punteggio di 50 Lanci

0.4

Somma del Punteggio di 10 Lanci

−4

−2

0

2

Somma Standardizzata

4

−4

−2

0

2

4

Somma Standardizzata

Figura 5.24: Teorema centrale di convergenza. Approssimazione gaussiana della somma dei punteggi ottenuti in n lanci di un dado.

78

DISTRIBUZIONE GAUSSIANA

Confrontare distribuzioni L’analisi e l’interpretazione dei dati richiede spesso il confronto di una pluralit` a di distribuzioni, confronto che pu` o essere effettuato sia per mezzo di diagrammi che per mezzo di statistiche riassuntive. Rivediamo alcuni esempi gi` a presentati. Come si `e trasformata la struttura delle famiglie nel secondo dopoguerra? Se limitiamo l’attenzione alla dimensione delle famiglie, il problema `e riconducibile al confronto delle distribuzioni di frequenza delle famiglie secondo il numero di componenti (Tabella 2.2) dal quale risulta un progressivo spostamento verso sinistra della distribuzione, cio`e una progressiva riduzione della dimensione nel corso del tempo. Gli indici di posizione riflettono questo andamento; la media, ad esempio, passa da 3.6 componenti nel 1961 a 2.6 nel 2001. Questo indica che la dimensione familiare `e un fenomeno con una dinamica temporale precisa. Il passo successivo `e ottenere un modello statistico di questa dinamica che consenta anche di effettuare previsioni. Esiste una tendenza statistica nella distribuzione delle cifre decimali di π? Il confronto dell’istogramma di un campione di cifre con un’ipotetica curva di densit` a uniforme suggerisce un buon adattamento (Figura 2.5). Questo esempio `e molto diverso dal precedente perch`e qui i dati campionari vengono confrontati con un modello distributivo teorico, di tipo matematico. C’`e un legame tra et` a e qualifica dei docenti universitari? Il confronto mediante diagrammi scatola-baffi dell’et` a dei ricercatori con quella dei professori associati e ordinari conferma la tendenza dell’et` a ad aumentare con la qualifica (Figura 4.17 e Tabella 4.18). La posizione relativa e la forma delle tre distribuzioni sono diverse. La differenza di et` a sembra aumentare con la qualifica, in particolare se consideriamo le et` a mediane. Dalla scomposizione della varianza emerge che circa il 30% della varianza totale `e attribuibile alle differenze tra le medie parziali. Nell’interpretare questo risultato si deve tener conto delle differenze tra et` a medie ed et` a mediane, dovute all’asimmetria delle distribuzioni. Viceversa, il confronto grafico dei risultati delle estrazioni del lotto a Napoli, Roma e Venezia suggerisce che le differenze osservate siano attribuibili all’errore di campionamento e che i dati provengano da una distribuzione uniforme. Un diverso criterio per confrontare distribuzioni, basato sulla funzione di ripartizione, viene presentato nella sezione seguente. 79

80

CONFRONTARE DISTRIBUZIONI

6.1

Ordinamento in distribuzione

I numeri reali sono un caso esemplare di insieme ordinato. Infatti siamo in grado di confrontare qualsiasi coppia di numeri reali x, y mediante la relazione ≤ (minore o uguale)53 , verificando se x ≤ y, y ≤ x oppure x = y. Questa relazione riflette l’ordinamento dei punti su una retta orientata: per ogni coppia di punti A e B possiamo sempre determinare se A precede B, o B precede A, oppure A e B coincidono.

F

M

Maratona: Confronto Femmine, Maschi

5

10

15

20

25

Tempi (scostamento da due ore, minuti)

Figura 6.25: Tempi nella maratona maschile e femminile.

Si potrebbe pensare di trasferire l’ordinamento dei numeri reali all’insieme delle distribuzioni numeriche dato che il loro intervallo di variazione `e un sottoinsieme della retta numerica. Ma una distribuzione di frequenza `e in realt` a un’assegnazione di pesi (frequenze relative) sulla retta numerica, pertanto questa estensione non `e possibile. Servono ordinamenti specifici per le distribuzioni. Esempio 48 (Maratona) Il confronto dei migliori 400 risultati di tutti i tempi ottenuti nella maratona dai maschi e dalle femmine mostra che la distribuzione dei maschi `e nettamente spostata a sinistra rispetto a quella delle femmine ed `e molto meno dispersa (Figura 6.25). Inoltre il tempo massimo dei maschi `e minore del tempo minimo delle femmine. Possiamo pertanto affermare che la distribuzione dei maschi “precede”, cio`e `e “minore” di quella delle femmine. Si intuisce che ogni indice di posizione della distribuzione dei maschi (media, mediana, quantili) risulter` a inferiore al corrispondente indice della distribuzione delle femmine. Nell’esempio precedente `e facile ordinare le due distribuzioni perch`e esse occupano intervalli disgiunti della retta numerica, un caso piuttosto raro. Di solito le distribuzioni hanno un’ampia regione di sovrapposizione.

81

6.1. ORDINAMENTO IN DISTRIBUZIONE

1.0

Premi Nobel

0.6 0.4 0.0

0.2

F. Ripartizione

0.8

Fisica Letteratura

20

30

40

50

60

70

80

90

Età

Figura 6.26: Funzioni di ripartizione delle et` a dei premi Nobel per la Fisica e la Letteratura.

Esempio 49 (Premi Nobel) L’istogramma delle et` a dei premi Nobel per la Fisica appare spostato a sinistra rispetto all’istogramma dei premi Nobel per la Letteratura, tuttavia i due intervalli sono quasi completamente sovrapposti (Tabella 2.7 e Figura 3.8). Una misura del grado di sovrapposizione scaturisce dal confronto delle frequenze cumulate fino ad una data et` a. Prendiamo ad esempio l’et` a x = 45. Le corrispondenti frequenze cumulate sono 28.2% e 3.9%. Questo indica che il 28.2% dei premi Nobel per la Fisica hanno un’et` a inferiore o al massimo uguale a 45 anni, contro il 3.9% dei premi Nobel per la Letteratura. Equivalentemente, i premi Nobel con et` a maggiore di 45 anni sono 71.8% e 96.1%, rispettivamente. Pertanto, in corrispondenza di un’et` a di 45 anni, la prima distribuzione assegna peso maggiore alla semiretta (−∞, 45] ed assegna invece peso minore alla semiretta complementare (45, +∞). Per l’et` a di 50 anni, i pesi assegnati alla semiretta (−∞, 50] sono 45.2% e 10.7%, mentre i pesi assegnati alla semiretta complementare (50, +∞) sono 54.8% e 89.3%. I risultati 53 Un ordinamento (di cui ≤ ` e un caso particolare) `e una relazione binaria che verifica le propriet` a riflessiva, antisimmetrica e transitiva.

82

CONFRONTARE DISTRIBUZIONI

suggeriscono che la prima distribuzione assegna una frequenza sistematicamente maggiore della seconda alla semiretta (−∞, x] ed assegna invece una frequenza sistematicamente minore della seconda alla semiretta (x, +∞). Il grafico delle due funzioni di ripartizione(Figura 6.26) conferma che questa relazione vale per ogni et` a x, ad eccezione delle et` a maggiori di 85 anni. La relazione d’ordine standard per le distribuzioni di frequenza, qui chiamata ordinamento in distribuzione e indicata con ≤D , confronta le distribuzioni in base al loro posizionamento sulla retta reale. Essa stabilisce che una distribuzione `e “minore” di un’altra se attribuisce sistematicamente pi` u peso/frequenza alla semiretta (−∞, x]. Poich`e la frequenza relativa di (−∞, x] `e il valore della funzione di ripartizione nel punto x, `e chiaro che la relazione `e facilmente esprimibile attraverso tale funzione. Definizione 15 (Ordinamento in distribuzione) Se una coppia di distribuzioni numeriche X, Y , con funzioni di ripartizione FX , FY , verifica la relazione FX (z) ≥ FY (z) per ogni numero reale z, allora X ≤D Y .

C’`e una semplice verifica grafica dell’ordinamento in distribuzione. Se il diagramma di FX `e sistematicamente al di sopra di quello di FY allora X ≤D Y ; se invece il diagramma di FY `e sistematicamente al di sopra di quello di FX allora Y ≤D X. Se i due diagrammi si intersecano, le due distribuzioni non sono ordinabili. Infatti la relazione ≤D , diversamente dall’ordinamento della retta numerica, `e una relazione d’ordine parziale.

Esempio 50 (Docenti di Statistica) Come mostra la Figura 6.27, le distribuzioni delle et` a dei ricercatori, dei professori associati e degli ordinari sono ordinate: XRic ≤D XAss ≤D XOrd .La distanza verticale dei grafici misura il divario tra le corrispondenti distribuzioni ad ogni et` a. L’area della superficie compresa tra i grafici fornisce una misura complessiva del divario. le diverse tipologie distributive si rispecchiano nell’andamento dei grafici. L’asimmetria positiva delle curve di densit` a di ricercatori ed associati si riflette nella “ripidit` a” del tratto iniziale del grafico della funzione di ripartizione. Al contrario, la pendenza del grafico degli ordinari rimane bassa fino all’et` a di 50 anni e poi aumenta molto, in accordo con l’asimmetria negativa della curva di densit` a. L’ordinamento in distribuzione pone severe limitazioni alle distribuzioni. In particolare esso implica l’ordinamento dei quantili e delle medie. Teorema 16 (Implicazioni dell’ordinamento in distribuzione) Se X ≤D Y , allora xp ≤ y p per ogni 0 < p < 1, e

µX ≤ µ Y .

83

6.1. ORDINAMENTO IN DISTRIBUZIONE

1.0

Docenti di Statistica

0.6 0.4 0.0

0.2

F. Ripartizione

0.8

Ricercatori Associati Ordinari

30

40

50

60

70

80

Età

Figura 6.27: Funzioni di ripartizione delle et` a dei docenti di Statistica, per qualifica (2005). Dimostrazione. Suppongo, per assurdo, yp < xp . Per definizione di quantile xp = inf {z : FX (z) ≥ p}. Essendo per ipotesi X ≤D Y , segue FX (yp ) ≥ FY (yp ) ≥ p, perch`e yp `e quantile d’ordine p di Y . Questa disuguaglianza afferma che esiste un valore yp < xp tale che FX (yp ) ≥ p, pertanto xp non pu` o essere quantile d’ordine p di X. Contraddizione. La dimostrazione della seconda parte del teorema utilizza l’identit` a µX =

Z

+∞ 0

(1 − FX (z))dz −

Z

0

FX (z)dz, −∞

valida sia per le variabili continue che per le discrete. Essa afferma che la media `e la differenza tra due aree, S (+) ed S (−) . S (+) `e l’area della superficie compresa tra la retta x = 0, la curva y = FX (z) (cio`e il diagramma della funzione di ripartizione) e la retta y = 1. S (−) `e l’area della superficie compresa tra la retta x = 0, la curva y = FX (z) e la retta y = 0. Dall’identit` a segue che la differenza

84

CONFRONTARE DISTRIBUZIONI

tra le medie `e pari a µY − µ X =

Z

+∞ −∞

(FX (z) − FY (z))dz.

Se X ≤D Y , FX (z) ≥ FY (z) per ogni z, pertanto µY ≥ µX .

6.2

Curve di dispersione

Lo scarto interquantilico SIQ(p) = x(1+p)/2 −x(1−p)/2 , 0 < p < 1, `e la lunghezza dell’intervallo avente come estremi i quantili d’ordine (1 − p)/2 e (1 + p)/2. Ponendo ad esempio p = 0.5 si ottiene lo scarto interquartilico SIQ(0.5) = x0.75 − x0.25 . Le propriet` a dei quantili implicano che SIQ(p) ≥ 0 per ogni 0 < p < 1 e che, se p1 < p2 , SIQ(p1 ) < SIQ(p2 ). La curva di dispersione54 `e il grafico della funzione p → SIQ(p). Esso permette di osservare dettagliatamente la dispersione della distribuzione nel suo intervallo di variazione e di effettuare confronti tra distribuzioni diverse.

Esempio 51 (Maratona) La Figura 6.28 mostra le curve di dispersione dei tempi nella maratona maschile e femminile. La curva di dispersione delle femmine `e costantemente al di sopra di quella dei maschi il che indica che, a parit` a di 0 < p < 1, SIQ(p) `e sempre maggiore per le femmine. Si pu` o pertanto affermare che la distribuzione delle femmine `e pi` u dispersa di quella dei maschi. Il tratto quasi verticale all’estremit` a destra della curva di dispersione delle femmine `e in accordo con la presenza di dati sparsi nella coda sinistra (Figura 6.25). La curva di dispersione permette di confrontare distribuzioni sotto il profilo della variabilit` a. Essa `e invariante alle traslazioni ma risente delle trasformazioni di scala. Teorema 17 (Curva di dispersione e trasformazioni lineari) Sia SIQX (p) = x(1+p)/2 − x(1−p)/2 la curva di dispersione della variabile X. Se Y = a + bX, b 6= 0, allora SIQY (p) =| b | SIQX (p). Dimostrazione. Il teorema `e una conseguenza dell’equivarianza dei quantili rispetto alle trasformazioni lineari. Infatti, se b > 0, yp = a + bxp mentre, se b < 0 yp = a + bx1−p .

85

6.2. CURVE DI DISPERSIONE

700

Curva di Dispersione

200

300

400

500

Maratona Maschi

0

100

Scarto Interquantilico

600

Maratona Femmine

0.0

0.1

0.2

0.3

0.4

0.5

Frequenza Intervallo Interquantilico

Figura 6.28: Curve di dispersione dei tempi nella maratona di maschi e femmine.

Esempio 52 (Docenti di Statistica) Le curve di dispersione delle et` a dei docenti di Statistica mostrano che ricercatori e ordinari hanno caratteristiche simili. Le et` a degli associati presentano una maggiore variabilit` a per 0.2 < p < 0.8. Questo risultato `e gi` a suggerito dai diagrammi scatola-baffi (Figura 4.17).

54 La curva di dispersione ` e stata proposta da R. Liu nel 1999 in un contesto multivariato col nome di scale curve.

86

CONFRONTARE DISTRIBUZIONI

Curva di Dispersione

Età Ricercatori

30

Età Associati

20 10 0

Scarto Interquantilico

Età Ordinari

0.0

0.2

0.4

0.6

0.8

1.0

Frequenza Intervallo Interquantilico

Figura 6.29: Curve di dispersione delle et` a dei docenti di Statistica, per qualifica (2005).

Relazioni tra variabili La rilevazione congiunta di pi` u variabili su ciascuna unit` a estende in modo significativo la portata delle analisi statistiche. Diventa infatti possibile descrivere un collettivo di unit` a secondo una pluralit` a di dimensioni diverse, rilevanti per l’indagine, migliorando l’aderenza al problema. Emerge inoltre il tema nuovo delle relazioni tra variabili, di grande importanza sia metodologica che pratica. Scoprire che alcune variabili sono dipendenti pu` o fornire elementi utili all’individuazione delle determinanti di un fenomeno e delle loro modalit` a d’interazione. A sua volta, questo rappresenta il presupposto per migliorare l’accuratezza delle previsioni statistiche. Supponiamo, ad esempio, che la variabile d’interesse principale sia il reddito familiare. Introdurre nello studio come variabili concomitanti il numero di percettori di reddito, la loro et` a, titolo di studio e qualifica professionale pu` o ridurre in misura significativa l’errore di previsione del reddito familiare. Negli studi epidemiologici, in cui l’obiettivo `e individuare fattori di rischio (o di protezione) rispetto ad una patologia, si controllano nei soggetti esposti sia parametri clinici sia variabili legate allo stile di vita nella speranza di scoprire predittori efficaci. I dati che scaturiscono da un’indagine multivariata sono usualmente ordinati in una tabella, la matrice dei dati, in cui le righe corrispondono alle unit` a di rilevazione, le colonne alle variabili. Esempio 53 (Caratteristiche delle autovetture) La Tabella 7.23 riporta le caratteristiche di alcuni modelli di autovetture, ricavate dalle certificazioni dei costruttori. Le unit` a statistiche sono otto modelli di autovetture. Le variabili sono sei: due qualitative (classe e alimentazione), le altre quattro numeriche (consumo, emissioni di CO2 (grammi/km), rumore (decibel) e cilindrata (cm3 )). Ogni riga fornisce il profilo multivariato del corrispondente modello, mentre ogni colonna elenca le determinazioni della corrispondente variabile rilevate nel campione. I dati confermano l’aumento del consumo di carburante e delle emissioni di CO2 al crescere della cilindrata. Un’indagine multivariata, caratterizzata dalla rilevazione congiunta di pi` u di una variabile su ciascuna unit` a, `e profondamente diversa dalla rilevazione delle stesse variabili, separatamente l’una dall’altra. Essa infatti permette di controllare se le variabili sono associate, se cio`e determinati valori di una variabile tendono ad associarsi in modo preferenziale a determinati valori di un’altra 87

88

RELAZIONI TRA VARIABILI Modello Toyota Aygo 1.0 Chevrolet Matiz 800 Fiat Punto 1.2 8V Bipower Opel Corsa 1.3 CDTI Ecotec Ford Focus VCT Honda Civic 5D 1.4i Mercedes E200 NGT Volvo V70D5 Modello Toyota Aygo 1.0 Chevrolet Matiz 800 Fiat Punto 1.2 8V Bipower Opel Corsa 1.3 CDTI Ecotec Ford Focus VCT Honda Civic 5D 1.4i Mercedes E200 NGT Volvo V70D5

Classe Mini Mini Utilitaria Utilitaria Media Inf. Media Inf. Media Sup. Media Sup. CO2 109 127 119 122 155 139 168 169

Alimentazione Benzina Benzina Metano Diesel Benzina Benzina Metano Diesel Rumore 70 71.4 72 69 70 69.8 73 73

Consumo 4.6 5.2 4.3 4.5 6.4 5.9 6.1 6.4 Cilindrata 998 796 1242 1248 1596 1339 1796 2400

Tabella 7.23: Caratteristiche di alcuni modelli di autovetture variabile. Nell’Esempio 53, basse (alte) cilindrate si associano a bassi (alti) consumi e basse (alte) emissioni; non emerge invece una relazione altrettanto chiara tra cilindrata e rumorosit` a.

7.1

Distribuzioni congiunte

Come nel caso univariato, l’analisi dei dati multivariati si propone di riassumere le caratteristiche delle variabili osservate per mezzo della loro distribuzione congiunta. L’operazione mediante la quale si costruisce la distribuzione congiunta `e ancora una classificazione delle unit` a di rilevazione secondo le modalit` a delle variabili osservate. Le classi, e qui emerge la differenza rispetto al caso univariato, sono gli elementi del prodotto cartesiano delle modalit` a di ciascuna variabile. Supponiamo di chiedere ad n soggetti se hanno letto il romanzo Gita a Tindari di A. Camilleri (modalit` a: non letto, NL, e letto, L) e se hanno visto l’omonimo sceneggiato televisivo (modalit` a: non visto, NV, e visto, V). Le modalit` a congiunte sono il prodotto cartesiano {N L, L} × {N V, V } = {(N L, N V ), (N L, V ), (L, N V ), (L, V )} . L’interpretazione `e immediata: la classe (N L, N V ) comprende i soggetti che non hanno letto il libro n`e visto il film, la classe (N L, V ) comprende invece i soggetti che non hanno letto il libro ma hanno visto il film, e cos`ı via. Supponiamo anche di classificare gli stessi soggetti secondo il genere (modalit` a: femmina, F, e maschio, M) e lo stato civile (modalit` a: celibe/nubile, SC1, coniugato/a, SC2,

89

7.1. DISTRIBUZIONI CONGIUNTE

separato/a o divorziato/a, SC3, vedovo/a, SC4). Le modalit` a congiunte sono il prodotto cartesiano {F, M } × {SC1, SC2, SC3, SC4} = {(F, SC1), (F, SC2), (F, SC3), (F, SC4), (M, SC1), (M, SC2), (M, SC3), (M, SC4)} . Anche in questo caso il significato delle modalit` a congiunte `e evidente: (F, SC1) comprende le nubili, (M, SC1) i celibi, e cos`ı via. La frequenza assoluta congiunta `e il numero delle unit` a di rilevazione appartenenti ad ogni classe, caratterizzate da una particolare combinazione delle modalit` a delle variabili. Nell’esempio precedente, la frequenza congiunta della classe (L, V ) `e il numero di soggetti che hanno letto Gita a Tindari e visto il film. La frequenza congiunta di (F, SC2) `e il numero delle coniugate. Come nel caso univariato, l’esame della distribuzione congiunta cerca di identificare le classi pi` u/meno rappresentate, la loro tendenziale omogeneit` a o sperequazione, la presenza di associazioni. Genere F M

E 866 744

Facolt` a F L 631 617 297 194

S 145 367

Tabella 7.24: Immatricolati a Ca’ Foscari per genere e facolt` a, a. a. 2002/03. Esempio 54 (Immatricolati a Ca’ Foscari) Abbiamo classificato gli studenti iscritti al primo anno di una laurea triennale di Ca’ Foscari nel 2002/03 secondo il genere e la facolt` a. La prima variabile ha due modalit` a (femmina, F, maschio, M), la seconda ne ha quattro (Economia, E, Lettere e Filosofia, F, Lingue, L, Scienze, S) pertanto la distribuzione congiunta ha 8 = 2×4 modalit` a. Se avessimo rilevato separatamente genere e facolt` a sapremmo quanti sono i maschi e quante le femmine del collettivo e sapremmo quanti sono gli iscritti alle quattro facolt` a. Non potremmo per` o valutare l’associazione genere/facolt` a. La Tabella 7.24 ci d` a proprio questa informazione, mostrando gli effettivi delle otto classi. Le femmine iscritte ad Economia sono 866, quelle iscritte a Scienze sono solo 145; i maschi iscritti ad Economia sono 744, quelli iscritti a Lingue sono solo 194, e cos`ı via. La moda della distribuzione congiunta, cio`e la classe pi` u numerosa, `e (F, E), le studentesse di Economia, mentre la classe meno numerosa `e (F, S), le studentesse di Scienze. Le associazioni che sembrano emergere sono: femmine e facolt` a umanistiche, maschi e Scienze. Economia riscuote successo sia presso i maschi che presso le femmine. Poich`e le modalit` a delle variabili sono incompatibili ed esaustive, ogni unit` a di rilevazione viene contata in una e una sola modalit` a congiunta. Pertanto la somma delle frequenze assolute congiunte `e sempre uguale al numero delle unit` a di rilevazione. Le frequenze relative congiunte, che si ottengono dalle assolute mediante divisione per la numerosit` a totale, consentono una valutazione immediata dell’importanza delle modalit` a.

90

RELAZIONI TRA VARIABILI

Reddito 2002, X ≤ x0.2 (x0.2 , x0.4 ] (x0.4 , x0.6 ] (x0.6 , x0.8 ] > x0.8

≤ y0.2 14.12 4.02 1.14 0.46 0.28

Reddito 2004, Y (y0.2 , y0.4 ] (y4 , y6 ] (y6 , y8 ] 4.34 0.98 0.44 9.48 4.06 1.62 4.86 9.52 4.04 1.04 4.36 9.58 0.28 1.1 4.3

> y0.8 0.12 0.84 0.46 4.54 14.04

Tabella 7.25: Famiglie italiane per classi quintiliche di reddito 2002 e 2004 (fonte: Banca d’Italia). Esempio 55 (Bilanci familiari) Il piano di campionamento della rilevazione Banca d’Italia prevede che una parte delle famiglie resti nel campione per pi` u indagini consecutive (cosiddette famiglie panel) per permettere di studiare la dinamica del reddito da un periodo all’altro utilizzando questo sottoinsieme. La Tabella 7.25 mostra la distribuzione congiunta del reddito 2002 e del reddito 2004. Gli estremi delle classi sono i quintili del reddito nel 2002 e nel 2004. L’interpretazione dei risultati `e semplice. Vediamo qualche esempio. La cella all’incrocio della seconda riga e della seconda colonna individua le famiglie che sia nel 2002 che nel 2004 avevano un reddito compreso fra il primo ed il secondo quintile; la loro frequenza `e pari al 9.5% del totale. Invece la cella all’incrocio della seconda riga e della terza colonna individua le famiglie che nel 2002 avevano un reddito compreso tra il primo ed il secondo quintile, mentre nel 2004 avevano un reddito compreso tra il secondo ed il terzo quintile; la corrispondente frequenza `e 4.1%. Com’`e nelle aspettative, la posizione relativa delle famiglie sulla scala reddituale `e piuttosto stabile. Le celle sulla diagonale principale della tabella, comprendenti le famiglie la cui posizione `e rimasta invariata, rappresentano il 56.7% del totale. Le celle sotto la diagonale, comprendenti le famiglie la cui posizione `e peggiorata, rappresentano il 21.8% del totale. Le celle sopra la diagonale, corrispondenti alle famiglie che hanno migliorato la loro posizione, rappresentano il restante 21.4% delle famiglie. Le variazioni di posizione pi` u frequenti sono i passaggi nella classe reddituale immediatamente inferiore o superiore (34.5% del totale). Gli altri eventi sono molto pi` u rari. L’esempio seguente riguarda la mobilit` a della popolazione residente sul territorio italiano. Esempio 56 (Trasferimenti di residenza) L’ISTAT rileva annualmente i trasferimenti di residenza interni, da un comune all’altro, ed esterni, da e per l’estero. Nel 200255 sono stati registrati 1 milione e 224 mila trasferimenti di residenza tra comuni italiani. La maggioranza ha riguardato comuni della stessa provincia (59.2%), seguiti da quelli interregionali (27.5%) e da quelli tra province della stessa regione (13.3%). La Tabella 7.26 mostra la distribuzione congiunta dei 336·461 trasferimenti interregionali per area territoriale di origine 55 ISTAT, I trasferimenti di residenza. Collana Statistiche in breve, 25/2/2005.

Iscrizioni e cancellazioni anagrafiche nel 2002,

91

7.2. DISTRIBUZIONI MARGINALI

Origine Nord-ovest Nord-est Centro Sud Isole Totali

Nord-ovest 7.1 3.7 3.4 9.4 5.0 28.6

Destinazione Nord-est Centro 4.6 3.7 3.4 2.5 3.1 3.8 8.7 9.2 3.6 2.7 23.4 21.9

Sud 5.4 3.4 4.6 4.0 1.0 18.4

Isole 3.3 1.6 1.5 1.1 0.2 7.7

Totali 24.2 14.6 16.4 32.3 12.5 100.0

Tabella 7.26: Trasferimenti di residenza interregionali, per area di origine e destinazione, 2002 (fonte: ISTAT). e di destinazione. La lettura dei risultati `e immediata. Ad esempio la cella (1, 1) individua i trasferimenti interregionali tra comuni di regioni del nord-ovest. La cella (1, 2) individua i trasferimenti interregionali da comuni del nord-ovest a comuni del nord-est e la cella (2, 1) individua i trasferimenti interregionali da comuni del nord-ovest a comuni del nord-est. I risultati permettono di ricostruire le direttrici principali dei flussi migratori. La moda della distribuzione corrisponde ai movimenti da regioni del sud a regioni del nord-ovest, seguiti, in ordine di importanza, dai movimenti dal sud verso il centro e dal sud verso il nord-est. Le celle sulla diagonale principale individuano i movimenti tra regioni diverse ma all’interno della stessa area. Esse comprendono il 18.5% di tutti i trasferimenti. I totali di riga misurano le cancellazioni dalle liste anagrafiche delle cinque aree mentre i totali di colonna misurano le nuove iscrizioni. Se per un’area le cancellazioni superano le nuove iscrizioni, essa registra un deflusso netto di residenti. La tabella mostra che questo si verifica per le regioni del sud e delle isole. Circa il 45% dei trasferimenti interregionali hanno origine nel mezzogiorno e la destinazione principale `e il nord-ovest, seguito dal centro e dal nord-est.

7.2

Distribuzioni marginali

Dalla distribuzione congiunta si ottengono facilmente le distribuzioni univariate di ogni variabile. Per le distribuzioni bivariate esse corrispondono, rispettivamente, ai totali di riga e di colonna della tabella delle frequenze congiunte. Consideriamo, ad esempio, la prima riga. Poich`e le modalit` a della variabile che indicizza le colonne sono incompatibili ed esaustive, le celle della prima riga sono una partizione della prima modalit` a della variabile che indicizza le righe. Pertanto la somma dei loro effettivi, le frequenze congiunte della prima riga, restituisce la frequenza della prima modalit` a della variabile che indicizza le righe. Le distribuzioni univariate vengono chiamate distribuzioni marginali perch`e nel caso bivariato sono riportate nel margine destro ed inferiore della tabella delle frequenze congiunte. La notazione usata per le distribuzioni congiunte ricalca quella delle distribuzioni univariate. Supponiamo di chiamare X, Y le variabili osservate. La fre-

92

RELAZIONI TRA VARIABILI

quenza relativa della modalit` a congiunta (Xh , Yk ) `e indicata con fX,Y (Xh , Yk ) o anche fX,Y (x, y) se non `e essenziale specificare gli indici delle modalit` a. La distribuzione marginale di X `e fX (Xh ) =

K X

fX,Y (Xh , Yk ), h = 1, . . . , H,

k=1

e la distribuzione marginale di Y `e fY (Yk ) =

H X

fX,Y (Xh , Yk ), k = 1, . . . , K.

h=1

Ad esempio, nella Tabella 7.26, la frequenza marginale dei trasferimenti di residenza interregionali da comuni del nord-ovest `e pari a fX (X1 ) =

5 X

fX,Y (X1 , Yk ) = 7.1 + 4.6 + 3.7 + 5.4 + 3.3 = 24.2

k=1

e la frequenza marginale dei trasferimenti interregionali verso comuni del centro `e 5 X fY (Y3 ) = fX,Y (Xh , Y3 ) = 3.7 + 2.5 + 3.8 + 9.2 + 2.7 = 21.9. h=1

Esempio 57 (Obesit` a e sovrappeso) L’ISTAT, in un’indagine campionaria realizzata nel 199956 , ottiene le prime informazioni dettagliate sulla diffusione dell’obesit` a. La popolazione di riferimento `e la popolazione italiana con 18 anni o pi` u. Le variabili rilevate sono il genere (maschi, femmine), l’et` a (classi decennali, eccetto la prima e l’ultima) e l’indice di massa corporea (IMC), definito come rapporto tra il peso di un individuo, in chilogrammi, e il quadrato della statura, in metri. Le modalit` a di IMC sono: sottopeso (IM C < 18.5), normopeso (18.5 ≤ IM C < 25), sovrappeso (25 ≤ IM C < 30), obesit` a (IM C > 30). La Tabella 7.27 mostra la distribuzione congiunta delle tre variabili, avente 2 × 7 × 4 = 56 celle. Le femmine sono un po’ pi` u numerose dei maschi, 51.9% contro 48.1%. La percentuale di obesi `e 9.2%, 4.5% maschi e 4.7% femmine. Nell’esempio precedente abbiamo tre distribuzioni marginali bivariate (genere ed et` a, genere e IM C, et` a e IM C) e tre distribuzioni marginali univariate (genere, et` a e IM C). Ad esempio, i maschi con 75 anni o pi` u sono il 3.3% e le femmine sono il 5.8%. Nella classe d’et` a [45 − 55) gli obesi sono il 2.2%.

7.3

Distribuzioni subordinate

Nello studio delle distribuzioni statistiche si richiede talvolta di modificare l’ambito dell’indagine, restringendo l’insieme delle unit` a di rilevazione. La distribuzione per et` a della popolazione `e spesso analizzata separatamente per maschi e 56 ISTAT,

Obesit` a e sovrappeso, Collana Statistiche in breve, 13/3/2001.

93

7.3. DISTRIBUZIONI SUBORDINATE

Et` a

Sottopeso

[18 − 25) [25 − 35) [35 − 45) [45 − 55) [55 − 65) [65 − 75) ≥ 75 Totali

0.17 0.12 0.03 0.04 0.03 0.04 0.04 0.47

[18 − 25) [25 − 35) [35 − 45) [45 − 55) [55 − 65) [65 − 75) ≥ 75 Totali

0.91 0.98 0.42 0.20 0.14 0.12 0.34 3.11

IMC Normopeso Sovrappeso GENERE : Maschi 4.16 0.95 5.83 3.13 4.41 4.19 2.89 3.98 2.40 3.51 1.87 2.88 1.59 1.38 23.15 20.02 GENERE : Femmine 3.70 0.40 7.01 1.12 6.44 1.88 4.52 2.47 3.28 2.77 3.09 2.62 2.73 2.05 30.77 13.31

Obesit` a

Totali

0.09 0.42 0.78 1.11 1.01 0.77 0.30 4.48

5.37 9.52 9.41 8.01 6.94 5.51 3.31 48.07

0.09 0.27 0.54 1.05 1.12 0.97 0.70 4.74

5.09 9.38 9.28 8.24 7.30 6.80 5.82 51.91

Tabella 7.27: Popolazione con 18 anni e pi` u per genere, et` a e indice di massa corporea (IMC), 1999 (fonte: ISTAT). femmine. La distribuzione delle aziende di un dato settore secondo il risultato di bilancio `e talvolta ristretta alle sole aziende col bilancio in attivo. In questi casi il fattore di normalizzazione delle frequenze `e la numerosit` a del sottoinsieme di unit` a statistiche in esame: il numero di maschi, il numero di femmine, il numero di aziende col bilancio in attivo. Questo procedimento trova un’applicazione importante proprio nello studio delle distribuzioni congiunte in cui, insieme con la distribuzione congiunta e le distribuzioni marginali, si considerano anche le distribuzioni subordinate (o condizionali), cio`e le distribuzioni di una variabile limitatamente a qualche modalit` a di un’altra variabile. Genere F M

E 38.3 46.4

Facolt` a F L 27.9 27.3 18.5 12.1

Tabella 7.28: Immatricolati a Ca’ Foscari. facolt` a, per genere.

S 6.4 22.9

Totali 100 100

Distribuzioni subordinate della

Esempio 58 (Immatricolati a Ca’ Foscari) Maschi e femmine mostrano lo stesso orientamento nella scelta della facolt` a? A prima vista sembra sufficiente confrontare le frequenze di maschi e femmine per ciascuna facolt` a. Questo pro-

94

RELAZIONI TRA VARIABILI

cedimento, in generale, produce risultati distorti perch`e i collettivi che vengono comparati, in questo caso i maschi e le femmine, hanno numerosit` a diverse. Affinch`e il confronto sia corretto, le frequenze congiunte di ciascuna riga devono essere divise per la loro somma, cio`e la corrispondente frequenza marginale. Otteniamo cos`ı la distribuzione delle facolt` a, subordinatamente al genere degli immatricolati, femmina oppure maschio. Le due distribuzioni si leggono nelle righe della Tabella 7.28. Ad esempio, la frequenza subordinata di Lettere e filosofia, limitatamente alle femmine, `e 617/2259 ' 27.3%. Per i maschi, la stessa percentuale `e 194/1602 ' 12.1%. I due risultati sono ora comparabili perch`e la divisione per i rispettivi totali di riga ha eliminato il fattore di distorsione. Va sottolineata la differenza tra frequenza congiunta e frequenza subordinata. La percentuale delle femmine immatricolate a Lettere e filosofia `e 617/3861 ' 16.0%, contro il 27.3% della frequenza subordinata. La differenza sta tutta nel collettivo di riferimento: per la frequenza congiunta `e la totalit` a delle unit` a rilevate, maschi e femmine; per la frequenza subordinata `e il sottoinsieme delle femmine. Possiamo considerare anche la distribuzione del genere degli immatricolati, subordinatamente alla facolt` a, Economia, Lettere e Filosofia, Lingue o Scienze. Basta dividere le frequenze di ciascuna colonna per la corrispondente somma, la frequenza marginale. Le cinque distribuzioni si leggono nelle colonne della Tabella 7.29. Ad esempio, la frequenza subordinata delle femmine, limitatamente alla facolt` a di Scienze, `e 145/512 ' 28.3%. La frequenza subordinata delle femmine, limitatamente alla facolt` a di Lingue, `e invece 617/811 ' 76.1%. Nel complesso, le Tabelle 7.28 e 7.29 mostrano una netta prevalenza delle femmine nelle facolt` a umanistiche mentre a Scienze prevalgono i maschi. La composizione degli immatricolati di Economia `e molto pi` u equilibrata.

Genere F M Totali

E 53.8 46.2 100

Facolt` a F L 68.0 76.1 32.0 23.9 100 100

S 28.3 71.7 100

Tabella 7.29: Immatricolati a Ca’ Foscari. Distribuzioni subordinate del genere, per facolt` a. Le distribuzioni subordinate sono distribuzioni statistiche a tutti gli effetti e ne condividono le propriet` a e le modalit` a di analisi. Consideriamo il caso bivariato. La generica distribuzione di Y , dato X = Xh , si indica con la notazione Y |Xh : la variabile principale precede la barra verticale (simbolo di subordinazione), la condizione la segue. La corrispondente funzione di frequenza si indica con fY |Xh (Yk ) o con fY |Xh (y), se l’indice non `e necessario. Analogamente, la distribuzione di X, dato Y = Yk , si indica con X|Yk e la corrispondente funzione di frequenza con fX|Yk (Xh ) o fX|Yk (x). Se X ha H modalit` a e Y ne ha K, possiamo determinare H distribuzioni subordinate Y |Xh e K distribuzioni subordinate X|Yk .

95

7.3. DISTRIBUZIONI SUBORDINATE

X Nessuno L. Elem. Media I. Media S. Laurea

Nessuno 66.3 8.4 0.8 0.3 0.0

L. Elem. 28.9 70.9 22.3 5.2 0.9

Y Media I. 4.2 17.8 59.2 35.2 11.7

Media S. 0.5 2.9 16.5 49.0 45.8

Laurea 0.0 0.1 1.2 10.3 41.6

Marg. X 3.7 25.7 36.9 25.2 8.5

Tabella 7.30: Distribuzioni subordinate del titolo di studio del coniuge Y , per titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia). Il confronto delle distribuzioni subordinate Y |Xh (o X|Yk ) si basa sui criteri presentati nel Capitolo 5 e pu` o essere di tipo grafico o analitico. Per le variabili qualitative sono molto usati i diagrammi a rettangoli suddivisi. Supponiamo di dover confrontare le distribuzioni Y |Xh . Il diagramma contiene H rettangoli uguali, ciascuno dei quali `e diviso internamente in sotto-rettangoli di altezza pari alle frequenze subordinate fY |Xh (Yk ), k = 1, . . . , K.

Esempio 59 (Bilanci familiari) Dal campione di famiglie della Banca d’Italia abbiamo ricavato la distribuzione congiunta del titolo di studio del capofamiglia (X) e del coniuge (o convivente, Y ). La Tabella 7.30 mostra le corrispondenti distribuzioni subordinate Y |Xh e la distribuzione marginale di X. Il diagramma a rettangoli `e riportato nella Figura 7.30. Il livello di educazione dei coniugi `e, di norma, simile. La moda delle distribuzioni subordinate `e sempre coincidente con la modalit` a subordinante, con la sola eccezione dei capofamiglia laureati.

Quando le variabili sono numeriche, una conveniente rappresentazione grafica di una distribuzione congiunta bivariata `e il diagramma di dispersione, un grafico cartesiano in cui ad ogni unit` a di rilevazione corrisponde un punto le cui coordinate sono le determinazioni assunte congiuntamente dalle due variabili. Esempio 60 (Bilanci familiari) La distribuzione congiunta dell’et` a dei coniugi del campione della Banca d’Italia mostra una forte associazione tra le due variabili. Al crescere dell’et` a del capofamiglia cresce anche l’et` a del coniuge che per` o, di norma, `e inferiore alla prima. Essendo le variabili numeriche, la rappresentazione pi` u semplice dei dati `e il diagramma di dispersione. La Figura 7.31 mostra che la distribuzione `e concentrata attorno alla bisettrice del primo quadrante e rimane per lo pi` u al di sotto di essa. In questo grafico le distribuzioni subordinate Y |Xh corrispondono alle rette verticali di equazione x = Xh , e le distribuzioni subordinate X|Yk corrispondono alle rette orizzontali di equazione y = Yk . La Figura 7.32 riporta i diagrammi scatola-baffi delle distribuzioni

96

RELAZIONI TRA VARIABILI

100

Distribuzioni Subordinate Y|X

60 40 0

20

Frequenze Subordinate Y|X

80

Laurea M.Sup. M.Inf. L.Ele. Nessuno

Nessuno

L.Ele.

M.Inf.

M.Sup.

Laurea

Titolo di Studio del Capofamiglia

Figura 7.30: Bilanci familiari. Distribuzioni subordinate del titolo di studio del coniuge Y , per titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia). subordinate dell’et` a del coniuge, per classi di et` a del capofamiglia. Gli estremi delle classi sono i quintili della distribuzione: x(1) = 19, x0.2 = 41, x0.4 = 50, ` evidente il progressivo spostamento verx0.6 = 58, x0.8 = 68, x(n) = 96. E so destra delle distribuzioni subordinate. La tipologia distributiva `e unimodale simmetrica e la dispersione `e simile, con la sola eccezione dell’ultima distribuzione subordinata che `e pi` u dispersa. I numerosi dati anomali corrispondono alle coppie con forti differenze di et` a.

Le frequenze subordinate si ottengono dividendo le frequenze congiunte per la frequenza marginale della modalit` a subordinante. Le formule rilevanti sono fY |Xh (Yk ) = fX,Y (Xh , Yk )/fX (Xh ), k = 1, . . . , K, per le distribuzioni Y |Xh ; fX|Yk (Xh ) = fX,Y (Xh , Yk )/fY (Yk ), h = 1, . . . , H,

97

7.3. DISTRIBUZIONI SUBORDINATE

60 20

40

Età del Coniuge

80

100

Età dei Coniugi

20

40

60

80

100

Età del Capofamiglia

Figura 7.31: Diagramma di dispersione delle et` a del capofamiglia e del coniuge, 2004 (fonte: Banca d’Italia). per le distribuzioni X|Yk . Queste formule mostrano che, conoscendo le frequenze subordinate e le frequenze marginali della variabile subordinante, `e possibile ricavare le frequenze congiunte: fX,Y (Xh , Yk ) = fY |Xh (Yk ) × fX (Xh ) = fX|Yk (Xh ) × fY (Yk ). Ad esempio, dalla Tabella 7.30, la frequenza congiunta dei coniugi laureati `e ` ora facile verificare un’interessante fY |X5 (Y5 ) × fX (X5 ) = 0.416 × 0.085. E relazione tra le frequenze marginali e le frequenze subordinate. Teorema 18 (Relazione tra frequenze marginali e subordinate) La frequenza relativa marginale della modalit` a Yk di Y `e identicamente uguale alla media aritmetica ponderata delle frequenze subordinate fY |Xh (Yk ), con pesi uguali alle frequenze relative marginali fX (Xh ): fY (Yk ) =

H X

h=1

fY |Xh (Yk )fX (Xh ).

98

RELAZIONI TRA VARIABILI

Q1

Q2

Q3

Q4

Q5

Distr. Subordinate

20

40

60

80

Età del Coniuge

Figura 7.32: Diagrammi scatola-baffi delle distribuzioni subordinate dell’et` a del coniuge, per classi di et` a del capofamiglia, 2004 (fonte: Banca d’Italia). Analogamente, la frequenza relativa marginale della modalit` a X h di X `e identicamente uguale alla media aritmetica ponderata delle frequenze subordinate fX|Yk (Xh ), con pesi uguali alle frequenze relative marginali fY (Yk ): fX (Xh ) =

K X

fX|Yk (Xh )fY (Yk ).

k=1

` sufficiente dimostrare la prima relazione. Il punto di Dimostrazione. E partenza `e la relazione tra frequenze marginali di Y e frequenze congiunte. Poich`e H X fY (Yk ) = fX,Y (Xh , Yk ), h=1

moltiplicando e dividendo fX,Y (Xh , Yk ) per fX (Xh ) si ottiene fY (Yk ) =

H X

(fX,Y (Xh , Yk )/fX (Xh ))fX (Xh )

h=1

=

H X

h=1

fY |Xh (Yk )fX (Xh ).

7.4. DIPENDENZA IN SENSO STATISTICO

99

Nell’Esempio 54, indicando con X il genere e con Y la facolt` a, la frequenza marginale degli immatricolati a Economia `e fY (Y1 ) = fY |X1 (Y1 ) × fX (X1 ) + fY |X2 (Y1 ) × fX (X2 ) = 0.383 × 0.585 + 0.464 × 0.415 = 0.417, risultato coincidente con quello fornito dal metodo diretto. Nell’Esempio 59, la frequenza marginale dei coniugi laureati `e ottenibile allo stesso modo fY (Y5 ) =

5 X

h=1

fY |Xh (Y5 ) × fX (Xh )

= 0.0 × 0.037 + 0.001 × 0.257 + . . . + 0.416 × 0.085 ' 0.066, un valore inferiore a quello dei capofamiglia laureati.

7.4

Dipendenza in senso statistico

La definizione statistica di variabili dipendenti `e diversa da quella intuitiva corrente e anche da quella usata in Matematica e nelle Scienze sperimentali. Consideriamo ad esempio la funzione Y = X 2 . Fissato un valore di X, risulta univocamente determinato il valore della variabile dipendente Y . Se X `e noto, Y non ha pi` u alcun margine di variazione. Una nozione analoga `e sottintesa da moltissime leggi della Fisica. Ad esempio, la classica legge di Boyle-Mariotte57 afferma che, se una data massa di un gas ideale `e mantenuta a temperatura costante, la pressione P a cui `e sottoposto `e inversamente proporzionale al volume V occupato dal gas: P V = costante. Pertanto, se il volume `e fissato, la pressione non ha alcun margine di variazione e pu` o essere prevista con precisione. In Statistica, la situazione `e diversa. Un esempio familiare scaturisce dalla rilevazione del peso e della statura. Soggetti aventi lo stesso peso58 avranno nondimeno stature diverse. Anche se il peso `e costante, la statura mantiene un margine di variabilit` a. Una situazione analoga si incontra nello studio del reddito e della spesa delle famiglie. L’osservazione empirica mostra che in un campione omogeneo di famiglie, a parit` a di reddito si presentano livelli di spesa diversi. In generale, avendo osservato congiuntamente una coppia di variabili X, Y , se fissiamo la modalit` a Xh di X, Y varier` a in accordo con la distribuzione subordinata Y |Xh . La specificit` a dei fenomeni indagati dalla Statistica `e esattamente questa: ad ogni modalit` a di X corrisponde una distribuzione di valori di Y . Potrebbe sembrare che questo risultato escluda ogni possibilit` a di 57 La

legge fu formulata da R. Boyle nel 1664 e, indipendentemente, da E. Mariotte nel 1676. ipotizzando un campione omogeneo per genere, et` a, stili di vita.

58 Stiamo

100

RELAZIONI TRA VARIABILI

stabilire un criterio di dipendenza. Esso ci indica invece che il criterio da usare dev’essere fondato sulle distribuzioni subordinate. Anche se, per ogni modalit` a di X, Y mantiene un margine di variabilit` a, le distribuzioni subordinate Y |Xh , h = 1, . . . , H, possono essere abbastanza diverse da permettere di riconoscere una relazione. Nel caso del peso e della statura, al crescere del peso le distribuzioni subordinate della statura tendono a posizionarsi attorno a valori pi` u elevati. Nell’Esempio 54 maschi e femmine mostrano preferenze diverse nella scelta della facolt` a. Nell’Esempio 60, al crescere dell’et` a del capofamiglia, le distribuzioni subordinate dell’et` a del coniuge, pur mantenendo un certo grado di sovrapposizione, si spostano visibilmente su et` a pi` u elevate. La nozione di dipendenza statistica si basa sul confronto delle distribuzioni subordinate. Ricordiamo che due distribuzioni sono uguali se hanno lo stesso insieme di modalit` a e le frequenze delle modalit` a corrispondenti sono uguali. Definizione 19 (Variabili indipendenti) Le variabili X, Y sono (statisticamente) indipendenti se le distribuzioni subordinate Y |Xh , h = 1, . . . , H, sono uguali. Il significato della precedente definizione `e chiaro. Al variare della modalit` a Xh di X, le distribuzioni subordinate Y |Xh non variano, il che dal punto di vista statistico indica che non esiste alcuna relazione tra X e Y . Ovviamente, se le distribuzioni subordinate Y |Xh sono in qualche modo diverse, le due variabili sono dipendenti. L’indipendenza statistica ha alcune importanti conseguenze. In primo luogo, se le distribuzioni subordinate Y |Xh sono uguali, lo sono anche le distribuzioni subordinate X|Yk , pertanto la realzione di indipendenza statistica `e simmetrica: se Y `e indipendente da X, allora X `e indipendente da Y. Inoltre, se X e Y sono indipendenti, le distribuzioni subordinate Y |Xh , uguali per ipotesi, coincidono con la distribuzione marginale di Y . Questa propriet` a segue dalla relazione tra frequenze marginali e frequenze subordinate dimostrata nel Teorema 18. Lo stesso vale per le distribuzioni subordinate X|Yk . Il risultato di gran lunga pi` u interessante `e il teorema di fattorizzazione. Teorema 20 (Frequenze teoriche di indipendenza) Condizione necessaria e sufficiente affinch`e le variabili X e Y siano statisticamente indipendenti `e che le frequenze relative congiunte verifichino la seguente relazione (Ind)

fX,Y (Xh , Yk ) = fX,Y (Xh , Yk ) = fX (Xh )fY (Yk ), per ogni coppia (h, k), h = 1, . . . , H, k = 1, . . . , K. Dimostrazione. La necessit` a della condizione segue dalla definizione di frequenza subordinata. Infatti, se X e Y sono indipendenti, le frequenze subordinate fY |Xh (Yk ) sono uguali a fY (Yk ) per ogni h = 1, . . . , H e k = 1, . . . , K. Pertanto fY |Xh (Yk ) = fX,Y (Xh , Yk )/fX (Xh ) = fY (Yk )

101

7.4. DIPENDENZA IN SENSO STATISTICO

Genere F M

E 942 668

Facolt` a F L 543 475 385 336

S 299 213

Tabella 7.31: Immatricolati a Ca’ Foscari per genere e facolt` a, a. a. 2002/03. Frequenze teoriche di indipendenza. per ogni combinazione degli indici h e k. Questo prova la necessit` a. Per provare la sufficienza, basta osservare che, se fX,Y (Xh , Yk ) = fX (Xh )fY (Yk ) per ogni h = 1, . . . , H e k = 1, . . . , K, le frequenze subordinate fY |Xh (Yk ) risultano uguali alle frequenze marginali fY (Yk ), per ogni h = 1, . . . , H. Pertanto le distribuzioni subordinate Y |Xh sono uguali e le variabili sono indipendenti. Moltiplicando le frequenze relative teoriche di indipendenza per la numerosit` a totale n, otteniamo l’espressione delle frequenze assolute di indipendenza: (Ind)

nX,Y (Xh , Yk ) = nX (Xh )nY (Yk )/n, per ogni coppia di modalit` a (Xh , Yk ), h = 1, . . . , H, k = 1, . . . , K. In pratica, la frequenza congiunta della cella all’incrocio della riga h con la colonna k `e uguale al prodotto delle corrispondenti frequenze assolute marginali, diviso per la numerosit` a totale. Per ogni distribuzione congiunta osservata esiste una distribuzione ombra teorica, di solito puramente ipotetica, in cui le frequenze congiunte soddisfano questa relazione. Le due tabelle, quella osservata e quella teorica, sono uguali se e solo se le variabili sono indipendenti. Vale la pena osservare che la relazione di indipendenza tra le variabili `e l’unico caso in cui la distribuzione congiunta `e ricavabile dalle sole distribuzioni marginali. Esempio 61 (Immatricolati a Ca’ Foscari) Se maschi e femmine avessero le stesse preferenze per le facolt` a, le frequenze congiunte della distribuzione del genere e della facolt` a seguirebbero il modello di indipendenza (Tabella 7.31) mentre invece si notano vistose differenze. Ad esempio, la frequenza teorica di indipendenza delle femmine iscritte a Scienze `e pari a 512 × 2· 259/3·861 ' 299, molto pi` u alta del valore osservato pari a 145. La frequenza teorica di indipendenza dei maschi iscritti a Lingue `e pari a 811 × 1· 602/3·861 ' 336, pi` u alta del valore osservato pari a 194. L’indipendenza statistica `e un modello teorico usato come termine di confronto per le distribuzioni osservate. Raramente le distribuzioni osservate sono ` invece utile misurare la esattamente conformi al modello di indipendenza. E loro distanza dal modello di indipendenza. Quando i dati sono campionari, queste distanze permettono di valutare se le discrepanze tra le frequenze congiunte osservate e quelle teoriche di indipendenza sono attribuibili all’errore di campionamento, oppure rivelano una differenza reale, attribuibile al fatto che le variabili sono dipendenti.

102

RELAZIONI TRA VARIABILI

Una distanza molto usata `e la statistica chi-quadrato di Pearson χ2 =

H X K X

h=1 k=1

=

H X K X

h=1 k=1

( frequenze osservate − teoriche)2 /frequenze teoriche (Ind)

(Ind)

(nX,Y (Xh , Yk ) − nX,Y (Xh , Yk ))2 /nX,Y (Xh , Yk ).

Si dimostra che 0 ≤ χ2 ≤ n min {H − 1, K − 1}. Il valore 0 viene assunto se e solo se le variabili sono indipendenti. L’estremo superiore viene raggiunto quando nella distribuzione congiunta ogni riga ed ogni colonna ha una sola cella con frequenza positiva. In tal caso le distribuzioni subordinate sono tutte degeneri. Esempio 62 (Bilanci familiari) Il titolo di studio del capofamiglia e del coniuge (o convivente) sono statisticamente dipendenti. Infatti le distribuzioni subordinate (Tabella 7.30) sono diverse, con un’evidente concentrazione sul titolo di studio corrispondente alla modalit` a subordinante. La statistica chi-quadrato `e pari a 5· 156, un valore la cui interpretazione probabilistica segnala una forte discrepanza dal valore atteso nel caso di indipendenza.

Regressione e correlazione Le distribuzioni subordinate di una variabile Y rispetto ad una variabile X forniscono l’informazione necessaria per lo studio della relazione di Y con X. Se le distribuzioni subordinate sono uguali, le variabili sono statisticamente indipendenti. Se le distribuzioni subordinate sono diverse, Y dipende da X. Diventa allora importante, da un lato, quantificare il grado di dipendenza, dall’altro interpretare la relazione. Nel caso delle variabili Y numeriche, il compito `e facilitato dallo studio della variazione di qualche indice di posizione (media o mediana) delle distribuzioni subordinate Y |X, al variare di X. Da tali considerazioni scaturiscono le nozioni di regressione e correlazione che sono alla base delle indagini statistiche di causalit` a.

8.1

Funzioni di regressione

Il termine regression fu usato da F. Galton59 per descrivere la tendenza delle stature dei figli di padri alti a diminuire verso valori normali. Oggi i modelli di regressione sono usati per descrivere la relazione di una variabile dipendente rispetto a una o pi` u variabili esplicative. Noi ci limitiamo a considerare una coppia di variabili numeriche e indichiamo sempre con X la variabile esplicativa, con Y la variabile dipendente. Definizione 21 (Funzione di regressione) La funzione di regressione `e l’applicazione m : x → y|x

che ad ogni modalit` a della variabile esplicativa X associa la media della corrispondente distribuzione subordinata Y |X = x.

La funzione di regressione riassume le distribuzioni subordinate per mezzo delle corrispondenti medie evidenziando l’effetto della variabile esplicativa sul posizionamento della variabile dipendente. La dispersione interna delle distribuzioni subordinate, essenziale per valutare la precisione delle medie, viene misurata dalle deviazioni standard sY |x . Pertanto la funzione di regressione `e sempre accompagnata dalla funzione x → sY |x che ne descrive la qualit` a statistica. 59 F. Galton (1822-1911), medico e scienziato inglese, ` e considerato il pioniere del metodo statistico nelle indagini scientifiche.

103

104

REGRESSIONE E CORRELAZIONE N. Percettori, X 1 2 3 4 5 6 7

N. Famiglie (%) 3840 (47.9) 3228 (40.3) 752 (9.4) 174 (2.2) 16 (0.2) 1 (0.0) 1 (0.0)

Reddito Medio, y|x 20.4 35.5 46.7 56.6 65.1 85.3 111.2

sY |x 20.3 29.5 26.1 23.1 32.8 0 0

Tabella 8.32: Reddito medio familiare (migliaia di euro) in funzione del numero di percettori di reddito, 2004 (fonte: Banca d’Italia). Esempio 63 (Numero di percettori di reddito e reddito familiare) Il reddito familiare `e ovviamente influenzato dal numero di percettori di reddito presenti nelle famiglie. L’indagine sui bilanci familiari della Banca d’Italia consente di studiare la relazione tra le due variabili. I risultati, esposti nella Tabella 8.32, mostrano che il numero dei percettori varia da 1 a 7, con una fortissima concentrazione sui valori 1 (47.9% delle famiglie), 2 (40.3%) e 3 (9.4%). Le modalit` a estreme 6 e 7, con frequenza assoluta unitaria, sono praticamente irrilevanti. Conformemente alle aspettative, la funzione di regressione y|x mostra che il reddito familiare cresce col numero di percettori, ma in misura meno che proporzionale. Le deviazioni standard sY |x hanno un andamento oscillatorio, ma rivelano comunque l’esistenza di una non trascurabile dispersione dei redditi familiari all’interno delle distribuzioni subordinate, comparabile alla dispersione dei redditi nella distribuzione marginale, dato che sY ' 26.9. L’esempio precedente mostra che la funzione di regressione `e una funzione empirica le cui caratteristiche sono dettate dai dati. Allo studioso interessa rilevarne l’andamento, monotono (in particolare, lineare) crescente o decrescente, o non monotono, nel qual caso acquistano importanza i punti estremi. La funzione di regressione `e detta omoschedastica o eteroschedastica a seconda che la dispersione interna delle distribuzioni subordinate Y |X, misurata dalle deviazioni standard sY |x , sia costante o variabile. L’applicazione pi` u importante `e la previsione di Y . Infatti, y|x rappresenta la previsione statistica di Y , quando `e noto che X assume la determinazione x; sY |x misura il corrispondente errore di previsione. Quando la funzione di regressione `e costante, cio`e le medie delle distribuzioni subordinate Y |X non variano al variare di X, Y `e indipendente in media rispetto a X. In questo caso, da non confondere con l’indipendenza in distribuzione, non c’`e alcuna relazione funzionale di Y con X, almeno quando si usa come indice di posizione la media. Se X e Y sono indipendenti in distribuzione, sono necessariamente indipendenti in media perch`e l’uguaglianza delle distribuzioni subordinate implica l’uguaglianza dei corrispondenti indici di sintesi, in particolare delle medie. Viceversa, l’indipendenza in media non comporta, in generale, l’indipendenza in distribuzione.

` DELLA FUNZIONE DI REGRESSIONE 8.2. PROPRIETA

X -1 0 1 fY

-2 1/11 0 1/11 2/11

-1 1/11 1/11 1/11 3/11

Y 0 0 1/11 0 1/11

2 1/11 1/11 1/11 3/11

1 1/11 0 1/11 2/11

105

fX 4/11 3/11 4/11 1

Tabella 8.33: Distribuzione congiunta con variabili indipendenti in media e dipendenti in distribuzione. Esempio 64 (Indipendenza in media e indipendenza in distribuzione) Nella distribuzione congiunta della Tabella 8.33 Y `e indipendente in media da X perch`e µY |x = 0, x ∈ {−1, 0, 1} e X `e indipendente in media da Y perch`e µX|y = 0, y ∈ {−2, −1, 0, 1, 2}. D’altra parte, le variabili sono dipendenti in distribuzione perch`e, come `e facile verificare, le frequenze congiunte non rispettano il teorema di fattorizzazione. Nell’esempio seguente la funzione di regressione ha un andamento non monotono. Esempio 65 (Et` a media dei coniugi e numero di figli) Se studiamo la variazione del numero di figli conviventi in famiglia in relazione all’et` a media dei coniugi, la funzione di regressione cresce rapidamente quando i coniugi sono giovani, reggiunge il valore massimo attorno ai 45 anni e poi decresce gradualmente fin quasi ad azzerarsi. La Figura 8.33 mostra i risultati ricavati dal campione di famiglie dell’indagine della Banca d’Italia sui bilanci familiari, che descrive anche la composizione dei nuclei familiari. Le deviazioni standard s Y |x sono elevate e non lontane dalla deviazione standard marginale s Y ' 1.02 fino a x ' 65 anni, dopo di che si riducono sensibilmente. La frequenza dei valori estremi dell’et` a media dei coniugi `e di poche unit` a e questo potrebbe rendere poco attendibili le corrispondenti stime della funzione di regressione.

8.2

Propriet` a della funzione di regressione

La funzione di regressione gode di un’importante propriet` a di ottimalit` a, che generalizza l’ottimalit` a della media secondo il criterio dei minimi quadrati. In sintesi, descrivere la relazione di Y rispetto ad X con una funzione c(X) 6= y|X comporta un errore quadratico superiore rispetto a c(X) = y|X. Emerge inoltre un collegamento col teorema di scomposizione della varianza. Infatti le modalit` a X1 , . . . , XH della variabile esplicativa X inducono una partizione delle unit` a statistiche in H gruppi e le distribuzioni di Y all’interno di tali gruppi sono precisamente le distribuzioni subordinate Y |X1 , . . . , Y |XH . Pertanto la varianza marginale di Y `e la somma di una componente che misura la dispersione media all’interno delle distribuzioni subordinate (s2Y,W IT H ) e di una componente che misura la dispersione delle medie subordinate, cio`e della funzione di regressione, attorno alla media marginale di Y (s2Y,BET ).

106

REGRESSIONE E CORRELAZIONE

2.0 1.5 1.0 0.0

0.5

Numero Medio di Figli

2.5

3.0

Funzione di Regressione

* ** * ** *** ****** ******* *** ***** * ** * * * ****** * ** ** * * * ***** * ** * *** *** * * * **** ***** * ** ** * * * ** * *** ** ** ****** ******** * ** * * ****************** ***** ** ** 20

40

60

80

Età Media dei Coniugi

Figura 8.33: Numero di figli in funzione dell’et` a media dei coniugi, 2004 (*: funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x±sY |x , la retta orizzontale indica la media marginale del numero di figli; fonte: Banca d’Italia).

Dimostriamo per prima cosa la relazione della funzione di regressione con la media marginale della variabile dipendente.

Teorema 22 (Media della funzione di regressione) La media della funzione di regressione `e uguale alla media marginale della variabile dipendente. Dimostrazione. La funzione di regressione m : x → y|x `e una trasformazione della variabile esplicativa X che ad ogni modalit` a X h associa la media della distribuzione subordinata Y |Xh , h ∈ {1, . . . , H}. Pertanto, per h ∈ {1, . . . , H}, y|Xh ha la frequenza relativa di Xh , cio`e fX (Xh ). Usando la

` DELLA FUNZIONE DI REGRESSIONE 8.2. PROPRIETA

107

definizione di media e di funzione di regressione otteniamo60 M (y|X) =

H X

(y|Xh )fX (Xh )

h=1

=

H X K X ( Yk fY |Xh (Yk ))fX (Xh )

h=1 k=1

=

H X K X

Yk fX,Y (Xh , Yk )

h=1 k=1

=

K X

k=1

Yk fY (Yk ) ≡ y.

Si ottiene una dimostrazione alternativa del risultato precedente applicando la propriet` a associativa della media. L’espressione della varianza della funzione di regressione `e una conseguenza immediata del Teorema 22. Corollario 23 (Varianza della funzione di regressione) V ar(y|X) =

H X

h=1

(y|Xh − y)2 fX (Xh ).

Il Teorema 22 indica che la funzione di regressione fluttua attorno alla media marginale della variabile dipendente e gli scostamenti misurano l’entit` a e la direzione dell’influenza esercitata dalla variabile esplicativa. Se c’`e indipendenza in media, la funzione di regressione `e costante e il valore che essa assume coincide necessariamente con la media marginale della variabile dipendente. In tal caso V ar(y|X) `e nulla. Teorema 24 (Ottimalit` a della funzione di regressione) In una distribuzione congiunta {X, Y, fX,Y } la media dei quadrati degli errori di Y da una funzione c(X) `e minima quando c(X) `e la funzione di regressione y|X. In questo caso essa coincide con la media delle varianze interne delle distribuzioni subordinate Y |X, s2Y |x . Dimostrazione. Indichiamo con c(X) una funzione della variabile X che associa alle distribuzioni subordinate Y |Xh i valori ch = c(Xh ), h ∈ {1, . . . , H}. Gli errori quadratici di Y rispetto a tale funzione nella distribuzione Y |X h sono (Y1 − ch )2 , . . . , (YK − ch )2 da ponderare con le frequenze subordinate fY |Xh (Y1 ), . . . , fY |Xh (YK ). 60 I simboli M (·) e V ar(·) indicano l’applicazione degli operatori media e varianza ad una variabile statistica, in questo caso la funzione di regressione.

108

REGRESSIONE E CORRELAZIONE

Pertanto l’errore quadratico medio per la distribuzione subordinata Y |X h `e K X

k=1

(Yk − ch )2 fY |Xh (Yk ).

Per la propriet` a dei minimi quadrati della media K X

k=1



(Yk − ch )2 fY |Xh (Yk )

K X

k=1

(Yk − y|Xh )2 fY |Xh (Yk )

= s2Y |Xh . Poich`e la disuguaglianza precedente vale per ogni h ∈ {1, . . . , H}, l’errore quadratico medio complessivo soddisfa L2 (c(X)) =

H X K X ( (Yk − ch )2 fY |Xh (Yk ))fX (Xh )

h=1 k=1



H X

s2Y |Xh fX (Xh ) = L2 (y|X).

h=1

La funzione L2 (c(X)) rappresenta l’errore quadratico medio derivante dalla previsione di Y mediante la funzione c(X) applicata alle distribuzioni subordinate Y |X. Il teorema precedente mostra che la funzione ottimale, con errore minimo, `e la funzione di regressione. Vale la pena osservare che L2 (y|X) rappresenta un confine inferiore non migliorabile dell’errore di previsione, almeno nell’ambito del criterio dei minimi quadrati. Teorema 25 (Scomposizione della varianza) In una distribuzione congiunta {X, Y, fX,Y } la varianza marginale di Y verifica l’identit` a s2Y = s2Y,BET + s2Y,W IT H , in cui s2Y,BET = V arX (y|X) =

H X

h=1

(y|Xh − y)2 fX (Xh )

`e la varianza della funzione di regressione e s2Y,W IT H = MX (s2Y |X ) =

H X

h=1

s2Y |Xh fX (Xh ) = L2 (y|X)

8.3. CORRELAZIONE STATISTICA

109

`e la varianza media di Y all’interno delle distribuzioni subordinate Y |X h . Il risultato vale anche, mutatis mutandis, per la varianza marginale di X. Dimostrazione. La dimostrazione `e un caso particolare del teorema di scomposizione della varianza per dati divisi in gruppi, perch`e le modalit` a di X inducono una partizione delle unit` a statistiche.

8.3

Correlazione statistica

La scomposizione della varianza del Teorema 25 offre una semplice quantificazione del grado di dipendenza di Y rispetto a X. La componente s2Y,BET misura la variazione delle medie subordinate di Y indotta da X ed `e interpretabile come la componente della varianza di Y spiegata dalla relazione con X. Viceversa, s2Y,W IT H `e interpretabile come la componente della varianza di Y residuale, cio`e non spiegata dalla relazione con X. Una misura normalizzata del grado di dipendenza funzionale61 di Y rispetto a X `e il rapporto tra la varianza spiegata dalla funzione di regressione e la varianza marginale della variabile dipendente s2Y,BET . ηY2 |X = s2Y Questo indice prende il nome di rapporto di correlazione. Le sue propriet` a sono descritte dal seguente teorema. Teorema 26 (Variazione del rapporto di correlazione) i. 0 ≤ ηY2 |X ≤ 1; ii. ηY2 |X = 0 se e solo se Y `e indipendente in media da X; iii. ηY2 |X = 1 se e solo se la distribuzioni subordinate Y |Xh sono degeneri, h ∈ {1, . . . , H}. Dimostrazione. i. La propriet` a `e una conseguenza immediata del Teorema 25 perch`e s 2Y,BET e 2 sY sono quantit` a non negative e s2Y,BET `e una componente di s2Y . ii. ηY2 |X = 0 se e solo se s2Y,BET = 0. A sua volta s2Y,BET = 0 se e solo se, per h ∈ {1, . . . , H}, le medie subordinate y|Xh sono uguali fra loro e dunque coincidenti con la media marginale y. Questa `e esattamente la condizione di indipendenza in media di Y rispetto ad X. iii. ηY2 |X = 1 se e solo se 1 − ηY2 |X = 0, cio`e se e solo se s2Y,W IT H = 0. Questa condizione si verifica se e solo se s2Y |Xh = 0 per ogni h ∈ {1, . . . , H}, cio`e se e solo se tutte le distribuzioni subordinate Y |Xh sono degeneri. 61 Dipendenza

funzionale o in media o di regressione.

110

REGRESSIONE E CORRELAZIONE

Quando ηY2 |X = 1, la varianza residua s2Y,W IT H `e nulla. Quindi, nel caso di massima dipendenza in media, ad ogni modalit` a Xh di X corrisponde una ed una sola modalit` a di Y e questa corrispondenza `e descritta perfettamente, senza errore, dalla funzione di regressione y|X. Si tratta evidentemente di una situazione estrema, virtualmente mai osservata in pratica. Gli esempi seguenti illustrano il caso consueto, in cui 0 < ηY2 |X < 1.

60 40 20

Età Media del Coniuge

80

Funzione di Regressione

** * * **** * *** * * *** * **** * * * *** *** * ** *** * * *** ** * * **** * * * ** ** * * ** *** ** * **** * **** * 20

40

60

80

Età del Capofamiglia

Figura 8.34: Et` a del coniuge in funzione dell’et` a del capofamiglia, 2004 (*: funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x ± sY |x , la retta orizzontale indica l’et` a media marginale del coniuge; fonte: Banca d’Italia). Esempio 66 (Et` a del capofamiglia e del coniuge) La Figura 8.34 mostra il grafico della funzione di regressione dell’et` a del coniuge, Y , rispetto all’et` a del capofamiglia, X (confronta col diagramma di dispersione della Figura 7.31). La relazione `e lineare crescente e, come mostra la banda y|X ± s Y |X di ampiezza pressoch`e costante, tendenzialmente omoschedastica. La varianza di Y `e s 2Y = 190.2237 e le componenti sono s2Y,BET = 164.9909, s2Y,W IT H = 25.23274. Il

111

8.4. DISTRIBUZIONE GAUSSIANA BIVARIATA

rapporto di correlazione `e ηY2 |X ' 0.867. Il valore, molto elevato, indica che la funzione di regressione fornisce previsioni con un margine d’errore ridotto. Esempio 67 (Et` a media dei coniugi e numero di figli) Qui la variabile esplicativa, X, `e l’et` a media dei coniugi e la variabile dipendente, Y , `e il numero di figli conviventi. I risultati sono s2Y ' 1.050, s2Y,BET ' 0.344, s2Y,W IT H ' 0.706. Pertanto ηY2 |X ' 0.327. Il valore, piuttosto basso, riflette le considerevoli deviazioni dei dati osservati dalle previsioni fornite dalla funzione di regressione (vedi Figura 8.33).

8.4

Distribuzione gaussiana bivariata

La distribuzione gaussiana (o normale) bivariata ha funzione di densit` a congiunta   1 1 p fX,Y (x, y) = exp − q(x, y) , 2 2πσX σY 1 − ρ2 in cui

q(x, y) =

1 1 − ρ2



(

x − µX 2 x − µX y − µ Y y − µY 2 ) − 2ρ( )( )+( ) σX σX σY σY



e µX , µY , σX > 0, σY > 0, −1 < ρ < 1 sono i parametri della distribuzione. Il grafico (vedi Figura 8.35) ha la forma di una campana col vertice in corrispondenza del punto di coordinate (µX , µY ) e dispersione dipendente congiuntamente da σX , σY . Il significato del parametro ρ verr` a chiarito pi` u avanti. Dimostriamo preliminarmente che la densit` a gaussiana bivariata `e non negativa e il suo integrale `e pari a 1. Teorema 27 (Normalizzazione della densit` a gaussiana bivariata) i. Per ogni coppia di numeri reali (x, y), fX,Y (x, y) > 0; R +∞ R +∞ ii. −∞ −∞ fX,Y (x, y)dxdy = 1. Dimostrazione. p  i. fX,Y (x, y) > 0 perch`e 2πσX σY 1 − ρ2 `e una costante positiva e exp − 21 q(x, y) `e un numero reale positivo comunque si fissino i valori di x e y. ii. La funzione q(x, y) si pu` o scrivere in modo equivalente x − µX 2 ) σX   1 x − µX y − µ Y y − µY 2 2 x − µX 2 + ρ ( ) − 2ρ( )( )+( ) 1 − ρ2 σX σX σY σY x − µX 2 1 y − µY x − µX 2 =( ) + ( −ρ ) σX 1 − ρ2 σY σX x − µX 2 1 σY =( ) + 2 (y − µY − ρ (x − µX ))2 . 2 σX σY (1 − ρ ) σX

q(x, y) = (

112

REGRESSIONE E CORRELAZIONE Ponendo σY µY (x) = µY + ρ (x − µX ), σX p σY (x) = σY 1 − ρ2 ,

l’espressione di q(x, y) diventa q(x, y) = (

x − µX 2 y − µY (x) 2 ) +( ) . σX σY (x)

A sua volta, fX,Y si pu` o convenientemente riscrivere come segue     1 1 x − µX 2 1 1 y − µY (x) 2 √ √ fX,Y (x, y) = ) ) exp − ( exp − ( 2 σX 2 σY (x) σX 2π σY (x) 2π = fX (x)fY |X (y). L’integrale di fX,Y rispetto a x e a y diventa Z

+∞ −∞

Z

+∞

fX,Y (x, y)dxdy = −∞

=

Z

+∞

−∞ Z +∞ −∞

Z

+∞

fX (x)fY |X (y)dxdy −∞

fX (x)(

Z

+∞

fY |X (y)dy)dx. −∞

Per ogni fissato valore di x, fY |X `e interpretabile come una densit` a gaussiana univariata, con media µY (x) e deviazione standard σY (x). Pertanto R +∞ f (y)dy = 1 per ogni x reale. Anche fX `e interpretabile come una −∞ Y |X densit` a gaussiana univariata, con media µX e deviazione standard σX , e quindi Z +∞ Z +∞ Z +∞ Z +∞ fX,Y (x, y)dxdy = fX (x)( fY |X (y)dy)dx −∞

−∞

=

Z

−∞ +∞

−∞

fX (x)(1)dx −∞

= 1. Questo completa la dimostrazione.

Vale la pena notare alcuni risultati impliciti nella dimostrazione del Teorema 27. Il fatto che la densit` a congiunta fX,Y (x, y) sia identicamente uguale al prodotto fX (x)fY |X (y), prova che la distribuzione marginale X `e gaussiana N (µX , σX ) e che le distribuzioni subordinate Y |X = x sono tutte gaussiane N (µY (x), σY (x)). Riconosciamo in µY (x) ≡ µY |X e σY (x) ≡ σY |X le medie e le deviazioni standard, rispettivamente, delle distribuzioni subordinate. Quindi, per la distribuzione normale bivariata, la funzione di regressione µY (x) `e lineare,

8.4. DISTRIBUZIONE GAUSSIANA BIVARIATA

113

crescente o decrescente a seconda che 0 < ρ < 1 o −1 < ρ < 0, e omoschedastica, ` facile verificare che la densit` σY (x) non dipendendo da x. E a congiunta fX,Y `e anche esprimibile come fX,Y (x, y) = fY (y)fX|Y (x), con  1 y − µY 2 fY (y) = ) , exp − ( 2 σY σY 2π   1 1 x − µX (y) 2 √ exp − ( fX|Y (x) = ) , 2 σX (y) σX (y) 2π 1 √



e σX (y − µY ), µX (y) = µX + ρ σY p σX (y) = σX 1 − ρ2 .

Questo mostra che la distribuzione marginale Y `e gaussiana N (µY , σY ) e le distribuzioni subordinate X|Y = y sono gaussiane N (µX (y), σX (y)). Le caratteristiche della funzione di regressione µX (y) ≡ µX|y sono identiche a quelle di delle distribuzioni subordinate Y |X = x. Riassumiamo i risultati precedenti   µX nel seguente teorema. Indichiamo con µ il vettore e con Σ la matrice µY   2 σX ρσX σY . ρσX σY σY2 Teorema 28 (Distribuzioni marginali e subordinate della normale bivariata) Nella distribuzione normale bivariata (X, Y ) ∼ N (µ, Σ) le distribuzioni marginali e subordinate hanno le seguenti caratteristiche i. X ∼ N (µX , σX ), Y ∼ N (µY , σY ); ii. per x ∈ R e −1 < ρ < 1, Y |X = x ∼ N (µY |x , σY |x ), iii. per y ∈ R e −1 < ρ < 1, X|Y = y ∼ N (µX|y , σX|y ). La Figura 8.35 mostra i grafici della densit` a normale bivariata con componenti marginali standardizzate e parametro ρ rispettivamente uguale a 0.75 e −0.3. Le curve di livello costante62 delle normale bivariata sono ellissi col centro nel punto (µX , µY )T ed eccentricit` a dipendente dal parametro ρ (vedi Figura 8.36). Poich`e la distribuzione subordinata Y |X = x `e normale, per ogni fissato p 2 x la frequenza subordinata dell’intervallo µY |x ± 3σY 1 − ρ supera il 99%. Questo mostra che la parte preponderante dei dati della distribuzione congiunp ta di (X, Y ) `e compresa nella banda di semiampiezza 3σY 1 − ρ2 attorno alla retta µY |x descritta dalla funzione di regressione. L’ampiezza della banda, a 62 Ottenute

intersecando la superficie gaussiana con piani paralleli al piano coordinato xy.

114

REGRESSIONE E CORRELAZIONE

Densità Normale Bivariata (rho = 0.75 )

Densità Normale Bivariata (rho = −0.3 )

0.15

0.20

ità Dens

0.10

3

0.10 0.05

3 0.05

2

2

1 0

−2 −1

−3 −1

−1 X

0

−2

Y

−3

1

0 1

−1 X

−2

Y

ità Dens

0.15

0 1

2

−2 2

3

−3

3

−3

Figura 8.35: Funzioni di densit` a gaussiane. parit` a di valore di σY , dipende solo dal parametro ρ e diminuisce quando ρ tende a ±1. Questo indica che le previsioni mediante la funzione di regressione sono tanto pi` u precise quanto pi` u ρ, in valore assoluto, `e prossimo a 1. Equivalentemente, ρ misura la concentrazione dei dati attorno alla retta di regressione ` facile verificare che per la normale bivariata il che aumenta quando | ρ |→ 1. E rapporto di correlazione risulta essere ηY2 |X = 1 −

MX (σY2 |X ) σY2

=1−

2 MY (σX|Y ) 2 σX

= ρ2 .

Per le sue propriet` a il parametro ρ viene chiamato coefficiente di correlazione lineare. Nel teorema seguente mostriamo che esso `e uguale alla media del prodotto delle componenti marginali standardizzate XST , YST della normale bivariata. Teorema 29 (Espressione del coefficiente di correlazione lineare) Per ogni distribuzione normale bivariata (X, Y ) ∼ N (µ, Σ), ρ = MX,Y (XST YST ), in cui XST = (X − µX )/σX , YST = (Y − µY )/σY . Dimostrazione. Dobbiamo provare che risulta Z +∞ Z +∞ x − µX y − µY fX (x)( fY |X (y)dy)dx = ρ. σ σY X −∞ −∞ Operando il cambiamento di variabile u = (x − µX )/σX , v = (y − µY )/σY ,

115

8.4. DISTRIBUZIONE GAUSSIANA BIVARIATA

2 1 0

Y

0

*

−2 −3

−3

−2

−1

*

−1

Y

1

2

3

Curve di Livello Densità Normale (rho = −0.3 )

3

Curve di Livello Densità Normale (rho = 0.75 )

−3

−2

−1

0

1

2

3

−3

−2

X

−1

0

1

2

3

X

Figura 8.36: Curve di livello della densit` a gaussiana, con centroide e funzione di regressione. l’integrale assume la seguente espressione Z +∞ Z +∞ ufU (u)( vfV |U (v)dv)du, −∞

−∞

p in cui U ∼ N (0, 1), V |U = u ∼ N (ρu, 1 − ρ2 ). L’integrale pi` u interno `e per definizione la media della distribuzione subordinata V |U = u, cio`e ρu, pertanto l’integrale doppio diventa Z +∞ ρ u2 fU (u)du = V ar(U ) = ρ, −∞

perch`e U `e una variabile standardizzata. ` evidente da quanto precede che, se ρ = 0, X e Y sono indipendenti in E media perch`e σY µY |x = µY + ρ (x − µX ) ≡ µY σX per ogni x e σX µX|y = µX + ρ (y − µY ) ≡ µX σY per ogni y. Per le distribuzioni normali, questa condizione `e necessaria e sufficiente per l’indipendenza in distribuzione. Teorema 30 (Indipendenza in distribuzione per le distribuzioni normali) Le componenti marginali di una distribuzione normale bivariata (X, Y ) ∼ N (µ, Σ) sono indipendenti in distribuzione se e solo se ρ = 0.

116

REGRESSIONE E CORRELAZIONE

Dimostrazione. Se ρ = 0, fX,Y (x, y) = fX (x)fY (y), pertanto X, Y sono indipendenti in distribuzione per il teorema di fattorizzazione. D’altra parte, se X, Y sono indipendenti in distribuzione, la densit` a congiunta `e uguale al prodotto delle densit` a marginali, quindi   1 1 x − µX 2 y − µY 2 fX,Y (x, y) = exp − (( ) +( ) ) 2πσX σY 2 σX σY da cui segue necessariamente ρ = 0. Il risultato precedente si deve considerare eccezionale e caratteristico delle distribuzioni normali. L’Esempio 64 ci ha infatti mostrato che, in generale, l’indipendenza in media non implica l’indipendenza in distribuzione.

Correlazione lineare Come mostrano gli esempi del Capitolo 8, le relazioni lineari sono tutt’altro che la regola nelle analisi statistiche di dipendenza. Nondimeno, esse occupano una posizione centrale nella metodologia. Il motivo `e da attribuire alla predominanza della distribuzione gaussiana come modello distributivo per dati numerici e il Teorema 28 mostra che per tale distribuzione la funzione di regressione `e effettivamente lineare. Le deviazioni delle distribuzioni empiriche da questo modello possono essere talvolta corrette mediante trasformazioni dei dati di base63 . Frequentemente, l’ipotesi di linearit` a non ha un fondamento nella teoria, rappresenta piuttosto l’ipotesi pi` u semplice da mettere alla prova dei dati ed eventualmente correggere in fasi successive. La Statistica offre strumenti efficaci per trattare le relazioni lineari. La covarianza e il coefficiente di correlazione lineare (gi` a incontrato nel Capitolo 8) forniscono una diagnosi precisa circa l’esistenza di relazioni lineari. Se l’esito `e positivo, un’approssimazione lineare della funzione di regressione con buone propriet` a statistiche `e la retta dei minimi quadrati.

9.1

Covarianza

L’ordinaria misura statistica del grado di interdipendenza lineare di due variabili numeriche X, Y `e coefficiente di correlazione lineare, definito come la media del prodotto delle variabili standardizzate XST , YST rX,Y = MX,Y (XST YST ). Usando la definizione di variabile standardizzata e le propriet` a delle trasformazioni lineari, si ottiene l’espressione equivalente rX,Y = MX,Y (

X − xn Y − y n ) sX sY

1 MX,Y ((X − xn )(Y − y n )) sX sY sX,Y , = sX sY =

63 Un

esempio `e la trasformazione logaritmica applicata a dati reddituali.

117

118

CORRELAZIONE LINEARE

N. Componenti 1 2 3 4 5 6 7 8 9 Totali

0 1885 2040 164 49 12 0 0 0 0 4150

N. Figli Conviventi 1 2 3 4 5 0 0 0 0 0 382 0 0 0 0 1384 127 0 0 0 79 1331 25 0 0 32 60 316 4 0 6 11 15 63 2 2 2 0 1 8 0 3 3 1 0 0 1 0 1 8 1885 1535 359 69 10

6 0 0 0 0 0 0 1 1 1 2

7 0 0 0 0 0 0 0 0 2 2

Totali 1885 2422 1675 1484 424 97 14 8 3 8012

Tabella 9.34: Bilanci familiari. Distribuzione congiunta del numero di componenti delle famiglie e del numero di figli, 2004 (fonte: Banca d’Italia). in cui sX,Y = MX,Y ((X − xn )(Y − yn )) `e la covarianza della distribuzione congiunta (X, Y ). Quando i dati bivariati sono n coppie di valori (xi , yi ), i = 1, . . . , n, la formula di calcolo della covarianza `e sX,Y = n−1 = (n

n X

(xi − xn )(yi − y n )

i=1 n X −1 i=1

xi y i ) − x n y n .

Esempio 68 (Caratteristiche delle autovetture) Nell’Esempio 53 abbiamo osservato che al crescere della cilindrata delle autovetture aumentano sia i consumi di carburante che le emissioni di CO2 . Indichiamo con X, Y , Z, rispettivamente, la cilindrata, il consumo di carburante e le emissioni di CO 2 . Dalla Tabella 7.23 si ricava n X i=1

xi = 11415,

n X

x2i = 18055441,

i=1

n X

n X i=1

yi = 43.40,

n X

yi2 = 240.88,

i=1

xi yi = 64116.7.

i=1

Pertanto sX,Y = 64116.7/8 − (11415/8)(43.40/8) ' 273.791 rX,Y = sX,Y /(sX sY ) ' 0.707. Lo stesso procedimento fornisce rX,Z ' 0.860 e rY,Z ' 0.914.

119

9.1. COVARIANZA

Se i dati bivariati sono ordinati in una distribuzione di frequenze, si deve usare la versione ponderata sX,Y =

H X K X

h=1 k=1

=(

(Xh − xn )(Yk − y n )fhk

H X K X

h=1 k=1

Xh Yk fhk ) − xn y n .

Esempio 69 (Dimensione delle famiglie e numero di figli) La Tabella 9.34 mostra la distribuzione congiunta del numero di componenti delle famiglie (X) e del numero di figli conviventi (Y ), ricavata dai dati della Banca d’Italia sui bilanci familiari (rilevazione 2004). La definizione delle variabili implica x i > yi per ogni famiglia. Le distribuzioni marginali sono asimmetriche positivamente con una forte concentrazione sulle modalit` a pi` u basse. La moda del numero di componenti `e pari a 2, quella del numero di figli `e pari a 0. La moda della distribuzione congiunta `e X = 2 ∩ Y = 0. Altre celle con frequenze elevate sono X = 1 ∩ Y = 0, X = 3 ∩ Y = 1, X = 4 ∩ Y = 2. In generale, per y ≥ 0 la distribuzione congiunta `e fortemente concentrata sulle modalit` a y + 1 ≤ x ≤ y + 3. Le statistiche riassuntive sono n X i=1

·

xi = 20 581,

n X

x2i

·

= 65 925,

i=1

n X

n X i=1

·

yi = 6 384,

n X

yi2 = 12· 780,

i=1

xi yi = 25· 268,

i=1

da cui segue, in particolare, sX,Y ' 1.107 e rX,Y = sX,Y /(sX sY ) ' 0.885. Diversamente dalle medie xn , yn e dalle deviazioni standard sX , sY , che dipendono dalle distribuzioni marginali, la covarianza dipende dalla distribuzione congiunta bivariata. Essa `e definita come la media del prodotto degli scostamenti delle due variabili dalle rispettive medie ed `e identicamente uguale alla media del prodotto delle due variabili, diminuita del prodotto delle medie. Il coefficiente di correlazione lineare, uguale alla covarianza divisa per il prodotto delle deviazioni standard, `e una versione normalizzata della covarianza. L’informazione essenziale sul legame lineare tra le variabili `e tuttavia fornito dalla covarianza. Un’interpretazione della covarianza `e offerta dalla disposizione dei dati bivariati nel diagramma di dispersione. Il grafico `e diviso in quattro quadranti dalle rette perpendicolari x = xn , y = y n passanti per il centroide, il punto di coordinate (xn , y n ). Il quadrante in alto a destra `e il luogo dei punti (x, y) con x > xn e y > y n , mentre nel quadrante in basso a sinistra x < xn e y < y n . In queste due regioni le variabili X, Y sono concordanti, intendendo con questo che assumono entrambe determinazioni superiori o inferiori alla media. I dati bivariati appartenenti a queste due regioni danno un contributo positivo alla

120 Squadra

CORRELAZIONE LINEARE Reti Segnate

Reti Subite

Inter Roma Juventus Fiorentina Milan Sampdoria Udinese Napoli Atalanta Genoa

69 72 72 55 66 56 48 50 52 44

26 37 37 39 38 46 53 53 56 52

Chievo Bologna Lecce Albinoleffe Brescia Pisa Rimini Ascoli Mantova Frosinone Bari

77 58 70 67 59 61 68 64 56 63 50

43 29 29 48 40 44 46 49 49 67 55

Punteggio

Squadra

Serie A Palermo Lazio Siena Cagliari Torino Reggina Catania Empoli Parma Livorno Serie B 85 Triestina 84 Grosseto 83 Messina 78 Piacenza 72 Modena 71 Treviso 69 Vicenza 62 Avellino 60 Ravenna 56 Spezia 55 Cesena 85 82 72 66 64 60 57 50 48 48

Reti Segnate

Reti Subite

Punteggio

47 47 40 40 36 37 33 29 42 35

57 51 45 56 49 56 45 52 62 60

47 46 44 42 40 40 37 36 34 30

55 47 38 43 57 41 43 42 48 45 37

67 54 62 59 65 52 60 64 75 66 66

51 49 49 47 46 45 45 36 35 33 32

Tabella 9.35: Reti segnate e subite e punteggio finale nella stagione 2007-08 del campionato di calcio di serie A e B. covarianza. Viceversa, i dati bivariati appartenenti agli altri due quadranti danno un contributo negativo, perch`e l`ı le variabili sono discordanti, essendo una inferiore, l’altra superiore alla media. La covarianza assume valori positivi o negativi a seconda che prevalga il contributo del primo e terzo quadrante o degli altri due. Valori prossimi a zero indicano equlibrio nel contributo delle quattro regioni. Nel caso limite in cui la covarianza `e uguale a zero, le variabili sono linearmente indipendenti perch`e non c’`e una concentrazione preferenziale dei dati attorno ad una retta. Esempio 70 (Campionato di calcio) La Tabella 9.35 riporta il numero di reti segnate (X) e subite (Y ) e il punteggio nella classifica finale delle squadre di calcio di serie A e B. I dati si riferiscono al campionato 2007-08. Ovviamente, `e positiva la correlazione lineare del punteggio finale con le reti segnate mentre `e negativa quella con le reti subite. La Figura 9.37 mostra i corrispondenti diagrammi di dispersione delle squadre di serie B, con i quadranti determinati dal centroide. Nel caso delle reti segnate i dati sono quasi tutti nel primo e terzo quadrante, indizio di un valore positivo elevato del coefficiente di correlazione

121

9.2. COMBINAZIONI LINEARI

70 60

Punteggio

60

*

40 30

30

40

50

* 50

Punteggio

70

80

Campionato di Calcio Serie B

80

Campionato di Calcio Serie B

40

50

60

70

Reti Segnate

30

40

50

60

70

Reti Subite

Figura 9.37: Campionato di calcio di serie B 2007-08. Diagramma di dispersione del numero di reti segnate (subite) e del punteggio finale (*: centroide). lineare. I valori sono sX,Z ' 154.8, rX,Z ' 0.842. Risultato opposto nel caso delle reti subite; si ricava sY,Z ' −176.4, rY,Z ' −0.879.

9.2

Combinazioni lineari

Le combinazioni lineari sono particolari trasformazioni di distribuzioni di p > 1 variabili numeriche che generalizzano le familiari nozioni di somma, differenza e media. Si consideri, ad esempio, la spesa mensile di un campione di famiglie ripartita in p capitoli (abbigliamento, alimentazione, casa, trasporti, ecc.). La spesa mensile totale ST OT `e la somma delle spese imputate ai singoli capitoli, cio`e ST OT = S1 + . . . + Sj + . . . + Sp , in cui Sj `e la spesa del capitolo j-esimo, j = 1, . . . , p. La trasformazione che viene operata sui dati perde il dettaglio della composizione della spesa familiare mantenendone solo il valore complessivo. Un altro esempio `e il calcolo del saldo naturale annuo V (t) della popolazione residente nei comuni, definito come differenza tra i tassi di natalit` a N (t) e di mortalit` a M (t). Esso `e definito dalla trasformazione V (t) = N (t) − M (t) che riassume la distribuzione bivariata (N (t), M (t)) mediante il saldo, positivo ` ancora una combinazione lineare il voto medio o negativo, dei due contributi. E degli esami. Se indichiamo con Vj il voto dell’esame j-esimo, j = 1, . . . , p, il

122

CORRELAZIONE LINEARE

voto medio VM `e VM = (V1 + . . . + Vj + . . . + Vp )/p. Non si deve confondere questa operazione, che definisce una nuova variabile, VM , sintesi delle variabili V1 , . . . , Vp , col calcolo del voto medio campionario che descrive la posizione delle singole variabili, siano esse i voti di partenza V1 , . . . , V p o V M . Gli esempi presentati sono casi particolari di una classe di trasformazioni, le combinazioni lineari, la cui espressione generale `e Y = a 1 X1 + . . . + a j Xj + . . . + a p Xp =

p X

a j Xj .

j=1

Qui Xj , j = 1, . . . , p, sono p variabili numeriche la cui distribuzione congiunta `e descritta dalla funzione di frequenza o di densit` a congiunta, a seconda che le variabili siano discrete o continue; aj , j = 1, . . . , p, sono i coefficienti numerici che definiscono la specifica combinazione e Y `e il risultato della trasformazione. Nel caso della somma di due variabili Y = X1 + X2 , a1 = a2 = 1; nel caso della differenza Y = X1 − X2 , a1 = 1 e a2 = −1; nel caso della media Y = (X1 + X2 )/2, a1 = a2 = 1/2. Lo studio delle combinazioni lineari `e agevolato da un importante teorema che ne descrive la media e la varianza. Il teorema viene enunciato per combinazioni lineari di p = 2 variabili. Teorema 31 (Media e varianza delle combinazioni lineari) Si consideri una coppia di variabili numeriche X1 , X2 con funzione di frequenza o di densit` a congiunta fX1 ,X2 e si indichi con Y = a1 X1 + a2 X2 una loro combinazione lineare. i. Se le medie di X1 e X2 sono x1 e x2 , la media y di Y `e la combinazione lineare di x1 e x2 y = a 1 x1 + a 2 x 2 . ii. Se le varianze di X1 e X2 sono s21 ed s22 e la covarianza `e s12 , la varianza s2Y di Y `e s2Y = a21 s21 + a22 s22 + 2a1 a2 s12 . Dimostrazione. i. Supponiamo, senza perdita di generalit` a che i dati siano un campione di n osservazioni congiunte di X1 , X2 (x11 , x12 ), . . . , (xi1 , xi2 ), . . . , (xn1 , xn2 ).

123

9.2. COMBINAZIONI LINEARI

In tal caso il dato i-esimo di Y `e yi = a1 xi1 + a2 xi2 , i = 1, . . . , n. Usando la definizione di media y = n−1

n X

yi = n−1

i=1

= a1 (n−1

n X

(a1 xi1 + a2 xi2 )

i=1

n X

xi1 ) + a2 (n−1

i=1

n X

xi2 )

i=1

= a 1 x 1 + a 2 x2 . ii. Usando la definizione di varianza s2Y = n−1

n X i=1

= a21 (n−1

(yi − y)2 = n−1

n X i=1

+ 2a1 a2 (n−1 = a21 s21 +

n X i=1

(a1 (xi1 − x1 ) + a2 (xi2 − x2 ))2

(xi1 − x1 )2 ) + a22 (n−1

n X

i=1 a22 s22 +

n X i=1

(xi2 − x2 )2 )

(xi1 − x1 )(xi2 − x2 )) 2a1 a2 s12 .

Il teorema precedente fornisce come casi particolari media e varianza della somma, della differenza e della media. Corollario 32 (Media e varianza di somma, differenza e media) Nelle stesse ipotesi del Teorema 31 i. M (X1 + X2 ) = M (X1 ) + M (X2 ), V ar(X1 + X2 ) = V ar(X1 ) + V ar(X2 ) + 2Cov(X1 , X2 ). ii. M (X1 − X2 ) = M (X1 ) − M (X2 );

V ar(X1 − X2 ) = V ar(X1 ) + V ar(X2 ) − 2Cov(X1 , X2 ). iii. M ((X1 + X2 )/2) = (M (X1 ) + M (X2 ))/2; V ar((X1 + X2 )/2) = V ar(X1 )/4 + V ar(X2 )/4 + Cov(X1 , X2 )/2.

124

CORRELAZIONE LINEARE

Esempio 71 (Campionato di calcio) Riprendiamo ancora dalla Tabella 9.35 il numero di reti segnate (X) e subite (Y ) dalle 22 squadre del campionato di Pn calcio di serie B nella stagione 2007-08. Dalle statistiche di sintesi x = i i=1 Pn Pn Pn Pn 2 2 y = 1189, x = 66977, y = 67495, x y = 62495 si i i i i=1 i=1 i i=1 i i=1 ricava x = y =' 54.05, sX ' 11.11, sY ' 12.13 e sX,Y ' −80.23. Pertanto il coefficiente di correlazione lineare rX,Y `e approssimativamente uguale a −0.60. La differenza tra le reti segnate e subite Z = X − Y `e un indicatore riassuntivo della bravura di una squadra. Nel nostro esempio il Corollario 32 fornisce z = x − y = 0,

s2Z

= s2X + s2Y − 2sX,Y = 431, sZ ' 20.76.

La distribuzione di Z si ricava facilmente dai dati della Tabella 9.35 (vedi il ramo-foglia della Tabella 9.36.)

n = 22 2| si legge 29 P9 n xi = 0 Pi=1 n 2 i=1 xi = 9482

-2 -1 -0 0 1 2 3 4

97421 7621 8754 7 5799 29 4 1

Tabella 9.36: Ramo-foglia della differenza reti nella stagione 2007/08 del campionato di calcio di serie B.

9.3

Propriet` a della covarianza

Alcune propriet` a della covarianza, come la simmetria sX,Y = MX,Y ((X − xn )(Y − y n )) = MY,X ((Y − y n )(X − xn )) = sY,X

e la relazione con la varianza sX,X = s2X , sY,Y = s2Y , sono conseguenze immediate della definizione. Esse ci autorizzano a disporre varianze e covarianze della distribuzione bivariata di (X, Y ) in una matrice

` DELLA COVARIANZA 9.3. PROPRIETA

125

quadrata simmetrica, detta matrice di varianze e covarianze (o di covarianza)    2  sX.X sX,Y sX sX,Y S= ≡ sY,X sY,Y sX,Y s2Y i cui elementi diagonali sono le varianze delle distribuzioni marginali. Dividendo gli elementi di questa matrice per le deviazioni standard delle distribuzioni marginali si ottiene la matrice di correlazione   1 rX,Y R= rY,X 1 i cui elementi diagonali sono pari a 1. Il teorema seguente descrive come reagisce la covarianza alle trasformazioni lineari64 . Teorema 33 (Covarianza delle trasformazioni lineari) Nelle stesse ipotesi del Teorema 31, se U = a1 + b1 X e V = a2 + b2 Y sU,V = b1 b2 sX,Y , rU,V = segno(b1 )segno(b2 )rX,Y . Dimostrazione. Usando la definizione di covarianza sU,V = n−1 = n−1

n X

i=1 n X i=1

(ui − un )(vi − v n ) (a1 + b1 xi − a1 − b1 xn )(a2 + b2 yi − a2 − b2 y n )

= b1 b2 n−1

n X i=1

(xi − xn )(yi − y n ) = b1 b2 sX,Y .

La dimostrazione della seconda parte del teorema `e immediata perch`e s U =| b1 | sX , sV =| b2 | sY e bi =| bi | segno(bi ), i = 1, 2. Mentre la covarianza dipende sia dal valore assoluto che dal segno dei coefficienti di scala b1 e b2 delle trasformazioni lineari, il coefficiente di correlazione dipende solo dal segno. Se b1 e b2 sono concordi, rXe ,Ye = rX,Y , altrimenti rX, e Y e = −rX,Y . La propriet` a pi` u importante della covarianza riguarda il suo valore massimo. Per ogni distribuzione bivariata (X, Y ), il quadrato della covarianza non pu` o superare il prodotto delle varianze delle distribuzioni marginali. Il risultato 64 Per

ogni numero reale x, la funzione segno(x) `e   −1, segno(x) = 0,  1,

definita come segue x < 0, x = 0, x > 0.

126

CORRELAZIONE LINEARE

`e una conseguenza della disuguaglianza di Cauchy-Schwarz65. Nel seguente teorema ne diamo una dimostrazione basata sulle propriet` a delle combinazioni lineari. Teorema 34 (Valore massimo della covarianza) Per ogni distribuzione bivariata (X, Y ) con momenti secondi finiti s2X,Y ≤ s2X s2Y . Dimostrazione. La varianza della combinazione lineare Z = a1 X + a2 Y s2Z = a21 s2X + a22 s2Y + 2a1 a2 sX,Y `e una funzione non negativa dei coefficienti a1 e a2 , cio`e s2Z = g(a1 , a2 ) ≥ 0 per ogni valore assegnato ai due coefficienti. Se poniamo, ad esempio, a2 = 1, otteniamo g(a1 , 1) ≡ g1 (a1 )

= s2X a21 + 2sX,Y a1 + s2Y ≥ 0

per ogni valore di a1 . La precedente espressione `e interpretabile come un polinomio di secondo grado nella variabile a1 , con coefficienti s2X , 2sX,Y e s2Y . Poich`e il polinomio non `e mai negativo e il coefficiente del termine di secondo grado s2X `e positivo, il discriminante s2X,Y − s2X s2Y dev’essere nullo o negativo. Come conseguenza immediata del teorema precedente, il coefficiente di correlazione lineare varia nell’intervallo chiuso [−1, 1]. Corollario 35 (Variazione del coefficiente di correlazione lineare) −1 ≤ rX,Y ≤ 1 Dimostrazione. La propriet` a s2X,Y ≤ s2X s2Y equivale a | sX,Y |≤ sX sY . Dividendo membro a membro questa disuguaglianza per sX sY otteniamo | rX,Y |=

| sX,Y | sX sY ≤ = 1. sX sY sX sY

Si pu` o dimostrare che l’estremo superiore della covarianza viene raggiunto se e solo se Y = a + bX, in cui a `e un numero reale qualsiasi e il segno di b coincide col segno della covarianza. 65 Per

ogni coppia di vettori x = (x1 , . . . , xn )T , y = (y1 , . . . , yn )T (

n X i=1

xi y i ) 2 ≤ (

n X i=1

x2i )(

n X i=1

yi2 ).

127

9.4. RETTA DEI MINIMI QUADRATI

9.4

Retta dei minimi quadrati

Consideriamo una distribuzione congiunta (X, Y ) in cui X svolge il ruolo di variabile esplicativa per Y . Come abbiamo visto nel Capitolo 8, la funzione di regressione y|x descrive l’andamento delle medie delle distribuzioni subordinate Y |X = x al variare di x permettendo di esplorare le caratteristiche della relazione che lega Y a X. Per sua natura, la funzione di regressione `e una funzione empirica definita soltanto per i valori di X osservati nello specifico campione mentre sarebbe desiderabile disporre di una funzione definita su tutto l’intervallo di variazione di X. Questo consentirebbe, ad esempio, di prevedere il valore di Y associato a modalit` a di X non osservate nel campione. Il problema viene risolto approssimando la funzione di regressione mediante opportune funzioni analitiche, la pi` u importante delle quali `e la polinomiale di grado q ≥ 0 ybq (x; a0 , a1 , . . . , aq ) = a0 + a1 x + a2 x2 + . . . + aq xq .

I coefficienti a0 , a1 , . . . , aq sono determinati in modo da ottimizzare l’accostamento della polinomiale ai dati. Come per la funzione di regressione, il criterio pi` u usato `e quello dei minimi quadrati. Per la generica coppia (xi , yi ), il valore teorico di Y , basato sulla polinomiale, `e ybi ≡ ybq (xi ; a0 , a1 , . . . , aq ) = a0 + a1 xi + a2 x2i + . . . + aq xqi

e l’errore (o residuo) rispetto al valore osservato yi `e

ei = yi − ybi = yi − (a0 + a1 xi + a2 x2i + . . . + aq xqi ).

L’errore quadratico medio corrispondente ad una particolare scelta di q e a 0 , a1 , . . . , aq `e L2 (a0 , a1 , . . . , aq ) = n−1

n X

e2i

i=1

= n−1

n X i=1

(yi − (a0 + a1 xi + a2 x2i + . . . + aq xqi ))2 .

Nel caso di una distribuzione di frequenze (X, Y, fX,Y ), gli errori devono essere ponderati con le frequenze congiunte e l’espressione di L2 `e L2 (a0 , a1 , . . . , aq ) =

H X K X

h=1 k=1

(Yk − (a0 + a1 Xh + a2 Xh2 + . . . + aq Xhq ))2 fhk .

I valori ottimali dei coefficienti, indicati con a∗0 , a∗1 , . . . , a∗q , sono quelli che minimizzano la funzione L2 : (a∗0 , a∗1 , . . . , a∗q ) = arg

min

a0 ,a1 ,...,aq

L2 (a0 , a1 , . . . , aq ).

La retta dei minimi quadrati `e la polinomiale d’ordine q = 1 e costituisce l’approssimazione lineare ottimale (secondo il criterio dei minimi quadrati) della

128

CORRELAZIONE LINEARE

funzione di regressione. I suoi coefficienti sono univocamente determinati dal vettore delle medie e dalla matrice di varianze e covarianze della distribuzione congiunta. Teorema 36 (Coefficienti della retta dei minimi quadrati) Una distribuzione bivariata (X, Y, fX,Y ) con V ar(X) > 0 ammette un’unica approssimazione lineare ottimale della funzione di regressione. I suoi coefficienti sono a∗0 = y − a∗1 x, sX,Y sY . a∗1 = 2 = rX,Y sX sX P Dimostrazione. La funzione L2 (a0 , a1 ) = n−1 ni=1 (yi − a0 − a1 xi )2 `e una funzione derivabile di a0 e a1 e le sue derivate parziali rispetto ad a0 e a1 sono n X ∂ L2 (a0 , a1 ) = −2n−1 (yi − a0 − a1 xi ), ∂a0 i=1

n X ∂ L2 (a0 , a1 ) = −2n−1 (yi − a0 − a1 xi )xi . ∂a1 i=1

I valori ottimali dei coefficienti sono le soluzioni del sistema formato dalle precedenti espressioni, uguagliate a zero:  Pn n−1P i=1 (yi − a0 − a1 xi ) = 0, (A1) n −1 n i=1 (yi − a0 − a1 xi )xi = 0.

Isolando a0 nella prima equazione si ricava

a0 = y − a1 x. Sostituendo tale espressione nella seconda equazione otteniamo n−1

n X i=1

cio`e a1 n−1

((yi − y) − a1 (xi − x))xi = 0,

n X i=1

(xi − x)xi = n−1

n X i=1

(yi − y)xi .

` facile verificare che n−1 Pn (xi − x)xi = s2 e n−1 Pn (yi − y)xi = sX,Y . E X i=1 i=1 Pertanto, essendo per ipotesi s2X > 0, a1 =

sX,Y sY = rX,Y . s2X sX

Per completare la dimostrazione si deve provare che la matrice hessiana delle derivate seconde di L2 (a0 , a1 ), valutate nella soluzione del sistema (A1), `e

129

9.4. RETTA DEI MINIMI QUADRATI definita positiva. Poich`e ∂2 ∂ L2 (a0 , a1 ) = ∂a20 ∂a0 ∂ ∂2 L2 (a0 , a1 ) = ∂a21 ∂a1 2

(

−2n

(

−1

−2n−1

2

n X i=1 n X i=1

(yi − a0 − a1 xi )

)

(yi − a0 − a1 xi )xi

∂ ∂ ∂ L2 (a0 , a1 ) = L2 (a0 , a1 ) = ∂a0 ∂a1 ∂a1 ∂a0 ∂a1

(

−2n

= 2x,

−1

= 2, )

= 2n−1

n X

x2i ,

i=1

n X i=1

(yi − a0 − a1 xi )

)

la matrice hessiana `e H(a0 , a1 ) ≡ H = 2



1 Pxn x n−1 i=1 x2i



.

Essa `e definita positiva perch`e h11 = 2 > 0 e det H = 2(n−1 2s2X > 0.

Pn

i=1

x2i − x2 ) =

La retta dei minimi quadrati passa per il centroide (x, y) della distribuzione e per i punti di coordinate(x ± sX , y ± rX,Y sY ). Questa propriet` a `e utile per visualizzarne l’andamento sul diagramma di dispersione. Esempio 72 (Caratteristiche delle autovetture) Dai dati della Tabella 7.23 ricaviamo la retta dei minimi quadrati delle emissioni di CO2 (Y ) in funzione della cilindrata (X). Le statistiche riassuntive sono n X i=1

n X

xi = 11·415,

n X

x2i = 18· 055·441,

i=1

n X

yi

= 1· 108,

i=1

n X

yi2 = 157·186,

i=1

xi yi = 1· 650·757,

i=1

da cui si ricava x = 1· 426.875, sX ' 470.062, y = 138.5, sY ' 21.587, sX,Y ' 8· 722.438, rX,Y ' 0.860. Pertanto i coefficienti della retta sono a∗1 =

sX,Y ' 0.0394756, s2X

a∗0 = y − a∗1 x ' 82.1733. Per la Fiat Punto 1.2 8V Bipower x = 1242 e y = 119. In base all’approssimazione lineare il valore previsto delle emissioni di CO2 `e yb(1242) ' 131.202

con un errore rispetto al valore osservato pari a

y − yb(1242) = 119 − 131.202 ' −12.202.

130

CORRELAZIONE LINEARE

L’interpretazione di quest’ultimo risultato viene approfondita nella sezione seguente. Per il momento ci limitiamo ad osservare che la retta dei minimi quadrati permette di ottenere previsioni per ogni valore dell’intervallo di variazione di X 66 , anche diverso dai dati osservati. Ad esempio, il valore previsto delle emissioni di CO2 per una cilindrata x = 1000 `e yb(1000) ' 121.649.

9.5

Propriet` a della retta dei minimi quadrati

L’interpretazione della retta dei minimi quadrati `e simile alla funzione di regressione, col vantaggio di essere una funzione continua, definita su tutto l’intervallo di variazione della variabile esplicativa. Come abbiamo visto nell’Esempio 72, per una fissata coppia di valori (x0 , y0 ), yb(x0 ) = a∗0 + a∗1 x0 ' y|x0 rappresenta l’approssimazione lineare della media della distribuzione subordinata Y |X = x0 , mentre e0 = y0 − yb(x0 ) misura la deviazione del dato osservato da tale approssimazione. La qualit` a statistica della retta dei minimi quadrati dipende dalle propriet` a di questi errori. Nel Teorema 38 ricaviamo media e deviazione standard degli errori della retta dei minimi quadrati. Prima per` o presentiamo un lemma preliminare riguardante i valori teorici. Lemma 37 (Propriet` a dei valori teorici) Sotto le ipotesi del Teorema 36 i. M (Yb ) = y;

2 ii. V ar(Yb ) = rX,Y s2Y ;

2 iii. Cov(Y, Yb ) = V ar(Yb ) = rX,Y s2Y .

Dimostrazione. I primi due risultati sono immediati perch`e Yb = a∗0 + = y + a∗1 (X − x) `e una trasformazione lineare di X, pertanto

a∗1 X

M (Yb ) = M (y + a∗1 (X − x) = y + a∗1 M (X − x) = y, V ar(Yb ) = V ar(y + a∗ (X − x)) 1

2 = (a∗1 )2 V ar(X) = rX,Y s2Y .

Il terzo risultato `e una conseguenza della definizione di covarianza: Cov(Y, Yb ) = M ((Y − y)(Yb − y)) = M (a∗1 (X − x)(Y − y)) 2 = a∗1 sX,Y = rX,Y s2Y .

Teorema 38 (Propriet` a dei residui) Sotto le ipotesi del Teorema 36 66 Previsioni corrispondenti a valori esterni all’intervallo di variazione della variabile esplicativa sono ammissibili in linea di principio ma la loro accuratezza dipende dalla linearit` a della funzione di regressione sull’intera retta reale, ipotesi difficilmente verificabile in pratica.

` DELLA RETTA DEI MINIMI QUADRATI 9.5. PROPRIETA

131

i. M (e) = 0; 2 ii. V ar(e) = (1 − rX,Y )s2Y .

Dimostrazione. Osserviamo che e = Y − Yb `e la differenza delle variabili Y e Yb e quindi la dimostrazione segue dalle propriet` a delle combinazioni lineari (Corollario 32). Si ottiene M (e) = M (Y − Yb ) = M (Y ) − M (Yb ) =0

e V ar(e) = V ar(Y ) + V ar(Yb ) − 2Cov(Y, Yb ) 2 2 = s2Y + rX,Y s2Y − 2rX,Y s2Y 2 = (1 − rX,Y )s2Y .

La retta dei minimi quadrati definisce una scomposizione della varianza di Y simile alla funzione di regressione. Teorema 39 (Scomposizione della varianza) Sotto le ipotesi del Teorema 36 V ar(Y ) = V ar(Yb ) + V ar(e). Dimostrazione. Partiamo dall’identit` a

(Y − y)2 = (Y − Yb )2 + (Yb − y)2 + 2(Y − Yb )(Yb − y),

in cui Y − Yb = e. Usando la definizione di varianza,

V ar(Y ) = M (Y − y)2 = M (Y − Yb )2 + M (Yb − y)2 + 2M ((Y − Yb )(Yb − y)) = V ar(e) + V ar(Yb ) + 2Cov(e, Yb ).

Si pu` o inoltre dimostrare che Cov(e, Yb ) = 0. In base al sistema (A1) del Teorema 36  Pn n−1P i=1 (yi − a∗0 − a∗1 xi ) = 0, n n−1 i=1 (yi − a∗0 − a∗1 xi )xi = 0.

Poich`e yi − a∗0 − a∗1 xi = yi − ybi = ei , la prima equazione equivale a M (e) = 0 e la seconda equivale a M (eX) = Cov(e, X) = 0. Moltiplicando ambo i membri della prima equazione per a∗0 ,e quelli della seconda per a∗1 e sommando membro a membro i risultati otteniamo l’equazione n

−1

n X i=1

(yi − a∗0 − a∗1 xi )(a∗0 + a∗1 xi ) = 0

132

CORRELAZIONE LINEARE

cio`e M (eYb ) = Cov(e, Yb ) = 0. I Teoremi 38 e 39 completano il quadro interpretativo della retta dei mib nimi quadrati. q Gli errori e = Y − Y hanno media nulla e deviazione stan2 dard se = 1 − rX,Y sY . Sotto l’ipotesi di linearit` a della funzione di regressione, la previsione del valore di Y corrispondente a X = x `e il valore teorico yb(x) = a∗0 + a∗1 x ' y|x. Se le distribuzioni subordinate sono omoschedastiche, l’errore della previsione pu` o essere valutato mediante se , la deviazione standard comune delle distribuzioni subordinate (Y − Yb )|x. Nel caso univariato, l’intervallo y ± sY contiene le osservazioni di Y centrali, ad una distanza dalla media non superiore alla deviazione standard sY . In modo analogo, al variare di x, l’intervallo yb(x)±se definisce una banda centrata sulla retta dei minimi quadrati contenente i dati y ad una distanza dalla previsione non superiore alla deviazione standard se . I risultati della Sezione 8.4 indicano che, se la distribuzione congiunta delle variabili `e normale, circa il 68% degli errori rientra nell’intervallo (−se , se ) e meno dello 0.5% `e esterno all’intervallo (−3se , 3se ) 2 La deviazione standard degli errori se `e una funzione decrescente di rX,Y , il 2 quadrato del coefficiente di correlazione lineare. Poich`e 0 ≤ rX,Y ≤ 1, 0 ≤ se ≤ sY e si verifica facilmente che 2 se = 0 ⇔ rX,Y = 1 ⇔ rX,Y = ±1 (massima dipendenza lineare),

se = sY ⇔ rX,Y = 0 (indipendenza lineare). In base al teorema di scomposizione della varianza, s2Y = V ar(Yb ) + V ar(e)

2 2 = rX,Y s2Y + (1 − rX,Y )s2Y ,

2 pertanto V ar(Yb )/s2Y = rX,Y `e interpretabile come la frazione della varianza di Y spiegata dalla retta dei minimi quadrati, cio`e in definitiva dalla relazione 2 lineare con X, mentre V ar(e)/s2Y = 1 − rX,Y `e interpretabile come la frazione non spiegata, attribuibile a fattori esogeni. In questa particolare accezione, il quadrato del coefficiente di correlazione lineare prende il nome di coefficiente di determinazione lineare e viene indicato col simbolo R 2 . Esso ha un significato analogo al coefficiente ηY2 |X del Capitolo 8 e risulta sempre

n o 2 R2 ≤ min ηY2 |X , ηX|Y

perch`e R2 misura l’accostamento ai dati della funzione lineare ottimale, mentre 2 misurano l’accostamento ai dati delle funzioni di regressione, che ηY2 |X e ηX|Y possono essere lineari o non lineari.

` DELLA RETTA DEI MINIMI QUADRATI 9.5. PROPRIETA

133

150 140 130

*

110

120

Emissioni di CO2

160

170

Retta dei Minimi Quadrati

1000

1500

2000

Cilindrata

Figura 9.38: Cilindrata ed emissioni di CO2 . (*: centroide; retta dei minimi quadrati yˆ(x) in grassetto; rette yˆ(x) ± se tratteggiate). Esempio 73 (Caratteristiche delle autovetture) La Figura 9.38 mostra il diagramma di dispersione della cilindrata e delle emissioni di CO 2 del campione di automobili della Tabella 7.23, insieme col centroide, la retta dei minimi quadrati e la banda di dispersione yb(x) ± se . I segmenti verticali misurano gli errori (in valore assoluto) delle previsioni yb(xi ) rispetto ai valori osservati yi , i = 1, ..., n. La Tabella 9.37 riporta la scomposizione della varianza. 2 Dall’Esempio 72 risulta s2Y = 466 e rX,Y ' 0.860, pertanto rX,Y ' 0.739, 2 2 2 2 2 2 sYb = rX,Y sY ' 344.32 e se = sY − sYb ' 121.68. Il valore di R2 indica che circa il 74% della varianza delle emissioni di CO2 `e spiegata dal modello di regressione lineare basato sulla cilindrata. La deviazione standard s e ' 11.031 `e usata per valutare l’entit` a degli errori e individuare casi anomali. L’errore e ' −12.202 della Fiat Punto, in valore assoluto, `e di poco superiore a s e ed appare dunque in linea con le ipotesi del modello.

134

CORRELAZIONE LINEARE Variabilit` a dovuta a Regressione Residua Totale

Varianza

%

s2Yb ' 344.32 s2e ' 121.68 s2Y = 466

R2 ' 74% 1 − R2 ' 26% 100%

Tabella 9.37: Scomposizione della varianza per la regressione lineare delle emissioni di CO2 sulla cilindrata dell’Esempio 73. La retta dei minimi quadrati `e largamente usata nell’analisi di dati numerici bivariati, anche per la semplicit del modello. A ben vedere, un’unica statistica – il coefficiente di correlazione lineare rX,Y – ne determina le caratteristiche. Infatti rX,Y misura l’intensit` a del legame lineare tra le variabili esplicativa e dipendente. Ma esso appare anche nella formula del coefficiente angolare della retta dei minimi quadrati a∗1 = rX,Y sY /sX 67 e il suo quadrato, l’indice R2 , `e usato per valutare l’accostamento del modello ai dati campionari. Non bisogna per` o dimenticare che le stime ottenute col metodo dei minimi quadrati possono essere facilmente distorte da dati anomali. Nelle applicazioni `e dunque opportuna una verifica accurata, basata sulle propriet` a dei residui, come quella proposta nell’esempio seguente. Esempio 74 (Campionato di calcio) La differenza reti di una squadra `e considerata un indicatore del risultato del campionato. Dai dati della Tabella 9.35, le statistiche riassuntive della differenza reti (X) e del punteggio finale(Y ) per le 22 squadre di serie B sono n X i=1

xi = 0,

n X

x2i = 9482,

i=1

n X

n X i=1

yi = 1243,

n X

yi2 = 76257,

i=1

xi yi = 7286.

i=1

Pertanto rX,Y ' 0.964 e i coefficienti della retta dei minimi quadrati sono a∗0 = 56.5, a∗1 ' 0.768403. Poich`e R2 ' 0.93, il grado di accostamento del modello ai dati `e molto buono: oltre il 90% della varianza del punteggio finale `e spiegata dalla differenza reti. Dalla Figura 9.39 la copertura della banda yb(x) ± se non varia visibilmente nell’intervallo di variazione di X, confermando l’ipotesi di omoschedasticit delle distribuzioni subordinate Y |x. Un’analisi grafica dettagliata degli errori dei dati rispetto al modello lineare `e presentata nella Figura 9.40. A sinistra appare il diagramma di dispersione dei valori teorici yb(xi ) e degli errori standardizzati (yi − yb(xi )/se , i = 1, ..., n. In accordo col Teorema 39, valori teorici ed errori 67 Se

le variabili sono standardizzate, sY = sX = 1 e a∗1 = rX,Y .

` DELLA RETTA DEI MINIMI QUADRATI 9.5. PROPRIETA

135

60 50

*

30

40

Punteggio Finale

70

80

Retta dei Minimi Quadrati

−30

−20

−10

0

10

20

30

40

Differenza Reti

Figura 9.39: Campionato di calcio di serie B. Diagramma di dispersione della differenza reti e del punteggio finale(*: centroide; retta dei minimi quadrati yˆ(x) in grassetto; rette yˆ(x) ± se tratteggiate). sono linearmente indipendenti. Inoltre, non emergono relazioni non lineari n`e raggruppamenti delle unit` a. Il grafico di destra 68 serve a controllare se la distribuzione degli errori sia approssimabile con una distribuzione gaussiana. Le ordinate dei punti sono le statistiche ordinate degli errori standardizzati mentre le ascisse sono i corrispondenti valori della normale standard. Se l’ipotesi di normalit` a `e verificata, i punti tendono a disporsi sulla bisettrice del primo e terzo quadrante, o in prossimit` a di essa. Nel nostro esempio non si rilevano deviazioni di rilievo da tale ipotesi.

68 Noto

come Q-Q plot

136

CORRELAZIONE LINEARE

2 1 0 −3

−3

−2

−1

Residui Standardizzati

1 −1

0

*

−2

Residui Standardizzati

2

3

Analisi dei Residui

3

Analisi dei Residui

40

50

60

70

Punteggio Finale (Valore Teorico)

80

90

−3

−2

−1

0

1

2

Quantili Teorici Normale Standard

Figura 9.40: Campionato di calcio di serie B. Diagramma di dispersione dei valori teorici e dei residui standardizzati (a sinistra); Q-Q plot dei residui standardizzati (a destra).

3