Stime di massima verosimiglianza per un mo- dello di regressione ...

Stime di massima verosimiglianza per un modello di regressione lineare normale. La normale multivariata Il vettore casuale (v.c.) X ha distribuzione normale n-variata con parametri µ, vettore delle medie, e Σ, matrice di covarianze, se la sua densità di probabilità è 1 1 −1 − 0 −n f (x; µ, Σ) = (2π) 2 |Σ| 2 exp − (x − µ) Σ (x − µ) . 2

Il modello di regressione lineare classico Sia yt una variabile, la cui variabilità può essere in parte spiegata come funzione lineare di una costante e di variabili non stocastiche xt,1 , xt,2 , . . . , xt,k−1 (tra loro non linearmente dipendenti), per mezzo del seguente modello di regressione yt = β0 + β1 xt,1 + . . . + βk−1 xt,k−1 + εt con εt ∼ N (0, σ 2 ) e cov(εs , εt ) = 0 per β = (β0 , . . . , βk−1 )0 , ε = (ε1 , . . . , εn )0 ,  x1,1 x1,2  x2,1 x2,2  X =  .. ..  . . xn,1 xn,2

t = 1, . . . , n,

s 6= t. Ponendo y = (y1 , . . . , yn )0 , . . . x1,k . . . x2,k .. ... . . . . xn,k

   , 

lo stesso modello può essere scritto in maniera compatta y = Xβ + ε, con ε ∼ Nn (0, σ 2 In ). Un modo alternativo, ma equivalente di scrivere il modello di regressione è: y ∼ Nn (Xβ, σ 2 In ).

Stima dei parametri del modello col metodo dei minimi quadrati I parametri β e σ 2 del modello di regressione sono incogniti e vanno stimati, uno dei metodi possibili è quello dei minimi quadrati (LS=least square). 1

Gli stimatori LS dei parametri β del modello sono i valori che soddisfano a n X

(yt − β0 − β1 xt,1 − . . . − βk−1 xt,k−1 )2 = min,

t=1

che in forma matriciale può essere riscritta (y − Xβ)0 (y − Xβ) = min . Eseguendo i prodotti si ottiene y0 y − β 0 X0 y − y0 Xβ + β 0 X0 Xβ = = y0 y − 2y0 Xβ + β 0 X0 Xβ, dove il secondo ed il terzo addendo della prima riga sono uguali essendo scalari (il trasposto di uno scalare è uguale allo scalare stesso). Ora, per trovare il minimo non resta che derivare rispetto a β e porre le derivate uguali a zero (e verificare che la matrice delle derivate seconde sia definita positiva). ∂ 0 (y y − 2y0 Xβ + β 0 X0 Xβ) = 0 ∂β −2X0 y + 2X0 Xβ = 0 0 −1 0 ˆ β LS = (X X) X y. Per esercizio • Si calcoli la matrice delle derivate seconde e si mostri che tale matrice è definita positiva. • Si mostri che lo stimatore è corretto, cioè che E(β LS ) = β. • Si mostri che la matrice di covarianza dello stimatore è: E[(β LS − β)(β LS − β)0 ] = σ 2 (X0 X)−1 . ˆ LS esprimibile come combinazione lineare di variabili casuali Essendo β normali, è a sua volta normale: ˆ ∼ Nk (β, σ 2 (X0 X)−1 ). β LS Si può mostrare che (y − Xβ)0 (y − Xβ) s = n−k 2

2

è uno stimatore corretto di σ 2 , la cui distriuzione è (n − k)s2 ∼ χ2n−k . 2 σ Si chiami cij , il generico elemento della matrice (X0 X)−1 ; dalla teoria della normale segue che p (n − k)σ 2 βˆLSi − βi βˆLSi − βi √ p √ · ∼ tn−k , = σ 2 cii s2 cii (n − k)s2 con cui si può costruire un test t per verificare l’ipotesi H0 : βi = 0.

Stima di massima verosimiglianza dei parametri del modello Un metodo alternativo per stimare β e σ 2 nel modello di regressione è la massima verosimiglianza (ML=maximum likelihood), che gode di buone proprietà statistiche (specie per grandi campioni). Visto che il modello di regressione può essere espresso con y ∼ Nn (Xβ, σ 2 In ), è possibile scrivere la densità di probabilità di y, e quindi la funzione di verosimiglianza dei parametri β e σ 2 come segue: 1 0 2 2 2 −n/2 L(β, σ ; y) = f (y; β, σ ) = (2πσ ) exp − 2 (y − Xβ) (y − Xβ) . 2σ La stima di massima verosimiglianza dei parametri è la combinazione di valori per β e σ 2 che rende massima la funzione di verosimiglianza, cioè è quel valore dei parametri che rende il campione estratto il pi` u probabile possibile, quando il modello lineare gaussiano è corretto. In genere è pi` u agevole cercare il massimo della trasformata logaritmica della funzione di verosimiglianza, che ha la proprietà di non alterare il valore dei parametri nei punti stazionari della funzione L(.)1 : n 1 n l(β, σ 2 ) = log L(β, σ 2 ) = − log(2π) − log(σ 2 ) − 2 (y − Xβ)0 (y − Xβ). 2 2 2σ Ponendo le derivate prime uguali a zero si ottiene: ∂l n 1 = − 2 + 4 (y − Xβ)0 (y − Xβ) = 0 2 ∂σ 2σ 2σ ∂l 1 = − 2 [2X0 Xβ − 2X0 y] = 0 ∂β 2σ 1

Infatti porre

∂L(θ) ∂θ

uguale a zero, equivale a porre

3

1 ∂l(θ) L(θ) ∂θ

nullo, con l(θ) = log L(θ).

da cui risulta 1 (y − Xβ)0 (y − Xβ) n = (X0 X)−1 X0 y

2 σ ˆM L =

ˆ ML β

In questo caso particolare (regressione lineare gaussiana) lo stimatore di β M L coincide con lo stimatore LS (=least square=minimi quadrati) e quindi ˆ M L ∼ N (β, σ 2 (X0 X)−1 ). β

Propriet` a del generico stimatore di massima verosimiglianza ˆ lo stimatore di massima verosimiglianza di θ 0 , e l(θ) la funzione di Sia θ ˆ massimizza. Sotto condizioni di regolarità (genelog-verosimiglianza che θ ˆ è ralmente rispettate nei comuni problemi di stima), lo stimatore θ ˆ − θ 0 | < ε) = 1. 1. Consistente: limn→∞ Pr(|θ √ ˆ 2. Asintoticamente normale: n(θ − θ 0 ) ∼a N (0, I−1 (θ 0 )) con " # 2 0 ∂l ∂ l ∂l I(θ 0 ) = E = −E , ∂θ θ0 ∂θ θ0 ∂θ∂θ 0 θ0 matrice di informazione di Fisher. 3. Asintoticamente efficiente: infatti per n → ∞ non esiste alcuno ˆ stimatore pi` u efficiente (a varianza pi` u piccola) di θ.

4