Sveucilište u Zagrebu. PMF - Matematicki odjel. Ime i prezime. Naslov rada.
Diplomski rad. Voditelj rada: Mentor mjesto, mjesec godina ...
Sveuˇciliˇste u Zagrebu PMF - Matematiˇcki odjel
Ime i prezime
Naslov rada
Diplomski rad
mjesto, mjesec godina
Sveuˇciliˇste u Zagrebu PMF - Matematiˇcki odjel
Ime i prezime
Naslov rada
Diplomski rad
Voditelj rada: Mentor
mjesto, mjesec godina
Ovaj diplomski rad obranjen je dana niˇckim povjerenstvom u sastavu:
pred nastav-
1.
, predsjednik
2.
, ˇclan
3.
, ˇclan
Povjerenstvo je rad ocijenilo ocjenom Potpisi ˇclanova povjerenstva:
1.
2.
3.
.
Sadrˇ zaj Uvod
ii
1 Wilcoxonova statistika sume rangova 1.1 Rangovi u usporedbi dva tretmana . . . . . . . . . . . . . . . . . . . 1.2 Randomizacijski model . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 2
2 Wilcoxonova statistika rangova s predznacima 2.1 Randomizacijski model za sparene uzorke . . . . . . . . . . . . . . . .
4 4
3 Asimptotski rezultati 3.1 Oˇcekivanje i varijanca . . . . . . . . . . . . . . . . . . . . . . . . . .
5 5
A CGT za joˇ s neke rang statistike
6
Bibliografija
7
i
Uvod ˇ Cesto nas zanima konvergira li neki niz sluˇcajnih varijabli po distribuciji te, ukoliko konvergira, prema kojoj distribuciji. Osim teorijskih vrijednosti ovakvi su rezultati znaˇcajni i u praktiˇcnoj primjeni. U ovom ´cemo radu pokazati da su Wilcoxonove statistike sume rangova (eng. Wilcoxon rank-sum statistic) i rangova s predznacima (eng. Wilcoxon signed-rank statistic) asimptotski normalne (teˇze po distribuciji prema normalnoj razdiobi) uz odredene uvjete.
ii
1 Wilcoxonova statistika sume rangova 1.1
Rangovi u usporedbi dva tretmana
U razliˇcitim se podruˇcjima ˇcesto pojavljuje problem je li predloˇzena inovacija bolja od trenutnog rjeˇsenja. ”Produˇzuje li novi lijek ˇzivot pacijenata s malignim tumorima?”, ”Smanjuje li se ˇstetan uˇcinak cigareta uporabom odredenog filtera?” i ”Smanjuje li novi sustav prijevoza troˇskove?” samo su neki od primjera. Kroz sljede´ci primjer pokuˇsati ´cemo ilustrirati naˇcin na koji, barem intuitivno, moˇzemo testirati ovakva pitanja. Primjer 1.1 Bolnica za ljude s mentalnim poteˇsko´cama ˇzeli testirati novi lijek koji navodno ima pozitivan utjecaj na neki mentalni poreme´caj. U bolnici se trenutno nalazi 5 pacijenata s tim poreme´cajem u, otprilike, istom stadiju. Od ovih pet pacijenata tri su odabrana na sluˇcajan naˇcin da prime novi lijek dok ´ce preostala dva sluˇziti kao kontrolna grupa. Oni ´ce primiti obiˇcnu tabletu bez ikakvih aktivnih sastojaka (takav ”lijek” zovemo placebo). Pacijenti (po mogu´cnosti i osoblje) ne´ce znati da li su dobili novi lijek. Ovo eliminira mogu´cnost psiholoˇskog utjecaja. Nakon nekog vremena nezavisni psihijatar pregledava pacijente te ih rangira po stupnju njihovog stanja. Pacijent za ˇcije se stanje procijeni da je najgore dobije rang 1, sljede´ci 2, . . . , do ranga 5. Pretpostavimo da lijek nema utjecaja, tj. da se pacijentovo stanje ne mijenja bez obzira je li primio novi lijek ili placebo. Ovu tvrdnju nazovimo nultom hipotezom. Kako pod nultom hipotezom rang koji pacijenti dobivaju ne ovisi o lijeku, ve´c samo o stanju pacijenta, jasno je da izbor pacijenata koji ´ce primiti novi lijek ne utjeˇce na rangiranje. Dakle, moˇzemo promatrati svaki od rangova kao odreden i prije nego ˇsto smo izabrali testnu i kontrolnu grupu. Izbor pacijenata koji ´ce biti u testnoj grupi tada u potpunosti odreduje i rangove. Svaki izbor testne grupe dijeli rangove u dvije skupine, rangove koji pripadaju testnoj grupi i one koji pripadaju kontrolnoj grupi. Sve kombinacije prikazane su u sljede´coj tablici. Testna Kontrolna Testna Kontrolna
grupa grupa grupa grupa
(3,4,5) (1,2) (2,3,4) (1,5)
(2,4,5) (1,3) (1,3,4) (2,5)
(1,4,5) (2,3) (1,2,4) (3,5)
(2,3,5) (1,4) (1,2,3) (4,5)
(1,3,5) (2,4) (1,2,5) (3,4)
(1.1.1)
Kao ˇsto se vidi i iz (1.1.1) pacijenti, a time i njihovi rangovi, mogu se podijeliti na deset razliˇcitih naˇcina. Pod pretpostavkom da smo 3 pacijenta za testnu grupu izabrali na sluˇcajan naˇcin mislimo da ´ce bilo koji od ovih 10 naˇcina biti jednako vjerojatan, tj. imati ´ce vjerojatnost 1 ci da je svaki od naˇcina jednako vjerojatan veliki rangovi kod testne grupe ukazivati ´ce 10 . Budu´ na uspjeˇsnost novog lijeka (viˇse o ovoj tvrdnji biti ´ce priloˇzeno u sljede´cem odlomku).
1
Razmatranja iz Primjera 1.1 lako se generaliziraju. Pretpostavimo da nam je dano N pacijenata za testiranje i da je na sluˇcajan naˇcin izabrano n od poˇcetnih N , koji ´ce primiti tretman dok ´ce ostalih m = N − n sluˇziti kao kontrolna grupa. N Iz elementarne teorije prebrojavanja slijedi da je broj izbora jednak n . Po pretpostavci, n pacijenata koji ´ce primiti novi tretman izabrano je na sluˇcajan naˇcin (misle´ci ovdje, a i ubudu´ ce, da su svi izbori jednako vjerojatni) pa svaki od izbora N ima vjerojatnost 1/ n . Na kraju testiranja pacijenti su rangirani (po mogu´cnosti od nepristranog promatraˇca) s obzirom na ciljani rezultat. Kao i prije, uz ispravnost nulte hipoteze, na rangiranje ne utjeˇce koji su pacijenti u testnoj grupi. Rang svakog od pacijenata moˇze se promatrati kao odreden (iako nama nepoznat) prije nego li je izvrˇseno particioniranje na testnu i kontrolnu grupu. Stoga, uz ispravnost nulte hipoteze, svako pridruˇzivanje rangova jednako je vjerojatno sa vjerojatnoˇs´cu 1/ Nn . Zapiˇsimo gornju tvrdnju malo formalnije. Neka su S1 , . . . , Sn rangovi testne grupe. Tada je 1 (1.1.2) PH0 (S1 = s1 , . . . , Sn = sn ) = N n
gdje je {s1 , . . . , sn } n-ˇclani podskup od {1, 2, . . . , N }, a PH0 oznaˇcava vjerojatnost uz istinitost nulte hipoteze. Tijekom cijelog odlomka pretpostavljali smo da ne izabiremo pacijente ve´c da su nam dani te da smo na sluˇcajan naˇcin odabrali testnu grupu. Ovakav ´cemo model, u kojem sluˇcajnost ulazi samo kroz odabir testne grupe, zvati randomizacijski model (eng. randomization model ). Model u kojem se N pacijenata izabire na odredeni naˇcin iz neke populacije zovemo populacijski model. U ovom modelu sluˇcajnost ulazi i kroz izbor pacijenata. Iako nas uglavnom zanima prijenos rezultata na populaciju postoje primjeri gdje je randomizacijski model dovoljan. Npr. farmer koji ˇzeli testirati donosi li novo gnojivo napredak na njegovih nekoliko polja i ne zanima ga donosi li napredak na ostalim poljima.
1.2
Randomizacijski model
U Primjeru 1.1 reˇceno je da ´ce dovoljno veliki rangovi ukazivati na uspjeˇsnost novog lijeka. Medutim, kada su rangovi (S1 , . . . , Sn ) dovoljno veliki? Takvi se zakljuˇcci uglavnom donose pomo´cu neke testne statistike ˇcije velike vrijednosti odgovaraju velikim rangovima. Jedna od takvih test statistika je i WS = S1 + · · · + Sn .
(1.2.1)
Statistiku WS definiranu relacijom (1.2.1) zovemo Wilcoxonova statistika sume rangova (eng. Wilcoxon rank-sum statistic), a test definiran s WS Wilcoxonov test sume rangova (eng. Wilcoxon rank-sum test). Ime su dobili po poznatom ameriˇckom statistiˇcaru Franku Wilcoxonu koji ih 1945. g. prvi puta upotrijebio u svom radu [9]. 2
Time smo dobili naˇcin za provjeru jesu li nam rangovi dovoljno veliki. Da bismo izraˇcunali kritiˇcno podruˇcje, ili p-vrijednost, potrebno je poznavati, uz H0 , distribuciju od WS . Za Primjer 1.1 gdje je N = 5, n = 3 distribucija se moˇze dobiti iz tablice (1.1.1). Svakom od izbora testne grupe odgovara jedna vrijednost w testne statistike WS kao ˇsto je prikazano u tablici (1.2.2).
3,4,5 2,4,5 1,3,5 2,3,5 1,3,5 2,3,4 1,3,4 1,2,4 1,2,3 1,2,5 12
11
10
10
9
9
8
Budu´ci da je vjerojatnost svakog izbora jednaka w PH0 (WS = w)
6
7
8
7
1 10
vrijedi
9
10
6
11
(1.2.2)
8
12
(1.2.3)
0.1 0.1 0.2 0.2 0.2 0.1 0.1
Ove vjerojatnosti tvore distribuciju od WS uz hipotezu H0 . Distribuciju uz uvjet istinitosti od H0 nazivamo nulta distribucija. Iz (1.2.3) slijedi da za Primjer 1.1. vrijedi PH0 (WS ≥ 12) = PH0 (WS = 12) = 0.1. Za razinu znaˇcajnosti α = 0.1 nultu hipotezu odbacujemo samo kada je WS = 12, tj. kada su rangovi testne grupe 3, 4 i 5.
3
2 Wilcoxonova statistika rangova s predznacima 2.1
Randomizacijski model za sparene uzorke
U prvom smo poglavlju usporedivali dva tretmana kada je N subjekata dano za testiranje i podijeljeno na sluˇcajan naˇcin na testnu i kontrolnu grupu (randomizacijski model) ili kada se N subjekata odabire metodom jednostavnog sluˇcajnog uzorkovanja iz neke populacije (populacijski model). Kod ovakvih modela problem nastaje kada se subjekti znaˇcajno razlikuju (drastiˇcne razlike u stupnju bolesti npr.) jer tada razlika moˇze umanjiti ili poniˇstiti uˇcinak tretmana. U takvim sluˇcajevima uˇcinkovitost usporedbe moˇze se pove´cati razlaganjem subjekata u homogenije grupe. ˇ sto ´ce biti lakˇse prona´ci male homogene grupe, nego velike i uglavnom se Ceˇ subjekti dijele na homogene grupe po dvoje (parove). Usporedbe s homogenim grupama od dvoje subjekata nazivamo sparene usporedbe (eng. paired comparisons). Primjer je prouˇcavanje blizanaca gdje se svaka grupa sastoji od dva blizanca. Dijeljenje na parove nije ograniˇceno samo na situacije gdje imamo prirodno sparivanje, ve´c se moˇze posti´ci i detaljnim prouˇcavanjem subjekata. Primjer su pacijenti koji su u istom stadiju bolesti ili populacije koje imaju istu geografsku lokaciju.
4
3 Asimptotski rezultati 3.1
Oˇ cekivanje i varijanca
Da bismo mogli koristiti asimptotske rezultate za neke sluˇcajne varijable potrebno je poznavati njihovo oˇcekivanje i varijancu. Osnovna svojstva matematiˇckog oˇcekivanja i varijance ovdje ´cemo koristiti pretpostavljaju´ci da je ˇcitatelj ve´c upoznat s njima. Formalni iskazi i dokazi mogu se na´ci u [6] i [7]. Primjer 3.1 Pretpostavimo da se populacija sastoji od N brojeva v1 , . . . , vN . Neka je na sluˇcajan naˇ cin v1 · · · vN i izabran jedan od tih brojeva i oznaˇcimo ga s V . Za vi razliˇcite vrijedi V ∼ 1 · · · N1 N iz definicije matematiˇckog oˇcekivanja slijedi v1 + · · · + vN =v , (3.1.1) N gdje s v oznaˇcavamo aritmetiˇcku sredinu. Ako vrijednosti vinisu razliˇcite, pretpostavimo da a1 · · · ac pa iz definicije ih je toˇcno n1 jednako a1 ,. . . , nc jednako ac . Tada je V ∼ n1 · · · nNc N matematiˇckog oˇcekivanja slijedi E(V ) =
n1 a1 + · · · + nc ac =v . (3.1.2) N Vidimo da je oˇcekivanje u oba sluˇcaja jednako aritmetiˇckoj sredini vrijednosti v1 , . . . , vN . Izraˇcunajmo sada varijancu. Neka su vrijednosti vi razliˇcite. Tada iz (3.1.1) i definicije varijance slijedi Var(V ) = τ 2 (3.1.3) E(V ) =
gdje je τ2 =
N 1 X 2 (vi − v) N i=1
(3.1.4)
τ2 =
N 1 X 2 vi − v 2 . N i=1
(3.1.5)
2
ili, koriste´ci Var(V ) = E(V 2 ) − E(V ) ,
Ako vrijednosti vi nisu razliˇcite, pretpostavimo da ih je toˇcno n1 jednako a1 ,. . . , nc jednako ac . Tada iz definicije varijance i (3.1.2) slijedi Var(V ) =
N n1 nc 1 X 2 (a1 − v)2 + · · · + (ac − v)2 = (vi − v) = τ 2 . N N N i=1
Lagano se pokaˇze da vrijedi i formula (3.1.5).
5
(3.1.6)
A CGT za joˇ s neke rang statistike Ovdje ´cemo pokazati asimptotsku normalnost statistika SN =
N X
zN j aN (RN j )
(A.1)
j=1
gdje su zN 1 ,. . . ,zN N i aN (1),. . . ,aN (N ) konstante a RN 1 ,. . . ,RN N permutacije brojeva 1,. . . ,N sve jednako vjerojatne (sa vjerojatnosti 1/N !). Zbog jednostavnosti ˇcesto ´cemo izostavljati indeks N kod z, a i R te pisati SN =
N X
zj a(Rj ) .
(A.2)
j=1
Vaˇzan primjer dobijemo za zj = j i a(j) = 1 kada je 1 ≤ j ≤ n te a(j) = 0 inaˇce. Tada statistika SN jest Wilcoxonova statistika WS uz nultu hipotezu. Primijetimo da se distribucija od SN ne´ce promijeniti ako indekse zamijenimo. Stoga, bez smanjenja op´cenitosti, moˇzemo pretpostaviti da su konstante a(j) (ili zj ili oboje) u rastu´cem poretku. Distribucija od SN ne´ce se promijeniti ni ako PN 0 zamijenimo a(j) i zj jer moˇzemo pisati SN = j=1 a(j)zR0 j gdje je R j inverzna permutacija od Rj .
6
Bibliografija [1] T.S. Ferguson: A Course in Large Sample Theory, Chapman & Hall/CRC, London, 1996. [2] J. Hajek: Some Extensions of Wald-Wolfowitz-Noether Theorem, Ann. Math. Statistics, Vol. 32, 505-523, 1961. [3] E.F. Harding: An Efficient, Minimal-storage Procedure for Calculating the Mann-Whitney U, Generalized U and Similar Distributions, Applied Statistics, Vol. 33, No. 1, 1-6. 1984. [4] E.L. Lehmann: Nonparametrics: Statistical Methods Based on Ranks, Revised First Edition, Springer, New York, 2006. [5] H.B. Mann, D.R. Whitney: On a Test of Whether One of Two Random Variables is Stochastically Larger Than the Other, Ann. Math. Statistics, Vol. 18, 50-60, 1947. ˇ [6] N. Sarapa: Teorija vjerojatnosti, Skolska knjiga, Zagreb, 2002. [7] A.N. Shiryaev, Probability, Second Edition, Springer, New York, 1996. [8] P. Sprent, N.C. Smeeton, Applied Nonparametric Statistical Methods, Fourth Edition, Chapman & Hall/CRC, Boca Raton, 2007. [9] F. Wilcoxon: Individual Comparisons by Ranking Methods, Biometrics, Vol. 1, 80-83, 1945.
7