Pentru urmatoarele cazuri, precizati populatia statistica si identificati variabila
studiata: .... Consideram urmatorul set de date: 5,-7,2,0,-9,16,10,7. sa se
calculeze:.
Statisticˇ a - exercit¸ii S¸tefan Balint, Tˇanasie Loredana
1
Not¸iuni de bazˇ a
Exercit¸iu 1.1. Presupunet¸i cˇa lucrat¸i pentru o firmˇa de sondare a opiniei publice ¸si dorit¸i sˇa estimat¸i proport¸ia cetˇa¸tenilor care, ˆın eventualitatea organizˇarii de alegeri astˇazi, ar vota cu partidul de guvernˇamˆant. definit¸i populat¸ia statisticˇa pe care o e¸santionat¸i. Dar dacˇa v-ar interesa sˇa estimat¸i proport¸ia cetˇa¸tenilor care, la viitoarele alegeri ar vota cu partidul de guvernˇamˆant, care ar fi populat¸ia statisticˇa? Exercit¸iu 1.2. O companie de asigurˇari dore¸ste sˇa determine proport¸ia medicilor care au fost implicat¸i ˆın ultimul an ˆın una sau mai multe act¸iuni judiciare de rele practici. Compania selecteazˇa ˆıntˆamplˇator ˆın ultimul an una sau mai multe act¸iuni judiciare de rele practici. Compania selecteazˇa ˆıntˆamplˇator 500 de medici care au practicat ˆın ultimul an ¸si determinˇa proport¸ia. Identificat¸i populat¸ia de interes. Exercit¸iu 1.3. Un cercetˇator este interesat sˇa compare salariul de ˆıncadrare pentru bˇarbat¸ii ¸si femeile care au un loc de muncˇa imediat dupˇa absolvirea facultˇa¸tii. Sunt cercetat¸i 100 de bˇarbat¸i ¸si 100 de femei. Exercit¸iu 1.4. Identificat¸i trei tipuri diferite de variabile statistice ce pot fi colectate pentru a reflecta popularitatea a cinci publicat¸ii periodice similare. Exercit¸iu 1.5. Pentru urmˇatoarele cazuri, precizat¸i populat¸ia statisticˇa ¸si identificat¸i variabila studiatˇa: a) timpiii de execut¸ie, ˆın secunde a 400 de programe ˆın Java; b) absenteismul (ˆın zile al angajat¸ilor); b) profesia a 200 de salariat¸i; d) numˇarul copiilor a 2000 de familii; Exercit¸iu 1.6. Clasificat¸i urmˇatoarele grupuri ca populat¸ie sau e¸santion: - toate persoanele de peste 18 ani din Romˆania; - un grup de persoane din judet¸ul Alba; - toate persoanele din judet¸ul Cˇalˇara¸si; 1
- 2 kg de mere; - toate merele din recolta acestui an; - cˆateva primˇarii din judet¸ul Timi¸s; - 500 de gospodˇarii din Romˆania; - o gˇaleatˇa de apˇa dintr-o fˆantˆ naˇ. Pentru fiecare populat¸ie definitˇa anterior dat¸i un exemplu de e¸santion. Exercit¸iu 1.7. Clasificat¸i urmˇatoarele variabile ˆın variabile calitative ¸si cantitative: - Numˇarul de persoane dintr-o gospodˇarie; - Statutul marital al unei persoane; - Numˇarul de student¸i dintr-o grupˇa care vin la seminar; - Culoarea ma¸sinilor; - Lungimea sˇariturii unei broa¸ste; - Culoarea ochilor; - Chiria plˇatitˇa de chiria¸si; - Suprafat¸a locuibilˇa ˆıntr-un apartament; - Veniturile pensionarilor din Bucure¸sti; - Coeficient¸ii de inteligent¸ˇa a copiilor din S¸coala Generala Nr. 30, Timi¸soara; - Durata unei greve; - Orientarea politicˇa a persoanelor adulte.
2
2
Determinarea frecvent¸ei ¸si gruparea datelor. Prezentarea datelor. Parametrii ¸si statistici ai tendint¸ei centrale
Exercit¸iu 2.1. O firmˇa este interesatˇa de timpul mediu al convorbirilor telefonice ¸si de distribut¸ia acestor timpi fat¸ˇa de timpul mediu (dispersia) pe durata a 40 convorbiri telefonice consecutive. Timpii s-au rotunjit n minute s-a obt¸inut urmˇatorul set de date: 4, 6, 4, 4, 7, 2, 3, 1, 2, 1, 1, 4, 9, 8, 11, 12, 3, 2, 1, 1, 3, 9, 4, 5, 7, 7, 9, 10, 10, 1, 2, 2, 3, 11, 12, 10, 1, 1, 3, 4. Care este seria de distribut¸ie? Sˇa se realizeze diagrama cerc? Care sunt parametrii tendint¸ei centrale? Exercit¸iu 2.2. Considerˇam urmˇatoarea serie de distribut¸ie cu date grupate: x 3-5 6-8 9-11 12-14 15-17
fx 2 10 12 9 7
a) Sˇa se realizeze histograma; b) Calculat¸i media, intervalul median ¸si intervalul modal. Exercit¸iu 2.3. Notele obt¸inute de 40 de student¸i sunt urmˇatoarele: 8; 10; 4; 9; 6; 8; 10; 7; 8; 3; 9; 6; 5; 4; 8; 7; 10; 9; 6; 5; 4; 3; 6; 9; 10; 8; 7; 7; 7; 6; 5; 5; 6; 7; 9; 10; 7; 6; 3; 4; 1) Sˇa se prezinte datele sub forma unui tabel statistic; 2) Sˇa se reprezinte grafic datele; 3) Sˇa se grupeze datele pe 4 intervale; 4) Sˇa se calculeze frecvent¸ele cumulate crescˇator; 5) Sˇa se reprezinte seria de date. Exercit¸iu 2.4. Se dau numˇarul de ani de pensie pentru 15 pensionari: 5 6 3
6 11
7 9 10
2 4 10
6 2 1
5
Sˇa se calculeze modul ¸si mediana pentru aceste date. Sˇa se com pare aceste valori ¸si sˇa se precizeze care este cea mai potrivitˇa pentru a mˇasura tendint¸a centralˇa a datelor. 3
Exercit¸iu 2.5. Un analist financiar al unei firme este interesat ˆın a determina salariul mediu acordat angajat¸ilor a 4 filiale ale firmei. Pentru aceasta el culege datele privind salariul mediu pe fiecare filialˇa ¸si fondurile de salarizare. Filiala 1 2 3 4
Salariul mediu ˆın filialˇa (mii U.M.) 540 620 480 700
Fondul de salarizare (milioane U.M.) 45,90 33,48 16,80 19,60
Care este salariul mediu al unui salariat? Exercit¸iu 2.6. Au fost ˆınregistrate numˇarul de ore petrecute de student¸i cu ˆınvˇa¸tatul: Numˇar ore 0-3 4-7 8-11 12-15 16-19 20-23
Numˇar student¸i 17 23 15 11 8 6
Sˇa se calculeze numˇarul mediu de ore petrecut de un student cu ˆınvˇa¸tatul. Exercit¸iu 2.7. ˆIntr-o ¸scoalˇa promovabilitatea elevilor a crescut astfel ˆın perioada 19952006: ˆın perioada 1995-1998 a crescut de 1.05 ori, ˆın perioada 1999-2002 a crescut de 1.078 ori, iar ˆın perioada 2003-2006 a crescut de 1.098 ori. Care este valoarea medie a cre¸sterii promovabilitˇa¸tii?
4
3
Parametrii si statistici ai dispersiei. Parametrii si statistici factoriali ai variantei
Exercit¸iu 3.1. Considerˇam urmˇatorul set de date: 5,-7,2,0,-9,16,10,7. sˇa se calculeze: a) media aritmeticˇa ¸si pˇatraticˇa, mediana, modul; b) deviat¸ia medie absolutˇa a setului de date; c) Variant¸a ¸si abaterea standard a setului de date; item[d)] Coeficientul de variat¸ie. Exercit¸iu 3.2. Considerˇam urmˇatoarea serie de distribut¸ie cu frecvent¸e: x f 0 1 1 3 2 8 3 5 4 3 a) Calculat¸i 3 parametrii ai tendint¸ei centrale; b) Determinat¸i variant¸a ¸si abaterea standard a setului de date; item[d)] Care este coeficientul de variat¸ie? Exercit¸iu 3.3. Considerˇam urmˇatoarele valori: 19, 13, 20, 22, 19, 17 9, 10, 19, 13, 23, 15 22, 14, 18, 21, 20, 18 9, 15, 13, 10, 17, 19 Grupat¸i datele, iar apoi calculat¸i coeficientul de variat¸ie. Exercit¸iu 3.4. Au fost ˆınregistrate numˇarul de ore petrecute de student¸i cu ˆınvˇa¸tatul: Numˇar ore 0-3 4-7 8-11 12-15 16-19 20-23
Numˇar student¸i 17 23 15 11 8 6
Sˇa se calculeze a) media aritmeticˇa ¸si pˇatraticˇa, mediana, modul; 5
b) deviat¸ia medie absolutˇa a setului de date; c) Variant¸a ¸si abaterea standard a setului de date; item[d)] Coeficientul de variat¸ie. Exercit¸iu 3.5. Persoanele unei firme sunt ˆımpˇart¸ite ˆın trei grupe ˆın funct¸ie de ˆınˇalt¸ime. Se cunosc urmˇatoarele date Grupa A 175 45
ˆInˇalt¸imea medie a grupei (cm) Numˇarul de persoane
Grupa B 171 40
Grupa C 180 30
Care este variant¸a mediilor de grupˇa fat¸aˇ de media generalˇa? Exercit¸iu 3.6. Se dˇa o selectie de 150 de numere x1 ; x2 ; . . . ; x150 cu Aceste numere se grupeazˇa ˆın 8 intervale [80; 86]; [87; 93]; . . . ; de lungime 6 unitˇa¸ti. Ele se repartizeazˇa ˆın aceste intervale dupˇa cum urmeazˇa: ˆın primul interval avem 2 numere (n1 = 2), ˆın al doilea 23 de numere (n2 = 23), n3 = 22, n4 = 65, n5 = 20, n6 = 10, n7 = 0, n8 = 8. Sˇa se calculeze variant¸a fiecˇarei grupe, media variant¸elor de grupˇa, variant¸a mediilor de grupˇa fat¸aˇ de media generalˇa ¸si variant¸aˇ totalˇa.
6
4
Parametrii si statistici ai pozitiei
Exercit¸iu 4.1. Se considerˇa urmˇatoarea serie statisticˇa ce prezintˇa nivelul de hemoglobinˇa ˆın sˆange pentru 60 de persoane presupuse sˇanˇatoase. Valorile sunt date atˆat pentru bˇarbat¸i cˆat ¸si pentru femei (valorile pentru femei sunt marcate cu un asterisc ˆın dreapta). 105* 110* 112* 112* 118* 119* 120* 120* 125* 126* 127* 128* 130* 132* 133* 134* 135* 138* 138* 138* 138* 141 142* 144 145* 146 148* 148* 148 149 150* 150 151* 151 153 153 153 154* 154* 154 155 156 156 158* 160 160 160 160 163 164 164 165 166 168 168 170 172 172 176 179 141 a) Scriet¸i serile de distribut¸ie cu frecvent¸e pentru femei ¸si pentru bˇarbat¸i; b) Determinat¸i pentru fiacre dintre serii media aritmedticˇa ¸si variant¸a; c) Calculat¸i quantilele. d) Care este scorul standard? Exercit¸iu 4.2. Se considerˇa urmˇatoarea serie de distribut¸ie cu grupare: Vechimea muncitoriloe 4,5 10,5 16,5 22,5 28,5
Numˇar muncitori 3 4 6 5 2
Determinat¸i quantilele ¸si scorul standard. Exercit¸iu 4.3. Determinat¸i quantilele centilele C2 0 ¸si C5 0 pentryu urmˇatoarea serie de distribut¸ie cu grupare. 10-15 16-20 22-27 28-33 34-39 40-45
15 30 40 50 20 5
Exercit¸iu 4.4. Se considerˇa populat¸ia de la care se pot obt¸ine urmˇatoarele date statistice distincte: {0, 3, 6, 9}. a) Cˆate e¸santioane de 2 elemente se pot forma? b) Care este seria de distribut¸ie a mediei acestor e¸santioane? c) Reprezentatt¸i grafic diagrama coloanˇa. 7
5
Teorema de limita centrala
Exercit¸iu 5.1. Se considerˇa populat¸ia de la care se pot obt¸ine urmˇatoarele date statistice distincte: {4, 8, 12}. a) Cˆate e¸santioane de 2 elemente se pot forma? b) Care este seria de distribut¸ie a mediei acestor e¸santioane? c) Reprezentatt¸i grafic diagrama coloanˇa. d) Verificat¸i validitatea Teoremei limitˇa centralˇa. Exercit¸iu 5.2. ˆInˇalt¸imea copiilor dintr-o grˇadinit¸ˇa considerˇam cˇa este o variabilˇa distribuitˇa aproximativ normal de medie: µ = 39 ¸si abatere standard 2. a) Dacˇa se ia un copil la ˆıntˆamplare care este probabilitatea ca ˆınˇalt¸imea lui sˇa fie ˆıntre 38 ¸si 40 de inch? b) Care este probabilitatea ca media ˆınˇalt¸imii unei clase de 30 de copii sˇa fie ˆıntre 30 ¸si 40 inch? c) Dacˇa se ia un copil la ˆıntmplare ˆ care este probabilitatea ca ˆınˇalt¸imea copilului sˇa fie mai mare decˆat 40? d) Dar probabilitatea ca media ˆınˇalt¸imilor copiilor dintr-o clasˇa de 30 de copii sˇa fie mai mare decˆat 40? Exercit¸iu 5.3. Pentru o populat¸ie se cunoa¸ste media µ = 500 ¸si deviat¸ia standard σ = 30. Se extrag aleator mai multe e¸santioane de dimensiune 36. a) Ce valoare are media tuturor e¸santioanelor extrase? b) Calculat¸i deviat¸ia standard a tuturor e¸santioanelor extrase. c) Ce distribut¸ie urmeazˇa media acestor e¸santioane? Exercit¸iu 5.4. Considerˇam 36 de date selectate dintr-o populat¸ie distribuitˇa normal de medie 50 ¸si deviat¸ie standard 10. a) Care este probabilitatea ca media datelor sˇa fie ˆın intervalul 45 ¸si 55? b) Care este probabilitatea ca media sˇa fie mai mare decˆat 48?
8
6
Verificarea ipotezelor statistice: varianta clasicˇ a
Exercit¸iu 6.1. O uzinˇa a cumpˇarat un lot de cabluri metalice destinate sˇa sust¸inˇa ˆıncˇarcˇaturi grele. Fabricantul de cabluri a afirmat cˇa ˆıncˇarcˇatura medie ce provoacˇa ruperea acestor cabluri este de 8000 kg. Uzina a efectuat un test pe 6 cabluri ¸si a constatat o ˆıncˇarcˇaturˇa medie de rupere egalˇa cu 7750 de kg ¸si o abatere standard de 145 kg. Uzina dore¸ste sˇa ¸stie dacˇa depune plˆangere contra fabricantului, poate cˆa¸stiga procesul cu o probabilitate de 99%? Exercit¸iu 6.2. Pentru a determina nivelul mediu de plumb din apa potabilˇa a unei zone puternic industrializate se fac determinˇari ˆın 144 de zile alese aleator. ˆIn urma testelor s-a obt¸inut o medie de x = 36 de unitˇa¸ti de plumb/100 ml apˇa, iar abaterea medie pˇatraticˇa s = 15 unitˇa¸ti plumb/100 ml apˇa. Sˇa se determine un interval de ˆıncredere de 95% pentru valoarea medie a nivelului de plumb/100 ml apˇa. Exercit¸iu 6.3. O ma¸sinˇa produce fiole de sticlˇa. Pentru 53 de fiole s-a observat o duratˇa medie de viat¸ˇa de x = 830 de ore. Presupunem cˇa durata de viat¸aˇ a unei fiole urmeazˇa o lege normalˇa, iar variant¸a este σ = 415. Directorul firmei afirmˇa cˇa durata de viat¸ˇa a fiolelor este x = 850 de ore. Are el dreptate la nivelul de semnificat¸ie α = 0, 05? Exercit¸iu 6.4. Nivelul de glicemie al unei populat¸ii adulte este presupusˇa distribuitˇa dupˇa o lege normalˇa de dispersie σ = 0, 80 g/l de sˆange.Se considerˇa un e¸santion de 12 persoane ale acestei populat¸ii ¸si se mˇasoarˇa nivelul de glicemie la fiecare. Se gˇasesc urmˇatoarele rezultate: 0, 6 0, 9 0, 74 0, 96 0, 85 1, 05 0, 8 0, 93 1, 17 0, 70 0, 84 0, 75 La un nivel de semnificat¸ie de α = 0, 05 nivelul mediu al glicemiei x este compatibil cu nivelul mediu al glicemiei µ? Exercit¸iu 6.5. Se presupune cˇa ˆıncˇarcˇatura suportatˇa de plˇacile de tablˇa este o variabilˇa aleatoare de medie µ ¸si abatere medie pˇatraticˇa σ. ˆIn condit¸iile date, s-au testat 50 de plˇaci de tablˇa, media ¸si abaterea observate sunt x = 320, iar abaterea medie pˇatraticˇa este s = 35. Cˆate plˇaci de tablˇa trebuie testate pentru ca intervalul de ˆıncredere al ˆıncˇarcˇaturii medii sˇa fie determinat cu o amplitudine de 10 kg la nivelul de semnificat¸ie α = 0, 005? Exercit¸iu 6.6. ˆIn exemplele urmˇatoare verificat¸i dacˇa se poate accepta ipoteza nulˇa, la
9
nivelul de semnificat¸ie α = 0, 05 a) H0 : µ = 100 n = 64, x = 105, σ 2 = 40 Ha : µ > 100 b)
H0 : µ = 100 n = 60, x = 110, σ 2 = 20 Ha : µ > 100
c)
H0 : µ = 90 Ha : µ < 90
n = 25, x = 84, σ 2 = 30
d) H0 : µ = 90 Ha : µ < 90
n = 36, x = 80, σ 2 = 40
e) H0 : µ = 100 n = 25, x = 95, σ 2 = 20 Ha : µ = 6 100 f ) H0 : µ = 100 n = 36, x = 105, σ 2 = 30 Ha : µ = 6 100
10
7
Verificarea ipotezelor statistice: varianta probabilistˇ a
Exercit¸iu 7.1. Calculat¸i p-valorile ˆın urmˇatoarele cazuri: a) H0 : µ = 10 z ∗ = 1, 48 Ha : µ > 10 b)
H0 : µ = 105
z ∗ = −0, 85
Ha : µ < 105 c)
H0 : µ = 13, 4
z ∗ = 1, 17
Ha : µ 6= 13, 4 d) H0 : µ = 8, 56
z ∗ = −2, 11
Ha : µ < 8, 56 e) H0 : µ = 110
z ∗ = −0, 93
Ha : µ 6= 110 f ) H0 : µ = 54, 2
z ∗ = 0, 46
Ha : µ > 54, 2 Exercit¸iu 7.2. P-valoarea calculatˇa a unei statistici observate este P = 0, 084. Care este decizia privind ipoteza nulˇa? a) dacˇa nivelul de semnificat¸ie fixat este α = 0, 05; b) dacˇa nivelul de semnificat¸ie fixat este α = 0, 10. Exercit¸iu 7.3. Un economist pretinde cˇa atunci cˆand media Dow-Jones cre¸ste, volumul act¸iunilor vˆandute la bursa din New-York tinde sˇa creascˇa. ˆIn ultimii doi ani media volumului zilnic de act¸iuni vˆandute este de 21, 5 milioane ¸si are o deviat¸ie standard de 2, 5 milioane. Un e¸santion aleator de 64 zile ˆın care media Dow-Jones a crescut a fost selectat ¸si s-a calculat media volumului zilnic. Media e¸santionului a fost de 22 milioane. Calculat¸i p− valoarea pentru verificarea acestei ipoteze statistice.
11
8
Inferent¸ˇ a statisticˇ a privind media populat¸iei
Exercit¸iu 8.1. Limita legalˇa a nivelului de poluant X ˆın de¸seurile unei uzine este 5 mg/kg. Se efectueazˇa o verificare pe 10 probe de 1 kg ¸si se obt¸in urmˇatoarele valori xi pentru nivelul de poluant: 8 9 1 3 5 10 2 6 3 9 Admitem cˇa X urmeazˇa o lege normalˇa. Verificat¸i dacˇa uzina respectˇa condit¸iile legale la nivelul de ˆıncredere de 95%. Exercit¸iu 8.2. 16 determinˇari ale procentului de apˇa dintr-o solut¸ie au condus la x = 0, 822% ¸si s = 0, 02%. Sˇa se verifice ipoteza H0 : µ = 0, 9&, fat¸aˇ de ipoteza Ha := µ < 0, 9% la un prag de semnificat¸ie de 0, 05. Exercit¸iu 8.3. O companie are un sistem de computere care proceseazˇa 1200 de facturi pe orˇa. S-a testat un nou sistem care ˆın 40 de ore a procesat ˆın medie 1260 de facturi/orˇa cu o deviat¸ie standard de 215. Verificat¸i dacˇa noul sistem este mai bun. ( la un prag de semnificat¸ie α = 0, 01). Exercit¸iu 8.4. S-a fˇacut un studiu pentru a verifica dacˇa se poate accepta ipoteza cˇa o scrisoare trimisˇa dintr-o localitate ˆın alta face ˆın medie 3 zile. Pentru un e¸santion de 54 de scrisori s-au obt¸inut urmˇatoarele date: zile frecvent¸e
1 2 3 4 2 6 19 15
5 6 8 9 6 4 1 1
Se poate accepta ipoteza cˇa media este 3 zile la un prag de semnificat¸ie α = 0, 05? (Rezolvat¸i problema folosind metoda clasicˇa ¸si metoda probabilistˇa) Exercit¸iu 8.5. ˆIn exemplele urmˇatoare verificat¸i dacˇa se poate accepta ipoteza nulˇa, la nivelul de semnificat¸ie α = 0, 05, calculˆand ˆın fiecare caz ¸si p-valoarea: a) H0 : µ = 100 n = 64, x = 105, s2 = 40 Ha : µ > 100 b)
H0 : µ = 100 n = 60, x = 110, s2 = 20 Ha : µ > 100
c)
H0 : µ = 90 Ha : µ < 90
n = 25, x = 84, s2 = 30
d) H0 : µ = 90 Ha : µ < 90
n = 36, x = 80, s2 = 40
e) H0 : µ = 100 n = 25, x = 95, s2 = 20 Ha : µ = 6 100 f ) H0 : µ = 100 n = 36, x = 105, s2 = 30 Ha : µ = 6 100 12
9
Inferent¸ˇ a statisticˇ a asupra variant¸ei ¸si estimarea variant¸ei
Exercit¸iu 9.1. Un vˆanzˇator de vin se intereseazˇa de cantitatea de vin dintr-o sticlˇa. El se ˆıntreabˇa dacˇa cont¸inutul mediu nu este inferior cont¸inutului legal de 75cl. ˆIn acest scop mˇasoarˇa cont¸inutul a 10 sticle luate la ˆıntmplare ˆ ¸si obt¸ine valorile urmˇatoare: 73, 2 72, 6 74, 5 75, 0 75, 0 73, 7 , 74, 1 , 75, 1 74, 8 74, 0 a) Presupunˆand normalitatea distribut¸iei cont¸inutului sticlelor, se pune ˆıntrebarea dacˇa cont¸inutul mediu este mai mic decˆat 75 cl, la nivelul de semnificat¸ie de 0, 05? b) Dacˇa σ 2 este variant¸a distribut¸iei cont¸inutului sticlelor, testat¸i ipoteza H0 : σ 2 = 1. Exercit¸iu 9.2. Un cercetˇator vrea sˇa studieze valoarea cheltuielilor sˇaptˇamˆanale ale student¸ilor de la Universitatea din Geneva. La un e¸santion aleator de 20 de student¸i obt¸ine rˇaspunsurile: 120 150 180 200 130 150 170 160 190 100 125 145 175 200 120 130 135 165 150 180 Poate sˇa tragˇa concluzia cˇa abaterea standard e superioarˇa lui 25?
13
10
Generalitˇ a¸ti despre corelat¸ie
Exercit¸iu 10.1. Considerˇam urmˇatorul tabel de date: x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8
y1 4 5 5 5 7 7 8 8 8 8 9 9 10 9 10
y2 8 7 7 8 7 5 4 4 5 4.5 4 3 3 2 3
y3 2 4 5 7 4 3 2 1 1 3 4 7 8 9 9
a) Calculat¸i coeficientul de corelat¸ie folosind definit¸ia ¸si formula alternativˇa de calcul pentru seriile x ¸si y1 , x ¸si y2 , x ¸si y3 . b) Desenat¸i diagrama de ˆımprˇa¸stiere ¸si precizat¸i tipurile de corelat¸ii existente ˆın cele trei cazuri prezentate la punctul a). Exercit¸iu 10.2. Pentru seturile de date care urmeazˇa: 1) calculat¸i coeficientul de regresie liniarˇa (pentru seriile x ¸si y1 , x ¸si y2 , x ¸si y3 ˆın fiecare din cele douˇa cazuri); 2) precizat¸i dacˇa existˇa sau nu corelat¸ie liniarˇa (pentru fiecare din cazurile prezentate anterior).
14
Cazul 1.
Cazul 2.
Cx 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8
y1 5 5 5 5 7 7 8 8 8 8 9 9 10 8 11
y2 5 5 7 5 7 7 4 6 9 8 7 9 10 8 9
y3 2 4 5 7 4 3 2 1 1 3 4 7 8 9 9
x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8 8 9 10 10 9
15
y1 5 5 5 5 7 7 8 8 8 8 9 9 10 8 11 9 10 10 10 10
y2 5 5 7 5 7 7 4 6 9 8 7 9 10 8 9 9 7 10 9 8
y3 2 4 5 7 4 3 2 1 1 3 4 7 8 9 9 2 4 8 7 8
11
Analiza de corelat¸ie liniarˇ a P
Exercit¸iu 11.1. Explicat¸i de ce
P
(x − x) = 0 ¸si
(y − y) = 0.
Exercit¸iu 11.2. a) Construt¸i diagrama de ˆımprˇa¸stiere pentru datele din urmˇatorul tabel: x y
1 1 3 3 1 2 2 3
5 3
5 4
7 4
7 5
9 5
9 6
b) Calculat¸i covariant¸a. c) Calculat¸i sx ¸si sy . d) Calculat¸i r folosind definit¸ia. e) Calculat¸i r folosind formula de calcul practic. f) Dacˇa existˇa o depedent¸aˇ liniarˇa ˆıntre x ¸si y determinat¸i ecuat¸ia dreptei de regresie. Exercit¸iu 11.3. a) Calculat¸i covariant¸a ˆın cazul setului de date: x y
20 30 10 50
60 30
80 20
110 60
120 10
b) Calculat¸i deviat¸iile standard ale celor ¸sase valori ale lui x ¸si ale celor ¸sase valori ale lui y. c) Calculat¸i coeficientul considerat.
de
d) Comparat¸i acest rezultat considerat la ˆınceput.
corelat¸ie
liniar
r
cu
gˇasit
ˆın
cel
pentru cazul
tabelul
de
date
tabelului
de
date
e) Dacˇa existˇa o depedent¸aˇ liniarˇa ˆıntre x ¸si y determinat¸i ecuat¸ia dreptei de regresie. Exercit¸iu 11.4. Se considerˇa urmˇatorul tabel de date bidimensionale: x y
0 1 1 2 6 6 7 4
3 4 5 2
5 3
6 0
6 1
6 1
7
a) Determinat¸i diagrama de ˆımprˇa¸stiere . b) Calculat¸i covariant¸a. c) Calculat¸i sx ¸si sy . d) Calculat¸i r folosind definit¸ia. e) Calculat¸i r folosind formula de calcul practic. f) Dacˇa existˇa o depedent¸aˇ liniarˇa ˆıntre x ¸si y determinat¸i ecuat¸ia dreptei de regresie. 16
12
Inferent¸ˇ a privind coeficientul de corelat¸ie liniarˇ a
Exercit¸iu 12.1. a) Un e¸santion de 20 de date bidimensionale are un coeficient de corelat¸ie liniar r = 0, 43. Este acesta suficient pentru a respinge ipoteza nulˇa H0 : ρ = 0 ˆın favoarea unei alternative bilaterale la nivel de semnificat¸ie α = 0, 10? b) Un e¸santion de 18 date bidimensionale are un coeficient de corelat¸ie liniar r = −0, 50. Este acesta suficient pentru a sust¸ine cˇa la nivelul de semnificat¸ie α = 0, 10 coeficientul de corelat¸ie a populat¸iei este negativ? c) Un e¸santion de 10 date bidimensionale are un coeficient de corelat¸ie liniar r = −, 067. Este aceasta suficient pentru a sust¸ine cˇa la nivelul de semnificat¸ie α = 0, 05? (ρ este nenul) d) Valoarea r = 0, 24 este ea semnificativˇa pentru a arˇata cˇa ρ > 0 la nivelul de semnificat¸ie α = 0, 05 ˆın cazul unui e¸santion de mˇarime 62.
17
13
Regresie liniarˇ a
Exercit¸iu 13.1. Pentru doi hamali ce ˆı¸si desfˇa¸soarˇa activitatea ˆın Gara de Nord, se cunosc datele de mai jos cu privire la numˇarul de bagaje transportate pe parcursul a cinci zile de lucru:
Ziua 1 2 3 4 5
Numˇar bagaje transportate de primul hamal 30 32 31 35 40
Numˇar bagaje transportate de al doilea hamal 35 32 29 28 26
Se cere: 1) Sˇa se reprezinte diagrama de ˆımprˇa¸stiere pentru cele douˇa seturi de date. 2) Sˇa se mˇasoare coeficientul de variat¸ie pentru fiecare variabilˇa. 3) ˆIn ipoteza legˇaturii liniare determinat¸i parametrii dreptei de regresie. 4) Sˇa se calculeze coeficientul de corelat¸ie liniarˇa ˆıntre cele douˇa variabile. Exercit¸iu 13.2. Se dau datele privind pulsul ¸si temperatura pentru zece pacient¸i: Pacienti 1 2 3 4 5 6 7 8 9 10
Pulsul 75 80 70 90 75 85 80 90 100 95
Temperatura 38,2 37,5 36,5 38,3 37,1 38 37,6 38,5 39,4 38,9
a) Calculat¸i coeficientul de corelat¸ie liniarˇa. b) Determinat¸i parametrii dreptei de regresie.
18
14
Analiza de regresie liniarˇ a
Exercit¸iu 14.1. a) Sˇa se determine diagrama de ˆımprˇa¸stiere yˆ = b0 + b1 · x ˆın cazul tabelului de date:
¸si
x y
9 5
1 1 3 3 1 2 2 3
5 3
5 4
7 4
7 5
dreapta
de
regresie
9 6
b) Sˇa se determine ordonatele yˆ ale punctelor de pe linia de regresie avˆand abscisele: x = 1, 3, 5, 7 ¸si 9. c) Sˇa se determine e = y − yˆ pentru fiecare punct din tabel. d) Sˇa se determine s2e . Exercit¸iu 14.2. Acelea¸si ˆıntrebˇari ˆın cazul tabelului de date: x y
0 1 1 2 6 6 7 4
3 4 5 2
5 3
6 0
6 1
6 1
7
Exercit¸iu 14.3. Datele din tabelul urmˇator aratˇa numˇarul orelor de studiu x pentru un examen ¸si nota y primitˇa la acel examen: x y
2 5
3 5
3 4 4 5 7 5 7 7
5 6 6 8 6 9
6 8
a) Sˇa se determine diagrama de ˆımprˇa¸stiere. b) Sˇa se gˇaseascˇa linia de regresie. c) Sˇa se gˇaseascˇa yˆ pentru x = 2, 3, 4, 5, 6, 7 ¸si 8. d) Determinat¸i valorile lui e pentru x = 3 ¸si x = 6.
19
7 7
7 9
7 8 8 10 8 9
15
Inferent¸ˇ a referitoare la panta unei drepte de regresie liniarˇ a
Exercit¸iu 15.1. Un e¸santion de 10 student¸i a fost ˆıntrebat referitor la distant¸a parcursˇa ¸si la timpul necesar pentru a ajunge la facultate astˇazi. Rˇaspunsurile date sunt cuprinse ˆın tabelul urmˇator: x y
1 3 5 10
5 5 7 7 15 20 15 25
8 20
10 10 12 25 35 35
a) Determinat¸i diagrama de ˆımprˇa¸stiere. b) Determinat¸i ecuat¸ia dreptei de regresie ˆın acest caz. c) Valoarea obt¸inutˇa pentru b1 este probˇa suficientˇa pentru a concluziona cˇa β1 > 0 la nivelul de semnificat¸ie α = 0, 05. d) Determinat¸i intervalul de ˆıncredere de 98% pentru estimarea lui β1 . Exercit¸iu 15.2. Rata dobˆanzii este aleasˇa astfel ˆıncˆat sˇa aibe un efect asupra ¸somajului. Urmˇatorul tabel de date reprezintˇa rata dobˆanzii pe perioade de 3 luni pentru ˆımprumuturi pe termen scurt (x) ¸si rata ¸somajului (y). x y
12,27 12,34 5,9 5,6
12,31 15,81 5,9 5,9
15,67 6,2
17,75 7,6
11,56 7,5
15,71 7,3
19,91 7,6
19,99 7,2
21,11 8,3
a) Sˇa se determine dreapta de cea mai bunˇa aproximare. b) Este acest e¸santion o dovadˇa suficientˇa pentru a respinge ipoteza nulˇa (pantˇa zero) ˆın favoarea unei ipoteze alternative cˇa panta este pozitivˇa la nivelul de semnificat¸ie 0.05?
20