BAB 2 LANDASAN TEORI

77 downloads 8016 Views 267KB Size Report
Regresi Linear Sederhana adalah suatu persamaan regresi di mana peubah ... Model Regresi Linear Sederhana dapat dinyatakan dalam persamaan : (2.1).
8

BAB 2 LANDASAN TEORI

2.1 Regresi 2.1.1 Pengertian Persamaan Regresi Menurut Sir Francis Galton (1822-1911), persamaan regresi adalah persamaan matematik yang memungkinkan kita meramalkan nilai-nilai atau variabel-variabel suatu peubah tak bebas dari nilai-nilai satu atau lebih peubah bebas (Walpole,1995,p340 ). Nilai peubah tak bebas dinyatakan dengan konotasi y dan nilai peubah bebas dengan konotasi x. Kuat atau tidaknya hubungan variabel independen (X) dan variabel dependen (Y) diukur dengan suatu nilai yang disebut dengan koefisien korelasi, sedangkan besarnya pengaruh X terhadap Y, diukur dengan koefisien regresi. Persamaan regresi juga menggambarkan relasi dari varabel-variabel yang ada didalamnya (Supranto,2001, p178). Di dalam pemakaiannya, variabel dependen (Y) ternyata juga dipengaruhi oleh faktor lain selain variabel independen (X) yang tidak dimasukkan kedalam persamaan tersebut. Oleh karena persamaan dari regresi perlu untuk mengambarkan bentuk dari data dengan tepat, maka dimasukkanlah error

ε ke dalam persamaan regresi tersebut.

Karena error itu tidak dapat dihilangkan sama sekali, maka resiko itu akan selalu ada. Resiko hanya bisa diperkecil dengan memperkecil kesalahan (minimized error).

9 2.1.2 Pengertian Regresi Linear dan Regresi Non Linear Secara umum, regresi adalah suatu metode untuk meramalkan nilai harapan yang bersyarat. Regresi dikatakan linear apabila hubungan antara peubah bebas dan peubah tak bebas adalah linear, sedangkan apabila hubungan antara peubah bebas dan peubah tak bebas tidak linear, maka regresi dikatakan regresi non linear. Hubungan antara peubah bebas dan peubah tak bebas dapat dikatakan linear apabila diagram pencar data dari peubah-peubah tersebut mendekati pola garis lurus.

2.1.3 Regresi Linear Sederhana 2.1.3.1 Pengertian Regresi Linear Sederhana Regresi Linear Sederhana adalah suatu persamaan regresi di mana peubah bebasnya berbentuk skalar dan apabila diagram pencar data dari peubah-peubah tersebut mendekati pola garis lurus.

2.1.3.2 Persamaan Regresi Linear Sederhana Model Regresi Linear Sederhana dapat dinyatakan dalam persamaan : Yi = β 0 + β1 X i + ε i Keterangan Yi

:

: nilai peubah tak bebas pada percobaan ke-i

β0, β1 : koefisien regresi Xi

: nilai

peubah bebas pada percobaan ke - i

єi

: error

dengan mean E{єi}=0 dan varians σ2{єi}= σ2

, єi & єj tidak berkorelasi.

(2.1)

10 i

: 1,…,n

2.1.3.3 Pendugaan Koefisien Regresi Linear Sederhana Metode Kuadrat Terkecil Biasa adalah suatu metode untuk menghitung koefisien regresi sampel (b0 & b1) sebagai penduga koefisien regresi populasi (β0 & β1), sedemikian rupa sehingga jumlah kesalahan kuadrat memiliki nilai terkecil. Dengan bahasa matematik, dapat dinyatakan sebagai berikut : Model sebenarnya adalah Yi = β0 + β1Xi + εi Model estimasi adalah Ŷi = b0 + b1Xi Kesalahan error i adalah ei = Yi – (b0 + b1Xi) Jumlah kesalahan kuadrat adalah ∑ei2 = ∑ [Yi – ( b0+ b1Xi)] 2 Jadi metode kuadrat terkecil adalah metode menghitung b0 dan b1 sedemikian rupa sehingga ∑ei2 minimum. Caranya adalah dengan membuat turunan parsial ∑ei2 mula-mula terhadap b0 kemudian terhadap b1 dan menyamakannya dengan nol, sehingga kita dapat memperoleh rumus : b0 = y − b1 x b1 =

(2.2.)

n∑ XiYi − ∑ Xi ∑ Yi n∑ Xi 2 − (∑ Xi ) 2

(2.3)

11 Fungsi linear persamaan regresi apabila digambarkan akan tampak seperti gambar 2.1.3.3

Gambar 2.1.3.3 b0 dan

Fungsi Yi = b0 + b1Xi

b1 adalah konstanta yang harus diestimasi, εi adalah error yang harus

diminimalkan.

2.1.4 Regresi Linear Berganda 2.1.4.1.Pengertian Regresi Linear Berganda Regresi Linear Berganda adalah regresi yang meramalkan hubungan antara satu variabel peubah tak bebas dengan dua atau lebih variabel peubah bebas, yang akan ditentukan hubungan antara Y dan X1, X2,...Xk.

12

2.1.4.2.Persamaan Regresi Linear Berganda Untuk meramalkan Y, apabila semua nilai peubah bebas diketahui, dipergunakan persamaan regresi linear berganda. Hubungan Y dan X1, X2,... ,Xk yang sebenarnya adalah sebagai berikut : Y i = B0 + B1X1i + B2X2i + … + BkXki + εi ( untuk populasi )

Y i = b0 + b1X1i + b2X2i + … + bkXki + εi ( untuk sampel ) (2.4) Keterangan : b0 ,b1, b2, bk

: parameter / koefisien yang akan ditaksir

εi

: nilai peubah gangguan yang berkaitan dengan pengamatan ke-i

i

: 1, 2, 3, ..., n

Apabila dinyatakan dalam bentuk persamaan matriks, sebagai berikut :

Y=XB+ε (2.5) Keterangan : Y, B, ε

: vector

X

: matriks x

13

Y=

y1 y2 . . . y1

B=

y1 y2 . . . y1

ε=

y1 y2 . . . y1

.

.

.

.

.

.

yn

yn

yn

X=

1 X11 X21 ... Xk1 1 X12 X22 ... Xk2 . . . . . . . . 1 X1i X2i ... Xki . . . . . . . . . . . . 1 X1n X2n ... Xkn

2.1.4.3 Metode Kuadrat Terkecil Biasa Ketika model regresi tidak mencapai prediksi dan estimasi yang diharapkan maka hasil yang didapat menjadi bias. Residu jika terlampau besar dapat secara dominan mempengaruhi prediksi yang dinamakan outlier. Outlier akan mempengaruhi standar error, sehingga selang kepercayaan menjadi melebar, estimasi tidak lagi konsisten. Beberapa asumsi yang penting adalah sebagai berikut : 1.

Nilai harapan setiap error sama dengan nol E(ε i) = 0 untuk semua i.

2.

error yang satu tidak berkorelasi terhadap error lainnya E( ε i) = 0 untuk i ≠ j, akan tetapi mempunyai varians yang sama homoskedastisitas untuk semua i.

3.

X1, X2,... ,Xk merupakan bilangan riil, tanpa mengandung kesalahan. Dengan perkataan lain, matriks merupakan himpunan angka-angka konstan(fixed number).

14 4.

Matriks X mempunyai rank k < n. Banyaknya observasi n harus lebih banyak dari banyaknya peubah, atau lebih banyak dari koefisien regresi parsial yang akan diestimasi. Ŷ = b0 + b1X1 + b2X2 + … + bkXk

(2.6)

Jika asumsi di atas dapat dipenuhi, maka penggunaan metode kuadrat terkecil sederhana akan menghasilkan Best Linear Unbiased Estimator terhadap koefisien B. Dengan menggunakan metode Kuadrat Terkecil Biasa maka b0 dan b1 merupakan penduga tidak bias dan mempunyai varians minimum diantara semua penduga linear tak bias. Misalkan b sebagai penduga β : Y = Xb + e e = Y - Xb ei = Yi - b1Xi1 - b2Xi2 - ... – bkXik

(2.7)

Maka jumlah pangkat dua simpangan yang harus diminimumkan : ∑ ei2 = ∑ ( Yi - b1Xi1 - b2Xi2 - ... - bkXik)2 Estimasi vektor β dengan menggunakan metode kuadrat terkecil, ialah vektor b sedemikian rupa sehingga jumlah kuadrat error adalah

(2.8) Caranya ialah dengan menurunkan penurunan parsial ∑ ei2 terhadap setiap komponen vektor b dan menyamakannya dengan 0.

15

δ∑ei2/ δb1 = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-X1i) = 0 δ∑ei2/ δb2 = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-X2i) = 0 .

.

.

.

δ∑ei2/ δbk = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-Xki) = 0

(2.9)

Persamaan tersebut dapat disederhanakan menjadi :

nb0 + b1∑X1i + b2∑X1iX2i + ... + bk∑X1iXki = ∑Yi b0 ∑X 1i + b1∑X1i2 + b2∑X1i X2i + … + bk∑X1iXki = ∑X1iYi b0 ∑X2i + b1∑X1i X2i + b2∑X2i2 + … + bk∑X2iXki = ∑X2iYi .

.

.

.

b0 ∑Xki + b1∑X1i Xki + b2∑X2i2 Xki + … + bk∑Xki2 = ∑kiYi (2.10) Apabila dinyatakan di dalam bentuk matriks, persamaan normal di atas akan menjadi :

X T Xb = X T Y

(2.11)

Dengan demikian b sebagai penduga β dapat diperoleh melalui rumus :

b = ( X T X ) −1 X T Y

untuk menyelesaikan persamaan secara matriks persamaan matriks.

(2.12)

16 Pada dasarnya, nilai-nilai dari koefisien bj bervariasi, dan varians dari bj dalam bentuk vektor matrik adalah sebagai berikut : Var (b) = σ²(XTX)-1

(2.13)

arena umumnya σ² tidak diketahui, maka σ² diduga dengan Se², sehingga perkiraan varians (b) adalah Var (b) = Sb² = Se²(XTX)-1

(2.14)

dimana Se² merupakan varians dari error yang dinyatakan dengan rumus berikut

Se² =

eTe = Σ ei² n-k-1 n-k-1

(2.15)

dimana : n = banyaknya observasi

k = banyaknya variabel bebas

2.1.4.4 Standar Error Kesalahan baku regresi sama dengan simpangan baku (standard deviation) atau standar error dari kesalahan pengganggu, dinyatakan dengan

Se = √ Se² =

1

Σei2

n-k-1

(2.16)

Jika matriks D = (XTX)-1 , maka varians bj dapat dinyatakan dengan Sbj² = Se² djj

(2.17)

dimana djj = elemen matriks D dari baris j dan kolom j yang terletak pada diagonal utama. Simpangan baku dari bj adalah akar dari Sbj², dinyatakan dengan Sbj = √S ² bj

(2.18)

17 2.1.5 Robust Regression Robust regresi menyediakan analisis alternatif dari metode Kuadrat Terkecil

Biasa. Dalam ruang lingkupnya, regresi robust memiliki ketahanan kuat terhadap outlier yang menjadi keistimewaan dari metode ini. Salah satu alasan yang mungkin mengapa metode regresi robust membutuhkan waktu yang lama untuk untuk diterima adalah adanya beberapa metode bersaing yang salah diawal implementasinya. Selain itu komputasi dalam regresi robust juga lebih rumit dari metode kuadrat terkecil sederhana dimana membutuhkan komputasi yang lebih intensif. Alasan lain dari kurang terkenalnya regresi robust adalah beberapa paket software statistik gagal mengimplementsi metode ini(Stromberg,2004). Pada tahun 1973, Huber memperkenalkan estimasi M untuk regresi, M pada estimasi M adalah tipe dari maximum likelihood. Metode ini awalnya diperkirakan tahan terhadap outlier pada variabel response, akan tetapi ternyata tetap rentan terhadap pengaruh outlier. Tahun 1980an, Least Median of Square dan Least Trimmed of Square muncul sebagai alternatif dari estimasi M. Tipe-tipe dari regresi robust adalah least median of squares, least trimmed of squares, weighted least squares,dan metode-metode lainnya. Menurut Staudte dan Sheather(1990,p 92), estimasi yang resistant(kuat) adalah sesuatu yang secara relatif tidak terpengaruh oleh perubahan besar pada bagian yang kecil dari data atau perubahan kecil pada bagian yang besar pada data. Jadi jika estimasi mendapat pengaruh kuat dari outlier maka hasil yang didapat tidak akan secara tepat mewakili estimasi. Penggunaan umum dari regresi robust adalah pada data yang terdapat outlier.

18 Deteksi outlier mencakup determinasi dimana residu(error = prediksi – hasil aktual) adalah nilai positif atau negatif ekstrim). Outlier dapat benar-benar mengacau pada sample mean akan tetapi memili efek relatif kecil pada sample median. Tipe dari outlier tidak dapat dengan mudah dibedakan walaupun dengan menggunakan definisi matematis. Menurut Rousseeuw dan Zomeren (1990), Outlier adalah realitas yang empiris, akan tetapi definisi exact adalah lebih sukar dipahami daripada pendefinisian exact pada kluster. Tipe-tipe dari outlier diantaranya adalah: 1. Outlier regresi adalah sebuah poin yang menyimpang dari hubungan kelinearan ditentukan dari (n-1) poin yang lainnya, atau paling tidak dari mayoritas dari poinpoin tersebut. 2. Outlier residu adalah sebuah poin yang memiliki standarisasi residu yang besar ketka digunakan dalam perhitungan. Kita dapat membedakan antara outlier regresui dan outlier residu, sebuah poin dapat menjadi sebuah outlier regresi tanpa menjadi sebuah outlier residu (jika poin tersebut memiliki pengaruh) dan sebuah poin dapat saja sebagai outlier residu tanpa menjadi bukti yang kuat bahwa poin tersebut juga merupakan outlier regresi. 3. Outlier x adalah sebuah poin yang menyimpang hanya pada koordinat x. Sepertinya poin tersebut dapat menyebabkan estimasi regresi robust menjadi kurang baik, akan tetapi estimasi robust yang paling modern tidak terpengaruh dengan adanya outlier x.sebuah outlier x dapat juga adalah outlier regresi atau outlier residu.

19 4. outlier y adalah sebuah poin yang menjadi pencilan karena memiliki koordinat y yang ekstrim. Cara dan tingkat dimana outlier tersebut dapat mengakibatkan pengaruh pada estimasi parameter akan tergantung pada koordinat x dan konfigurasi umum dari poin-poin lainnya. Poin tersebut juga mungkin saja merupakan outlier regresi atau outlier residu. 5. outlier x dan y adalah sebuah poin yang menyimpang pada kedua koordinat dan mungkin saja merupakan outlier regresi atau outlier residu, atau outlier tersebut memiliki efek yang kecil atau bahkan tidak memiliki efek apa-apa pada perhitungan regresi. Faktor tetapnya adalah konfigurasi dari poin-poin lainnya. Dalam tulisan-tulisan mengenai regresi robust, umumnya regresi robust digunakan ketika nilai regresor telah ditetapkan (fixed regresor), fixed regresor adalah kasus spesial dalam regresi robust. Pengembangan historis pada banyak kelas-kelas dalam estimasi regresi robust diikuti oleh Rousseeuw dan Leroy (1987) yang kemudian mengemukakan ide dari

meminimalisasi jumlah nilai-nilai absolut dari residu. Walaupun estimasi didapatkan dari penggunaan dari krriteria yang ridak terlalu dipnegaruhi oleh outlier y, tetapi dpat juga dipengaruhi secara kuat oleh outlier x. Persentase terkecil dari data yang kurang baik yang menyebabkan garis persamaan regresi kurang baik disebut sebagai poin pengganggu (breakdown point). Poin pengganggu (breakdown point) dari estimasi adalah hanya 1/n. Konsep penting lain dari regresi robust adalah efisiensi, ketika data set mengandung outlier, kita dapat menggunakan efisensi dari estimasi robust ketika Kuadrat Terkecil

Biasa hanya hanya dapat diaplikasikan poin-poin data yang baik. Tujuan penting dari estimasi robust adalah kita ingin sebuah estimator adalah :

20 -

dapat membuat estimsi sebaik metode kuadrat terkecil

-

untuk menciptakan perhitungan yang lebih baik dari metode kuadrat terkecil ketika hasil dari Kuadrat Terkecil Biasa tidak mewakili dengan baik.

-

tidak terlalu sulit untuk dihitung dan dimengerti.

2.1.5.1 Metode Kuadrat Median Terkecil Least Median of Squares (Rouseseeuw, 1984) adalah adalah salah satu metode estimasi dari keluarga robust regression. Metode ini melakukan perhitungan dengan menghilangkan pengaruh-pengaruh dari residu. Menurut Venables dan Ripley (1999), algoritma ini meminimalkan median(nilai tengah) dari kuadrat residu terurut.

Gambar disebelah kiri adalah sebuah foto jalan secara aerial dari atas (garis hitam tebal).

Pada panel (b), kuadrat terkecil menentukan garis persamaan akan tetapi jalan tersebut tidak tertangkap dengan baik oleh garis putih. Pada panel (c) juga terdapat garis, akan tetapi bukan menggunakan algoritma OLS, metode pendekatan yang digunakan adalah Kuadrat Median Terkecil.

Gambar 2.1.4.6 indentifikasi jalan

21

Hawkins (1993) menyatakan bahwa, kriteria dari metode Kuadrat Median

Terkecil adalah metode analisis standar dari data ketika adanya kemungkinan banyaknya data outlier, dimana estimasi terhadap banyaknya nilai pengganggu tetap dimungkinkan. Minimalisasi dilakukan pada urutan nilai residu kuadrat, dimana h= [n/2]+[(p+1)/2], n adalah ukuran dari sampel, p adalah jumlah dari parameter random. Garis yang dibentuk oleh metode Kuadrat Median Terkecil tidak akan merespon seperti halnya garis dari metode Kuadrat Terkecil Biasa terhadap outlier. Hal ini dapat ditunjukkan dari ketahanannya dari poin pengganggu sampai sebesar 50% dari data.

2.1.6 Masalah Regresi Linier Berganda Di dalam regresi linier berganda dapat terjadi beberapa keadaan yang dapat menyebabkan estimasi koefisien regresi tidak lagi menjadi penduga koefisien tak bias terbaik. Beberapa masalah / kondisi yang dapat terjadi pada regresi linier berganda adalah sebagai berikut :

2.1.6.1 Otokorelasi Di dalam suatu model regresi, dianggap bahwa kesalahan pengganggu εi ,di mana i = 1,2,3,…,n merupakan variabel acak yang bebas. Dengan kata lain bahwa kesalahan observasi yang berikutnya diperoleh secara bebas terhadap kesalahan sebelumnya. Artinya E(εi,εi+r ) = 0, untuk semua i dan semua r ≠ 0. Apabila asumsi tersebut tidak berlaku, maka akan terdapat banyak kesukaran di dalam analisis ekonomi. Jika terjadi suatu otokorelasi, maka apabila metode kuadrat

22 terkecil diterapkan untuk memperkirakan parameter / koefisien regresi, maka penduga penduga yang dihasilkan bukan lagi penduga tak bias yang terbaik. Selain itu, apabila terjadi otokorelasi di antara kesalahan pengganggu maka pengujian nyata berdasarkan statistik uji t dan F sebetulnya tidak berlaku lagi. Solusi untuk masalah otokorelasi adalah data asli harus ditransformasikan terlebih dahulu untuk menghilangkan otokorelasi di antara kesalahan pengganggu tersebut. Untuk menguji ada tidaknya otokorelasi dapat menggunakan Statistik d Durbin-

Watson (The Durbin-Watson d Statistics).

2.1.6.2 Heterokedastisitas Apabila matriks ragam (variance) kesalahan adalah sebagai berikut :

Dan apabila beberapa elemen pada diagonal utama tidak sama dengan satu (Vii≠1), maka kesalahan pengganggu tersebut disebut pengganggu merupakan

heteroskedastis. Dengan kata lain kesalahan

variabel bebas, tetapi kesalahan pengganggu tersebut

mempunyai varians yang berbeda untuk setiap nilai X yang berbeda, di mana X merupakan variabel bebas. Cara untuk mengatasi masalah heterokedastisitas adalah mengubah matrik kovarian menjadi matrik yang memenuhi homokedastisitas.

23

2.1.6.3 Multikolinieritas Multikolinieritas adalah masalah yang timbul pada regresi linier apabila terdapat suatu hubungan atau ketergantungan linier di antara beberapa atau semua dari peubahpeubah bebas. Jika peubah-peubah bebas tersebut saling berkorelasi, maka akan sangat sulit untuk memisahkan pengaruh mereka masing-masing terhadap peubah tak bebas dan untuk mendapatkan penaksir yang baik bagi koefisien-koefisien regresi. Akibat dari multikolinieritas adalah : a.

Apabila hubungan tersebut sempurna, maka koefisien regresi parsial tak akan dapat diestimasi.

b.

Apabila hubungan tersebut tidak sempurna, maka koefisien regresi parsial masih dapat diestimasi, tetapi kesalahan baku dari penduga koefisien regresi parsial sangat besar. Hal ini menyebabkan pendugaan/ramalan nilai Y dengan menggunakan X1 dan X2 kurang teliti.

2.2 R Language

R Language adalah system komputasi menggunakan manipulasi data, kalkulasi dan tampilan grafik dan dapat digunakan untuk implementasi pengujian-pengujian statistika, analisi deret, akses pada bahasa pemrograman lain dan fasiliatas perbaikan kesalahan. Dapat dijalankan dalam lingkungan system UNIX, Windows, dan MacOS.

24

R Language merupakan implementasi dari S Language yang dikembangkan oleh Bell Laboratories oleh Rick Becker, John Chambers dan Allan Wilks pada tahun 1980, dan sejak itu telah dipakai secara luas oleh komunitas statistika.

R Language telah banyak dikembangkan untuk analisis data interaktif ke dalam paket-paket yang dapat diperoleh secara gratis. Bahasa pemrograman ini merupakan high

level language sehingga cukup mudah untuk dipahami dan dipelajari, memiliki fasilitas pengaturan dan penyimpanan data yang efektif. R Language juga menyediakan operator untuk perhitungan matriks dan array, selain itu dalam analis data R Language dapat menyediakan tampilan analisis data dalam bentuk grafik.

R Language memiliki banyak kesamaan dengan bahasa S, namun perbedaan mendasar adalah software S bersifat komersial. R Language dapat diperoleh dari http://www.r-project.org . Versi terbaru dari R Language adalah R-2.3.1 yang terbit pada 1 Juni 2006. Penelitian ini menggunakan versi R terbaru. R menyediakan banyak paketpaket fungsi yang dapat digunakan dalam pemodelan statistika.