Identifikasi model yang diperoleh dengan Algoritma Genetika ini nantinya akan ...
Genetika memiliki nilai MSE yang lebih rendah dibandingkan dengan metode.
MAKALAH TUGAS AKHIR IDENTIFIKASI MODEL ARIMA BOX-JENKINS CAMPURAN DENGAN MENGGUNAKAN METODE ALGORITMA GENETIKA Oleh : Febriana Dwi P. (1306 100 011) Dosen Pembimbing I : Dr. Irhamah, S.Si, M.Si Dosen Pembimbing II : Dedy Dwi Prastyo, S.Si, M.Si ABSTRAK Metode correlogram merupakan metode yang seringkali dipakai untuk melakukan identifikasi model ARIMA. Akurasi peramalan dengan metode ini akan rendah ketika ada efek campuran ARMA, adanya perilaku data time series yang kompleks dan asumsi-asumsi data tidak terpenuhi, sehingga ACF dan PACF sampel tidak mampu memberikan identifikasi model yang tepat. Untuk itu dikembangkan kecerdasan buatan untuk mendapatkan solusi terbaik dari beberapa kemungkinan solusi yang bisa ditawarkan dan dapat mempelajari perilaku data tanpa asumsi tertentu. Metode kecerdasan buatan lebih akurat untuk data non stasioner namun masih ada kemungkinan akan terjebak pada lokal optimum Salah satu metode dalam kecerdasan buatan yaitu Algoritma Genetika. Dalam tugas ini data yang digunakan adalah data yang mengandung pola musiman dan non musiman (campuran). Identifikasi model yang diperoleh dengan Algoritma Genetika ini nantinya akan dibandingkan dengan hasil tugas akhir Ribaan (2008) yang menggunakan metode correlogram. Hasil yang diperoleh bahwa model identifikasi dengan Algoritma Genetika memiliki nilai MSE yang lebih rendah dibandingkan dengan metode correlogram. Kata Kunci : ARIMA, Correlogram, Algoritma Genetika, MSE
1. Pendahuluan 1.1 Latar Belakang Metode identifikasi untuk model ARIMA menggunakan correlogram dilakukan dengan melihat pola ACF dan PACF sampel. Metode ini akan memiliki akurasi yang tinggi apabila perilaku data time series tidak terlalu kompleks dan asumsi-asumsi terpenuhi dengan baik. Ketika terjadi efek campuran ARMA akan memungkinkan ACF dan PACF sampel untuk memberikan identifikasi model yang kurang tepat dengan akurasi peramalan yang rendah. Penelitian tentang kecerdasan buatan dikembangkan untuk mendapatkan solusi terbaik dari beberapa kemungkinan solusi yang bisa ditawarkan dan dapat mempelajari perilaku data tanpa asumsi tertentu. Metode kecerdasan buatan lebih akurat untuk data non stasioner namun masih ada kemungkinan akan terjebak pada lokal optimum. Salah satu penelitian tentang kecerdasan buatan tersebut yaitu metode Algoritma Genetika. Perkembangan penelitian tentang Algoritma Genetika cukup pesat, beberapa di antaranya menggunakan Algoritma genetika untuk menyelesaikan permasalahan tentang penjadwalan, pencarian, dan optimasi. Di bidang statistik dan peramalan sendiri cukup banyak penelitian tentang Algoritma Genetika. Beberapa diantaranya yaitu Algoritma Genetika untuk mengidentifikasi model ARIMA (Ong, Huang dan Tzeng, 2005), Algoritma Genetika dan aplikasinya dalam statistik (Chatterjee, Laudat dan Lynch, 1995), Analisis Aplikasi Algoritma Genetika Untuk Pencarian Nilai Fungsi Maksimum (Kosasih dan Rinaldo, 2006), dan Rohman (2010) yang menggunakan Algoritma Genetika untuk mengidentifikasi model ARIMA Box-Jenkins non musiman (p,d,q). Penelitian ini merupakan pengembangan dari penelitian yang dilakukan oleh Rohman (2010) dimana data yang digunakan adalah data non musiman, sedangkan pada penelitian ini digunakan data yang mengandung pola non musiman dan musiman. Pemilihan data tersebut dilakukan untuk mengetahui bagaimana penggunaan Algoritma Genetika untuk mengidentifikasi model ARIMA pada data yang
1
mengandung pola campuran. Selanjutnya dalam penelitian ini, model ARIMA (p,d,q) (P,D,Q)s akan disebut sebagai model ARIMA campuran. Data yang digunakan yaitu data bulanan wisatawan mancanegara yang datang ke Indonesia melalui Bandara Batam mulai Januari 1996 – Desember 2006 sesuai dengan data yang dipakai dalam tugas akhir Ribaan (2008). Dari data tersebut nantinya akan dicari model ARIMA campuran terbaik dengan Algoritma Genetika, kemudian hasilnya dibandingkan dengan hasil penelitian Ribaan (2008) yang menggunakan metode correlogram. 1.2 Perumusan Masalah Permasalahan yang ingin diteliti berdasarkan latar belakang di atas adalah sebagai berikut : 1. Bagaimana memperoleh model ARIMA campuran dengan menggunakan metode Algoritma Genetika? 2. Bagaimana model ARIMA campuran terbaik dari hasil perbandingan metode Corrrelogram dan Algoritma Genetika? 1.3 Tujuan Penelitian Tujuan yang ingin dicapai berdasarkan permasalahan yang diteliti adalah sebagai berikut : 1. Memperoleh model ARIMA campuran dengan menggunakan Algoritma Genetika. 2. Mengetahui model ARIMA campuran terbaik dari hasil perbandingan metode Correlogram dan Algoritma Genetika. 1.4 Manfaat Penelitian Manfaat yang dapat diperoleh dari hasil penelitian ini antara lain : 1. Menambah wawasan keilmuan tentang metode identifikasi model ARIMA yang berpola campuran. 2. Sebagai metode alternatif yang dapat digunakan untuk peramalan data time series. 1.5 Batasan Masalah Batasan masalah dalam penelitian ini yaitu : 1. Data asli yang digunakan adalah data berpola ARIMA (p,d,q) (P,D,Q)12. 2. Data simulasi yang digunakan dalam penelitian ini adalah data bangkitan dengan model AR(1)12, MA(1)12, ARIMA(1,0,0)(1,0,0)12, dan ARIMA(0,0,1)(0,0,1)12. 3. Dalam iterasi Algoritma Genetika, fungsi fitness hanya dihitung berdasarkan nilai MSE. 2. Tinjauan Pustaka Hal yang akan dijelaskan lebih lanjut pada bab ini adalah tentang model ARIMA Box-Jenkins, pembentukan modelnya, dan Algoritma Genetika. Berikut adalah penjelasan dari masing-masing teori tersebut. 2.1 Autoregressive Integrated Moving Average (ARIMA) Model-model ARIMA telah dipelajari secara mendalam oleh Box dan Jenkins (1976). Model ARIMA non musiman (p,d,q) adalah gabungan dari model Autoregressive (AR(p)) dan Moving Average (MA(q)) dengan differencing non musiman orde d. Model musiman ARIMA dapat dituliskan (P,D,Q)s, dengan s adalah orde musiman. Bentuk umum dari model ARIMA non musiman adalah : p
d B 1 B Z t
0
θ q B at
(2.1)
Sedangkan model ARIMA musiman adalah : p
Bs 1 Bs
D
Z t
Q
B s at
(2.2)
Sehingga model ARIMA campuran adalah sebagai berikut : P
(B S )
p
( B)(1 B) d (1 B S ) D Z t
q
( B)
Q
( B S )at
(2.3)
2.2 Pembentukan Model ARIMA Ada tiga tahap dalam pemodelan ARIMA yaitu identifikasi model, penaksiran parameter, dan uji kesesuaian model.
2
2.2.1 Identifikasi Model Identifikasi model ARIMA dapat dilakukan dengan melihat plot time series, plot AC dan plot PACF dari data yang sudah stasioner baik dalam varian maupun mean. Data yang belum stasioner terhadap varian dilakukan transformasi, sedangkan apabila belum stasioner dalam mean maka dilakukan differencing. 2.2.2 Penaksiran Parameter Penaksiran parameter yang digunakan dalam penelitian ini adalah CLS (Conditional Least Square). Dimisalkan bentuk umum dari model ARMA(p,q) adalah Z t 1 Z t 1 2 Z t 2 .. p Z t p at θ1 at 1 θ2 at 2 .. θq at q (2.4) dengan Z t = Z t μ dan at ~ N(0, 2
Maka f ( a | µ,φ,θ,
) (2
2 a
)
2 n 2
) saling independen.
exp[
n
1 2
2 a t 1
a t2 ]
(2.5)
Persamaan log likehood sebagai berikut log L(µ,φ,θ,
2
n (2 2
)
2 a
)
S (µ,φ,θ) / 2
2 a
(2.6)
S (µ,φ,θ) merupakan estimasi Conditional Least Square n
a t2 (µ,φ,θ,Z init, a init,Z)
S (µ,φ,θ) =
(2.7)
t 1
ˆ a2
S (µ,φ,θ) / db
(2.8)
Dengan Z init dan a init merupakan nilai inisialisasi awal dan db = n-(p+q+1). S (µ,φ,θ) merupakan suatu fungsi nonlinear dimana nilai parameternya masih belum diketahui sehingga diperlukan suatu iterasi nonlinear untuk mendapatkan nilai parameter tersebut. Iterasi yang digunakan dalam hal ini adalah Levenberg-Marquardt yang nantinya digunakan untuk meminimumkan nilai S (µ,φ,θ) sehingga diperoleh nilai estimasi parameternya. 2.2.3 Pengujian Parameter Pengujian parameter digunakan untuk mengetahui apakah parameter model tersebut sudah signifikan atau belum menggunakan hipotesis = 0 dengan alternatif 0 dengan statistik ujinya adalah
ˆ t
stdev( ˆ)
Dimana θ adalah sembarang paramater pada model ARIMA dan ˆ merupakan taksiran dari θ, maka hipotesis ditolak jika t t / 2 n p , dengan n adalah banyaknya observasi dan p adalah banyak parameter yang ditaksir (Wei, 2006). 2.2.4 Uji Kesesuaian model (Diagostik Checking) Uji kesesuaian model dilakukan untuk memeriksa apakah model sudah memenuhi asumsi yang diharuskan atau tidak. Asumsi-asumsi tersebut adalah residual model white noise (tidak ada autokorelasi dan varians konstan) serta berdistribusi normal. 2.2.5 Pemilihan Model Terbaik Untuk pemilihan model terbaik dilakukan dengan kriteria in-sample yang menggunakan MSE dan outsample dengan MAPE. Model terbaik yang dipilih adalah model yang memiliki nilai MSE dan MAPE terkecil.
3
2.3
Algoritma Genetika Algoritma Genetika ditemukan oleh John Holland pada tahun 1960-an kemudian dikembangkan oleh Holland, para murid dan teman-temannya di Universitas Michigan pada tahun 1960-an hingga 1970-an. Algoritma Genetika menurut Holland adalah metode pemindahan kromosom dari satu populasi ke populasi yang lain menggunakan seleksi alam dengan operator inspirasi genetik tentang seleksi, pindah silang, dan mutasi (Mitchell, 1996). Menurut Haupt dan Haupt (2004) Algoritma Genetika adalah suatu teknik optimasi yang didasarkan pada prinsi genetik dan seleksi alam. Dalam Algoritma Genetika populasi terbentuk dari banyak individu yang berkembang sesuai aturan seleksi spesifik dengan memaksimalkan fitness. Keuntungan dari Algoritma Genetika adalah bisa mencapai solusi yang global optimum meskipun tidak selalu seperti itu, namun solusi yang dihasilkan sudah mendekati global optimum. 2.3.1
Komponen dalam Algoritma Genetika Menurut Suyanto (2005) terdapat 8 komponen dalam Algoritma Genetika, berikut akan dibahas lebih lanjut komponen-komponen tersebut. a. Skema Pengkodean Terdapat 3 skema yang paling umum digunakan dalam pengkodean kromosom (Suyanto, 2005) yaitu Real number encoding, Discrete decimal encoding, dan Binary Encoding. Dalam penelitian ini pengkodean yang digunakan adalah pengkodean biner (Binary Encoding). Ong dkk (2005) membagi tiap kromosomnya menjadi empat bagian untuk mengetahui orde dalam model ARIMA. Empat bagian tersebut adalah AR, MA, AR musiman, dan MA musiman dengan tiap bagian menempati lima bit dalam tiap kromosom. Dalam hal ini kromosom menyatakan lag pada orde model, nilai 1 menyatakan lag pada orde model tersebut signifikan sedangkan 0 berarti lag pada orde model tidak signifikan. Sebagai contoh, jika suatu kromosom dalam pemodelan ARIMA campuran berisi nilai sebagai berikut : 1
0
0
1
1
0
0
1
1
0
1
1
0
0
0
0
1
1
1
0
Apabila dibuat dalam empat bagian dengan masing-masing lima bit tiap bagian seperti yang telah disebutkan sebelumnya maka kromosom tersebut dapat juga ditulis menjadi [10011;00110;11000;01110]. Sehingga model kromosom di atas dalam ARIMA (p,d,q)(P,D,Q)s adalah ARIMA ([1,4,5],0,[3,4])([1, 2],0,[2,3,4])s. b. Nilai Fitness Pada teori evolusi terdapat konsep fitness sebagai ukuran performansi dari suatu individu yang akan bertahan hidup. Di dalam evolusi alam, individu yang memiliki nilai fitness yang tinggi akan bertahan hidup, begitu pula sebaliknya (Suyanto, 2005). Dalam penelitian ini, konsep fitness yang digunakan adalah nilai MSE. Model yang akan dapat bertahan untuk generasi selanjutnya adalah model dengan MSE terkecil. Pada masalah optimasi, jika solusi yang dicari adalah memaksimalkan (maksimasi) fungsi h maka nilai fitness yang digunakan adalah nilai dari fungsi h tersebut. Namun jika masalahnya adalah minimasi maka fungsi h tidak bisa digunakan secara langsung karena adanya aturan individu yang bertahan hidup adalah individu yang memiliki nilai fitness tinggi. Fungsi h disini yaitu fungsi MSE. Karena tujuan yang ingin dicapai adalah meminimumkan nilai MSE, maka digunakan persamaan sebagai berikut :
f
1 ( MSE a)
(2.9)
a merupakan bilangan yang sangat kecil untuk menghindari kemungkinan nilai f tak berhingga ketika nilai MSE 0 . c. Seleksi Orang Tua Pemilihan dua buah kromosom sebagai orang tua yang akan dipindahsilangkan biasanya dilakukan secara proporsional sesuai dengan nilai fitnessnya. Metode umum yang biasa dipakai adalah Roulette Wheel (Roda Roulette). Pada metode ini, masing-masing kromosom menempati potongan lingkaran pada roda Roulette secara proporsional sesuai dengan nilai fitnessnya (Suyanto, 2005). Sebuah kromosom yang nantinya terpilih adalah apabila bilangan random yang dibangkitkan berada dalam nilai interval kumulatifnya.
4
Nilai kumulatif ini didapatkan dari membagi nilai fitness dari tiap kromosom dengan total nilai fitness keseluruhan. d. Pindah Silang (Crossover) Proses pindah silang dari dua buah kromosom ini bertujuan menambah keanekaragaman kromosom dalam satu populasi dengan penyilangan antar kromosom yang diperoleh dari proses reproduksi sebelumnya. Beberapa jenis pindah silang menurut Desiani dan Arhami (2006) yaitu pindah silang satu titik, dua titik, dan seragam. Contoh proses pindah silang satu titik potong dapat dilihat pada proses di bawah ini : Orang tua 1 : [0 1 0 1 1 1 0 0] Orang tua 2 : [1 0 1 0 0 0 1 1] Apabila dilakukan pindah silang pada titik ke-4 maka anak yang akan dihasilkan adalah : Anak 1 : [0 1 0 0 0 0 1 1] Anak 2 : [1 0 1 1 1 1 0 0] Untuk lebih jelasnya proses tersebut juga dapat dilihat pada Gambar 2.1 di bawah ini Orang tua 1 :
0
1
0
1
1
1
0
0
Orang tua 2 :
1
0
1
0
0
0
1
1
Anak 1
:
0
1
0
0
0
0
1
1
Anak 2
:
1
0
1
1
1
1
0
0
Gambar 2.1 Proses pindah silang satu titik potong
Untuk kromosom yang lebih panjang bisa digunakan n titik potong yang dipilih secara random. Pindah silang dilakukan dengan suatu nilai probabilitas tertentu Pc (Suyanto, 2005). Nilai probabilitas pindah silang (Pc) menyatakan seberapa sering proses pindah silang akan terjadi antara dua kromosom orang tua. Desiani dan Arhami (2006) menyatakan bahwa dari hasil penelitian Algoritma Genetika yang sudah pernah dilakukan nilai probabilitas pindah silang sebaiknya tinggi, yaitu antara 0,8-0,9 agar memberikan hasil yang baik. Pada penelitian ini digunakan nilai Pc sebesar 0.8. e. Mutasi Prosedur mutasi cukup sederhana, jika bilangan random yang dibangkitkan kurang dari peluang mutasi ( p mut ) yang ditentukan, maka gen tersebut akan diubah menjadi kebalikannya. Untuk kode biner, maka nilai 0 diganti 1 dan sebaliknya. Umumnya nilai p mut adalah 1/n dimana n adalah jumlah gen dalam satu kromosom dan pada Algoritma Genetika nilai p mut adalah tetap dalam evolusi (Suyanto, 2005). Nilai p mut tersebut menyatakan seberapa sering gen dalam kromosom akan mengalami mutasi. Proses mutasi ini bersifat acak sehingga tidak menjamin akan diperoleh kromosom dengan fitness yang lebih baik setelah terjadinya mutasi tersebut. Solusi yang lokal optimum (konvergensi dini) dapat terjadi apabila proses pencarian solusi terperangkap dalam salah satu ruang pencarian kromosom dengan fitness tinggi yang terus bertahan, sehingga tidak mampu mengeksplorasi bagian-bagian yang lain. Oleh karena itu diperlukan operator mutasi untuk menjaga perbedaan kromosom dalam populasi. Dalam Algoritma Genetika nilai p mut seharusnya kecil karena sifatnya yang acak dimungkinkan dapat mengganggu kromosom baik yang telah diperoleh. Hasil penelitian yang sudah pernah dilakukan menunjukkan bahwa nilai p mut terbaik adalah antara 0.005 - 0.01 (Desiani dan Arhami, 2006). Namun nilai p mut yang digunakan dalam penelitian ini adalah sebesar 0.01. Nilai tersebut bukan nilai yang pasti untuk dijadikan pedoman, Haupt dan Haupt (2004) menggunakan nilai p mut sebesar 0.2 untuk pengkodean biner. Untuk penelitian ini digunakan p mut sebesar 0.05.
5
f.
Elitisme (Elitism) Suatu individu yang memiliki nilai fitness tertinggi tidak akan selalu terpilih karena proses seleksi dilakukan secara random. Oleh karena itu perlu dilakukan elitisme, yaitu suatu prosedur pengopian individu agar individu yang bernilai fitness tertinggi tidak hilang selama proses evolusi (Suyanto, 2005). g. Penggantian Populasi (Generational Replacement) Suyanto (2005) menyatakan dalam Algoritma Genetika dikenal skema penggantian populasi, yang berarti N individu dalam satu populasi dari suatu generasi digantikan sekaligus oleh N individu baru hasil pindah silang dan mutasi. Prosentase populasi yang digantikan dalam tiap generasi dinyatakan dalam G. Nilai G=1 pada skema penggantian populasi dan untuk G=1/N merupakan skema penggantian yang paling ekstrem dimana hanya mengganti satu individu pada tiap generasi. Dalam setiap generasi sejumlah NG individu harus dihapus agar ukuran populasi tetap N. Terdapat beberapa prosedur penghapusan individu ini seperti penghapusan individu yang paling tua atau individu yang memiliki nilai fitness paling rendah. Penghapusan individu bisa dilakukan pada orang tua saja atau bisa saja pada semua individu dalam populasi tersebut. 3. Metodologi Penelitian 3.1 Sumber Data Dalam penelitian ini akan digunakan dua jenis data musiman yaitu data asli dan data hasil simulasi. Data asli yang digunakan adalah data bulanan wisatawan mancanegara yang datang ke Indonesia melalui Bandara Batam mulai Januari 1996 – Desember 2006. Sedangkan data musiman hasil simulasi nantinya merupakan data bangkitan menggunakan software. Data hasil simulasi yang dibangkitkan dengan software minitab nantinya adalah data model AR(1)12, MA(1)12, ARIMA(1,0,0)(1,0,0)12, dan ARIMA(0,0,1)(0,0,1)12. Apabila data yang dibangkitkan masih belum layak maka dilakukan pembangkitan data lagi sampai modelnya sesuai dengan yang diinginkan. 3.2 Metode Analisis Data Tahap-tahap analisis dalam penelitian ini yaitu : 1. Identifikasi model musiman ARIMA Box-Jenkins menggunakan Correlogram dan Algoritma Genetika 2. Mencari model terbaik berdasarkan kriteria in-sample dan out-sample. 3. Membandingkan model yang didapatkan dari kedua metode berdasarkan dua kriteria tersebut. 4. Hasil Dan Pembahasan 4.1 Identifikasi Model ARIMA dengan Algoritma Genetika Pada bab ini akan dibahas mengenai hasil estimasi parameter dengan data simulasi, serta hasil analisis Algoritma Genetika untuk identifikasi model dengan data simulasi dan data asli. 4.1.1. Estimasi Parameter dengan Data Simulasi Data simulasi yang digunakan adalah data bangkitan minitab dengan sampel sebanyak 100, 200, dan 500 data. Data dibangkitkan dengan model AR(1)12, MA(1)12, ARIMA(1,0,0)(1,0,0)12, dan ARIMA(0,0,1)(0,0,1)12. Data bangkitan tersebut kemudian dicari estimasi parameternya menggunakan program matlab dan hasilnya nanti dibandingkan dengan hasil minitab. Hal ini dilakukan untuk mengetahui apakah program estimasi parameter tersebut dapat digunakan untuk Algoritma Genetika atau tidak. Berikut adalah hasil perbandingan estimasi parameternya : Tabel.4.1 Hasil estimasi parameter model data bangkitan Sampel
Model
100
AR(1)12 MA(1)12 ARIMA (1,0,0)(1,0,0)12 ARIMA (0,0,1)(0,0,1)12
Estimasi Parameter Matlab Minitab Ф = -0.6281 Ф = -0.6831 Θ = 0.5020 Θ = 0.7007 = 0.2212
= 0.2478
Ф = 0.7063
Ф = 0.7552
θ = 0.3092 Θ =0.3067
θ = 0.3331 Θ = 0.3646
6
Lanjutan Tabel.4.1 Hasil estimasi parameter model data bangkitan Sampel
Model
200
AR(1)12 MA(1)12
Estimasi Parameter Matlab Minitab Ф = 0.500 Ф = 0.6435 Θ = 0.5357 Θ = 0.5877
ARIMA (1,0,0)(1,0,0)12 ARIMA (0,0,1)(0,0,1)12 500
AR(1)12 MA(1)12 ARIMA (1,0,0)(1,0,0)12 ARIMA (0,0,1)(0,0,1)12
= 0.2379 Ф = 0.5321 = 0.3547 Ф =0.1957 Ф = 0.5817 Θ = 0.5368 = 0.2280 Ф =0.6 320 θ = 0.3107 Θ = 0.1086
= 0.2120 Ф = 0.6104 θ = 0.3261 Θ = 0.1694 Ф = 0.6152 Θ = 0.5328 = 0.2430 Ф = 0.6820 θ = 0.3067 Θ = 0.1062
Berdasarkan Tabel 4.1 di atas dapat dilihat bahwa estimasi parameter hasil perhitungan dari matlab cenderung sama dengan hasil yang diperoleh dari minitab. Hal ini berarti program matlab untuk estimasi parameter dengan metode Conditional Least Square di atas sudah layak digunakan untuk metode Algoritma Genetika. 4.1.2 Penerapan Algoritma Genetika pada Data Simulasi Pada sub bab ini, data simulasi yang telah dibangkitkan akan dianalisis menggunakan Algoritma Genetika untuk mengetahui model ARIMA Box-Jenkins terbaiknya. Kromosom dalam kasus ini diinterpretasikan sebagai orde model, dan terdapat 2 variabel yang diperlukan yaitu AR dan MA. Tiap variabel diwakilkan oleh 50 bit, sehingga dalam 1 kromosom akan terisi 100 bit yang berisi angka biner 0 atau 1. Sebagai contoh model ARIMA (1,0,0)(1,0,0)12 apabila diinterpretasikan dalam kromosom menjadi (1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0). Digunakan 50 bit untuk tiap variabel dengan tujuan untuk dapat mengetahui lag-lag mana saja yang signifikan untuk orde AR maupun MA dan melihat efek musimannya. Dalam kasus ini digunakan musiman 12. Jumlah kromosom yang digunakan adalah sebanyak 10, 20,dan 40. Data simulasi yang digunakan yaitu data bangkitan sebanyak 500 sampel dengan model ARIMA(1,0,0)(1,0,0)12. Hasil perbandingan MSE dari data simulasi menggunakan Algoritma Genetika akan ditampilkan pada Tabel 4.2, sedangkan hasil analisis untuk tiap kromosom akan ditampilkan pada tabel di bawahnya. Tabel 4.2 Perbandingan MSE untuk data simulasi ARIMA (1,0,0)(1,0,0)12
Metode correlogram
Algoritma Genetika Krom 10 Krom 20 Krom 40
MSE
0.021052
1.099
0.0099256
0.007449
Dari Tabel 4.2 di atas dapat dilihat bahwa MSE terkecil untuk data simulasi adalah 0.007449 yang dihasilkan dari interasi Algoritma Genetika dengan 40 kromosom dan iterasi berhenti pada generasi ke-4 yang hasilnya dapat dilihat pada Tabel 4.3 di bawah ini. Sedangkan dengan menggunakan metode corrrelogram dihasilkan MSE sebesar 1.099. Sehingga dapat disimpulkan bahwa untuk data simulasi metode Algoritma Genetika menghasilkan nilai MSE yang jauh lebih kecil dibandingkan dengan metode correlogram. Identifikasi model ARIMA Box-Jenkins terbaik data simulasi dengan Algoritma Genetika dapat dilihat dari bit mana saja yang signifikan seperti yang tampak pada Tabel 4.3 di bawah ini. Bit tersebut mewakili lag dalam orde AR mapun MA. Bit yang tidak ditampilkan di tabel berarti bit tersebut tidak signifikan atau bernilai 0.
7
Tabel 4.3 Hasil Simulasi Algoritma Genetika dengan kromosom=40 Bit Phi (AR) 1 2 6 9 10 11 13 15 16 17 18 20 21 24
Nilai parameter 0.35515 0.15486 0.38459 -0.19759 0.078637 0.11994 0.32196 0.14797 -0.49705 -0.31677 -0.06682 -0.15099 -0.31976 0.2104
Bit Phi (AR) 26 30 33 34 37 39 40 41 42 43 45 47 48 50
Nilai parameter -0.053361 0.62484 -0.15029 0.53645 -0.55464 0.14811 -0.081049 -0.40144 0.052195 -0.11714 0.086961 0.1227 -0.010401 -0.18887
Bit Theta (MA) 1 3 5 6 8 9 10 12 14 15 16 17 19 20
Nilai parameter 0.18576 1.1018 0.21925 1.8021 0.6809 -2.7031 -0.4302 1.4033 -1.0772 0.68349 1.5802 -3.1815 -0.087302 -0.55383
Bit Theta (MA) 31 32 34 36 37 38 46 47 48
Nilai parameter -0.65775 1.365 -1.8676 1.0766 0.28899 -0.40606 -0.060846 -1.2292 -0.70494
Nilai MSE = 0.007449 dan iterasi berhenti pada generasi ke-4 Berdasarkan nilai bit yang signifikan pada Tabel 4.3 maka model ARIMA terbaik yang dihasilkan dari simulasi Algoritma Genetika adalah ARIMA ([1,2,6,9,10,11,13,15,16,17,18,20,21,26,30,33,34,37,39,40,41,42,43],0,[1,3,5,6,8,9,10,14,15,16,17,19,20,31,3 2,34,36,37,38,46,46,48])([2],0,[1,3])12. 4.1.3 Algoritma Genetika dengan Data Asli Pada sub bab ini akan Algoritma Genetika akan diterapkan pada data asli yaitu data jumlah kedatangan wisatawan mancanegara ke Indonesia melalui bandara Batam mulai Januari 1996-Desember 2006. MSE yang dihasilkan dari metode correlogram sesuai penelitian Ribaan (2008) adalah Hasil analisis Algoritma Genetika untuk data asli ditampilkan pada Tabel 4.4 di bawah ini. Tabel 4.4 Perbandingan MSE untuk data asli dengan Algoritma Genetika
Metode correlogram MSE
141111608
Algoritma Genetika Krom 10 Krom 20 Krom 40 12416000 8803400 7870700
Nilai MSE terkecil yang dihasilkan dari metode Algoritma Genetika adalah 7870700 dan dihasilkan dari iterasi dengan 40 kromosom pada generasi ke-4. Nilai parameter yang dihasilkan dari iterasi tersebut ditampilkan pada Tabel 4.5 di bawah ini : Tabel.4.5 Hasil Algoritma Genetika data asli dengan kromosom=40 Bit Phi (AR) 3 5 6 7 8 9 10 11 16 17
Nilai Parameter -0.23663 0.14241 0.3457 0.030425 -0.083049 0.38416 0.075982 0.021466 -0.29858 -0.062004
Bit Phi (AR) 26 27 28 38 39 41 42 43 45 48
Nilai Parameter 0.19774 0.25016 0.055778 -0.49074 -0.46423 -0.4182 -0.28936 -0.19394 -0.021324 0.30308
Bit Theta (MA) 1 2 6 8 10 11 12 14 20 22
Nilai Parameter 0.72662 -0.022863 0.13494 -0.016449 0.77262 -0.21565 0.63361 0.34241 1.0909 -0.90176
Bit Theta (MA) 32 33 34 36 39 40 41 42 43 44
Nilai Parameter 2.1803 0.20926 -0.6418 1.7056 -0.60199 -1.2022 -1.0228 -0.77843 0.26838 0.78003
8
Lanjutan Tabel.4.5 Hasil Algoritma Genetika data asli dengan kromosom=40 Bit Phi (AR) 20 22
Nilai Parameter -0.13951 -0.27836
Bit Phi (AR) 49 50
Nilai Parameter -0.40649 -0.15089
Bit Theta (MA) 24 25 29 30
Nilai Parameter 2.2434 0.54767 -0.43967 -0.025777
Bit Theta (MA) 46 47 48 50
Nilai Parameter 1.0433 -2.3782 1.7507 -0.81817
Nilai MSE = 7870700 dan iterasi berhenti pada generasi ke-4 Dengan melihat lag-lag yang signifikan pada Tabel 4.5 di atas maka model ARIMA yang dihasilkan dari Algoritma Genetika untuk data asli adalah ARIMA([3,5,6,7,8,9,10,11,16,17,20,22,26,27,28,38,39,41,42, 43,45,48,49,50],1,[1,2,6,8,10,11,12,14,20,22,24,25,29,30,32,33,34,46,49,40,41,42,43,44,46,47,48,50])(0,0,4)12 atau dapat ditulis dalam bentuk model seperti di bawah ini: Zt
0.23663Z t
0.0759823Z t 0.19774Z t - 0.28936Z t
26
3
10
0.14241Z t 0.021466Z t
0.25016Z t 0.19394Z t
43
0.72662at
1
0.022863at
2
0.63361at
12
0.43967at 0.60199at 2.3782at
0.34241t
14
29
0.025777at
39
1.2022at
47
1.7507at
40
48
11
0.021324Z t 0.13494at 1.0909at
30
20
2.1803at
1.0228at
42
0.81817at
50
0.030425Z t
6
0.29858Z t
0.055778Z t
27
42
0.3457Z t
5
28 45
16
17
38
- 0.46423Z t
39
0.30308Z t
48
- 0.40649Z t
49
2.2434at
22
0.20926at
0.26838at
0.77262at
8
43
33
20
0.4182Z t - 0.15089Z t 0.21565at
10
0.6418at 44
1.0433at
22
41 50
11
25
1.7056at
34
9
- 0.27836Z t
0.54767at
24
0.78003at
0.38416Z t
8
0.13951Z t
- 0.49074Z t
0.90176at 32
- 0.0830425Z t
0.062004Z t
0.016449at
6
7
36
46
4.2. Pengujian Asumsi Residual Hasil Algoritma Genetika lag Q DF P-value
Tabel 4.6 Hasil Uji Ljung-Box Residual 60 72 84 96 139.3968 176.8885 206.226 224.5834 8 20 32 44 1.0000 1.0000 1.0000 1.0000
Keterangan white noise
Tabel 4.7 Hasil Uji Kenormalan Residual
kolmogorov-smirnov p-value
0.066 >0.150
Berdasarkan uji Ljung-Box pada Tabel 4.6 di atas diketahui bahwa nilai p-value > 0.05, maka residual telah memenuhi asumsi white noise. Sedangkan untuk asumsi kenormalan, tampak pada Tabel 4.7 nilai p-value>0.150 sehingga residual sudah sudah berdistribusi normal. Dengan demikian semua asumsi residual hasil Algoritma Genetika sudah terpenuhi. 4.3. Perbandingan Model Terbaik Hasil Algoritma Genetika dan Correlogram Berdasarkan Kriteria In-sample dan Out-sample Model terbaik yang dihasilkan dari iterasi Algoritma Genetika dengan MSE terkecil adalah ARIMA ([3,5,6,7,8,9,10,11,16,17,20,22,26,27,28,38,39,41,42,43,45,48,49,50],1,[1,2,6,8,10,11,12,14,20,22,24,25,29,3 0,32,33,34,46,49,40,41,42,43,44,46,47,48,50])(0,0,4)12. Sedangkan pada penelitian Tugas Akhir Ribaan (2008) model terbaik yang dihasilkan dengan metode correlogram adalah ARIMA(0,1,1)(1,0,0)12 untuk kriteria in-sample dan ARIMA(0,1,1)(0,0,1) untuk kriteria out-sample. Pada penelitian Ribaan (2008) kriteria in-sample menggunakan AIC sedangkan out-sample dengan MAPE, jadi pada penelitian ini peneliti
9
menghitung sendiri nilai MSE untuk kriteria in-sample. Nilai MSE dan MAPE dari metode Algoritma Genetika dan Correlogram dapat dilihat pada Tabel 4.8 di bawah ini : Tabel 4.8 Nilai MSE dan MAPE Algoritma Genetika dan Correlogram Metode
MSE
MAPE
Correlogram
141111608
14.25%
Algoritma Genetika
7870700
9.65 %
Dapat dilihat pada Tabel 4.8 bahwa Algoritma Genetika memiliki nilai MSE dan MAPE yang lebih kecil dibandingkan dengan correlogram. Data hasil ramalan 6 periode ke depan untuk metode correlogram dan Algoritma Genetika dan perbandingan keduanya dapat dilihat pada Gambar 4.1 di bawah ini. 4.4 Perbandingan Hasil Ramalan dengan Algoritma Genetika dan Correlogram Berikut akan ditampilkan data hasil ramalan menggunakan Algoritma Genetika dan Correlogram seperti yang telah dihasilkan pada penelitian Ribaan (2008). 120000 100000 80000
forecast AG
60000
data asli forecast correlogram
40000 20000 0 1
2
3
4
5
6
Gambar 4.1 Perbandingan Hasil Forecast
Dari Gambar 4.1 di atas terlihat bahwa hasil ramalan Algoritma Genetika memiliki nilai yang cenderung lebih mendekati data asli dibandingkan dengan metode correlogram. 5. Kesimpulan dan Saran 5.1 Kesimpulan Kesimpulan yang dihasilkan berdasarkan hasil dan pembahasan sebelumnya adalah : 1. Dari hasil yang didapatkan, identifikasi model ARIMA Box-Jenkins campuran menggunakan Algoritma Genetika menghasilkan nilai MSE yang lebih kecil dibandingkan dengan metode correlogram baik untuk data asli maupun data simulasi. 2. Hasil data ramalan menggunakan Algoritma Genetika memiliki cenderung lebih mendekati nilai dari data asli dibandingkan dengan metode correlogram. 3. Dalam kasus ini, kekurangan dari metode Algoritma Genetika dalam mengidentifikasi model ARIMA Box-Jenkins terletak pada waktu iterasi yang lebih lama bila dibandingkan dengan metode correlogram. Hal ini dikarenakan identifikasi model dengan correlogram hanya melihat ACF dan PACF sampel saja. Sedangkan dari segi parameter model, Algoritma Genetika menghasilkan parameter model yang jauh lebih banyak dibandingkan dengan metode correlogram. 4. Dalam pengerjaannya, dua konsep penting dalam Algoritma Genetika adalah pendefinisian kromosom dan nilai fitness. Dua hal tersebut yang akan menentukan hasil dari metode Algoritma Genetika, oleh karena itu pendefinisian keduanya harus tepat agar hasil yang didapatkan juga akurat. 5.2 Saran Saran yang dapat diberikan berdasarkan pembahasan yang telah dilakukan yaitu pada penelitian ini, kriteria kebaikan model hanya berdasarkan MSE saja, diharapkan pada penelitian selanjutnya akan dikembangkan untuk kriteria kebaikan model yang lain.
10
DAFTAR PUSTAKA
Chatterjee, S., Laudat, M., dan Lynch, L.A., 1996. Genetic Algorithms And Their Statistical Applications:An Introduction. Journal Applied Computational Statistic and Data Analysis, 22, 633-651. Desiani, A., dan Arhami, M., 2006. Konsep Kecerdasan Buatan. Yogjakarta : Andi offset. Haupt, S.E., dan Haupt, R.L., 2004. Practical Genetic Algorithms. New Jersey : A John Wiley & Sons, Inc.
Kosasih, D., dan Rinaldo, (2006). Analisis Aplikasi Algoritma Genetika Untuk Pencarian Nilai Fungsi Maksimum. Institut Teknologi Bandung. Mitchel, M. 1996. An Introduction to Genetic Algorithms. England : Massachusetts Institute of Technology. Ong, C.S., Huang, J.J., dan Tzeng G.H., 2005. Model identification of ARIMA family using genetic algorithms. Journal Applied Mathematics and Computation, 164, 885-912 Ribaan. 2008. Penerapan Metode ARIMA Untuk Peramalan Jumlah Wisatawan Mancanegara Yang Berkunjung ke Indonesia Melalui Tujuh Pintu Masuk Utama. Tugas Akhir Institut Teknologi Sepuluh Nopember. Rohman, M.N, 2010. Identifikasi Model Arima Box-Jenkins Mengunakan Algoritma Genetika. Tugas Akhir Institut Teknologi Sepuluh Nopember. Suyanto. 2005. Algoritma Genetika Dalam Matlab. Yogyakarta : Andi offset. Wei, W.W.S., 2006. Time Series Univariate and Multivariate Methods. USA : Pearson Education, Inc.
11