Selasa, 24 Mei 2011

Regresi Logistik

Seringkali di dalam penelitian, seseorang ingin memodelkan hubungan antara variabel X (prediktor; bebas) dan Y (respon; terikat). Metode yang paling sering dipakai dalam kasus seperti itu adalah regresi linier, baik sederhana maupun berganda.
Namun, adakalanya regresi linier dengan metode OLS (Ordinary Least Square) yang sering dipakai tersebut kurang sesuai untuk digunakan. Dikatakan kurang sesuai karena jika regresi linier biasa digunakan akan terjadi pelanggaran asumsi Gauss-Markov. Misalnya pada kasus dimana variabel respon (Y) bertipe data nominal, sedangkan variabel bebas/prediktornya (X) bertipe data interval atau rasio.
Contoh kasus (diambil dari rencana skripsi Choirul Maqsudi):
Ingin diketahui apakah konsumen akan membeli makanan di rumah makan berdasarkan penilaian konsumen terhadap lokasi, pelayanan, pendapatan, kebersihan, selera dan harga. Dalam kasus ini hanya ada 2 kemungkinan respon konsumen, yaitu konsumen membeli dan tidak membeli.
Dari contoh kasus di atas, dapat diketahui bahwa tipe data variabel respon (Y) adalah nominal, yaitu kategorisasi keputusan konsumen apakah membeli atau tidak (misal membeli dilambangkan angka 1, sedangkan tidak membeli dengan angka 0), sedangkan tipe data untuk variabel bebas (X) setidak-tidaknya interval (skala likert). Bila metode regresi linier biasa diterapkan pada kasus semacam ini, menurut Kutner, dkk.(2004), akan terdapat 2 pelanggaran asumsi Gauss-Markov dan 1 buah pelanggaran terhadap batasan dari nilai duga (fitted value) dari variabel respon (Y), yaitu:
  1. Error dari model regresi yang didapat tidak menyebar normal.
  2. Ragam (variance) dari error tidak homogen (terjadi heteroskedastisitas pada ragam error).
  3. Sedangkan, pelanggaran bagi batasan nilai duga Y (fitted value) adalah bahwa nilai duga yang dihasilkan dari model regresi linier biasa melebihi rentang antara 0 s.d. 1. Hal ini jelas tidak masuk akal , karena batasan nilai pada variabel Y (dalam kasus ini adalah membeli=1 dan tidak membeli=0). Bayangkan jika Anda mendapatkan nilai duga Y = 4 saat Anda memasukkan suatu nilai X tertentu. What does it mean? It is no longer interpretable, guys.
Untuk mengatasi masalah ini, diperkenalkan metode Regresi Logistik. Sebagaimana metode regresi biasa, regresi logistik dapat dibedakan menjadi 2, yaitu: Binary Logistic Regression (Regresi Logistik Biner) dan Multinomial Logistic Regression (Regresi Logistik Multinomial). Regresi Logistik biner digunakan ketika hanya ada 2 kemungkinan variabel respon (Y), misal membeli dan tidak membeli. Sedangkan Regresi Logistik Multinomial digunakan ketika pada variabel respon (Y) terdapat lebih dari 2 kategorisasi.
Model Logistik memiliki bentuk fungsi seperti pada persamaan (1) dan (2). Untuk memudahkan interpretasi, maka model logistik ditransformasi menjadi bentuk fungsi logit, seperti pada persamaan (3). Nilai duga regresi logistik (Y duga) merupakan nilai peluang. Lebih tepatnya berapakah peluang seorang konsumen akan membeli makanan di warung/rumah makan tersebut berdasarkan penilaiannya pada variabel lokasi, pelayanan, pendapatan, kebersihan, selera dan harga. Rentang nilai duga yang dihasilkan akan berkisar antara 0 s.d. 1. (Kita ingat bahwa kisaran atau rentang nilai peluang adalah 0 s.d 1).
Catatan:
Regresi logistik tidak terbatas hanya dapat diterapkan pada kasus dimana variabel X nya bertipe interval atau rasio saja.  Tapi regresi logistik juga bisa diterapkan untuk kasus dimana variabel X nya bertipe data nominal atau ordinal. Hal ini seperti ini analog dengan regresi linier dengan variabel dummy.

Regresi logistik (logistic regression) sebenarnya sama dengan analisis regresi berganda, hanya variabel terikatnya merupakan dummy variabel (0 dan 1). Sebagai contoh, pengaruh beberapa rasio keuangan terhadap keterlambatan penyampaian laporan keuangan. Maka variabel terikatnya adalah 0 jika terlambat dan 1 jika tidak terlambat (tepat). Regresi logistik tidak memerlukan asumsi normalitas, meskipun screening data outliers tetap dapat dilakukan.

Interpretasi regresi logistik menggunakan odd ratio atau kemungkinan. Sebagai contoh, jika rasio keuangan ROA meningkat sebesar 1% maka kemungkinan ketepatan menyampaikan laporan keuangan meningkat sebesar 1,05 kali. Berarti semakin tinggi ROA kemungkinan tepat semakin tinggi. Atau jika rasio keuangan DER meningkat sebesar 2% maka kemungkinan ketepatan penyampaian laporan keuangan meningkat sebesar 0,98 kali atau bisa dikatakan menurun karena lebih kecil dari 1 yang berarti kemungkinan terlambat semakin tinggi.

Berikut adalah simulasi aplikasi regresi logistik (logistic regression) dengan SPSS Versi. 11.5. Contoh tabulasi data dengan 84 sampel bisa di download di sini. O ya, data itu hanya contoh saja lho. Tampilannya pada SPSS Versi 11.5 kurang lebih (banyak kurangnya) seperti ini

Simulasi adalah untuk melihat pengaruh antara variabel profitabilitas, kompleksitas perusahaan, opini auditor, likuiditas dan ukuran perusahaan terhadap ketepatan penyampaian laporan keuangan tahunan perusahaan. Profitabilitas diukur dengan ROA; kompleksitas diukur dengan 1 jika mempunyai anak perusahaan dan 0 jika perusahaan tidak mempunyai anak perusahaan; opini auditor diukur dengan 1 jika mendapatkan opini wajar tanpa pengecualian dan 0 untuk opini yang lain; likuiditas diukur dengan Current Ratio; dan kompleksitas diukur dengan logaritma natural market value. Nah variabel terikatnya adalah ketepatan penyampaian laporan keuangan dengan kode 1 untuk perusahaan yang tepat waktu dan 0 untuk perusahaan yang terlambat.
Klik menu Analyze, pilih Binary Logistic, seperti ini:

Jika anda benar, maka akan keluar menu box untuk regresi logistik. Masukkan variabel ketepatan ke dalam box dependend, dan masukkan variabel bebas ke dalam box covariate. Lalu klik pada options, sehingga akan keluar box seperti ini:

Beri tanda centang seperti pada gambar di atas lalu klik continue sehingga akan dikembalikan pada menu box logistik dan tekan OK. Program akan melakukan perhitungan secara otomatis, dan hasil selengkapnya dapat anda bandingkan dengan data yang telah anda download

Interpretasinya adalah sebagai berikut:
Pertama. Melihat kelayakan model dengan menginterpretasikan output berikut ini:

Nilai -2 Log Likelihood adalah sebesar 96,607 yang akan dibandingkan dengan nilai Chi Square pada taraf signifikansi 0,05 dengan df sebesar N-1 dengan N adalah jumlah sampel, berarti 84 – 1 = 83. Dari tabel Chi Square, anda nyari tabel sendiri ya, diperoleh nilainya adalah 100,744. Jadi -2 Log Likelihood < 6 =" 84" 6 =" 78">

Nah, sekarang gunakan logika ini. Jika konstanta saja dimasukkan tidak layak, semua variabel bebas dimasukkan juga tidak layak, tapi kan ada penurunan -2 Log Likelihood. Yup penurunannya adalah sebesar 96,607 – 84,877 = 11,73. Atau kalau males ngitung manual, Output SPSS juga telah memberikan nilai itu yaitu sebagai berikut:

Nah kelihatan kan kalau output selisihnya adalah sebesar 11,729 dan mempunyai signifikansi 0,039 <>

Kalau masih kurang puas, bisa dilihat nilai Hosmer and Lemeshow Test. Tapi tunggul dulu, ini agak berbeda. Hosmer dan Lemeshow Test berbeda dengan uji kelayakan di atas. Ini adalah untuk melihat apakah data empiris cocok atau tidak dengan model atau dengan kata lain diharapkan tidak ada perbedaan antara data empiris dengan model. Nah kalau begitu model akan dinyatakan layak jika signifikansi di atas 0,05 atau -2 Log Likelihood di bawah Chi Square Tabel. Hati-hati, ini berkebalikan dengan uji yang lain sebelumnya. Jangan bingung lho.. nah tampak kan bahwa nilai Hosmer and Lemeshow Test adalah sebesar 9,778 dengan signifikansi 0,281 > 0,05. Berarti fit kan???

Kesimpulannya adalah bahwa model dinyatakan layak dan boleh diinterpretasikan!!!
Gambar di atas memberikan nilai Nagelkerke R Square sebesar 0,191 yang berarti bahwa kelima variabel bebas mampu menjelaskan varians ketepatan penyampaian laporan keuangan sebesar 19,1% dan sisanya yaitu sebesar 80,9% dijelaskan oleh faktor lain.

Pengujian hipotesis penelitian dilihat dengan output berikut ini:

Lihat aja signifikansinya, yang di bawah 0,10 (10%) berarti signifikan berpengaruh atau hipotesis diterima. Pembahasannya, ya silahkan dikaitkan dengan teori yang dikembangkan di awal dan ……….. terserah anda…..

Sumber:
- www.konsultanstatistik.com
- www.ineddeni.wordpress.com


Tidak ada komentar:

Posting Komentar