Apa itu Regresi Linier R2?- Probabilitas & Statistik



Dalam olahraga, kerja keras dalam sesi latihan dan latihan sering kali dihargai dengan posisi tinggi dalam kompetisi dan permainan (secara proporsional). Dengan kata lain, pengulangan sekolah lama “Tidak ada rasa sakit, tidak ada hasil!” berdering dengan banyak kebenaran, meskipun kerangka yang lebih optimis dari ide yang sama adalah, “Semakin keras Anda bekerja secara objektif, semakin besar tingkat kesuksesan objektif Anda.”

Anda dapat menguji ide ini dengan memilih 100 pelari jarak jauh secara acak (mungkin menggunakan survei online untuk mengumpulkan peserta) dan meminta mereka berlomba satu sama lain dalam jarak 5 kilometer (3,1 mil). Anda dapat meminta mereka untuk melaporkan berapa mil per minggu rata-rata mereka berlari dalam tiga bulan sebelumnya sebelum tes ini.

Jika Anda kemudian memplot grafik kecepatan 5K vs. mil rata-rata per minggu, Anda akan mengharapkan untuk melihat korelasi positif antara latihan dan kinerja. Tetapi apakah ini akan menjadi korelasi yang “sempurna”? Dengan kata lain, dapatkah Anda memikirkan alasan untuk memperkirakan titik data yang akan menyimpang dari prediksi hubungan antara volume latihan dan kecepatan 5K?

Selamat datang di dunia analisis regresi linier, alat yang luar biasa dan biasanya cukup menarik untuk membantu meneliti dan mengukur hubungan antara variabel yang tampaknya terkait. Selain contoh di atas, Anda dapat membayangkan banyak hal lainnya (misalnya, curah hujan vs. tingkat vegetasi; pendapatan vs. akses ke perawatan medis di AS) untuk kepentingan pribadi dan masyarakat.

Baca terus untuk mengetahui lebih banyak tentang hal-hal yang terkait dengan “rumus R-kuadrat” yang sekarang terkenal dalam statistik.

Tentang Persamaan Linear

Persamaan linear dinamakan demikian karena menghasilkan garis lurus ketika digambarkan menggunakan koordinat x dan y. Itu dapat diekspresikan dalam bentuk:

y = a + bx

Dalam skema ini, a dan b adalah konstanta, x disebut variabel bebas , dan y dikenal sebagai variabel terikat . Cara lain untuk menyatakan hubungan ini adalah “variasi y dengan x”.

Artinya di dunia nyata adalah bahwa x biasanya merupakan variabel yang dapat Anda kontrol atau pilih dalam eksperimen atau analisis (seperti jumlah mil yang ditempuh), dan y adalah variabel yang tampaknya memiliki semacam ketergantungan pada x (seperti kecepatan lari).

Contoh: Gambarkan persamaan y = 5x − 7.

Dalam persamaan linear, a dikenal sebagai perpotongan y. Anda dapat melihat dari grafik bahwa ini adalah nilai y dimana grafik memotong sumbu y. Jika tidak, maka grafiknya adalah garis vertikal, dan persamaannya berbentuk x = konstanta. Grafik seperti itu sama sekali tidak menetapkan apa pun tentang y sebagai fungsi dari x dan tidak dapat dibuat dalam bentuk y = a + b x .

Konstanta b disebut kemiringan garis, yang akrab disebut dengan “rise over run” dalam mata kuliah pengantar matematika. Itu bisa positif (diwakili oleh garis miring ke atas dalam kaitannya dengan sumbu x dan y), negatif (garis miring ke bawah) atau 0 (garis horizontal).

Apa Korelasi Antar Variabel?

Di atas, Anda diundang untuk mempertimbangkan dampak perilaku variabel (pelatihan fisik) pada hasil (waktu 5K) yang diusulkan untuk bergantung pada beberapa hal yang tidak diketahui tetapi cukup signifikan pada perilaku variabel tersebut.

Dengan memilih jumlah subjek yang cukup besar untuk analisis Anda (N = 100), Anda bertujuan untuk menentukan apakah ada hubungan yang bermakna dan dapat direproduksi; jika Anda hanya melihat tiga atau empat pelari dan satu atau dua kebetulan mengalami flu pada hari ujian, hasilnya akan kurang membantu.

Jika Anda menagih $10 untuk aplikasi yang Anda kembangkan dan entah bagaimana tidak memiliki biaya awal atau pemeliharaan, keuntungan Anda hanya akan menjadi jumlah unit yang Anda jual dikali sepuluh: y = 10x. Dengan demikian akan ada korelasi “sempurna”, atau invarian, antara jumlah unit yang terjual dan laba. Jika Anda memplot grafik, satu garis jelas akan menggabungkan semua titik.

Tapi bagaimana dengan korelasi yang jelas berperan tetapi tidak “sempurna”? Dalam sains, hal ini sering terjadi, dan analisis regresi linier adalah alat yang digunakan para ilmuwan untuk menentukan tingkat atau kekuatan hubungan apa pun yang ditentukan antara variabel-variabel di dunia.

Apa yang Membingungkan dalam Statistik?

Bayangkan mengambil sampel 1.000 orang dari populasi AS yang melaporkan mengonsumsi lebih dari tiga cangkir kopi per hari dan membandingkan tingkat kolektif kanker paru-paru dalam kelompok ini dengan tingkat kanker paru-paru dari 1.000 orang Amerika yang dipilih secara acak yang melaporkan tidak minum kopi sama sekali. Apakah Anda akan terkejut menemukan bahwa kelompok peminum kopi akhirnya mengalami kanker paru-paru secara signifikan lebih banyak daripada yang tidak meminumnya?

Jika Anda sudah berpikir bahwa desain studi itu cacat, atau ada sesuatu yang berbahaya dan sebelumnya tidak diketahui tentang kopi, Anda berada di jalur yang benar. Mungkin tidak mengejutkan untuk menemukan bahwa tingkat merokok jauh lebih tinggi di antara peminum kopi berat daripada orang yang minum dalam jumlah sedang atau tidak sama sekali.

Dalam hal ini, merokok sigaret dikenal sebagai variabel confounding . Karena memiliki efek yang dapat diukur pada hasil yang diinginkan tanpa terkait dengan variabel independen, hal itu menimbulkan kebisingan dalam penelitian. Ahli statistik dan peneliti harus mampu mengendalikan variabel pengganggu seperti itu saat merancang studi dan menganalisis data yang dihasilkannya.

Tentang Analisis Regresi

Katakanlah Anda melakukan analisis waktu pelatihan versus 5K, dan Anda sangat senang, Anda melihat bahwa sebenarnya ada hubungan antara pekerjaan dan hasil: Mereka yang melaporkan persiapan yang lebih ketat cenderung memiliki waktu yang lebih cepat. Tapi grafiknya sama sekali bukan garis; sebaliknya, itu adalah semacam awan yang terlihat seperti garis yang dapat dijalankan melaluinya dan menangkap “esensi” matematis dari awan titik, yang disebut sebar plot .

Untuk melakukan apa yang disebut analisis regresi linier, yang merupakan proses yang digunakan untuk menentukan garis kesesuaian terbaik dalam plot pencar, Anda harus dapat membuat dua asumsi. Salah satunya adalah bahwa hubungan itu sebenarnya linier daripada, katakanlah, lengkung, seperti ketika y bervariasi dengan beberapa kekuatan eksponensial x.

Yang lainnya adalah hubungan antara y dan x sedemikian rupa sehingga y kontinu , bukan variabel diskrit seperti 1, 2 atau 3 kelas dalam satu semester.

Dalam grafik kecepatan 5K vs. volume latihan untuk 100 subjek Anda, tidak ada garis sebenarnya yang mewakili grafik. Itu berarti bahwa tidak ada kemiringan atau perpotongan y yang nyata. Namun, ada garis yang paling sesuai dengan semua titik yang diplot dan meminimalkan perbedaan total antara garis dan semua titik data individual. Garis ini menghasilkan perkiraan perpotongan y dan kemiringan dan persamaan yang menggambarkannya adalah dalam bentuk yang disebutkan di atas:

kamu = a + bx

yÌ‚ disebut “y hat”, dan grafiknya disebut garis yang paling cocok atau, untuk alasan yang akan segera menjadi jelas, garis kuadrat terkecil .

  • Seperti yang mungkin telah Anda tentukan, Anda tidak diharapkan menyelesaikan persamaan ini dengan tangan. Kalkulator Anda tidak hanya akan melakukan fungsi ini untuk Anda, tetapi Anda juga dapat menggunakan sejumlah alat daring untuk melakukan pekerjaan itu untuk Anda (lihat Sumber untuk contoh).

Berapa Koefisien Korelasi r?

Dalam persamaan di atas, konstanta a dan b merupakan perkiraan yang diturunkan dari nilai rata-rata x dan y dalam sampel (seperti rata-rata volume pelatihan dan rata-rata waktu 5K), ditulis sebagai xÌ… dan yÌ…. Derivasi terlalu luas untuk diskusi ini, tapi demi kelengkapan,

a = kamu… − bxÌ…

b = âˆ'[(x − xÌ…)(y − kamu… )]/ âˆ'(x − xÌ… ) 2

Konstanta b diturunkan dari besarnya simpangan. Secara intuitif, Anda mungkin sudah merasakan bahwa nilai yang lebih kecil dari semua besaran dalam tanda kurung dalam persamaan ini diasosiasikan dengan “kesesuaian” yang lebih baik antara data dan garis yang dibuat untuk menentukan hubungan linear antara x dan y dalam titik-titik tersebut.

Ekspresi untuk konstanta b di atas dapat ditulis:

b = r(S y /S x ),

Dimana S y dan S x adalah standar deviasi dari nilai x dan y dalam himpunan. Akhirnya, Anda telah sampai pada kuantitas kunci dalam analisis regresi: Koefisien korelasi r , yang dapat bervariasi antara −1.0 dan 1.0.

  • r adalah item terbawah pada layar keluaran LinRegTTest pada kalkulator TI-83, TI-83+ dan TI-84+.

Apa itu Koefisien Determinasi?

Koefisien korelasi r sendiri sangat berguna. Nilai yang mendekati 1,0 menunjukkan korelasi positif yang hampir sempurna, seperti pada contoh penjualan aplikasi Anda. Nilai yang mendekati −1.0 menunjukkan korelasi negatif yang kuat, di mana memindahkan variabel independen (katakanlah, jam yang dihabiskan untuk berpesta) ke satu arah menghasilkan perpindahan yang lain (katakanlah, IPK) ke arah yang berlawanan.

Kuantitas penting kedua dalam analisis regresi linier adalah koefisien determinasi . Dalam pembahasan regresi linier, koefisien determinasi selalu kuadrat dari koefisien korelasi r, jadi sederhananya (r) 2 = r 2 . Perhatikan bahwa nilai ini tidak boleh negatif.

Koefisien determinasi bukan sekedar transformasi numerik dari koefisien korelasi; itu juga memiliki nilai penjelasan yang bagus dalam banyak kasus. Biasanya dinyatakan sebagai persentase daripada angka desimal, karena ini adalah bahasa yang lebih disukai ahli statistik untuk menyampaikan informasi kepada ilmuwan lain dan terutama publik.

Mengapa Menggunakan Nilai r2?

Pertama, penting untuk mengetahui apa yang sebenarnya diwakili oleh r2 . Paling baik didefinisikan sebagai persentase variasi dalam variabel dependen atau variabel prediksi (y) yang dapat dijelaskan oleh variasi dalam variabel independen atau variabel penjelas (x) dengan menggunakan garis kecocokan terbaik yang dihasilkan oleh analisis regresi.

Jika nilai r 2 dalam studi lari Anda ternyata 0,64, Anda dapat menyatakan bahwa 64 persen variasi waktu 5K dijelaskan oleh perbedaan volume latihan. (Kuis singkat: Berapa nilai r yang dapat menghasilkan koefisien determinasi sebesar 0,64?)

Dengan cara yang sama, nilai 1 – r 2 , dinyatakan sebagai persentase, menyatakan persentase variasi dalam y yang tidak dijelaskan oleh variasi dalam x . Ini mungkin tampak sebagai hasil yang sepele, tetapi dalam beberapa kasus, Anda mungkin lebih tertarik secara eksplisit pada perbedaan daripada kesamaan.

Dalam analisis berjalan Anda, jika Anda tidak membagi subjek Anda ke dalam kategori berdasarkan faktor-faktor seperti usia, jenis kelamin, dan kesehatan umum, Anda dapat berharap memiliki sejumlah variabel pengganggu dalam analisis Anda, sehingga menurunkan nilai r 2 dan mengungkap batas kekuatan investigasi analisis Anda.

Kalkulator Regresi Linear

Di Sumber Daya, Anda akan menemukan contoh alat yang memungkinkan Anda memasukkan nilai x dan y sebanyak yang Anda inginkan dari kumpulan data dan melakukan regresi linier, menghasilkan r dan r2 dalam prosesnya. Bermain-main dengan kumpulan data yang semakin besar dan mengotak-atik variasi dengan “merasa” adalah cara yang bagus untuk membiasakan diri dengan regresi linier dan implikasi grafisnya.

Klaus Vedfelt/DigitalVision/GettyImages

Related Posts

Dia