Regresi linear merupakan salah satu metode prediksi yang menggunakan garis lurus untuk menggambarkan hubungan satu variabel bebas atau lebih dengan variabel terikat. Terdapat dua macam regresi linier, yaitu regresi linier sederhana dan regresi linier berganda.
Perbedaan Regresi Linier Sederhana dengan Berganda
Regresi linier sederhana hanya melibatkan satu veriabel bebas, sedangkan untuk regresi linier berganda menggunakan dua atau lebih variabel bebas. Variabel merupakan besaran nilai yang bisa berubah-ubah, variabel terbagi menjadi dua, yaitu variabel bebas (atau X) dan variabel terikat (atau y).
Persiapan Regresi Linier Menggunakan Python
Seperti yang sudah kita ketahui bahwa, regresi linear merupakan suatu metode untuk memprediksi nilai yang bersifat kontinyu misalkan prediksi harga rumah, harga saham, gaji karyawan dan lain-lain. Hal tersebut sangat ribet jika dilakukan dengan hitung-hitungan secara manual bahkan bisa saja terjadi sebuah kesalahan yang akan berakibat tidak akuratnya hasil yang akan diprediksi. Oleh karena itu, kita membutuhkan komputer untuk dapat menjalankan tugas tersebut.
Untuk dapat melakukan perhitungan regresi linier kita membutuhkan beberapa hal yang perlu dipersiapkan, yaitu :
- Pemahaman pemrograman Python
- Jupyter Notebook (offline) atau Google Colab (Online)
Jika ingin bekerja secara offline Anda bisa gunakan aplikasi Anaconda yang sudah tersedia alat-alat yang diperlukan untuk kebutuhan pemrosesan data termasuk Python dan Jupyter Notebook didalamnya, dan jika ingin bekerja secara online Anda hanya perlu menggunakan Google Colab
Studi Kasus Prediksi Nilai Ujian
Disini kita akan belajar berdasarkan studi kasus terhadap nilai ujian sesorang. Tugas kita adalah untuk memprediksi berapa nilai ujian seseorang berdasarkan lama kursus yang mereka jalani.
Pertama-tama kita membutuhkan sebuah data yang akan kita gunakan untuk melakukan regresi linier. Data yang akan digunakan seperti berikut ini.
Data nilai ujian |
Setelah kita mengetahui inti permasalahan dan sudah mendapatkan data yang ingin diselesaikan menggunakan regresei linier, selanjutnya kita akan beralih ke hal yang lebih teknis yaitu melakukan pemrograman.
Tahap Pemrograman
Disini saya akan menggukana Google Colab sebagai tutorial kali ini karena, Google Colab sangat simpel digunakan hanya memerlukan koneksi internet saja tanpa harus menginstallnya kedalam komputer. Buka Google Colab dan buatlah notebook baru, maka akan muncul tampilan seperti berikut.
Tampilan Google Colab |
Tampilan diatas merupakan sebuah notebook yang bisa kita isi didalamnya kode dan juga markdown sebagai catatan dalam sebuah cell.
Masukkan kode dibawah ini kedalam notebook masing-masing.
Penjelasan
Hal pertama yang kita lakukan adalah mengimport library yang akan digunakan sebagai pemrosesan data terdapat tiga library yang dipanggil, yaitu Numpy sebagai pemroses data, Pandas sebagai pengolah data berbasis tabel, dan Sklearn sebagai alat untuk melakukan regresi linier.
Setelah itu kita akan membuat data yang akan dijadikan bahan utama dalam hal data mining dengan memanfaatkan library Pandas.
Kemudian adalah membagi dari yang semula berbentuk tabel kita ubah kedalam variabel X dan y sehingga dapat memudahkan pada tahap training model.
Pada tahap ini kita akan membuat model yaitu LinearRegression sekaligus melatih data yang sudah kita siapkan, maka komputer akan mencari pola berdasarkan data tersebut.
Saat ini kita sudah mendapatkan pola berdasarkan model yang sudah kita latih sebelumnya, sekarang kita bisa menggunakan model tersebut untuk melakukan prediksi pada data baru.
Pada intinya, komputer akan mencari pola pada data yang sudah dilatih dan akan menerapkan pola tersebut kedalam data yang akan diprediksi. Terima kasih, semoga artikel ini membantu ❤.