Assalamu‘alaikum wr. wb.
Hello guys! Jika sebelumnya sudah membahas tentang Pengertian Machine Learning dan Deep Learning, kali ini kita akan membahas tentang Jenis-jenis Algoritma-nya secara mendalam.
Sumber Artikel Materi : Javatpoint.com, Coursera.org, Simplilearn.com, dan Trivusi.web.id
Sebuah model Machine Learning didefinisikan sebagai representasi matematis dari hasil proses pelatihan. Machine Learning adalah studi tentang berbagai algoritma yang dapat meningkat secara otomatis melalui pengalaman dan data lama serta membangun model. Model Machine Learning serupa dengan perangkat lunak komputer yang dirancang untuk mengenali pola atau perilaku berdasarkan pengalaman atau data sebelumnya. Algoritma pembelajaran menemukan pola dalam data pelatihan, dan menghasilkan model Machine Learning yang menangkap pola-pola ini dan membuat prediksi pada data baru.
Mari kita pahami contoh model Machine Learning di mana kita sedang membuat sebuah aplikasi untuk mengenali emosi pengguna berdasarkan ekspresi wajah. Jadi, menciptakan aplikasi seperti itu memungkinkan dengan model Machine Learning di mana kita akan melatih model dengan memberi makan gambar wajah dengan berbagai emosi yang diberi label pada mereka. Setiap kali aplikasi ini digunakan untuk menentukan mood pengguna, ia membaca semua data yang diberikan dan kemudian menentukan mood pengguna.
Oleh karena itu, dengan kata-kata sederhana, kita dapat mengatakan bahwa model Machine Learning adalah representasi yang disederhanakan dari sesuatu atau suatu proses. Dalam topik ini, kita akan membahas berbagai model Machine Learning dan teknik serta algoritma yang digunakan.
A. Pengertian dan Klasifikasi Model Machine Learning
Model Pembelajaran Mesin dapat didefinisikan sebagai program yang telah dilatih untuk menemukan pola dalam data baru dan membuat prediksi. Model-model ini direpresentasikan sebagai fungsi matematis yang menerima permintaan dalam bentuk data masukan, membuat prediksi pada data masukan, dan kemudian memberikan keluaran sebagai respons. Pertama, model-model ini dilatih dengan sekumpulan data, dan kemudian mereka diberikan algoritma untuk menganalisis data, mengekstrak pola dari data yang diberikan, dan belajar dari data tersebut. Setelah model-model ini dilatih, mereka dapat digunakan untuk memprediksi dataset yang belum terlihat.
Ada berbagai jenis Model Machine Learning yang tersedia berdasarkan tujuan bisnis dan kumpulan data yang berbeda.
Klasifikasi Model Machine Learning
Berdasarkan Tujuan Bisnis yang berbeda dan kumpulan data yang berbeda, terdapat tiga model pembelajaran untuk algoritma. Setiap algoritma Machine Learning masuk ke salah satu dari tiga model berikut :
- Pembelajaran Terawasi (Supervised Learning)
- Pembelajaran Tanpa Pengawasan (Unsupervised Learning)
- Pembelajaran Penguatan (Reinforcement Learning)
Pembelajaran Terawasi (Supervised Learning) dibagi lagi menjadi 2 (Dua) Kategori, yaitu :
- Klasifikasi (Classification)
- Regresi (Regression)
Pembelajaran Tanpa Pengawasan (Unsupervised Learning) juga dibagi menjadi kategori di bawah ini :
- Pengelompokan (Clustering)
- Aturan Asosiasi (Association Rule)
- Pengurangan Dimensi (Dimensionality Reduction)
B. Jenis-jenis Model Machine Learning
Dari klasifikasi hingga regresi, berikut adalah 10 Jenis Algoritma pembelajaran mesin yang perlu Anda ketahui dalam Bidang Machine Learning :
1. Regresi Linear
Regresi Linear adalah Teknik Supervised Learning yang digunakan untuk memprediksi dan memproyeksikan nilai-nilai yang berada dalam rentang kontinu, seperti Angka Penjualan atau Harga Rumah. Ini adalah teknik yang berasal dari statistik dan umumnya digunakan untuk membentuk hubungan antara variabel input (X) dan variabel output (Y) yang dapat diwakili oleh garis lurus.
Secara sederhana, regresi linear mengambil serangkaian titik data dengan nilai input dan output yang diketahui, lalu mencari garis yang paling cocok dengan titik-titik tersebut. Garis ini, dikenal sebagai "garis regresi," berfungsi sebagai model prediktif. Dengan menggunakan garis ini, kita dapat memperkirakan atau memprediksi nilai output (Y) untuk nilai input (X) tertentu.
Regresi linear terutama digunakan untuk pemodelan prediktif daripada kategorisasi. Ini berguna ketika kita ingin memahami bagaimana perubahan dalam variabel input memengaruhi variabel output. Dengan menganalisis kemiringan dan perpotongan garis regresi, kita dapat memperoleh wawasan tentang hubungan antara variabel dan membuat prediksi berdasarkan pemahaman ini.
2. Regresi Logistik
Regresi Logistik, juga dikenal sebagai "Regresi Logit," adalah Algoritma Supervised Learning yang digunakan terutama untuk tugas klasifikasi biner. Ini umumnya digunakan ketika kita ingin menentukan apakah suatu input termasuk ke dalam satu kelas atau kelas lain, seperti menentukan apakah sebuah gambar adalah kucing atau bukan.
Regresi logistik memprediksi probabilitas bahwa suatu input dapat dikategorikan ke dalam satu kelas utama. Namun, dalam praktiknya, ini umumnya digunakan untuk mengelompokkan output menjadi dua kategori: kelas utama dan bukan kelas utama. Untuk mencapai ini, regresi logistik membuat ambang atau batas untuk klasifikasi biner. Misalnya, setiap nilai output antara 0 dan 0,49 mungkin diklasifikasikan sebagai satu kelompok, sementara nilai antara 0,50 dan 1,00 akan diklasifikasikan sebagai kelompok lain.
Akibatnya, regresi logistik biasanya digunakan untuk kategorisasi biner daripada pemodelan prediktif. Ini memungkinkan kita untuk menetapkan data input ke salah satu dari dua kelas berdasarkan estimasi probabilitas dan ambang yang ditentukan. Ini membuat regresi logistik menjadi alat yang kuat untuk tugas seperti pengenalan gambar, deteksi email spam, atau diagnosis medis di mana kita perlu mengelompokkan data ke dalam kelas-kelas yang berbeda.
3. Naïve Bayes
Naive Bayes adalah serangkaian Algoritma Supervised Learning yang digunakan untuk membuat model prediktif untuk tugas klasifikasi biner atau multi-kelas. Ini didasarkan pada Teorema Bayes dan beroperasi pada probabilitas bersyarat, yang memperkirakan kemungkinan klasifikasi berdasarkan faktor-faktor yang dikombinasikan sambil mengasumsikan independensi di antara mereka.
Mari kita pertimbangkan program yang mengidentifikasi tanaman menggunakan algoritma Naive Bayes. Algoritma ini memperhitungkan faktor-faktor tertentu seperti ukuran yang terlihat, warna, dan bentuk untuk mengategorikan gambar tanaman. Meskipun setiap faktor ini dianggap secara independen, algoritma menggabungkannya untuk menilai probabilitas objek menjadi tanaman tertentu.
Naive Bayes memanfaatkan asumsi independensi di antara faktor-faktor, yang menyederhanakan perhitungan dan memungkinkan algoritma bekerja secara efisien dengan dataset besar. Ini sangat cocok untuk tugas-tugas seperti klasifikasi dokumen, penyaringan email spam, analisis sentimen, dan banyak aplikasi lain di mana faktor-faktor dapat dianggap secara terpisah tetapi masih berkontribusi pada klasifikasi secara keseluruhan.
4. Decision Tree
Pohon Keputusan adalah algoritma Supervised Learning yang digunakan untuk tugas klasifikasi dan pemodelan prediktif. Ini menyerupai diagram alir, dimulai dengan simpul akar yang mengajukan pertanyaan khusus tentang data. Berdasarkan jawaban, data diarahkan ke cabang yang berbeda ke simpul internal berikutnya, yang mengajukan pertanyaan lebih lanjut dan memandu data ke cabang-cabang berikutnya. Proses ini terus berlanjut hingga data mencapai simpul akhir, yang juga dikenal sebagai simpul daun, di mana tidak ada cabang lebih lanjut terjadi.
Algoritma pohon keputusan populer dalam pembelajaran mesin karena dapat menangani dataset kompleks dengan mudah dan sederhana. Struktur algoritma membuatnya mudah dipahami dan diinterpretasikan proses pengambilan keputusannya. Dengan mengajukan serangkaian pertanyaan dan mengikuti cabang yang sesuai, pohon keputusan memungkinkan kita mengklasifikasikan atau memprediksi hasil berdasarkan karakteristik data.
Kesederhanaan dan kemampuan untuk diinterpretasikan membuat pohon keputusan berharga untuk berbagai aplikasi dalam pembelajaran mesin, terutama ketika berurusan dengan dataset yang kompleks.
5. Random Forest
Algoritma Random Forest adalah gabungan dari sejumlah Pohon Keputusan yang digunakan untuk klasifikasi dan pemodelan prediktif. Alih-alih mengandalkan satu pohon keputusan, Random Forest menggabungkan prediksi dari beberapa pohon keputusan untuk membuat prediksi yang lebih akurat.
Dalam random forest, sejumlah algoritma pohon keputusan (terkadang ratusan atau bahkan ribuan) dilatih secara individu menggunakan sampel acak yang berbeda dari dataset pelatihan. Metode sampling ini disebut "bagging." Setiap pohon keputusan dilatih secara independen pada sampel acak masing-masing.
Setelah dilatih, random forest mengambil data yang sama dan mengirimkannya ke setiap pohon keputusan. Setiap pohon menghasilkan prediksi, dan random forest mengumpulkan hasilnya. Prediksi paling umum di antara semua pohon keputusan kemudian dipilih sebagai prediksi akhir untuk dataset.
Random forest menangani masalah umum yang disebut "overfitting" yang dapat terjadi dengan pohon keputusan individual. Overfitting terjadi ketika pohon keputusan terlalu erat berhubungan dengan data pelatihan, sehingga kurang akurat saat dihadapkan dengan data baru.
6. K-Nearest Neighbor (KNN)
K-Nearest Neighbor (KNN) adalah algoritma pembelajaran terawasi yang umum digunakan untuk tugas klasifikasi dan pemodelan prediktif. Nama "K-nearest neighbor" mencerminkan pendekatan algoritma untuk mengklasifikasikan suatu output berdasarkan kedekatannya dengan titik data lainnya pada grafik.
Misalnya kita memiliki dataset dengan titik-titik berlabel, beberapa ditandai sebagai biru dan yang lain sebagai merah. Ketika kita ingin mengklasifikasikan titik data baru, KNN melihat tetangganya terdekat dalam grafik. "K" dalam KNN mengacu pada jumlah tetangga terdekat yang dipertimbangkan. Misalnya, jika K diatur menjadi 5, algoritma melihat 5 titik terdekat dengan titik data baru.
Berdasarkan mayoritas label di antara K tetangga terdekat, algoritma menetapkan klasifikasi untuk titik data baru. Misalnya, jika sebagian besar tetangga terdekat adalah titik biru, algoritma mengklasifikasikan titik baru sebagai milik kelompok biru.
Selain itu, KNN juga dapat digunakan untuk tugas prediksi. Alih-alih menetapkan label kelas, KNN dapat memperkirakan nilai dari suatu titik data yang tidak diketahui berdasarkan rata-rata atau median dari K tetangga terdekatnya.
7. K-Means
K-means adalah algoritma tidak terawasi yang umum digunakan untuk tugas pengelompokan dan pengenalan pola. Tujuannya adalah mengelompokkan titik-titik data berdasarkan kedekatan satu sama lain. Mirip dengan K-nearest neighbor (KNN), pengelompokan K-means memanfaatkan konsep kedekatan untuk mengidentifikasi pola dalam data.
Setiap kelompok didefinisikan oleh sebuah sentroid, titik pusat nyata atau imajiner untuk kelompok tersebut. K-means berguna untuk dataset besar, terutama untuk pengelompokan, meskipun dapat gagal ketika menangani data ekstrem.
Algoritma pengelompokan sangat berguna untuk dataset besar dan dapat memberikan wawasan tentang struktur bawaan data dengan mengelompokkan titik-titik serupa bersama-sama. Ini memiliki aplikasi dalam berbagai bidang seperti segmentasi pelanggan, kompresi gambar, dan deteksi anomali.
8. Support Vector Machine (SVM)
Support Vector Machine (SVM) adalah algoritma Supervised Learning yang umum digunakan untuk tugas klasifikasi dan pemodelan prediktif. Algoritma SVM populer karena dapat diandalkan dan dapat berfungsi dengan baik bahkan dengan jumlah data yang sedikit. Algoritma SVM bekerja dengan membuat batas keputusan yang disebut "hiperplane." Dalam ruang dua dimensi, Hiperplane ini mirip dengan garis yang memisahkan dua set data berlabel.
Tujuan dari SVM adalah menemukan batas keputusan terbaik dengan memaksimalkan celah antara dua set data berlabel. Ini mencari celah atau ruang terlebar antara kelas. Setiap titik data baru yang jatuh di salah satu sisi batas keputusan ini diklasifikasikan berdasarkan label dalam set data pelatihan.
Penting untuk dicatat bahwa hiperplane dapat memiliki bentuk yang berbeda ketika diplot dalam ruang tiga dimensi, memungkinkan SVM untuk menangani pola dan hubungan yang lebih kompleks dalam data.
9. Peningkatan Gradien (Gradient Boosting)
Algoritma peningkatan gradien menggunakan metode ensemble, yang berarti mereka membuat serangkaian model "lemah" yang secara iteratif ditingkatkan untuk membentuk model prediktif yang kuat. Proses iteratif secara bertahap mengurangi kesalahan yang dibuat oleh model, menghasilkan pembentukan model akhir yang optimal dan akurat.
Algoritma dimulai dengan model sederhana dan naif yang mungkin membuat asumsi dasar, seperti mengklasifikasikan data berdasarkan apakah di atas atau di bawah rata-rata. Model awal ini berfungsi sebagai titik awal.
Pada setiap iterasi, algoritma membangun model baru yang fokus pada memperbaiki kesalahan yang dibuat oleh model sebelumnya. Ini mengidentifikasi pola atau hubungan yang sulit diakuisisi oleh model sebelumnya dan menggabungkannya ke dalam model baru.
Peningkatan gradien efektif dalam menangani masalah kompleks dan kumpulan data besar. Ini dapat menangkap pola dan dependensi rumit yang mungkin terlewatkan oleh model tunggal. Dengan menggabungkan prediksi dari beberapa model, peningkatan gradien menghasilkan model prediktif yang kuat.
10. Apriori
Apriori adalah algoritma pembelajaran tak terawasi yang digunakan untuk pemodelan prediktif, khususnya dalam bidang pertambahan aturan asosiasi.
Algoritma Apriori awalnya diusulkan pada awal tahun 1990-an sebagai cara untuk menemukan aturan asosiasi antara set item. Ini umumnya digunakan dalam tugas pengenalan pola dan prediksi, seperti memahami kemungkinan seorang konsumen untuk membeli satu produk setelah membeli produk lain.
Algoritma Apriori bekerja dengan memeriksa data transaksional yang disimpan dalam basis data relasional. Ini mengidentifikasi himpunan item yang sering, yaitu kombinasi item yang sering muncul bersama dalam transaksi. Himpunan item ini kemudian digunakan untuk menghasilkan aturan asosiasi. Sebagai contoh, jika pelanggan sering membeli produk A dan produk B bersama-sama, aturan asosiasi dapat dihasilkan untuk menyarankan bahwa pembelian A meningkatkan kemungkinan pembelian B.
Dengan menerapkan algoritma Apriori, analis dapat mengungkap wawasan berharga dari data transaksional, memungkinkan mereka membuat prediksi atau rekomendasi berdasarkan pola pengamatan dari asosiasi himpunan item.
Itulah Jenis-jenis Model Algoritma dalam Machine Learning. Mohon maaf apabila ada kesalahan apapun.
Terima Kasih 😄😘👌👍 :)
Wassalamu‘alaikum wr. wb.