Supervised Learning vs Unsupervised Learning, Inilah Perbandingannya dalam Machine Learning

Assalamu‘alaikum wr. wb.

Hello guys! Dalam AI Machine Learning, kita mengenal yang namanya Supervised Learning dan Unsupervised Learning. Lalu, apa sajakah Perbedaannya? Mari kita simak Baik-baik pada Postingan ini!

Supervised Learning vs Unsupervised Learning

Sumber Artikel Materi : Javatpoint.comSeldon.ioBinaracademy.com (Blog)Algorit.ma (Blog), dan Pacmann.io (Blog)


PENGERTIAN

A. Supervised Learning

Supervised Learning membutuhkan data input dan output yang diberi label selama fase pelatihan dari siklus model machine learning. Data pelatihan ini sering diberi label oleh seorang ilmuwan data dalam fase persiapan, sebelum digunakan untuk melatih dan menguji model. Setelah model mempelajari hubungan antara data input dan output, model dapat digunakan untuk mengklasifikasikan dataset baru dan belum terlihat serta memprediksi hasil.

Alasan disebut sebagai machine learning yang bersifat terawasi adalah karena setidaknya sebagian dari pendekatan ini memerlukan pengawasan manusia. Sebagian besar data yang tersedia adalah data mentah dan tanpa label. Interaksi manusia umumnya diperlukan untuk memberi label data secara akurat agar siap untuk pembelajaran terawasi. Secara alami, ini dapat menjadi proses yang membutuhkan banyak sumber daya, karena diperlukan kumpulan data pelatihan yang besar dan diberi label dengan akurat.

Machine learning yang bersifat terawasi digunakan untuk mengklasifikasikan data yang belum terlihat ke dalam kategori yang telah ada dan meramalkan tren dan perubahan masa depan sebagai model prediktif. Model yang dikembangkan melalui machine learning yang bersifat terawasi akan belajar mengenali objek dan fitur-fitur yang mengklasifikasikannya. Model prediktif juga sering dilatih dengan teknik machine learning yang bersifat terawasi. Dengan mempelajari pola antara data input dan output, model machine learning yang bersifat terawasi dapat memprediksi hasil dari data baru dan belum terlihat. Ini dapat berupa peramalan perubahan harga rumah atau kecenderungan pembelian pelanggan.

Supervised sering digunakan untuk :

  • Mengklasifikasikan jenis file yang berbeda seperti gambar, dokumen, atau kata-kata tertulis.
  • Meramalkan tren dan hasil masa depan melalui pembelajaran pola pada data pelatihan.


B. Unsupervised Learning

Unsupervised Learning adalah pelatihan model pada data pelatihan yang bersifat mentah dan tanpa label. Ini sering digunakan untuk mengidentifikasi pola dan tren dalam dataset mentah, atau untuk mengelompokkan data yang mirip ke dalam jumlah kelompok tertentu. Ini juga sering menjadi pendekatan yang digunakan dalam fase eksplorasi awal untuk lebih memahami dataset.

Seperti namanya, machine learning yang tidak terawasi lebih bersifat hands-off dibandingkan dengan machine learning yang bersifat terawasi. Seorang manusia akan menetapkan hiperparameter model seperti jumlah titik klaster, tetapi model akan memproses array data yang besar secara efektif dan tanpa pengawasan manusia. Oleh karena itu, machine learning yang tidak terawasi cocok untuk menjawab pertanyaan tentang tren dan hubungan yang tidak terlihat dalam data itu sendiri. Tetapi karena pengawasan manusia yang lebih sedikit, perlu pertimbangan ekstra untuk menjelaskan machine learning yang tidak terawasi.

Sebagian besar data yang tersedia adalah data mentah dan tanpa label. Dengan mengelompokkan data berdasarkan fitur yang mirip atau menganalisis dataset untuk pola yang mendasarinya, machine learning yang tidak terawasi adalah alat yang kuat yang digunakan untuk mendapatkan wawasan dari data ini. Sebagai perbandingan, machine learning yang bersifat terawasi dapat membutuhkan banyak sumber daya karena membutuhkan data yang diberi label.

Unsupervised Learning biasanya digunakan untuk :

  • Mengelompokkan dataset berdasarkan kemiripan antara fitur atau membagi data.
  • Memahami hubungan antara berbagai titik data seperti rekomendasi musik otomatis.
  • Melakukan analisis data awal.


PERBANDINGAN

Sumber : Databasetown.com (Supervised Learning) dan Databasetown.com (Unsupervised Learning)

A. Supervised Learning

1. Cara Kerja

Berikut ini adalah Cara Kerja dari Supervised Learning :

a. Pengumpulan dan Pelabelan Data

Langkah pertama dalam Supervised Learning adalah mengumpulkan dataset yang representatif dan beragam. Dataset ini harus mencakup jumlah contoh yang cukup yang mencakup rentang input dan output yang akan dihadapi model dalam skenario dunia nyata.

Proses pelabelan melibatkan memberikan label output yang benar untuk setiap contoh input dalam dataset. Ini bisa menjadi tugas yang memakan waktu dan intensif, tergantung pada kompleksitas dan ukuran dataset.

b. Pemisahan dan Uji Set

Setelah dataset dikumpulkan dan diberi label, itu dibagi menjadi dua subset: set pelatihan dan set uji. Set pelatihan digunakan untuk melatih model, sementara set uji digunakan untuk mengevaluasi kinerjanya pada data yang tidak terlihat sebelumnya.

Set pelatihan menjadi dasar bagi model untuk mempelajari pola dan hubungan antara fitur input dan label output. Set uji, di sisi lain, membantu menilai kemampuan generalisasi model dan kinerjanya pada data baru yang tidak terlihat.

c. Ekstraksi Fitur

Sebelum melatih model, penting untuk mengekstrak fitur yang relevan dari data input. Ekstraksi fitur melibatkan pemilihan atau transformasi fitur input untuk menangkap informasi paling relevan untuk tugas pembelajaran. Proses ini dapat meningkatkan kinerja prediktif model dan mengurangi dimensionalitas data.

d. Pemilihan dan Pelatihan Model

Memilih algoritma pembelajaran mesin yang tepat sangat penting untuk kesuksesan pembelajaran terawasi. Berbagai algoritma memiliki kelebihan dan kelemahan yang berbeda, sehingga penting untuk memilih yang paling cocok dengan masalah yang dihadapi.

Setelah algoritma dipilih, model dilatih menggunakan data pelatihan yang diberi label. Selama proses pelatihan, model mempelajari pola dan hubungan yang mendasari dalam data dengan menyesuaikan parameter internalnya. Tujuannya adalah untuk meminimalkan perbedaan antara output yang diprediksi dan label sebenarnya dalam data pelatihan.

e. Prediksi dan Evaluasi

Setelah model dilatih, dapat digunakan untuk membuat prediksi pada data baru yang tidak terlihat sebelumnya. Fitur input dari data yang tidak terlihat dimasukkan ke dalam model yang telah dilatih, yang menghasilkan prediksi atau klasifikasi berdasarkan pola yang telah dipelajari.

Untuk mengevaluasi kinerja model, output yang diprediksi dibandingkan dengan label sebenarnya dari data yang tidak terlihat. Metrik evaluasi umum meliputi akurasi, presisi, recall, dan skor F1, tergantung pada sifat tugas pembelajaran.

2. Algoritma

Supervised Learning melibatkan berbagai algoritma, masing-masing cocok untuk jenis masalah yang berbeda. Mari kita jelajahi beberapa algoritma yang umum digunakan:

a. Regresi Linier

Regresi linier adalah algoritma populer yang digunakan untuk memprediksi nilai keluaran kontinu. Ini membentuk hubungan linear antara fitur input dan variabel target, memungkinkan kita membuat prediksi berdasarkan hubungan ini.

b. Regresi Logistik

Regresi logistik digunakan ketika variabel output bersifat biner atau kategorikal. Ini memodelkan hubungan antara fitur input dan probabilitas hasil tertentu menggunakan fungsi logistik.

c. Decision Tree

Pohon keputusan adalah model mirip pohon yang menggunakan struktur hierarki untuk mengambil keputusan. Mereka membagi data berdasarkan berbagai fitur dan membuat struktur mirip pohon, memungkinkan tugas klasifikasi atau regresi.

d. Random Forest

Hutan acak adalah metode pembelajaran berkelompok yang menggabungkan beberapa pohon keputusan. Mereka meningkatkan akurasi prediksi dengan menggabungkan prediksi dari beberapa pohon, mengurangi overfitting, dan meningkatkan ketahanan.

e. Support Vector Machines (SVM)

Mesin Vektor Pendukung efektif untuk tugas klasifikasi dan regresi. Mereka membuat hiperplane atau batas keputusan yang memaksimalkan margin antara kelas yang berbeda, memungkinkan prediksi yang akurat.

f. Naive Bayes

Algoritma Naive Bayes didasarkan pada teorema Bayes dan umumnya digunakan untuk tugas klasifikasi. Mereka mengasumsikan bahwa fitur input bersifat independen, membuat prediksi berdasarkan probabilitas setiap kelas.

g. K-Nearest Neighbors (KNN)

K-Nearest Neighbors adalah algoritma non-parametrik yang mengklasifikasikan instansi baru berdasarkan kedekatannya dengan instansi yang diberi label dalam data pelatihan. Ini memberikan label kelas berdasarkan mayoritas suara dari k tetangga terdekatnya.

h. Neural Network

Jaringan saraf adalah kelas algoritma yang kuat, terinspirasi dari struktur dan fungsi otak manusia. Mereka terdiri dari simpul (neuron) yang saling terhubung yang disusun dalam lapisan, memungkinkan mereka untuk mempelajari pola dan hubungan kompleks.

i. Algoritma Peningkatan Gradien

Algoritma peningkatan gradien, seperti Pohon Peningkatan Gradien dan XGBoost, adalah metode berkelompok yang secara berurutan membangun model, masing-masing berfokus pada kesalahan model sebelumnya. Mereka efektif untuk tugas klasifikasi dan regresi, memberikan akurasi prediksi yang tinggi.

3. Contoh Penerapan

Contoh penerapan Supervised Learning dalam kehidupan sehari-hari adalah :

a. Pengenalan Teks Otomatis (NLP) pada Aplikasi Chatbot

Ketika Anda menggunakan aplikasi obrolan atau chatbot, model machine learning yang telah dilatih secara supervisi dapat memahami dan merespons pertanyaan Anda dengan benar berdasarkan dataset training yang melibatkan data teks bahasa Indonesia.

b. Sistem Pendeteksian Spam pada Email

Email provider menggunakan algoritma supervised learning untuk memfilter email dan memindahkan email yang dianggap spam ke folder yang sesuai. Model ini dilatih dengan dataset yang mencakup email spam dan non-spam.

c. Rekomendasi Film atau Musik

Platform streaming film atau musik menggunakan algoritma supervised learning untuk memahami preferensi pengguna. Model ini diberikan data historis tentang preferensi pengguna dan kemudian dapat memberikan rekomendasi berdasarkan pemahaman tersebut.

d. Pengenalan Wajah pada Sistem Keamanan

Sistem keamanan berbasis kamera yang dapat mengenali wajah menggunakan supervised learning. Model ini dilatih dengan dataset gambar wajah yang diidentifikasi dan di-labeli sebelumnya.

e. Sistem Pengenalan Tulisan Tangan

Aplikasi yang dapat mengenali tulisan tangan pada dokumen fisik dan mengonversinya menjadi teks digital. Model ini dilatih dengan dataset yang berisi contoh tulisan tangan dan label yang sesuai.

f. Pendeteksian Penyakit pada Citra Medis

Sistem medis yang menggunakan supervised learning untuk mendiagnosis penyakit berdasarkan citra medis seperti rontgen atau MRI. Model dilatih dengan citra medis yang telah di-labeli dengan diagnosis yang benar.

g. Prediksi Cuaca

Layanan prakiraan cuaca menggunakan supervised learning untuk memprediksi kondisi cuaca di masa depan berdasarkan data historis cuaca dan variabel atmosfer.

h. Pengenalan Suara pada Asisten Virtual

Asisten virtual seperti Google Assistant atau Siri menggunakan supervised learning untuk memahami perintah suara dan memberikan respons yang sesuai. Model dilatih dengan data suara manusia dan label yang sesuai.

B. Unsupervised Learning

1. Algoritma

a. Algoritma Clustering

Clustering melibatkan pengelompokan titik data yang mirip berdasarkan karakteristik bawaan mereka.

  • K-Means Clustering: Dalam algoritma ini, data dibagi menjadi sejumlah kelompok atau klaster. Ini dicapai dengan meminimalkan jarak total kuadrat antara titik data dan pusat masing-masing klaster.
  • Hierarchical Clustering: Clustering hierarki mengembangkan hirarki klaster dengan menggabungkan atau membagi klaster tergantung pada kesamaan mereka.
  • DBSCAN (Density-Based Spatial Clustering of Applications with Noise): DBSCAN mengidentifikasi klaster sebagai wilayah padat titik data yang dipisahkan oleh wilayah yang lebih jarang.

b. Algoritma Pengurangan Dimensi (Dimensionality Reduction)

Teknik pengurangan dimensi digunakan untuk mengurangi jumlah variabel atau fitur input sambil tetap mempertahankan informasi yang bermakna. Beberapa algoritma pengurangan dimensi yang populer meliputi:

  • Principal Component Analysis (PCA): PCA mengubah fitur asli menjadi ruang dimensi yang lebih rendah sambil mempertahankan sebanyak mungkin informasi.
  • t-SNE (t-Distributed Stochastic Neighbor Embedding): t-SNE adalah teknik yang memvisualisasikan data berdimensi tinggi dengan menguranginya menjadi ruang dimensi yang lebih rendah sambil mempertahankan struktur lokal.

c. Pertambahan Aturan Asosiasi

Pertambahan aturan asosiasi berfokus pada menemukan hubungan atau pola menarik dalam data transaksional. Ini umumnya digunakan dalam analisis keranjang belanja dan sistem rekomendasi. Algoritma yang banyak digunakan untuk pertambahan aturan asosiasi adalah algoritma Apriori.

Contoh nyata dari ini adalah analisis keranjang belanja, di mana para pengecer menganalisis data pembelian pelanggan untuk mengidentifikasi hubungan antara produk yang sering dibeli bersama. Misalnya, analisis ini mungkin mengungkapkan bahwa pelanggan yang membeli popok juga cenderung membeli tisu bayi.

2. Kelebihan

Berikut adalah keuntungan dari Unsupervised Learning :

a. Penggunaan Data Tanpa Label

Pembelajaran tanpa pengawasan membantu kita menemukan pola atau struktur tersembunyi dalam data yang tidak memiliki label. Ini memberikan wawasan dan pengetahuan berharga dengan mengungkapkan koneksi dan informasi bermakna yang mungkin tidak pernah kita perhatikan sebelumnya.

b. Skalabilitas

Algoritma pembelajaran tanpa pengawasan menangani dataset berukuran besar tanpa pelabelan manual dan membuatnya lebih dapat diskalakan daripada pembelajaran terawasi dalam beberapa skenario tertentu.

c. Deteksi Anomali

Pembelajaran tanpa pengawasan dapat secara efektif mendeteksi anomali atau pencilan dalam data, yang sangat berguna untuk deteksi kecurangan, keamanan jaringan, atau mengidentifikasi peristiwa langka.

d. Pra-Pemrosesan Data

Teknik pembelajaran tanpa pengawasan seperti reduksi dimensionalitas dapat membantu memproses data dengan mengurangi noise, menghapus fitur yang tidak relevan, dan meningkatkan efisiensi dalam tugas pembelajaran terawasi selanjutnya.

3. Kekurangan

Meskipun memiliki keuntungan, Unsupervised Learning memiliki beberapa keterbatasan dan tantangan :

a. Ketidakadaan Ground Truth

Karena pembelajaran tanpa pengawasan berurusan dengan data tanpa label, tidak ada ukuran yang pasti tentang kebenaran atau akurasi. Evaluasi dan interpretasi hasil menjadi subjektif dan sangat bergantung pada keahlian domain.

b. Interpretabilitas

Algoritma pembelajaran tanpa pengawasan sering memberikan klaster atau pola tanpa label atau penjelasan eksplisit. Menginterpretasikan dan memahami makna dari klaster ini bisa sulit dan bersifat subjektif.

c. Overfitting dan Pemilihan Model

Model pembelajaran tanpa pengawasan rentan terhadap overfitting, dan memilih model atau parameter yang optimal bisa sulit karena tidak adanya set validasi berlabel.

d. Bimbingan Terbatas

Berbeda dengan pembelajaran terawasi, di mana algoritma belajar dari umpan balik eksplisit, pembelajaran tanpa pengawasan kurang bimbingan eksplisit, yang dapat menyebabkan algoritma menemukan pola yang tidak relevan atau berisik.

3. Contoh Penerapan

Contoh penerapan Unsupervised Learning dalam kehidupan sehari-hari adalah :

a. Segmentasi Pasar

Perusahaan ritel menggunakan clustering (misalnya, K-Means) untuk mengelompokkan pelanggan berdasarkan pola pembelian mereka. Ini membantu perusahaan dalam menyusun strategi pemasaran yang lebih terfokus.

b. Rekomendasi Produk

Situs e-commerce menggunakan metode Collaborative Filtering atau Association Rules untuk memberikan rekomendasi produk kepada pelanggan berdasarkan perilaku pembelian sebelumnya atau pola asosiasi antarproduk.

c. Analisis Sentimen pada Media Sosial

Algoritma analisis sentimen (seperti Text Mining) digunakan untuk mengelompokkan dan memahami sentimen pengguna pada platform media sosial terkait merek, produk, atau peristiwa tertentu.

d. Anomali Deteksi dalam Keamanan Jaringan

Dalam keamanan jaringan, metode unsupervised learning digunakan untuk mendeteksi aktivitas yang tidak biasa atau anomali yang dapat mengindikasikan serangan siber.

e. Kompresi Gambar

Algoritma kompresi gambar, seperti K-Means atau Principal Component Analysis (PCA), digunakan untuk mengurangi dimensi data gambar tanpa kehilangan informasi signifikan.

f. Analisis Klaster pada Data Molekuler dalam Ilmu Kesehatan

Dalam riset medis, metode clustering digunakan untuk mengelompokkan data molekuler, seperti profil gen, untuk mengidentifikasi pola atau kategori yang mungkin memiliki implikasi kesehatan.

g. Pengelompokkan Berita Berdasarkan Topik

Algoritma clustering digunakan untuk mengelompokkan berita atau artikel berdasarkan topik yang dianggap serupa, membantu pembaca untuk menemukan konten yang relevan.

h. Penyaringan Email Spam

Algoritma unsupervised learning dapat digunakan untuk mengklasifikasikan email sebagai spam atau bukan spam berdasarkan pola yang terdapat dalam email tersebut.

i. Deteksi Pola Trafik Lalu Lintas

Dalam pengelolaan lalu lintas jalan, analisis cluster dapat digunakan untuk mengidentifikasi pola trafik dan memperbaiki rancangan jalan atau manajemen lalu lintas.

j. Optimasi Rute Pengiriman

Perusahaan logistik menggunakan algoritma clustering untuk mengelompokkan lokasi pengiriman dan mengoptimalkan rute pengiriman dengan efisien.


Itulah Materi tentang Supervised Learning dan Unsupervised Learning pada Machine Learning yang telah saya paparkan. Mohon maaf apabila ada kesalahan apapun. 

Terima Kasih 😄😘👌👍 :)

Wassalamu‘alaikum wr. wb.

Post a Comment

Previous Post Next Post