Assalamu‘alaikum wr. wb.
Hello guys! Data yang masih mentah dan sebelum diolah, Teknik ini dinamakan sebagai Data Preprocessing, yaitu Data yang sebelum diolah. Lalu, apa itu Data Preprocessing? Mari kita bahas tuntas pada Artikel ini!
Sumber Artikel Materi : Techtarget.com, Geeksforgeeks.org, Glints.com, Pacmann.io (Blog), Accurate.id, dan Algorit.ma (Blog)
A. Pengertian Data Preprocessing
Data Preprocessing merupakan langkah penting dalam proses penambangan data. Ini mengacu pada pembersihan, transformasi, dan pengintegrasian data agar siap untuk dianalisis. Tujuan dari Prapemrosesan Data adalah untuk meningkatkan kualitas data dan membuatnya lebih sesuai untuk tugas penambangan data tertentu. Ini biasanya merupakan langkah awal yang penting dalam proses pertambangan data. Lebih baru-baru ini, teknik pemrosesan data telah disesuaikan untuk melatih model pembelajaran mesin dan model kecerdasan buatan (AI) serta untuk menjalankan inferensi terhadapnya.
Pemrosesan Data mengubah data menjadi format yang lebih mudah dan efektif diolah dalam pertambangan data, pembelajaran mesin, dan tugas-tugas ilmu data lainnya. Teknik ini umumnya digunakan pada tahap awal dalam pipa pengembangan pembelajaran mesin dan AI untuk memastikan hasil yang akurat.
Ada beberapa alat dan metode yang berbeda yang digunakan untuk memproses data, termasuk yang berikut :
- Sampling, yang memilih subset representatif dari populasi data yang besar;
- Transformasi (Transformation), yang memanipulasi data mentah untuk menghasilkan satu input tunggal;
- Denoising, yang menghilangkan noise dari data;
- Imputasi, yang mensintesis data yang relevan secara statistik untuk nilai yang hilang;
- normalisasi, yang mengorganisir data untuk akses yang lebih efisien; dan
- Ekstraksi Fitur (Feature Extraction), yang mengekstraksi subset fitur yang relevan yang signifikan dalam konteks tertentu.
Alat dan metode ini dapat digunakan pada berbagai sumber data, termasuk data yang disimpan dalam file atau database, dan data streaming.
B. Alasan Pentingnya Data Preprocessing
Data mentah, umumnya, datang dalam beragam format yang bisa jadi tidak konsisten atau tidak lengkap. Oleh sebab itu, proses penyisipan data (data preprocessing) adalah langkah kunci untuk mengatasi permasalahan yang muncul dalam data tersebut.
Setiap sampel data yang terhimpun dalam basis data memiliki karakteristik yang berbeda-beda, yang biasanya disebut sebagai fitur atau atribut.
Dalam proses pengumpulan data dari berbagai sumber yang berbeda, sering kali muncul ketidaksesuaian dalam fitur atau atributnya.
Sebagai contoh sederhana, sumber data A mungkin menggunakan atribut bernama 'pria', sementara sumber data B mungkin menggunakan atribut bernama 'laki-laki'. Perbedaan semacam ini bisa menciptakan masalah dalam interpretasi data di masa depan.
Dengan proses penyisipan data, permasalahan-permasalahan seperti itu dapat diatasi sehingga menghasilkan dataset yang lebih terstruktur dan seragam, yang dapat dianalisis dengan lebih baik.
Alasan pokok mengapa proses penyisipan data menjadi sangat penting adalah untuk memastikan kualitas data yang akan digunakan. Karakteristik dari data berkualitas termasuk hal-hal berikut :
- Akurasi: Tingkat ketepatan data yang dimasukkan.
- Kelengkapan: Ketidakadaan data yang hilang atau terputus.
- Konsistensi: Tidak adanya perbedaan atau kontradiksi dalam data.
- Aktualitas: Data yang diperbarui dan relevan dengan situasi saat ini.
- Kepercayaan: Data yang berasal dari sumber yang dapat dipercaya.
- Kemampuan diinterpretasikan: Data yang mudah diinterpretasikan dan dipahami.
C. Langkah-langkah Data Preprocessing
Sumber : Techtarget.com |
Langkah-langkah dalam Data Preprocessing terdiri atas beberapa Tugas Utama, yakni :
- Data Profiling
- Data Cleaning
- Data Integration
- Data Reduction
- Data Transformation
- Data Enrichment
- Data Validation
- Data Discretization
- Data Normalization
Pemrosesan Data adalah langkah penting dalam proses pertambangan data yang melibatkan pembersihan dan transformasi data mentah untuk membuatnya cocok untuk analisis. Beberapa langkah umum dalam pemrosesan data mencakup :
1. Data Profiling
Profil data adalah proses pemeriksaan, analisis, dan peninjauan data untuk mengumpulkan statistik tentang kualitasnya. Ini dimulai dengan survei data yang ada dan karakteristiknya. Ilmuwan data mengidentifikasi set data yang relevan untuk masalah yang sedang dihadapi, menginventarisir atribut-atribut signifikan, dan membentuk hipotesis tentang fitur-fitur yang mungkin relevan untuk tugas analitik atau pembelajaran mesin yang diusulkan. Mereka juga mengaitkan sumber data dengan konsep bisnis yang relevan dan mempertimbangkan perpustakaan pemrosesan mana yang dapat digunakan.
2. Data Cleaning
Ini melibatkan identifikasi dan perbaikan kesalahan atau inkonsistensi dalam data, seperti nilai yang hilang, pencilan, dan duplikat. Berbagai teknik dapat digunakan untuk pembersihan data, seperti imputasi, penghapusan, dan transformasi.
3. Data Integration
Ini melibatkan penggabungan data dari berbagai sumber untuk membuat satu set data yang terpadu. Integrasi data bisa sulit karena melibatkan penanganan data dengan format, struktur, dan semantik yang berbeda. Teknik seperti perpanjangan catatan dan fusi data dapat digunakan untuk integrasi data.
4. Data Transformation
Ini melibatkan mengubah data menjadi format yang sesuai untuk analisis. Teknik umum yang digunakan dalam transformasi data meliputi normalisasi, standarisasi, dan diskritisasi. Normalisasi digunakan untuk menyesuaikan data ke rentang umum, sedangkan standarisasi digunakan untuk mengubah data sehingga memiliki rata-rata nol dan varians unit. Diskritisasi digunakan untuk mengubah data kontinu menjadi kategori diskrit.
5. Data Reduction
Ini melibatkan pengurangan ukuran set data sambil tetap mempertahankan informasi penting. Reduksi data dapat dicapai melalui teknik seperti pemilihan fitur dan ekstraksi fitur. Pemilihan fitur melibatkan pemilihan subset fitur yang relevan dari set data, sementara ekstraksi fitur melibatkan transformasi data ke dalam ruang berdimensi lebih rendah sambil mempertahankan informasi penting.
6. Data Enrichment
Pada langkah ini, ilmuwan data menerapkan berbagai perpustakaan rekayasa fitur ke data untuk mencapai transformasi yang diinginkan. Hasilnya harus menjadi set data yang diorganisir untuk mencapai keseimbangan optimal antara waktu pelatihan untuk model baru dan komputasi yang diperlukan.
7. Data Validation
Pada tahap ini, data dibagi menjadi dua set. Set pertama digunakan untuk melatih model pembelajaran mesin atau deep learning. Set kedua adalah data pengujian yang digunakan untuk mengukur akurasi dan ketangguhan model yang dihasilkan. Langkah kedua ini membantu mengidentifikasi masalah dalam hipotesis yang digunakan dalam pembersihan data dan rekayasa fitur. Jika ilmuwan data puas dengan hasilnya, mereka dapat mendelegasikan tugas pemrosesan kepada seorang insinyur data yang mencari cara untuk mengubahnya menjadi produksi. Jika tidak, ilmuwan data dapat kembali dan membuat perubahan dalam cara mereka melaksanakan langkah-langkah pembersihan data dan rekayasa fitur.
8. Data Discretization
Ini melibatkan membagi data kontinu menjadi kategori atau interval diskrit. Diskritisasi sering digunakan dalam algoritma penambangan data dan pembelajaran mesin yang memerlukan data kategoris. Diskritisasi dapat dicapai melalui teknik seperti binning lebar yang sama, binning frekuensi yang sama, dan pengelompokan.
9. Data Normalization
Normalisasi Data: Ini melibatkan penskalaan data ke rentang umum, seperti antara 0 dan 1 atau -1 dan 1. Normalisasi sering digunakan untuk mengatasi data dengan unit dan skala yang berbeda. Teknik normalisasi umum meliputi normalisasi min-maks, normalisasi z-Score, dan Penskalaan Desimal (Decimal Scaling).
D. Teknik-teknik dalam Data Preprocessing
Ada 2 (Dua) Kategori Utama dalam pemrosesan data - pembersihan data dan rekayasa fitur. Masing-masing mencakup berbagai teknik, seperti yang dijelaskan di bawah ini.
1. Data Cleansing
Teknik-teknik untuk membersihkan data yang berantakan meliputi hal berikut :
- Identifikasi dan atasi data yang hilang. Ada berbagai alasan mengapa satu set data mungkin kehilangan bidang data individual. Ilmuwan data perlu memutuskan apakah lebih baik membuang catatan dengan bidang yang hilang, mengabaikannya, atau mengisinya dengan nilai yang mungkin. Misalnya, dalam aplikasi IoT yang mencatat suhu, menambahkan suhu rata-rata yang hilang antara catatan sebelumnya dan berikutnya mungkin merupakan perbaikan yang aman.
- Kurangi data berisik. Data dunia nyata sering kali berisik, yang dapat merusak model analitik atau AI. Misalnya, sensor suhu yang selalu melaporkan suhu 75 derajat Fahrenheit mungkin secara keliru melaporkan suhu sebagai 250 derajat. Berbagai pendekatan statistik dapat digunakan untuk mengurangi kebisingan, termasuk pengelompokan, regresi, dan pengelompokan.
- Identifikasi dan hapus duplikat. Ketika dua catatan tampaknya mengulang, sebuah algoritme perlu menentukan apakah pengukuran yang sama direkam dua kali, atau catatan tersebut mewakili peristiwa yang berbeda. Dalam beberapa kasus, mungkin ada perbedaan kecil dalam catatan karena satu bidang direkam dengan tidak benar. Dalam kasus lain, catatan yang tampaknya duplikat mungkin memang berbeda, seperti seorang ayah dan anak yang memiliki nama yang sama dan tinggal di rumah yang sama, tetapi seharusnya diwakili sebagai individu yang terpisah. Teknik identifikasi dan penghapusan atau penggabungan duplikat dapat membantu secara otomatis mengatasi masalah seperti ini.
2. Feature Engineering
Rekayasa Fitur atau Feature Engineering, melibatkan teknik yang digunakan oleh ilmuwan data untuk mengorganisir data agar lebih efisien dalam melatih model data dan menjalankan inferensi terhadapnya. Teknik-teknik ini meliputi hal berikut :
- Skala fitur atau normalisasi. Seringkali, beberapa variabel berubah dalam skala yang berbeda, atau satu akan berubah secara linear sementara yang lain akan berubah secara eksponensial. Misalnya, gaji mungkin diukur dalam ribuan dolar, sementara usia diwakili dalam dua angka. Skalasi membantu mengubah data dengan cara yang membuatnya lebih mudah bagi algoritma untuk mengungkapkan hubungan yang bermakna antara variabel.
- Pengurangan data. Ilmuwan data sering perlu menggabungkan berbagai sumber data untuk membuat model AI atau analitik baru. Beberapa variabel mungkin tidak berkorelasi dengan hasil tertentu dan dapat dibuang dengan aman. Variabel lain mungkin relevan, tetapi hanya dalam hal hubungan - seperti rasio utang terhadap kredit dalam kasus model yang memprediksi kemungkinan pembayaran pinjaman; mereka dapat digabungkan menjadi satu variabel. Teknik seperti analisis komponen utama memainkan peran penting dalam mengurangi jumlah dimensi dalam set data pelatihan menjadi representasi yang lebih efisien.
- Diskritisasi. Seringkali berguna untuk mengelompokkan angka mentah menjadi interval diskrit. Misalnya, pendapatan dapat dibagi menjadi lima rentang yang mewakili orang yang biasanya mengajukan jenis pinjaman tertentu. Hal ini dapat mengurangi beban pelatihan model atau menjalankan inferensi terhadapnya.
- Enkode fitur. Aspek lain dari rekayasa fitur melibatkan mengorganisir data tak terstruktur ke dalam format yang terstruktur. Format data tak terstruktur dapat mencakup teks, audio, dan video. Misalnya, proses pengembangan algoritma pemrosesan bahasa alami biasanya dimulai dengan menggunakan algoritma transformasi data seperti Word2vec untuk menerjemahkan kata-kata menjadi vektor numerik. Ini memudahkan representasi bagi algoritme bahwa kata-kata seperti "surat" dan "paket" mirip, sementara kata seperti "rumah" benar-benar berbeda. Demikian pula, algoritme pengenalan wajah mungkin mengkode ulang Data Piksel mentah ke dalam vektor yang mewakili jarak antara bagian wajah.
Itulah Penjelasan mengenai Data Preprocessing. Mohon maaf apabila ada kesalahan apapun.
Terima Kasih 😄😘👌👍 :)
Wassalamu‘alaikum wr. wb.