Data Wrangling: Definisi, Manfaat, dan Langkah-langkahnya (+ Penerapan dalam Python)

Assalamu‘alaikum wr. wb.

Halo gais! Dalam melakukan Pengolahan Data, kita memerlukan yang namanya Data Wrangling. Namun, apa itu Data Wrangling? Berikut ini adalah penjelasannya.

Definisi, Manfaat, dan Langkah-langkah dari Data Wrangling

Sumber Artikel Materi : Simplilearn.comGlints.com, Revou.coLP2m.UMA.ac.id, dan Valiance.ai

Data Wrangling merupakan tahap yang tak dapat diabaikan dalam ilmu Data Science. Mengingat kelimpahan data yang tersedia di internet, seorang ilmuwan data harus melakukan pengolahan terhadap data mentah agar dapat dianalisis dengan lancar.

Menurut laporan tertentu, pada tahun 2021 saja, pengguna layanan berbasis internet telah menghasilkan sebanyak 74 zettabyte data dalam kurun waktu satu tahun. Volume data yang luar biasa ini terus meningkat seiring dengan bertambahnya jumlah pengguna internet dan peningkatan digitalisasi di berbagai aspek kehidupan manusia.

Statista bahkan memproyeksikan bahwa pada tahun 2022, jumlah data yang dihasilkan oleh pengguna akan mencapai 94 zettabyte. Proyeksi ini terus tumbuh hingga tahun 2025, diperkirakan mencapai angka sebesar 463 zettabyte (2020: 64 zb; 2021: 74 zb; 2022: 94 zb; 2023: 118 zb; 2024: 149 zb; 2025: 463 zb).

Tentunya, besarnya volume data yang dihasilkan dan dikonsumsi ini merupakan potensi besar bagi ilmuwan data untuk menjelajahi dunia Big Data. Namun, salah satu tantangan di bidang ini adalah bahwa sebagian besar data bersifat tidak terstruktur. Dalam menghadapi hal ini, data wrangling menjadi salah satu metode yang digunakan oleh ilmuwan data untuk memfasilitasi alur kerja mereka.

A. Pengertian Data Wrangling

Data Wrangling adalah proses mengolah data mentah menjadi bentuk yang lebih terstruktur melalui pengorganisasian, pembersihan, dan pengayaan. Proses ini melibatkan manipulasi data dalam berbagai format serta penggabungan dengan kumpulan data lainnya untuk menghasilkan pemahaman yang lebih mendalam. Pendekatan yang digunakan dapat bervariasi tergantung pada jenis data yang digunakan dan tujuan analisis yang ingin dicapai.

Contoh dari kegiatan data wrangling meliputi penggabungan sumber data untuk analisis, mengisi atau menghapus nilai-nilai yang hilang dalam data, menghapus data proyek yang tidak relevan, dan mengidentifikasi data yang tidak biasa (outlier) untuk penjelasan atau penghapusan guna memungkinkan analisis yang akurat.

Proses data wrangling dapat dilakukan secara manual atau otomatis, tergantung pada ukuran dan kompleksitas data. Ketika berurusan dengan kumpulan data yang sangat besar, seringkali diperlukan pendekatan otomatis untuk membersihkan data tersebut.

Biasanya, seorang ilmuwan data atau anggota tim data yang khusus bertanggung jawab atas proses data wrangling dalam konteks bisnis dengan tim data yang lebih besar. Namun, perusahaan kecil mungkin mengandalkan spesialis non-data untuk membersihkan data sebelum menggunakannya.

B. Manfaat Data Wrangling

Manfaat dari Data Wrangling dalam konteks bisnis sangat signifikan. Berikut adalah beberapa keuntungan yang bisa diperoleh dari proses ini :

1. Analisis yang Mudah Dipahami

Dengan data wrangling, analis bisnis dan pemangku kepentingan dapat dengan cepat, efisien, dan efektif memeriksa data yang bahkan sangat kompleks setelah data mentahnya telah diolah dan diatur.

2. Pengelolaan Data yang Lebih Baik

Data wrangling adalah proses untuk mengubah data mentah dan tidak terstruktur menjadi format yang lebih terstruktur, dengan mengkategorikan data ke dalam baris dan kolom yang lebih mudah dikelola. Teknik ini juga mencakup pembaruan dan pengayaan data untuk mendapatkan pemahaman yang lebih mendalam.

3. Peningkatan Penargetan

Menggabungkan data dari berbagai sumber membantu meningkatkan pemahaman tentang audiens Anda. Ini dapat meningkatkan efektivitas penargetan dalam kampanye iklan dan strategi konten Anda.

4. Efisiensi Waktu

Proses data wrangling memungkinkan analis untuk menghabiskan lebih sedikit waktu untuk mengatasi masalah data yang tidak terstruktur dan lebih banyak waktu untuk mendapatkan wawasan yang berharga untuk membuat keputusan yang didasarkan pada data yang lebih mudah diinterpretasikan.

5. Visualisasi Data yang Lebih Baik

Setelah proses data wrangling selesai, data dapat diekspor ke berbagai platform analitik visual untuk disortir, dianalisis, dan divisualisasikan dengan lebih baik, memungkinkan pemahaman yang lebih mendalam dan pemilihan keputusan yang lebih baik.

C. Proses Data Wrangling

Setiap proyek yang melibatkan data memerlukan strategi khusus untuk memastikan bahwa dataset yang dihasilkan dapat diandalkan dan berguna. Ini sering disebut sebagai tahap atau aktivitas dalam proses data wrangling yang diperlukan.

1. Eksplorasi

Tahap eksplorasi merupakan langkah pertama dalam proses data wrangling. Ini adalah langkah awal untuk mendapatkan pemahaman yang lebih baik tentang data yang akan digunakan. Untuk mempermudah penggunaan dan analisis data, penting untuk melihat data tersebut dan mempertimbangkan cara terbaik untuk mengatur dan memformatnya.

Selama tahap eksplorasi, mungkin akan muncul tren atau pola dalam data. Tahap ini sangat penting karena hasilnya akan memengaruhi langkah-langkah selanjutnya. Selain itu, ini membantu mengidentifikasi masalah yang jelas, seperti nilai yang hilang atau tidak lengkap dalam data.

2. Penyusunan (Drafting)

Data mentah yang sering kali tidak lengkap atau memiliki format yang tidak sesuai dengan kebutuhan tidak cocok untuk penggunaan yang diinginkan. Proses mengambil data yang belum diproses dan mengubahnya agar lebih mudah digunakan disebut sebagai penyusunan data.

Penyusunan data ini adalah cara untuk mengekstraksi informasi yang relevan dari data mentah. Ini bisa berarti menyusun data dalam bentuk spreadsheet dengan menambahkan kolom, label, atau judul yang sesuai. Hal ini akan meningkatkan kegunaan data sehingga analis dapat dengan mudah menggunakannya dalam analisis mereka.

3. Pemurnian

Proses pemurnian data melibatkan upaya untuk mengatasi kekurangan yang mungkin ada dalam data mentah yang dapat mengganggu analisis Anda atau mengurangi nilai data tersebut. Pemurnian atau perbaikan data ini bertujuan untuk memastikan bahwa data yang digunakan dalam analisis tidak tercemar atau tidak sah.

Data mentah sering kali memiliki kesalahan yang harus diperbaiki sebelum dapat digunakan secara efektif. Proses pemurnian data mencakup tindakan seperti mengoreksi data yang janggal atau anomali, menghapus data yang tidak valid, dan lain sebagainya. Dengan melakukan pemurnian data, Anda mencapai hasil berikut :

  • Menghilangkan data yang aneh yang dapat memengaruhi hasil analisis data.
  • Mengubah tipe data dan menyederhanakan data untuk meningkatkan kualitas dan konsistensinya.
  • Mengidentifikasi dan mengatasi data duplikat, menyelesaikan masalah struktural, dan memverifikasi integritas data sehingga data tersebut lebih mudah digunakan dalam analisis.

4. Pemerkayaan (Enrichment)

Konsep Pemerkayaan data mengacu pada proses menambahkan konteks tambahan ke dalam data. Tahap ini mengubah data yang telah dibersihkan dan diformat menjadi format yang baru. Pada titik ini, perlu adanya perencanaan yang cermat untuk mengoptimalkan informasi yang telah Anda miliki.

Teknik seperti pengurangan sampel, penambahan sampel, dan penyisipan data dapat digunakan untuk menjadikan data lebih informatif. Jika Anda merasa bahwa proses Pemerkayaan diperlukan, maka Anda perlu menerapkan metode serupa pada data tambahan yang Anda peroleh. Langkah Pemerkayaan data bersifat opsional dan dapat dijalankan jika data yang sudah Anda miliki belum sesuai dengan kebutuhan Anda.

5. Validasi

Proses pemrograman berulang diperlukan untuk memastikan bahwa data yang Anda kelola akurat, konsisten, aman, dan sah. Proses ini dikenal sebagai validasi data dan bertujuan untuk mengidentifikasi potensi masalah yang memerlukan perbaikan atau menentukan apakah data tersebut siap untuk dilakukan analisis.

6. Publikasi

Langkah terakhir dalam proses pemersihan data adalah tahap publikasi, yang menandakan keseluruhan proses telah selesai. Ini melibatkan penempatan data yang telah diolah dengan baik di lokasi yang mudah diakses oleh Anda dan pihak-pihak terkait. Informasi ini dapat ditambahkan ke dalam basis data yang baru. Dengan mengikuti langkah-langkah sebelumnya, Anda akan memiliki data berkualitas tinggi yang dapat digunakan untuk mendapatkan wawasan, membuat laporan bisnis, dan keperluan lainnya.

D. Contoh Data Wrangling

Teknik data wrangling digunakan untuk berbagai kasus penggunaan. Contoh paling umum dari data wrangling adalah :

  • Menggabungkan beberapa sumber data menjadi satu set data untuk analisis.
  • Mengidentifikasi kesenjangan atau sel kosong dalam data dan entah mengisinya atau menghapusnya.
  • Menghapus data yang tidak relevan atau tidak diperlukan.
  • Mengidentifikasi outlier yang signifikan dalam data dan entah menjelaskan ketidaksesuaian tersebut atau menghapusnya untuk memudahkan analisis.

Perusahaan juga menggunakan alat data wrangling untuk :

  • Mendeteksi Kecurangan Korporat.
  • Mendukung Keamanan Data.
  • Memastikan Hasil Pemodelan Data yang akurat dan berulang.
  • Memastikan kepatuhan Bisnis dengan Standar Industri.
  • Melakukan Analisis Perilaku Pelanggan.
  • Mengurangi waktu yang dihabiskan dalam persiapan data untuk analisis.
  • Secara cepat mengenali nilai bisnis dari data Anda.
  • Menemukan Tren Data.

E. Penerapan dalam Python

Sumber : Geeksforgeeks.orgdan juga menggunakan ChatGPT

Inilah Penerapan Data Wrangling dalam Python :

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame({"Artist":['Blillie', 'Jimi', 'Milies', 'Sia'],
"Genre":['Jazz', 'Rock', 'Jazz', 'Pop'],
"Listeners":[1300, 2700, 1500, np.NaN],
"Plays":[2700, np.NaN, 4800, 7400],
})

print(df)

df = pd.DataFrame({'A':[1, 2, 3, np.NaN],
'B':[np.NaN, 4, np.NaN, 6],
'C':['a', 7, 8, 9],
'D':[np.NaN, 2, 3, np.NaN]
})

print(df)

# Create the original DataFrame
df = pd.DataFrame({
    "Artist": ['Blillie', 'Jimi', 'Milies', 'Sia'],
    "Genre": ['Jazz', 'Rock', 'Jazz', 'Pop'],
    "Listeners": [1300, 2700, 1500, np.NaN],
    "Plays": [2700, np.NaN, 4800, 7400]
})

# Replace NaN values in 'Listeners' and 'Plays' columns
df['Listeners'].fillna(2222, inplace=True)
df['Plays'].fillna(9999, inplace=True)

# Add a new 'avg plays' column with NaN values
df['avg plays'] = [np.NaN, 1300, 2500, np.NaN]

# Display the modified DataFrame
print(df)

# 1. Read turnover.csv data and convert it to a DataFrame
df = pd.read_csv('turnover.csv')

# 2. Replace the ',' in the data ['Amount'] with an empty character
df['Amount'] = df['Amount'].str.replace(',', '')

# 3. Get DF data column ['Amount'] converted to float type
df['Amount'] = df['Amount'].astype(float)

# 4. Change the exceptional value 12100 to 1210
df['Amount'] = df['Amount'].replace(12100, 1210)

# 5. Replace null values with the average value
average_amount = df['Amount'].mean()
df['Amount'].fillna(average_amount, inplace=True)

# 6. Draw a bar chart, x = 'Name', y ='Amount'
plt.figure(figsize=(10, 6))
plt.bar(df['Name'], df['Amount'])
plt.xlabel('Name')
plt.ylabel('Amount')
plt.title('Bar Chart of Business Values')
plt.xticks(rotation=45, ha='right')  # Rotate x-axis labels for better readability
plt.tight_layout()
plt.show()

Output di Jupyter Notebook :


Segmen dari kode tersebut dapat dijelaskan sebagai berikut :

1. Membuat DataFrame Pertama

  • Menggunakan fungsi pd.DataFrame() untuk membuat DataFrame pertama dengan kolom 'Artist', 'Genre', 'Listeners', dan 'Plays'.
  • Beberapa nilai dalam kolom 'Listeners' dan 'Plays' diisi dengan np.NaN untuk menunjukkan missing values.

2. Membuat DataFrame Kedua

  • Menggunakan fungsi pd.DataFrame() untuk membuat DataFrame kedua dengan kolom 'A', 'B', 'C', dan 'D'.
  • Beberapa nilai dalam kolom 'A', 'B', dan 'D' diisi dengan np.NaN.

3. Data Wrangling pada DataFrame Artist-Genre-Listeners-Plays

  • Menggantikan nilai NaN dalam kolom 'Listeners' dengan 2222 menggunakan fillna.
  • Menggantikan nilai NaN dalam kolom 'Plays' dengan 9999 menggunakan fillna.
  • Menambahkan kolom baru 'avg plays' dengan nilai NaN.
  • Menampilkan DataFrame yang telah dimodifikasi.


Nantikan Pembahasan selanjutnya mengenai Penggunaan Python Pandas untuk Data Science dan Machine Learning.

Itulah Penjelasan mengenai Data Wrangling. Mohon maaf apabila ada kesalahan apapun. Terima Kasih 😄😘👌👍 :)

Wassalamu‘alaikum wr. wb.

1 Comments

  1. Pembahasan selanjutnya mengenai Penggunaan Python Pandas untuk Data Science dan Machine Learning? Tel U

    ReplyDelete
Previous Post Next Post