Assalamu‘alaikum wr. wb.
Halo semuanya! Jika sebelumnya, kita sudah memberikan Tutorial Instalasi Pandas, sekarang waktunya membahas tentang Penggunaan DataFrame dengan Python Pandas.
Sumber Materi : Geeksforgeeks.org, Pynative.com, Ngodingdata.com, dan juga menggunakan ChatGPT
Pandas DataFrame adalah struktur data tabular dua dimensi yang berpotensi berubah ukuran dan berpotensi heterogen dengan sumbu berlabel (baris dan kolom). Bingkai Data adalah struktur data dua dimensi, yaitu data disejajarkan secara tabel dalam baris dan kolom. Pandas DataFrame terdiri dari tiga komponen utama, yaitu data, baris, dan kolom.
A. Pembuatan DataFrame
Data tersedia dalam berbagai bentuk dan jenis seperti CSV, tabel SQL, JSON, atau struktur Python seperti daftar, kamus, dll. Kami perlu mengonversi semua format data yang berbeda ini menjadi DataFrame agar kami dapat menggunakan perpustakaan pandas untuk menganalisis data tersebut dengan efisien.
Untuk membuat DataFrame, kami dapat menggunakan konstruktor DataFrame atau fungsi bawaan pandas. Berikut beberapa contoh.
1. DataFrame Constructor
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
Parameter :
- data : Menerima input berupa dict, list, set, ndarray, Iterable, atau DataFrame. Jika input tidak disediakan, maka akan membuat DataFrame kosong. Urutan kolom hasil mengikuti urutan penyisipan.
- index : (Opsional) Menerima daftar indeks baris untuk DataFrame. Nilai defaultnya adalah rentetan bilangan bulat 0, 1, ..., n.
- columns : (Opsional) Menerima daftar kolom untuk DataFrame. Nilai defaultnya adalah rentetan bilangan bulat 0, 1, ..., n.
- dtype : (Opsional) Secara default, itu mengidentifikasi jenis data dari data, tetapi opsi ini dapat mengaplikasikan jenis data tertentu ke seluruh DataFrame.
- copy : (Opsional) Menyalin data dari input. Boolean, Default False. Hanya memengaruhi input DataFrame atau array 2D.
2. DataFrame dari dict
Ketika kita memiliki data dalam bentuk dict atau struktur data default lainnya dalam Python, kita dapat mengonversinya menjadi DataFrame menggunakan konstruktor DataFrame.
Untuk membuat DataFrame dari objek dict, kita dapat meneruskannya ke konstruktor DataFrame dengan pd.DataFrame(dict). Ini akan membuat DataFrame di mana kunci-kunci dict akan menjadi label kolom, dan nilai-nilai dict akan menjadi data kolom-kolom tersebut. Kita juga dapat menggunakan fungsi DataFrame.from_dict() untuk membuat DataFrame dari dict.
Contoh :
student_dict = {'Name':['Joe','Nat'], 'Age':[20,21], 'Marks':[85.10, 77.80]}
'Nama', 'Umur' dan 'Tanda' adalah kunci dalam dict ketika Anda mengonversinya akan menjadi label kolom DataFrame.
import pandas as pd# Python dict objectstudent_dict = {'Name': ['Joe', 'Nat'], 'Age': [20, 21], 'Marks': [85.10, 77.80]}print(student_dict)# Create DataFrame from dictstudent_df = pd.DataFrame(student_dict)print(student_df)
Output :
{'Name': ['Joe', 'Nat'], 'Age': [20, 21], 'Marks': [85.1, 77.8]} Name Age Marks 0 Joe 20 85.1 1 Nat 21 77.8
3. DataFrame dari CSV
Dalam bidang Data Science, file CSV digunakan untuk menyimpan dataset besar. Untuk menganalisis dataset tersebut secara efisien, kita perlu mengonversinya menjadi DataFrame pandas.
Untuk membuat DataFrame dari CSV, kita menggunakan fungsi read_csv('nama_file') yang mengambil nama file sebagai input dan mengembalikan DataFrame sebagai output.
Mari kita lihat bagaimana cara membaca file Automobile_data.csv ke dalam DataFrame.
cars = pd.read_csv("Automobile_data.csv")print(cars)
Output :
company body-style length engine-type avg-mileage 0 alfa-romero convertible 168.8 dohc 21 1 alfa-romero hatchback 171.2 ohcv 19 2 audi sedan 176.6 ohc 24 .. ... ... ... ... ... 58 volvo sedan 188.8 ohc 23 59 volvo wagon 188.8 ohc 23
B. Opsi DataFrame
Ketika DataFrame sangat besar dan kita tidak dapat menampilkan seluruh datanya saat mencetak. Dalam kasus tersebut, kita perlu mengubah cara DataFrame ditampilkan di konsol menggunakan fungsi print. Untuk itu, pandas telah menyediakan banyak opsi dan fungsi untuk menyesuaikan tampilan DataFrame.
1. Untuk menyesuaikan tampilan DataFrame saat mencetak
Ketika kita menampilkan DataFrame menggunakan fungsi print() secara default, DataFrame akan menampilkan 10 baris (5 baris atas dan 5 baris bawah). Terkadang kita mungkin perlu menampilkan lebih atau kurang baris daripada tampilan default dari DataFrame.
Kita dapat mengubah pengaturannya dengan menggunakan fungsi pd.options atau pd.set_option(). Kedua fungsi tersebut dapat digunakan secara bergantian.
Contoh di bawah ini akan menampilkan maksimum 20 baris dan minimum 5 baris saat mencetak DataFrame.
import pandas as pd# Setting maximum rows to be shownpd.options.display.max_rows = 20# Setting minimum rows to be shownpd.set_option("display.min_rows", 5)# Print DataFrameprint(cars)
Output :
company body-style length engine-type avg-mileage 0 alfa-romero convertible 168.8 dohc 21 1 alfa-romero hatchback 171.2 ohcv 19 .. ... ... ... ... ... 58 volvo sedan 188.8 ohc 23 59 volvo wagon 188.8 ohc 23 [60 rows x 5 columns]
C. DataFrame Metadata
Kadang-kadang kita perlu mendapatkan metadata dari DataFrame dan bukan kontennya. Informasi metadata semacam ini berguna untuk memahami DataFrame karena memberikan lebih banyak detail tentang DataFrame yang perlu kita proses.
Pada bagian ini, kita akan membahas fungsi-fungsi yang memberikan informasi tersebut tentang DataFrame.
Mari kita ambil contoh DataFrame siswa yang berisi 'Nama', 'Usia', dan 'Nilai' siswa seperti yang ditunjukkan di bawah ini.
Name Age Marks 0 Joe 20 85.10 1 Nat 21 77.80 2 Harry 19 91.54
1. Info metadata dari DataFrame
DataFrame.info() adalah fungsi dari DataFrame yang memberikan informasi metadata tentang DataFrame. Ini termasuk :
- Jumlah baris dan rentang indeksnya
- Total jumlah kolom
- Daftar kolom
- Jumlah total nilai non-null dalam kolom
- Tipe data kolom
- Jumlah kolom dalam setiap tipe data
- Penggunaan memori oleh DataFrame
Contoh :
Dalam Contoh di bawah ini, kami mendapatkan informasi metadata DataFrame siswa.
# get dataframe infostudent_df.info()
Output :
<class 'pandas.core.frame.DataFrame'> RangeIndex: 3 entries, 0 to 2 Data columns (total 3 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Name 3 non-null object 1 Age 3 non-null int64 2 Marks 3 non-null float64 dtypes: float64(1), int64(1), object(1) memory usage: 200.0+ bytes
2. Mendapatkan Statistik DataFrame
DataFrame.describe() adalah fungsi yang memberikan statistik matematis dari data dalam DataFrame. Namun, ini hanya berlaku untuk kolom yang berisi nilai numerik.
Dalam contoh DataFrame siswa kami, ini memberikan statistik deskriptif hanya dari kolom "Umur" dan "Nilai", yang mencakup :
- count: Total jumlah nilai non-null dalam kolom
- mean: rata-rata angka
- std: nilai deviasi standar
- min: nilai minimum
- 25%: persentil ke-25
- 50%: persentil ke-50
- 75%: persentil ke-75
- max: nilai maksimum
Catatan : Output dari fungsi DataFrame.describe() bervariasi tergantung pada DataFrame masukan.
Contoh :
# get dataframe descriptionstudent_df.describe()
Output :
Age Marks count 3.0 3.000000 mean 20.0 84.813333 std 1.0 6.874484 min 19.0 77.800000 25% 19.5 81.450000 50% 20.0 85.100000 75% 20.5 88.320000 max 21.0 91.540000
D. Atribut DataFrame
DataFrame telah menyediakan banyak atribut bawaan. Atribut tidak mengubah data yang mendasarinya, tidak seperti fungsi, tetapi digunakan untuk mendapatkan detail lebih lanjut tentang DataFrame.
Berikut ini adalah atribut DataFrame yang paling banyak digunakan.
Attribut
|
Deskripsi
|
DataFrame.index
|
It gives the
Range of the row index
|
DataFrame.columns
|
It gives a
list of column labels
|
DataFrame.dtypes
|
It gives
column names and their data type
|
DataFrame.values
|
It gives all
the rows in DataFrame
|
DataFrame.empty
|
It is used to
check if the DataFrame is empty
|
DataFrame.size
|
It gives a
total number of values in DataFrame
|
DataFrame.shape
|
It a number
of rows and columns in DataFrame
|
Contoh :
import pandas as pd# Create DataFrame from dictstudent_dict = {'Name': ['Joe', 'Nat', 'Harry'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}student_df = pd.DataFrame(student_dict)print("DataFrame : ", student_df)print("DataFrame Index : ", student_df.index)print("DataFrame Columns : ", student_df.columns)print("DataFrame Column types : ", student_df.dtypes)print("DataFrame is empty? : ", student_df.empty)print("DataFrame Shape : ", student_df.shape)print("DataFrame Size : ", student_df.size)print("DataFrame Values : ", student_df.values)
Output :
DataFrame : Name Age Marks 0 Joe 20 85.10 1 Nat 21 77.80 2 Harry 19 91.54 DataFrame Index : RangeIndex(start=0, stop=3, step=1) DataFrame Columns : Index(['Name', 'Age', 'Marks'], dtype='object') DataFrame Column types : Name object Age int64 Marks float64 dtype: object DataFrame is empty? : False DataFrame Shape : (3, 3) DataFrame Size : 9 DataFrame Values : [['Joe' 20 85.1] ['Nat' 21 77.8] ['Harry' 19 91.54]]
E. DataFrame Selection
Saat berurusan dengan data yang luas dalam DataFrame, seorang analis data selalu perlu memilih baris atau kolom tertentu untuk analisis. Dalam kasus seperti ini, fungsi yang dapat memilih sekelompok baris atau kolom seperti baris teratas, baris terbawah, atau data dalam rentang indeks memiliki peran yang signifikan.
Berikut adalah fungsi-fungsi yang membantu dalam memilih subset dari DataFrame.
Function
|
Description
|
DataFrame.head(n)
|
It is used to select top ‘n’ rows in DataFrame.
|
DataFrame.tail(n)
|
It is used to select bottom ‘n’ rows in DataFrame.
|
DataFrame.at
|
It is used to get and set the particular value of
DataFrame using row and column labels.
|
DataFrame.iat
|
It is used to get and set the particular value of
DataFrame using row and column index positions.
|
DataFrame.get(key)
|
It is used to get the value of a key in DataFrame where
Key is the column name.
|
DataFrame.loc()
|
It is used to select a group of data based on the row
and column labels. It is used for slicing and filtering of the DataFrame.
|
DataFrame.iloc()
|
It is used to select a group of data based on the row
and column index position. Use it for slicing and filtering the DataFrame.
|
Contoh :
import pandas as pd# Create DataFrame from dictstudent_dict = {'Name': ['Joe', 'Nat', 'Harry'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}student_df = pd.DataFrame(student_dict)print("DataFrame : ", student_df)print("DataFrame Index : ", student_df.index)print("DataFrame Columns : ", student_df.columns)print("DataFrame Column types : ", student_df.dtypes)print("DataFrame is empty? : ", student_df.empty)print("DataFrame Shape : ", student_df.shape)print("DataFrame Size : ", student_df.size)print("DataFrame Values : ", student_df.values)
Output :
DataFrame : Name Age Marks 0 Joe 20 85.10 1 Nat 21 77.80 2 Harry 19 91.54 Top 2 rows using head() : Name Age Marks 0 Joe 20 85.1 1 Nat 21 77.8 Bottom 2 rows using tail() : Name Age Marks 1 Nat 21 77.80 2 Harry 19 91.54 Value at row index 0 and column 'Name' using at : Joe Value at first row and first column using iat : Joe Value of 'Name' column using get : 0 Joe 1 Nat 2 Harry Name: Name, dtype: object Value from row index 0 to 2 and 'Name' column using loc : Name 0 Joe 1 Nat 2 Harry Value from row index 0 to 2(Exclusive) and column position 0 to 2(Exclusive) using iloc : Name Age 0 Joe 20 1 Nat 21
F. Modifikasi DataFrame
DataFrame mirip dengan lembar Excel atau tabel database di mana kita perlu memasukkan data baru atau menghapus kolom dan baris jika tidak diperlukan. Operasi manipulasi data seperti ini sangat umum pada DataFrame.
Pada bagian ini, kita akan membahas fungsi-fungsi manipulasi data dari DataFrame.
1. Menyisipkan Kolom
Terkadang diperlukan untuk menambahkan kolom baru ke dalam DataFrame. Fungsi DataFrame.insert() digunakan untuk menyisipkan kolom baru dalam DataFrame pada posisi yang ditentukan.
Pada contoh di bawah ini, kita menyisipkan kolom baru "Kelas" sebagai kolom ketiga dalam DataFrame dengan nilai default 'A' menggunakan Sintaks :
df.insert(loc = col_position, column = new_col_name, value = default_value)
Contoh :
import pandas as pd# Create DataFrame from dictstudent_dict = {'Name': ['Joe', 'Nat', 'Harry'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}student_df = pd.DataFrame(student_dict)print(student_df)# insert new column in dataframe and displaystudent_df.insert(loc=2, column="Class", value='A')print(student_df)
Output :
Before adding new column: Name Age Marks 0 Joe 20 85.10 1 Nat 21 77.80 2 Harry 19 91.54 After adding new column: Name Age Class Marks 0 Joe 20 A 85.10 1 Nat 21 A 77.80 2 Harry 19 A 91.54
2. Drop Columns
DataFrame mungkin berisi data yang berlebihan, dalam kasus seperti itu, kami mungkin perlu menghapus data yang tidak diperlukan. Fungsi DataFrame.drop() digunakan untuk menghapus kolom dari DataFrame.
Contoh :
Pada contoh di bawah ini, kita menghapus kolom “Umur” dari DataFrame siswa menggunakan df.drop(columns=[col1,col2...]).
import pandas as pd# Create DataFrame from dictstudent_dict = {'Name': ['Joe', 'Nat', 'Harry'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}student_df = pd.DataFrame(student_dict)print(student_df)# delete column from dataframestudent_df = student_df.drop(columns='Age')print(student_df)
Output :
Before dropping the column: Name Age Marks 0 Joe 20 85.10 1 Nat 21 77.80 2 Harry 19 91.54 After dropping the column: Name Marks 0 Joe 85.10 1 Nat 77.80 2 Harry 91.54
3. Terapkan Kondisi
Kita mungkin perlu memperbarui nilai di DataFrame berdasarkan beberapa kondisi. Fungsi DataFrame.where() digunakan untuk menggantikan nilai DataFrame yang kondisinya False.
where(filter, other=new_value)
Ini menerapkan kondisi filter pada semua baris di DataFrame, sebagai berikut :
- Jika kondisi filter mengembalikan False, maka ia memperbarui baris dengan nilai yang ditentukan dalam parameter lain.
- Jika kondisi filter mengembalikan True, maka baris tidak diperbarui.
Contoh :
Pada contoh di bawah ini, kita ingin mengganti nilai siswa dengan '0' yang nilainya kurang dari 80. Kita meneruskan kondisi filter df['Marks'] > 80 ke fungsi tersebut.
import pandas as pd# Create DataFrame from dictstudent_dict = {'Name': ['Joe', 'Nat', 'Harry'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}student_df = pd.DataFrame(student_dict)print(student_df)# Define filter conditionfilter = student_df['Marks'] > 80student_df['Marks'].where(filter, other=0, inplace=True)print(student_df)
Output :
Before update: Name Age Marks 0 Joe 20 85.10 1 Nat 21 77.80 2 Harry 19 91.54 After update: Name Age Marks 0 Joe 20 85.10 1 Nat 21 0.00 2 Harry 19 91.54
G. Kolom Filter DataFrame
Dataset berisi data besar yang perlu dianalisis. Namun, kadang-kadang, kita mungkin ingin menganalisis data yang relevan dan menyaring semua data lainnya. Dalam hal ini, kita dapat menggunakan fungsi DataFrame.filter() untuk mengambil hanya data yang diperlukan dari DataFrame.
Ini mengembalikan subset dari DataFrame dengan menerapkan kondisi pada setiap indeks baris atau label kolom seperti yang ditentukan menggunakan sintaks di bawah ini.
df.filter(like = filter_cond, axis = 'columns' or 'index')
Ini menerapkan kondisi pada setiap indeks baris atau label kolom.
- Jika kondisi tersebut terpenuhi, maka baris atau kolom tersebut akan disertakan dalam DataFrame yang dihasilkan.
- Jika kondisi gagal, maka tidak ada baris atau kolom tersebut di DataFrame yang dihasilkan.
Catatan : Ini menerapkan filter pada indeks baris atau label kolom, bukan pada data sebenarnya.
Contoh :
Pada contoh di bawah ini, kami hanya menyertakan kolom dengan label kolom yang dimulai dengan 'N'.
import pandas as pd# Create DataFrame from dictstudent_dict = {'Name': ['Joe', 'Nat', 'Harry'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}student_df = pd.DataFrame(student_dict)print(student_df)# apply filter on dataframestudent_df = student_df.filter(like='N', axis='columns')print(student_df)
Output :
Before applying filter: Name Age Marks 0 Joe 20 85.10 1 Nat 21 77.80 2 Harry 19 91.54 After applying filter: Name 0 Joe 1 Nat 2 Harry
H. Ganti Kolom DataFrame
Saat bekerja dengan DataFrame, kita mungkin perlu mengganti nama indeks kolom atau baris. Kita dapat menggunakan fungsi DataFrame.rename() untuk mengubah label baris atau kolom.
Kita perlu meneruskan kamus pasangan nilai kunci sebagai masukan ke fungsi tersebut. Dimana key dari dict adalah label kolom yang sudah ada, dan nilai dict adalah label kolom yang baru.
df.rename(columns = {'old':'new'})
Ini dapat digunakan untuk mengganti nama satu atau beberapa kolom dan label baris.
Contoh :
Pada contoh di bawah ini, kami mengganti nama kolom 'Marks' menjadi 'Percentage' di DataFrame siswa.
import pandas as pd# Create DataFrame from dictstudent_dict = {'Name': ['Joe', 'Nat', 'Harry'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}student_df = pd.DataFrame(student_dict)print(student_df)# rename columnstudent_df = student_df.rename(columns={'Marks': 'Percentage'})print(student_df)
Output :
Before rename: Name Age Marks 0 Joe 20 85.10 1 Nat 21 77.80 2 Harry 19 91.54 After rename: Name Age Percentage 0 Joe 20 85.10 1 Nat 21 77.80 2 Harry 19 91.54
I. DataFrame Join
Pada sebagian besar kasus penggunaan Analisis Data, data dikumpulkan dari beberapa sumber, dan kita perlu menggabungkan data tersebut untuk analisis lebih lanjut. Dalam situasi seperti itu, operasi join dan merge diperlukan.
Fungsi DataFrame.join() digunakan untuk menggabungkan satu DataFrame dengan DataFrame lain seperti df1.join(df2).
Contoh :
Pada contoh di bawah, kita menggabungkan dua DataFrame yang berbeda untuk membuat DataFrame hasil yang baru.
import pandas as pd# create dataframe from dictstudent_dict = {'Name': ['Joe', 'Nat'], 'Age': [20, 21]}student_df = pd.DataFrame(student_dict)print(student_df)# create dataframe from dictmarks_dict = {'Marks': [85.10, 77.80]}marks_df = pd.DataFrame(marks_dict)print(marks_df)# join dfsjoined_df = student_df.join(marks_df)print(joined_df)
Output :
DataFrame1: Name Age 0 Joe 20 1 Nat 21 DataFrame2: Marks 0 85.1 1 77.8 Joined DataFrames: Name Age Marks 0 Joe 20 85.1 1 Nat 21 77.8
J. DataFrame GroupBy
Operasi GroupBy berarti membagi data dan kemudian menggabungkannya berdasarkan beberapa kondisi. Data besar dapat dibagi menjadi kelompok-kelompok logis untuk menganalisanya.
Fungsi DataFrame.groupby() mengelompokkan DataFrame secara baris atau kolom berdasarkan kondisi tertentu.
Contoh :
Jika kita ingin menganalisis nilai rata-rata setiap kelas, kita perlu menggabungkan data siswa berdasarkan kolom 'Class' dan menghitung nilai rata-ratanya menggunakan df.groupby(col_label).mean() seperti yang ditunjukkan pada contoh di bawah.
import pandas as pd# Create DataFrame from dictstudent_dict = {'Name': ['Joe', 'Nat', 'Harry'], 'Class': ['A', 'B', 'A'], 'Marks': [85.10, 77.80, 91.54]}student_df = pd.DataFrame(student_dict)print(student_df)# apply group bystudent_df = student_df.groupby('Class').mean()print(student_df)
Output :
Before grouping: Name Class Marks 0 Joe A 85.10 1 Nat B 77.80 2 Harry A 91.54 After grouping: Marks Class A 88.32 B 77.8
K. Iterasi DataFrame
Iterasi DataFrame berarti mengunjungi setiap elemen dalam DataFrame satu per satu. Saat menganalisis DataFrame, kita mungkin perlu mengulang setiap baris DataFrame.
Ada beberapa cara untuk mengulang DataFrame. Kita akan melihat fungsi DataFrame.iterrows(), yang dapat melakukan iterasi DataFrame secara baris. Ini mengembalikan indeks dan baris DataFrame dalam setiap iterasi dari loop for.
import pandas as pd# Create DataFrame from dictstudent_dict = {'Name': ['Joe', 'Nat'], 'Age': [20, 21], 'Marks': [85, 77]}student_df = pd.DataFrame(student_dict)# Iterate all the rows of DataFramefor index, row in student_df.iterrows():print(index, row)
Output :
0 Name Joe Age 20 Marks 85 Name: 0, dtype: object 1 Name Nat Age 21 Marks 77 Name: 1, dtype: object
L. DataFrame Sorting
Seorang Analis Data selalu perlu melakukan berbagai operasi pada data yang mendasarinya seperti menggabungkan, menyortir, menggabungkan, dll. Operasi yang paling sering digunakan adalah pengurutan data. Data yang terurut menjadi mudah untuk dianalisis dan disimpulkan.
Fungsi DataFrame.sort_values() digunakan untuk mengurutkan DataFrame menggunakan satu atau lebih kolom secara menaik (default) atau menurun.
Contoh :
Pada contoh di bawah, kita mengurutkan data siswa berdasarkan 'Marks'.
import pandas as pd# Create DataFrame from dictstudent_dict = {'Name': ['Joe', 'Nat', 'Harry'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}student_df = pd.DataFrame(student_dict)print(student_df)# rename columnstudent_df = student_df.sort_values(by=['Marks'])print(student_df)
Output :
Before sorting: Name Age Marks 0 Joe 20 85.10 1 Nat 21 77.80 2 Harry 19 91.54 After sorting: Name Age Marks 1 Nat 21 77.80 0 Joe 20 85.10 2 Harry 19 91.54
M. Konversi dalam DataFrame
Setelah semua pemrosesan pada DataFrame, kita akan mendapatkan data yang diharapkan di dalam DataFrame. Namun, mungkin kita perlu mengonversi DataFrame kembali ke format aslinya seperti file CSV atau kamus (dict), atau mungkin perlu mengonversinya ke format lain untuk tindakan lebih lanjut seperti menyimpannya ke Database dalam format tabel SQL.
Pandas telah menyediakan banyak fungsi untuk mengonversi DataFrames ke banyak format yang berbeda.
Sebagai contoh, fungsi DataFrame.to_dict() digunakan untuk mengonversi DataFrame menjadi objek kamus Python.
Berikut adalah contoh DataFrame yang perlu kita konversi menjadi Python dict.
Name Class Marks 0 Joe A 85.10 1 Nat B 77.80 2 Harry A 91.54
Mari kita lihat bagaimana kita dapat menggunakan fungsi DataFrame.to_dict() untuk mengubah DataFrame menjadi kamus Python. Secara default, ini membuat kamus dengan kunci sebagai label kolom dan nilai sebagai pemetaan indeks baris dan data.
Contoh :
# convert dataframe to dictdict = student_df.to_dict()print(dict)
Output :
{'Name': {0: 'Joe', 1: 'Nat', 2: 'Harry'}, 'Class': {0: 'A', 1: 'B', 2: 'A'}, 'Marks': {0: 85.1, 1: 77.8, 2: 91.54}}
Itulah Penjelasan mengenai DataFrame dengan Python Pandas. Untuk melihat Artikel tentang Modul Pemrograman Python, silakan lihat di sini.
Terima Kasih 😄😘👌👍 :)
Wassalamu‘alaikum wr. wb.