Cara Mengatasi Missing Value Pada Dataset

 

Ketika kita ingin mengolah data untuk menjadi sebua model machine learning, maka data yang harus disajikan harus bersih dari field field kosong.

Biasanya kita akan menjumpai filed field bernilai NaN yang artinya field tersebut kosong atau tak diketahui. Ini sangat berpengaruh hasil model data kita

Inilah yang disebut Missing Value. Nilai yang hilang dari beberapa baris dataset

Cara Mengetahui Bahwa Dataset Kita Terdapat Missing Value?

Cara termudah adalah dengan menggunakan method method yang tersedia oleh package Pandas

Dengan Pandas, tak hanya kita bisa mengetahui dataset terdapat Missing Value atau tidak, kita bisa mencari mean, median dan modus, mengisikan data data yang kosong tersebut, dan melihat hasil data tersebut dari beberapa range tertentu

Pandas juga bisa membantu kita untuk memeriksa apakah dataset kita memiliki data yang kosong. Tak mungkinkan kita melihat satu persatu ratusan atau ribuan data. Maka dari itu kita membutuhkan method yang dikerjakan oleh python dalam package Pandas

Pertama. Kita harus membaca dataset tersebut dan mengeceknya menggunakan script dibawah

Mari kita beda script diatas

import pandas as pd

Disini kita mengimport pandas dan memberikan alias pada pacakge tersebut denga pd. Kenapa kita membutuhkan alias? Supaya kita tak terlalu panjang dalam mengingatnya. Memang untuk Pandas tak seberapa panjang untuk diingat, namun kita akan menjumpai package yang sangat panjang dan susah diingat

data_csv = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/shopping_data_missingvalue.csv")

Di dalam Pandas terdapat method yang bernama read_csv yang mana ia membutuhkan argument berupa link api dataset kita. Yaitu, https://storage.googleapis.com/dqlab-dataset/shopping_data_missingvalue.csv 

print(data_csv.isnull().values.any())

Lalu kita print untuk menetahui hasil outputnya. Jika mengembalikan nilai true. Maka berarti dataset ini memiliki data yang kosong dan harus kita isi

Cara Mengisi Data Data Kosong Pada Dataset

Nilai yang bisa kita masukkan untuk mengisi missing value pada data kita ada dua jenis. Dan berikut bagaimana cara mencari median dan bagaimana cara mencari mean

  • mean

data_csv.mean()

  • median

data_csv.median()

Simpan kode tersebut pada variabel. Menjadi seperti ini

mean = data_csv.mean()

Gunakan salah satu dari dua diatas. Kita bisa menggunakan median atau mean. Untuk kasus ini saya akan menggunakan median

Maka kita memerlukan method Pandas yang bernama fillna() yang akan kita isikan argument data yang ingin kita isi yaitu mean

data_csv.fillna(mean)

Ketika kita print, maka data tersebut akan menghasilkan output demikian


Untuk mempermudah berikut codesnap yang bisa kalian save


Mau Belajar Data Science Dimana?

 

Kamu bisa belajar segala ilmu data science di DQLab. Saya sendiri sudah mencobanya, kamua akan mempelajari modul dan mencobanya secara praktek


 

Tak hanya modulenya yang lengkap dan diberikan roadmap yang jelas. Di DQLab kita bisa latihan membuat project untuk mengisi portfoliomu biar makin pede dapet pekerjaan.

Gunakan link ini untuk mendapatkan 10% diskon dan 1 bulan gratis menikmati module premium. Atau masukkan kode

 INDR2216. 

Tunggu apalagi. Kalian pun bisa menjadi data scientist



Comments

Video Baru!