Dalam Data Wrangling, kita harus mengolah data mentah sehingga bisa diproses untuk selanjutnya membuat model prediksi, visualisasi, dan lain sebagainya
Untuk bisa melakukan hal tersebut kita memerlukan sebuah package bernama Pandas
Apa Itu Pandas?
Logo sudah dirubah seperlunya |
Pandas adalah sebuah package dari python yang berisi segala function, method yang kita perlukan untuk membuka file berisi data secara tabular secara de facto
Maksudnya de facto adalah segala isi data tersebut memang menggambarkan bagaimana keadaan sebenarnya dilapangan. Bukan data yang bersifatt real-time yang berubah dari waktu ke waktu
Jika kamu anak IPS seharusnya kamu akrab dengan defacto dan dejure
Langsung saja kita langsung coba package Python ini
Saya akan membaginya menjadi beberapa cara
Ingin Jadi Data Scientist? Berikut Langkah Langkahnya
Membuka File Pandas Keseluruhan Data
Kita akan menggunakan data dari link berikut ini. Silahkan copy
https://storage.googleapis.com/dqlab-dataset/shopping_data.csv
Save jika bermanfaat |
Sehingga kode diatas akan menghasilkan berikut
Namun lihat. Data yang ditampilkan sangat banyak sekali. Bayangkan ada 1 sampai 200 data ditampilkan. Sampai sampai Python harus menyingkatnya menjadi ...
Untuk mengatasinya kita bisa mengambil data atasnya saja atau bawahnya saja menggunakan methode head()
Cara Menampilkan Data Teratas Dan Terbawah Dari File CSV
Teratas dan terbawah disini bukan berarti kita ingin melihat data dengan value terbesar, namun kita ingin melihat data teratas berdasarkan id. Dalam data yang kita pakai ini id itu bernama Customer_id
Caranya
Save jika bermanfaat |
head() merupakan method untuk melihat data teratas
tail() merupakan method untuk melihat data terbawah
Kita juga bisa memberika parameter angka/integer kedalamnya untuk melihat data berdasarkan jumlah angkah yang kita masukkan
Contoh
Silahkan coba sendiri unruk melihat hasilnya
Cara Menampilkan Data Berdasarkan Column
Jika kita hanya membutuhkan data data hanya berdasarkan columnnya saja. Maka kita membutuhkan script dibawah
Namun pastikan bahwa column yang kita tulis ada dalam kumpulan data tersebut. Dalam kasus ini, saya melihat column Age yang akan menampilkan isi datanya seperti berikut
Kalian bisa memadukan method ini dengan head() atau tail() untuk menampilkan data teratas atau terbawah. Silahkan dicoba sendiri
Cara Menampilkan Data Berdasarkan Baris
Selain berdasarkan column, kalian juga bisa menggunakan methid iloc[baris] untuk menampilkan data berdasarkan barisnya. Karena berupa baris, maka data yang disajikan juga lengkap. Seperti Id, Age, Nama, dan lain sebagainya
Maka akan menampilkan data berikut
Cara Menampilkan Beberapa Range Data Tertentu
Ada kalanya kita hanya membutuhkan beberapa data tertentu saja. Maka kita perlu menambahkan script seperti ini
[5:10] berarti kita menginginkan data ke 5 sampai ke 10 untuk ditampilkan.
Ingat angka ini adalah indeks array, yang mana semua angka dimulai dari angka 0. Untuk bisa menampilkan benar benar data 5 ke 10 maka kita harus menambahkan 1 pada 10 yaitu 10. [5:11]
Selanjutnya Apa?
Kini kita sudah mengetahui bagaimana cara membuka dan mengetahui data data yang kita dapat dari file csv. Ini sangat berguna sekali sebagai awal langkah pemrosesan data sciene yang akan semakin dibahas secara mendalam di blog ini.
Eksperimen, coba dan padukan segala method yang sudah saya jelaskan diatas untuk mengasah kemampuan kita pada data wrangling. Semoga membantu
Mau Belajar Data Science Dimana?
Kamu bisa belajar segala ilmu data science di DQLab. Saya sendiri sudah mencobanya, kamua akan mempelajari modul dan mencobanya secara praktek
Tak hanya modulenya yang lengkap dan diberikan roadmap yang jelas. Di DQLab kita bisa latihan membuat project untuk mengisi portfoliomu biar makin pede dapet pekerjaan.
Gunakan link ini untuk mendapatkan 10% diskon dan 1 bulan gratis menikmati module premium. Atau masukkan kode
INDR2216.
Tunggu apalagi. Kalian pun bisa menjadi data scientist