Begini Cara Saya Mempersiapkan 10000+ Baris Dataset Untuk Sebuah Tugas Kuliah Menggunakan Python

 

Mau cerita dikit tentang beberapa minggu lalu sebelum UTS, dosen saya memberikan tugas untuk membuat aplikasi fuzzy menggunakan MATLAB, namun ia meminta seluruh mahasiswa untuk mengambil data real dari tempat sekitar kita

Beberapa ada yang mengambil datasets dari tempat dagangan orang tuanya, beberapa dari data presetasi sekolah, dll

Berhubung saya malas untuk mencari tahu hal semacam itu, akhirnya saya memutuskan untuk mengambil data dari Kaggle. Lah toh, bukankah itu fungsi utama dari Kaggle? Kita bisa mencari dataset dari manapun dari seluruh dunia tanpa harus keluar rumah

 Daftar Isi


Seputar Kaggle

Meskipun keabsahan dataset dari Kaggle sendiri masih dipertanyakan setidaknya kita ga perlu lagi nulis ribuan baris dan kolom untuk menganalisa, membuat model, dan prediksi dari data data tersebut

Saya pun mengambil data berikut untuk saya jadikan contoh dataset agar selanjutnya bisa digunakan pada aplikasi MATLAB. Kalian bisa klik ini untuk mendownnloadnya


 

Kenapa saya mengambil data diatas? karena lebih familiar di telinga orang awam (baca: dosen) dan lebih mudah apabila saya jabarkan kepada teman teman,

"Eh, lu pake data dari mana?"

"Dataset ecommerce gitu", jawab saya

Semuanya pilihan sih, kemarin saya perhatikan ada beberapa orang yang menggunakan data real dari dagangan di sekitar rumah mereka. Kalo saya jadi mereka mungking tugas ini ga bakal selesai, keburu saya kalah sama rasa malas saya xixixixi

Detail Tugas

Tugas yang diberikan sih sederhana kami diminta untuk membuat model matematis dari sistem fuzzy. Sistem fuzzynya sendiri sudah diajarkan di pertemuan sebelumnya dan di pertemuan ini kami hanya ditugaskan untuk mengganti datasetnya saja. Itu saja

Isi Materi Pertemuan Itu: Cara Membuat Program Fuzzy Menggunakan MATLAB. Studi Kasus: Persediaan dan Permintaan Penjualan Kambing

Jadi ga ada yang susah sebenarnya sampai pada akhirnya saya berhadapan dengan banyaknya data. 

Saya harus menganalisanya sendiri menggunakan python dan dan mencari tahu apa saja yang bisa saya gunakan

Saya harus membersihkan datanya dari kolom kolom string, dan melakukan labelling. Menyenangkan sebenarnya sampai terjadi error terus terusan

Sebenarnya menganalisa datasets seperti ini bukanlah termasuk bagian dari tugas. Apalagi dinilai, sebenarnya saya hanya ingin mencoba untuk menggali lebih dalam apa saja insight yang saya bisa dapatkan dari sebuah datasets

Kalo kalian membaca postingan saya sebelumnya, disana dijelaskan bahwa model fuzzy itu harus memiliki variabel dan parameter sebagai input-annya. Disini saya mencarinya secara manual dan menerapkan logika yang digunakan pada tabel itu

Kalian bisa melihat jerih payah saya melakukan codingan disini

Langkah Langkah

Saya harus mengimportnya menggunakan Pandas

Lalu menghilangkan kolom ID karena ia sama sekali tidak menggambarkan bagaimana kita membaca data data yang ada

Lalu saya juga memilah data data ini berdasarkan waktu bulan dan tahun

bulan dan tahun transaksi saya ambil dari tanggal invoice yang diterima. Menurut saya sah untuk mengasumsikan pembeli mendapatkan invoice pada bulan dan tahun yang sama pada pembelian

Setelah itu saya juga mengambil quantity pada tiap tiap bulan, karena apa? karena ini merupakan core dari prediksi model ini. Quantity berperan penting untuk menentukan berapakah prediksi untuk jumlah prediksi kedepannya


Lalu saya mencari jumlah penjualan yang terjadi pada tiap tiap bulan dengan menghitung ada berapa invoice yang terjadi pada setiap bulannya

Baca Juga: Membuat Program Fuzzy Dengan Python. Studi Kasus: Prediksi Penyakit Demam

Lalu jadilah tabel seperti berikut


Tentu saya harus memindahkan output print satu persatu ke dalam Google Sheets, saya belum menemukan cara untuk mengeksportnya secara otomatis

Lebih lengkapnya kalian bisa melihat kode yang saya tulis disini

Kesimpulan

Lain kali kalo disuruh bikin model machine learning dari dosen kalian. Apapun. Maka carilah datasets dari Kaggle lalu olah sendiri menggunakan Python yaitu dengan mengambil data data yang bisa dimanfaatkan dari sana

Post a Comment (0)
Previous Post Next Post