Data Scientist Itu Kerjaanya Apa Aja Sih?

 

Kemarin baru saja saya baca buku berjudul Data Science From Scratch terbitan Oreilly. Bukunya berbahasa inggris, namun seru sekali ketika dibaca

Oreilly selalu pake illustrasi hewan

 

Jujur, saya masih sedikit bacanya, masih paruh awal tapi tetap tertarik untuk melahapnya hingga habis. 

Ada beberapa poin yang enlightening dari buku tersebut yang rasanya sayang sekali kalo ga saya beberkan di blog kesayangan-ku ini. Huek

Di bagian awal buku tersebut kurang lebih di jelaskan secara singkat apa saja peran peran data scientist, job utama, dan apa sih tugas utama data scientist secara garis besar.  Menurut saya ini merupakan ilmu penting mengingat ketika saya melihat tutorial di youtube atau course course pada umumnya yang berkualitas namun deep-down saya sendiri masih bertanya tanya, sebenarnya ini kepakenya ketika ngapain sih

Ini sesuatu yang baru bagi saya, berbeda sekali ketika kita mengikuti tutorial youtube tentang pengembangan website atau mobile app yang tujuannya satu yaitu aplikasi harus berjalan baik dan benar

Menurut saya data science berbeda, ia lebih abstrak dan intuitif. Segala permasalahan tidak melulu diselesaikan secara teknikal

Kali ini saya akan menjelaskan apa aja tugas data scientist melalui sebuah perempumaan dan simulasi agar kalian bisa lebih memahami

Simulasi

Selamat menjalani hari pertama sebagai data scientist di perusahaan PT Maju Mundur, kalian akan sering berkomunikasi kepada VP untuk memberikan insight dari data data yang mereka miliki 

Studi Kasus 1: Temukan Kunci Koneksi

VP ingin sekali mengetahui karyawan manakah yang mempunyai relasi kuat antar karyawan lain. Kamu bisa ga mencari siapakah kayawan yang dimaksud? Berikut nama nama karyawannya

users = [
    { "id": 0, "name": "Hero" },
    { "id": 1, "name": "Dunn" },
    { "id": 2, "name": "Sue" },
    { "id": 3, "name": "Chi" },
    { "id": 4, "name": "Thor" },
    { "id": 5, "name": "Clive" },
    { "id": 6, "name": "Hicks" },
    { "id": 7, "name": "Devin" },
    { "id": 8, "name": "Kate" },
    { "id": 9, "name": "Klein" }
]

Tidak hanya nama nama karyawan kamu juga mendapatkan id id yang saling terhubung sehingga kamu tau siapa-berteman-dengan-siapa

friendship_pairs = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
                    (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

Kamu bisa ga menjawab pertanyaan bos VP?

Studi Kasus 2: Rekomendasi

Kalo kamu sudah menyelasikan soal diatas. VP juga ingin kamu memberikan daftar data scientist yang kamu sarankan. Buat model atau function untuk memprediksinya. 

Kamu akan mendapatkan data data yang berisi interest seperti ini

interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
    (0, "Spark"), (0, "Storm"), (0, "Cassandra"),
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
    (1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
    (2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
    (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"),
    (4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
    (5, "Haskell"), (5, "programming languages"), (6, "statistics"),
    (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
    (7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
    (8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
    (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

Studi Kasus 3: Informasi Seputar Gaji dan Pengalaman

VP ingin tahu fun fact karayawan mana aja nih yang punya hubungan gaji dan pengalaman. Kamu akan mendapatkan dataset seperti berikut

salaries_and_tenures = [(83000, 8.7), (88000, 8.1),
                        (48000, 0.7), (76000, 6),
                        (69000, 6.5), (76000, 7.5),
                        (60000, 2.5), (83000, 10),
                        (48000, 1.9), (63000, 4.2)]

Kamu bisa memberikan insight berupa visual

Studi Kasus 4: Dibayar atau Tidak Dibayar

VP juga pengen tahu nih akun mana aja dari karyawan dengan pengalaman dan gaji yang bayar produk perusahaan. Data yang akan diberikan seperti ini, bisa kah kamu mencari tahu?

0.7 paid
1.9 unpaid
2.5 paid
4.2 unpaid
6.0 unpaid
6.5 unpaid
7.5 unpaid
8.1 unpaid
8.7 paid
10.0 paid

Studi Kasus 5: Topik dan Interest

VP juga pengen tahu topik yang lagi trending. Kamu akan mendapatkan data berikut

interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
    (0, "Spark"), (0, "Storm"), (0, "Cassandra"),
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
    (1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
    (2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
    (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"),
    (4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
    (5, "Haskell"), (5, "programming languages"), (6, "statistics"),
    (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
    (7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
    (8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
    (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

Bisa kah kamu mencari tahu?

Kontemplasi

Gimana, sewaktu baca studi kasus diatas, apakah kamu punya bayangan bagaimana cara menyelesaikannya? Kalo kamu sudah punya bayangan meski sedikit aja, selamat! barang kali pekerjaan data scientist cocok untuk kamu

Namun ingat ini baru perkenalan aja lhooo, kedepannya kamu akan bergulat dengan model model yang mebantu kamu untuk mencari tahu penjelasan dari data data berantakan yang biasa kamu jumpai di Kaggle

Lalu Apa Bedanya dengan Data Analyst?

Data Scientist dituntut untuk bisa mempelajari model berupa machine learning untuk mendapatkan hasil yang diinginkan. Sedangkan Data Analyst tidak demikian, DA memiliki job yang jauh lebih ringkas karena aplikasi yang mereka pakai cukup dengan aplikasi seperti Excel dan PowerBI

Data Scientist cenderung lebih ngodingnya karena mereka harus mengolah model model yang terkadang membutuhkan kemampuan ML untuk melihat dataset

Kesimpulan

Pekerjaan data scientist menurut Data Science From Scratch ternyata tidak seteknikal yang kita kira. Semuanya tergantung kekreatifitasan kita  mengolah setumpuk data yang ingin dilihat oleh para atasan. 

Post a Comment (0)
Previous Post Next Post