Blog Serba-serbi Data Scientist yang Wajib Kamu Tahu

Serba-serbi Data Scientist yang Wajib Kamu Tahu

Sarah Juliandiny Agustus 17, 2022 8 min read

Buat kamu yang penasaran dengan role data scientist, jangan skip artikel ini!

Pacmann akan membagikan kamu informasi tentang data scientist dan serba-serbi data scientist yang wajib kamu tahu.

Sederhananya, data scientist adalah profesi yang bertugas menganalisis, memproses, memodelkan data, dan kemudian menginterpretasikan hasilnya untuk mendukung keputusan bisnis ke depannya.

Cek infografis dari TechTarget berikut ini.

a woman sitting on a chair with list of characteristics of a data whisperer by TechTarget

Secara definisi memang terdengar mudah, tapi mari kita kupas lebih dalam apa saja siklus yang dijalani oleh seorang data scientist.

Tugas dan pekerjaan data scientist

Pada dasarnya, tugas dan pekerjaan data scientist dapat dibagi menjadi beberapa bagian penting.

Dataiku telah membuat grafis sederhana tentang data science project berikut, yang pada dasarnya adalah serangkaian tugas yang harus dilakukan oleh data scientist sehari-hari.

data science project process

Mulai dari awal saat sebelum mengumpulkan data, sampai dengan membuat model dan mengoptimasinya untuk kebutuhan pengambilan keputusan (data-driven decision making).

Menentukan tujuan

Hal pertama yang jadi tugas data scientist adalah menentukan tujuan pengolahan data.

Hal ini harus dilakukan jauh sebelum mengembangkan model.

Parameter kesuksesan dari suatu model bukan hanya seberapa canggih teknologi yang digunakan, tapi juga seberapa banyak permasalahan yang mampu terjawab oleh model tersebut.

Maka dari itu, penting untuk mengetahui apa saja tujuan yang ingin dicapai oleh perusahaan atau bisnis yang dapat dibantu dengan model.

Kamu bisa mengetahui hal ini dengan cara mengajukan beberapa pertanyaan kepada para stakeholder atau client.

Ada lima pertanyaan yang biasanya dapat dijawab dengan bantuan data science, yaitu:

  • How much/how many? (regression)
  • Which category? (classification)
  • Which group? (clustering)
  • Is this weird? (anomaly detection)
  • Which option should be taken? (recommendation)

Brandon Rohrer, Machine Learning Engineer di LinkedIn, menulis dengan lebih lengkap tentang pertanyaan-pertanyaan ini di sini.

Mengumpulkan data

Dengan kecepatan produksi data di dunia saat ini mencapai 2.5 quintillion bytes data per hari (quintillion, 18 nol), rasanya tidak akan ada masalah terkait pengumpulan data.

Namun, tiap data science project punya tantangannya sendiri terkait dengan sumber dan ketersediaan data.

Beberapa data mudah untuk didapatkan, beberapa data lain cukup rumit hanya untuk mengumpulkannya apalagi membersihkannya.

Beragam sumber data yang bisa digunakan adalah media sosial, digital library, API, web scraping, hingga data yang berbentuk CSV/XML/jSON.

Data-data ini perlu dikumpulkan dari sumber internal maupun eksternal untuk membantu mengatasi permasalahan bisnis.

Membersihkan data

Membersihkan data pada dasarnya menghilangkan perbedaan yang ada seperti menghapus kolom yang tidak dibutuhkan serta mengubah format ke struktur yang diinginkan.

Idealnya pekerjaan ini dilakukan oleh para data engineer.

Namun faktanya, data scientist banyak menghabiskan waktu mereka di tahap ini.

Nama lain dari proses ini adalah data wrangling.

Memperkaya data

Dalam banyak kasus data science project, perlu dilakukan yang namanya data enrichment.

Data scientist harus bisa menentukan atau melakukan testing jenis analisis apa yang akan dilakukan untuk mengambil insight dari data yang telah dikumpulkan dan bisa berguna untuk bisnis.

Data Science Foundation infographic

Sering kali, data yang telah dibersihkan belum cukup memadai untuk dilakukan analasis.

Setelah mendapatkan data terstruktur dari tahap pembersihan data, selanjutnya dilakukan data mining untuk memperkaya data serta menemukan pola dalam kumpulan data tersebut.

Visualisasi data dan mengambil insight

Setelah data dianalisis, data scientist akan menemukan insight apa yang dapat diambil dari hasil analisis tersebut.

Tugas data scientist selanjutnya adalah menyampaikan hasil analisis ini kepada stakeholder.

Pada tahap ini, kemampuan teknis saja tidak cukup.

Dibutuhkan visualisasi dan kemampuan untuk menceritakan kesimpulan yang dapat diambil dari data melalui storytelling.

Data storytelling dapat membantu dapat menarik perhatian para stakeholder/client dan mempermudah presentasi.

good data visualization example by Center for Engaged Learning

Visualisasi data ditambah dengan data storytelling akan menjadi hal yang krusial dalam tahapan tugas data scientist kali ini.

Perlu keterampilan untuk mengkomunikasikan insight secara efisien sehingga para stakeholder/client dengan latar belakang non-teknis dapat mengerti makna dari analisa yang dihasilkan

Deploy model

Secara teori, ini adalah langkah akhir dari satu siklus yang dijalani data scientist.

Untuk memastikan optimasi dapat terus dilakukan, di-deploy model yang spesifik untuk setiap masalah yang ingin diselesaikan.

Setelah mengumpulkan dan membersihkan data, menentukan algoritma, hingga memvisualisasikan insight yang ditemukan, idealnya permasalahan bisnis dapat ditemukan dan solusi untuk permasalahan tersebut berhasil terjawab.

Ingat, model yang baik adalah model yang menyelesaikan masalah dan sebisa mungkin sederhana.

Namun kenyataannya, siklus pekerjaan data scientist merupakan proses yang terus berulang.

Menerima masukan dari stakeholder/client adalah cara agar dapat mengembangkan model menjadi lebih baik lagi.

Dan model yang telah dibuat harus terus dilakukan maintenance, inilah kenapa dalam data industry, ada role spesifik untuk hal ini yaitu machine learning engineer.

Skills apa saja yang wajib dimiliki data scientist?

Setelah dibahas tugas dan pekerjaan data scientist, pertanyaan selanjutnya yang¬† muncul adalah “skill apa yang wajib dimiliki oleh data scientist?”

Untuk menjadi data scientist, kamu perlu memahami:

Maka dari itu, sebagian besar data scientist idealnya adalah lulusan STEM (Science Technology Engineering Math) dengan latar belakang jurusan Teknik Informatika, Computer Science, Statistik, Matematika, dan jurusan lain yang serupa.

Namun, jangan berkecil hati jika kamu bukan lulusan dari salah satu jurusan yang disebutkan barusan.

Karena tidak sedikit pula yang memiliki latar belakang non-teknis dapat berhasil berkarier menjadi seorang data scientist.

Rahasianya adalah konsisten belajar dan terus improve!

Jenjang karier data scientist

Data scientist adalah profesi dengan jenjang karier yang panjang serta level yang juga bertahap, dimulai dari junior, mid-level, hingga senior data scientist memiliki komposisi tanggung jawab berbeda-beda.

Seniority breakdown of data team infographic with star rating by Built In, an online community for National startups and tech companies. Referenced from Gartner.

Di beberapa perusahaan yang lebih data-driven, role data scientist tidak terbatas hanya ketiga role tersebut.

Juga ada jenjang lain seperti:

  • Lead data scientist
  • Data science manager (strategic)
  • Director of data science (strategic)
  • VP of data science (strategic)
  • Principal data science (technical)
  • Chief data scientist (technical)

Selain itu, juga terdapat beberapa role yang berkaitan dengan data scientist yaitu:

  • Data analyst,
  • Data engineer,
  • Machine learning engineer,
  • Data storyteller,
  • Database administrator,
  • Data architect,
  • Statistician,
  • Business analyst, dsb.

Kebutuhan akan data scientist semakin meningkat, namun ketersediaan pekerja dengan pengalaman yang mumpuni masih sedikit karena ilmu yang dibutuhkan relatif sulit dipelajari.

Hal ini yang membuat data scientist menjadi profesi dengan bayaran yang sangat fantastis.

Gaji data scientist

Data dari SalaryExpert, Junior Data Scientist di Indonesia dengan pengalaman kerja 1-3 tahun mendapatkan gaji rata-rata Rp295.642.886 per tahun atau sekitar 25 juta per bulan.

Di sisi lain, Senior Data Scientist dengan pengalaman kerja 8+ tahun memperoleh gaji rata-rata Rp521.974.416 per tahun atau sekitar 44 juta per bulan.

Data scientist salary potential graph from SalaryExpert.

Sumber yang sama juga menyatakan bahwa angka ini berpotensi meningkat sebesar 34% dalam 5 tahun ke depan.

Kebutuhan data scientist di Indonesia

Hal ini menggambarkan bahwa kebutuhan data scientist di Indonesia akan terus meningkat setiap tahunnya.

Data scientist merupakan profesi paling dicari banyak negara tak terkecuali Indonesia.

Bahkan saat ini terdapat 1000+ lowongan data scientist di beragam platform pencarian kerja (240+ hanya lewat pencarian sederhana di LinkedIn).

Buat kamu yang tertarik untuk berkarier di industri data, sudah saatnya untuk mulai memperdalam skill data science dan menjadi salah satu dari ribuan data scientist yang dicari oleh banyak perusahaan!

Untuk memulai, kamu bisa upgrade skill dan simply belajar data lewat program-program Pacmann, lho!

Pacmann menyediakan beberapa program untuk belajar tentang data, baik itu yang berbayar maupun gratis.

Buat kamu yang mungkin overwhelmed karena benar-benar memulai dari awal, tenang, metode pembelajaran di Pacmann beginner-friendly.

Namun, tidak akan membatasi kamu jika ingin belajar mendalam.

Prinsip belajar di Pacmann adalah mengejar pemahaman, #SeekMastery.

Jadi, jangan khawatir untuk memulai.

Ingin tanya-tanya hal lainnya tentang data science dan role data scientist?

Reach out Pacmann di Twitter.