Apa itu data science hierarchy of needs? Dan mengapa semua data scientist wajib memahaminya?
Faktanya, profesi seperti data scientist, data analyst, hingga AI/ML engineer merupakan profesi yang banyak dicari saat ini.
Kendati demikian, tidak akan ada perusahaan yang mau merekrut ahli data yang tidak paham ilmu-ilmu mendasar yang terkait bidangnya.
Seorang data professional wajib memiliki pengetahuan dasar serta konteks yang kuat terkait bidangnya.
Nah, artikel ini akan membahas tahapan-tahapan dasar yang perlu kamu pahami dan lewati selaku data professional, melalui sebuah model populer yang disebut data science hierarchy of needs.
Apa Itu data science hierarchy of needs?
Data science hierarchy of needs merupakan model yang ditelurkan oleh Monica Rogati di tahun 2017.
Secara garis besar, model ini menggambarkan framework data science yang bersifat mendasar dan penting dalam praktik advanced computer processing.
Lewat model piramida ini, harapannya para engineer maupun programmer dapat memenuhi level dasar terlebih dulu, yang terdiri atas proses-proses sederhana seperti pengumpulan dan penyimpanan data.
Setelah itu baru mereka bisa dengan ideal mencapai ‘puncak’, yakni artificial intelligence dan deep learning.
Faktor utama yang melatarbelakangi munculnya model ini adalah kekhawatiran Rogati akan institusi-institusi yang membangun artificial intelligence tanpa sebelumnya memperhatikan prinsip-prinsip yang lebih fundamental dalam data science.
Konsep hierarki piramida ini merupakan saduran dari teori Hierarchy of Needs hasil pemikiran Abraham Maslow yang merupakan psikolog dari Amerika pada tahun 1943.
Secara umum, teori Hierarchy of Needs Maslow menjelaskan bahwa manusia memiliki lima tingkatan kebutuhan. Kemudian, manusia cenderung memenuhi kebutuhan tersebut berdasarkan hierarki, dimulai dari hierarki terbawah hingga teratas.
Prinsip keduanya serupa; yakni untuk memenuhi kebutuhan paling puncak, manusia perlu memenuhi kebutuhan dari yang paling mendasar terlebih dahulu.
Namun, apakah artinya semua data scientist wajib mengikuti piramida ini?
Apakah wajib mengikuti data science hierarchy of needs? Apa pentingnya?
Marc Arsenault, seorang data scientist dari Shopify mengatakan bahwa kesuksesan kerja data justru dihasilkan bukan dari tools super canggih maupun segudang algoritma, melainkan pemahaman yang mendetail atas bisnis, produk, dan data.
Dengan mengikuti hierarki data science ini, data scientist, software engineer, hingga para programmer mampu menghasilkan produk yang lebih bagus, kokoh, dan berkualitas.
Penguasaan mendalam terhadap proses pengumpulan dan penyimpanan data tentunya akan berdampak besar terhadap optimasi fungsi kerja yang lebih mutakhir, seperti artificial intelligence.
Tak hanya itu, berikut adalah beberapa manfaat penting lainnya dari model data science hierarchy of needs:
- Perencanaan yang lebih matang: Dengan mengikuti model ini, developer bisa membuat rencana sebelum memulai project guna memetakan komponen apa saja yang diperlukan sebelum berlanjut ke hal-hal yang lebih kompleks.
- Peningkatan kolaborasi: Merujuk ke model hierarki ini, kamu bisa mendelegasikan pekerjaan berdasarkan kebutuhan spesifik. Misalnya, data analyst mengurus analisis data dan data engineer mengurus data pipeline.
- Pengalokasian budget yang lebih baik: Ketika kamu memahami model ini, kamu jadi tahu keperluan budget yang lebih mendesak dari tiap departemen yang mengurus data dan bisa menentukan alokasi dana dengan efektif.
Tahapan-tahapan dalam data science hierarchy of needs
Dalam data science hierarchy of needs terdapat lima tahapan yang harus dipenuhi sebelum perusahaan atau institusi bisa membangun artificial intelligence. Berikut pemaparannya:
Data collection
Di level paling bawah dari piramida data science adalah data collection. Proses pengumpulan data ini memiliki peran krusial dalam seluruh rangkaian proses data science.
Dalam proses ini, data engineer atau data infrastructure engineer berperan menjalankan tahapan-tahapan pengumpulan data, termasuk:
- Mengetahui cara mengoperasikan tools pengoleksian data
- Menentukan data mana yang relevan dan sesuai dengan tujuan akhir
- Mencari data yang berkualitas baik serta mengumpulkan sumber data
- Mampu mengelola data dengan volume yang masif.
Contohnya seperti pada perusahaan kereta api. Sebagai perusahaan dengan produk yang bersinggungan langsung dengan konsumen setiap harinya, data scientist perlu tahu cara seperti apa yang perlu digunakan untuk mengumpulkan data konsumen.
Misalnya melalui sensor jalur kereta, data pembelian tiket, dsb.
Pemilihan sumber data yang tepat tentunya berpengaruh terhadap kualitas hasil analisis, dan berlanjut mempengaruhi kualitas keputusan penting yang diambil berbasis analisis data tersebut.
Oleh karena itu, penting bagi data scientist untuk menguasai dan berpartisipasi dalam proses pengumpulan data sebelum berlanjut ke tahapan berikutnya..
Aktivitas dalam tahap ini umumnya terdiri atas:
- Mencatat transaksi
- Melakukan digitalisasi data analog
- Menyusun rencana data management
- Mengelola dan mengembangkan database
- Mengakuisisi data
Move/store
Tahapan berikutnya adalah pemindahan atau penyimpanan data, alias data storing atau data flow.
Setelah data scientist sukses mengumpulkan data, tentunya data tersebut perlu dipindahkan ke tempat yang aman sekaligus mudah diakses.
Seringkali hasil dari pengumpulan data menghasilkan dataset yang berantakan. Oleh karena itu, data scientist perlu memahami cara agar data yang dikumpulkan terstruktur dengan baik dan siap untuk dianalisis.
Tidak jarang tahapan ini bersinggungan dengan kerja data engineer, khususnya dalam memastikan adanya data flow yang mulus.
Aktivitas dalam tahap ini mencakup:
- Pengelolaan migrasi data
- Penerapan ETL atau ELT
- Penyusunan infrastruktur data
Explore/transform
Tahapan berikutnya adalah proses eksplorasi, transformasi data menjadi format yang sesuai, hingga analisis data.
Di tahap ini dilakukan data cleaning yang bertujuan memastikan format data yang konsisten serta menghapus porsi dataset yang tidak relevan.
Selain itu dilakukan juga deteksi anomali guna mengidentifikasi deviasi dari pola data normal.
Sementara proses analisis data dalam tahapan ini hanyalah mencakup proses awal saja, seperti penerapan exploratory data analysis.
Tujuan besar dari tahapan ini adalah untuk memastikan data terorganisir dengan baik untuk diproses ke tahapan selanjutnya.
Sekian elemen dari tahapan ini sangatlah krusial, sebab jika hasilnya kurang memuaskan, tidak jarang data scientist harus kembali ke tahap data collection.
Aktivitas dalam tahap ini umumnya mencakup:
- Data cleaning
- Deteksi anomali
- Analisis data tahap awal
Aggregate/label
Setelah data ditransformasi dan terorganisir dengan baik, saatnya lanjut ke tahapan berikutnya. Proses data aggregation bertujuan meningkatkan kemudahan akses dengan cara memberikan label terhadap setiap informasi serta mengimplementasikan data analytics.
Contohnya seperti penggunaan metrik dashboard guna mengevaluasi KPI perusahaan.
Dengan sistem pelabelan data yang efektif, setiap pengguna akan lebih cepat dan lebih mudah dalam mengakses data spesifik yang mereka cari.
Oleh karena itu, sistem data storage juga memiliki peran vital dalam tahapan ini, terutama dengan hadirnya sistem data lake dan data warehouse.
Dalam konteks penyusunan artificial intelligence, tahapan ini juga bisa menghasilkan fitur-fitur dasar yang berguna dalam pembuatan model machine learning. Misalnya, mencari tahu poin-poin kognitif apa saja yang bisa kamu input dalam sistem artificial intelligence.
Aktivitas dalam tahap ini umumnya mencakup:
- Menjalankan analisis dan melakukan presentasi analisis
- Membuat metrik dan fitur model machine learning
- Membuat data training
Learn/optimize
Di tahap ini, sebagian besar training data terkait model machine learning sudah terkumpul. Meski begitu, proses masih belum selesai.
Tahapan ini merupakan langkah dimana data scientist melakukan A/B testing atau eksperimen terhadap modelnya.
Langkah ini menjadi semakin penting apabila produk AI yang dibuat merupakan produk yang akan diluncurkan untuk publik, bukan hanya untuk internal.
Dengan melakukan langkah ini terlebih dahulu, kamu bisa menghindari kesalahan serta memetakan bagaimana sistem bekerja sebelum diakses oleh publik.
Aktivitas dalam tahap ini:
- Melakukan A/B testing dan eksperimen
- Membuat algoritma machine learning sederhana
Deep learning dan artificial intelligence
Terakhir adalah tahapan tertinggi dari data science hierarchy of needs, yakni artificial intelligence dan deep learning. Ranah tertinggi ini merupakan cakupan pekerjaan seorang machine learning engineer.
Untuk mencapai tahap ini, diperlukan adanya kompetensi antar stakeholder yang terkait, mulai dari data infrastructure engineer hingga machine learning engineer.
Poin terpenting dari tahap ini adalah memastikan adanya data yang akurat, terstruktur, serta masif untuk membangun artificial intelligence.
Di tahap ini, machine learning engineer bisa melakukan eksperimen berupa perubahan serta penyesuaian algoritma berulang kali hingga mencapai hasil yang ditargetkan.
Tidak jarang mereka perlu kembali menilik tahapan analisis data guna merevisi algoritma dan menghasilkan respons AI yang lebih akurat.
Meski terdapat potensi kegagalan, seorang machine learning engineer wajib memiliki kapabilitas untuk terus melakukan pengembangan dan pengujian hingga mencapai level yang diinginkan klien atau perusahaan.
Sekarang kamu sudah tahu apa saja tahapan penting untuk mencapai pemahaman akan artificial intelligence dan deep learning.
Artificial intelligence yang kompeten dan akurat tidak akan terbentuk tanpa adanya basis data science yang kuat.
Di sini data science hierarchy of needs dapat berfungsi sebagai kerangka berpikir atau outline dari berbagai fase yang wajib dilalui dalam sebuah project data science apapun.
Nah, kalau kamu tertarik belajar data science, disarankan untuk belajar dari fundamentalnya.
Pacmann sudah sering membahas tentang ini termasuk dengan roadmapnya.
Kamu juga bisa belajar data science secara end-to-end di Job Preparation Program.
Simak infonya lebih lanjut di halaman Job Preparation Program Pacmann.
Further reading:
What is the Hierarchy of Needs in Data Science?
Artikel Popular
Data Engineer dan ML Engineer: Perbedaan Tanggung Jawab, Skill, dan Gaji
July 23, 2023
Mengenal Data Preprocessing: Langkah Awal dalam Data Mining
July 21, 2023
Apa yang Dimaksud dengan Machine Learning?
July 21, 2023
Ini Dia Alasan Mengapa Data Scientist Digaji Besar!
July 20, 2023
Pentingnya Business Intelligence (BI) Dashboard untuk Pengambilan Keputusan Bisnis
July 19, 2023