Data Pipeline: Definisi, Komponen, Tipe, dan Use Case-nya
Vikra Alizanovic April 10, 2023 7 min read
Apa itu data pipeline? Bayangkan sebuah pipa air. Nah, sekarang ganti air tersebut dengan data.
Data pipeline adalah alasan utama sebuah data bisa mengalir dari sumber ke tujuan dengan efisien, cepat, dan dengan kualitas yang terjaga.
Artikel ini akan membahas data pipeline mulai dari definisi, komponen, tipe-tipe, dan contoh penggunaan data pipeline.
Definisi data pipeline
Data pipeline adalah metode atau sistem yang mengatur dan mengotomatisasi pergerakan atau perpindahan data dari sumber, yang kemudian diproses, hingga menuju ke repository atau ruang penyimpanan.
Data pipeline mengatur bagaimana raw data dikumpulkan dari berbagai sumber, hingga kemudian disimpan dalam sebuah sistem penyimpanan data, seperti data lake maupun data warehouse.
Sebuah data dapat bersumber dari mana pun, seperti:
- API,
- SQL,
- spreadsheet,
- flat file, dsb.
Namun, data yang dikumpulkan ini cenderung masih bersifat mentah.
Oleh karena itu, sebelum data masuk ke repository, data diproses terlebih dahulu guna memastikan integrasi dan standarisasi data yang sesuai dengan kebutuhan analisis. Langkah pemrosesan data ini juga termasuk dalam alur data pipeline.
Komponen yang wajib ada dalam data pipeline
Data pipeline tidak berdiri begitu saja. Untuk bisa berfungsi sebagai sistem yang kokoh, sebuah data pipeline disokong oleh berbagai komponen berikut:
Source
Source, atau origin, adalah titik masuknya data ke dalam sebuah data pipeline dari sumbernya.
Sumber data dapat berupa IoT (Internet of Things), aplikasi, media sosial, API, dataset publik, hingga sistem database.
Processing
Komponen processing mencakup segala aktivitas dan langkah-langkah data ingestion dari sumber-sumbernya, yang kemudian berlanjut ke penyimpanan, transformasi, dan perpindahan data ke tujuannya.
Destination
Destination adalah titik akhir pergerakan data dalam data pipeline. Destination ini bisa berbeda-beda tergantung sistem yang digunakan perusahaan.
Contohnya bisa berupa data lake, data warehouse, data mart, hingga BI tools untuk kebutuhan analisis.
Data flow
Data flow merupakan bagian dari komponen processing yang mengacu pada perpindahan data dari source, transformasi data, hingga mencapai destination.
Salah satu pendekatan dalam data flow yang paling populer adalah ETL (Extract, Transform, Load).
Storage
Storage adalah sistem penyimpanan data dalam setiap tahapan seiring data berjalan melalui proses data pipeline..
Workflow
Workflow merupakan rangkaian proses dalam data pipeline, beserta keterkaitan antar proses di dalamnya.
Monitoring
Monitoring bertujuan memastikan semua tahapan proses dalam data pipeline berjalan semestinya.
Tipe-tipe data pipeline
Terdapat tiga tipe data pipeline yang dibedakan berdasarkan arsitekturnya.
Batch processing
Seperti namanya, tipe data pipeline ini memproses data dalam jumlah banyak sekaligus. Pemrosesan serentak ini dilakukan berdasarkan pengaturan interval waktu tertentu–biasanya dilaksanakan di luar jam kerja.
Tujuannya agar proses kerja lain tidak terbebani, mengingat proses ini cukup berat karena berhadapan dengan volume data yang besar.
Tipe batch processing ini ideal digunakan ketika perusahaan tidak memiliki kebutuhan yang mendesak untuk analisis data spesifik.
Workflow dari data pipeline tipe ini biasanya terdiri atas beberapa perintah yang berurutan. Output dari satu perintah kemudian diinput ke perintah berikutnya, dan seterusnya, hingga data siap untuk disimpan untuk analisis.
Streaming data
Tipe data pipeline berikutnya yang cukup populer digunakan adalah streaming data. Berbeda dengan batch processing, jenis pipeline ini menghasilkan data yang terupdate secara real-time.
Dalam arsitektur ini, pengumpulan data dari sumber dan pemrosesan data bisa terjadi secara paralel.
Itulah mengapa jenis data pipeline ini ideal untuk perusahaan yang butuh pembaharuan data secepat mungkin. Contohnya pada bisnis penjualan produk atau ecommerce yang membutuhkan update stok barang secara real-time.
Streaming data memiliki latensi yang lebih rendah daripada batch inventory. Namun karena pemrosesan data terjadi secara real-time, banyak data cenderung terhambat di antrian proses. Dengan kata lain, tingkat akurasi dari sistem ini tidak sebaik sistem batch processing.
Lambda architecture
Lambda architecture merupakan tipe data pipeline dengan konsep hybrid yang menggabungkan sistem batch processing dan streaming data menjadi satu arsitektur.
Jenis data pipeline ini cukup populer digunakan dalam situasi yang berhadapan dengan big data, sebab arsitekturnya membuat para developer bisa mengelola data secara real-time, sekaligus melakukan historical batch analysis.
Jenis data dalam data pipeline
Berikut adalah beberapa jenis data yang diproses melalui data pipeline:
Structured dan unstructured data
Structure data merupakan kumpulan data atau informasi yang sudah diorganisir sedemikian rupa sesuai dengan model atau prasyarat yang sudah ditentukan.
Sedangkan unstructured data adalah kumpulan data yang tidak terorganisir, sehingga bentuk dan format antar data bisa saja berbeda-beda.
Raw data
Raw data, atau data mentah, merupakan jenis data yang diambil dari berbagai sumber dan belum diproses sama sekali.
Raw data disebut juga primary data atau data primer.
Processed data
Processed data merupakan kumpulan dari raw data yang diolah dan diproses ke format yang lebih mudah untuk dianalisis dan divisualisasikan.
Cooked data
Cooked data adalah raw data yang sudah diproses, diekstraksi, dan diorganisir untuk kemudian dianalisis dan disimpan.
Mengapa data pipeline penting diperhatikan?
Tanpa adanya data pipeline, proses perpindahan data dari sumber hingga siap untuk dianalisis akan berjalan dengan sangat lambat dan kompleks.
Berikut adalah beberapa alasan mengapa data pipeline sangat penting untuk diperhatikan:
- Data pipeline mampu mempercepat proses analisis data
- Dengan rangkaian proses dalam pipeline, kualitas dan konsistensi data jadi lebih terjaga
- Menciptakan insight bisnis yang reliabel
- Mengidentifikasi tren dan pola periodik berkat repetisi proses
- Memudahkan integrasi terhadap dataset baru
Use case data pipeline
Sekarang kamu sudah tahu mengapa data pipeline penting untuk diimplementasikan.
Pengaplikasian dari data pipeline pun sangatlah luas; mulai dari analisis data, visualisasi data, hingga machine learning.
Berikut adalah beberapa contoh atau use case data pipeline pada beberapa perusahaan besar:
Macy’s
Macy’s merupakan perusahaan chain of high-end department store di Amerika Serikat yang berfokus pada penjualan label pakaian mewah, aksesoris, dan barang fashion lainnya.
Pada November 2021, Macy’s meluncurkan online marketplace-nya.
Dengan tujuan memberikan pengalaman belanja yang terintegrasi bagi konsumen, Macy’s mengimplementasikan data pipeline yang menyatukan database on-premise mereka dengan Google Cloud.
Dengan begitu, tiap transaksi yang terjadi di toko fisik maupun di website bisa terupdate secara real-time.
Tujuannya adalah agar setiap konsumen yang belanja di toko fisik maupun di website dapat memiliki experience dan pelayanan yang serupa.
Halodoc
Siapa yang tidak kenal Halodoc di Indonesia?
Halodoc menggunakan tipe batch processing data pipeline dalam bisnisnya guna memindahkan jutaan data pengguna aplikasi dari sumbernya ke data warehouse.
Berikut adalah struktur data pipeline yang digunakan Halodoc:
Uber
Di tahun 2023, terhitung ada sebanyak 118 juta pengguna Uber secara global.
Tentunya data yang terkumpul dari ratusan juta pengguna ini memerlukan sistem yang mumpuni untuk pemrosesan datanya.
Oleh karena itu, di tahun 2015 Uber mengembangkan Michelangelo, yang merupakan sebutan untuk sistem data pipeline milik mereka.
Michelangelo merupakan platform machine learning internal yang bertugas mengelola manajemen data serta training, asesmen, dan peluncuran workflow ML di perusahaan tersebut.
Dengan informasi yang diolah oleh Michelangelo, Uber juga mampu memprediksi tren industri dan mengambil keputusan bisnis terbaik.
Dengan data pipeline ini, Uber juga mengelola banyak output data, seperti:
- estimasi kapan pengantaran makanan akan tiba,
- ranking restoran, hingga
- fitur autocomplete untuk pencarian makanan di aplikasinya.
Pengumpulan, transformasi, hingga pemindahan data merupakan tugas yang kompleks dan memakan waktu. Tapi dengan adanya data pipeline, pekerjaan jadi lebih mudah.
Semua orang di perusahaan jadi mampu menggunakan data untuk segala kebutuhan, baik itu keputusan strategis atau evaluasi operasional.
Singkat kata, data pipeline membuat segala kebutuhan perusahaan terkait data jadi lebih jelas, akurat, dan efisien.
Tertarik belajar menyusun data pipeline dan solusi end-to-end data engineering? Belajar di Pacmann sekarang!
Cek informasi lengkapnya di halaman program AI and ML Engineering Pacmann.
Further reading:
Artikel Popular
Data Engineer dan ML Engineer: Perbedaan Tanggung Jawab, Skill, dan Gaji
July 23, 2023
Mengenal Data Preprocessing: Langkah Awal dalam Data Mining
July 21, 2023
Apa yang Dimaksud dengan Machine Learning?
July 21, 2023
Ini Dia Alasan Mengapa Data Scientist Digaji Besar!
July 20, 2023
Pentingnya Business Intelligence (BI) Dashboard untuk Pengambilan Keputusan Bisnis
July 19, 2023