Data Mart: Definisi, Manfaat, dan Tipenya
Vikra Alizanovic April 5, 2023 8 min read
Apa itu data mart? Sistem penyimpanan data satu ini merupakan pilihan ideal bagi banyak perusahaan karena aksesnya yang mudah dan fungsinya yang membantu operasional departemen atau unit bisnis khusus dalam perusahaan.
Sebelumnya, Pacmann sudah membahas soal data lake. dan data warehouse.
Nah, di tulisan ini akan dibahas apa itu data mart, termasuk manfaat, cara kerja, dan tipe-tipenya. Silakan disimak!
Definisi data mart
Data mart adalah sistem penyimpanan data yang berisikan informasi dari suatu unit bisnis perusahaan yang spesifik–subset dari data warehouse. Data yang tersimpan dalam data mart biasanya berukuran kecil.
View this post on Instagram
Perusahaan biasanya memilih dan menyeleksi beberapa data yang setopik dari keseluruhan kumpulan data, lalu menyimpan bagian yang diseleksi tersebut dalam data mart.
Oleh karena itu, data mart kerap digunakan sebagai instrumen analisis untuk permasalahan departemen-departemen spesifik dalam perusahaan.
Misalnya, jika bagian sales membutuhkan analisis penjualan setahun terakhir, maka mereka cukup mengakses data mart yang menyimpan data khusus penjualan.
Data dalam data mart juga biasanya sudah berbentuk rangkuman, sehingga membuat para stakeholder lebih cepat menggunakan data tersebut untuk mengambil keputusan.
Perbandingan antara data mart, data warehouse, dan data lake
Selain data mart, terdapat jenis sistem penyimpanan data lain yang banyak digunakan oleh bisnis, yakni data lake dan data warehouse.
Data mart, data lake, dan data warehouse sama-sama memiliki fungsi sebagai data storage. Namun ketiganya memiliki fungsi spesifik masing-masing, sehingga skenario penggunaannya pun berbeda.
Kendati demikian, bukan tidak mungkin untuk menggunakan ketiganya sekaligus.
Biasanya, data lake digunakan sebagai sebuah initial storage, yakni tempat penyimpanan pertama.
Segala data dari berbagai sumber dimasukkan ke data lake sebab data lake mampu menyimpan data dalam jenis dan format apapun tanpa ada batasan size. Namun, karena data dalam data lake tidak terstruktur, data-data kemudian diproses kembali, ditransformasi, dan dipindahkan ke data warehouse, yang fungsinya untuk menyimpan data yang berbentuk terstruktur agar lebih mudah dianalisis.
Kemudian di dalam data warehouse, data-data yang sudah terstruktur dipartisi dan diseleksi menjadi beberapa segmen atau topik spesifik dan disimpan dalam data mart.
Jadi, tiap data mart hanya menyimpan data dengan topik tertentu saja.
Setelah data-data tersebut ada di Data Warehouse, selanjutnya bisa digunakan di Data Mart.
Biasanya, data yang ada di Dashboard Tool atau Reporting Tool adalah data yang berasal Data Mart. pic.twitter.com/H60SNdGqby
— Pacmann Media (@pacmannai) January 5, 2023
Nah, untuk lebih mudah memahami perbedaan antara data mart, data warehouse, dan data lake, kamu bisa simak tabel di bawah ini.
Perbedaan | Data lake | Data warehouse | Data mart |
---|---|---|---|
Penggunaan | Memfasilitasi kebutuhan predictive analytics dari berbagai jenis data berbeda | Memfasilitasi kebutuhan analisis dan reporting dari keseluruhan organisasi atau perusahaan | Memfasilitasi kebutuhan analisis dan reporting dari departemen atau bagian khusus dalam perusahaan |
Penyimpanan data | Data dalam berbagai jenis dan format yang masih mentah | Structured data dengan jumlah yang besar | Structured data yang sudah diproses dalam jumlah kecil atau terbatas dan spesifik |
Sumber data | Bisa dari sumber mana pun | Kumpulan sumber eksternal maupun internal dengan berbagai topik/fokus | Beberapa sumber yang mengacu ke satu area bisnis tertentu |
Ukuran | >100 GB | >100 GB | <100 GB |
Manfaat data mart
Meskipun data lake dan data warehouse mampu menyimpan volume data yang lebih besar dan lebih beragam daripada data mart, hal ini tidak selalu menguntungkan.
Seringkali pengambil keputusan dalam perusahaan didorong untuk mengambil keputusan berbasis data dengan cepat. Di sinilah data mart sangat berguna.
Dengan topik yang spesifik, keputusan penting bisa diambil berdasarkan data-data yang relevan.
Selain itu, data mart juga punya banyak kelebihan lain, di antaranya:
Reliabilitas data
Meskipun memiliki lingkup topik data yang kecil, tingkat kebenaran data dalam sistem penyimpanan ini terbilang tinggi.
Sehingga, data mart sangat bisa diandalkan untuk penarikan insight serta sebagai basis pengambilan keputusan penting terkait departemen tertentu.
Kemudahan akses
Dibandingkan dengan data warehouse yang memiliki data terstruktur dengan jumlah banyak dan topik yang luas, data mart hanya memiliki subset data yang bisa diakses kapanpun dengan mudah.
Insight dan pengambilan keputusan yang lebih cepat
Dengan data mart, seringkali data yang tersimpan hanyalah data yang relevan dan sering dibutuhkan.
Oleh karena itu, data mart mampu mendongkrak kecepatan analisis dan penarikan insight, terutama dengan pemanfaatan BI tools yang tepat.
Cost lebih rendah
Kapasitas penyimpanan data mart yang lebih rendah daripada data warehouse juga membuatnya lebih murah dan mudah untuk dijalankan untuk operasional jangka pendek.
Implementasi dan pemeliharaan yang lebih mudah
Konten data dalam data mart hanya mencakup data yang penting dan terangkum khusus untuk penggunaan unit atau departemen tertentu dalam perusahaan.
Hal ini juga mempengaruhi proses implementasi dan maintenance untuk data mart. Sebab, alih-alih mengurus keseluruhan data perusahaan, kamu hanya perlu fokus memenuhi kebutuhan satu departemen saja.
Cocok untuk short-term project
Seperti disebutkan di atas, data mart adalah sistem penyimpanan data yang ideal untuk project jangka pendek. Misalnya seperti riset terhadap efektivitas sebuah ad campaign.
Tipe-tipe data mart
Berdasarkan hubungannya dengan data warehouse serta sumber datanya, data mart terbagi menjadi tiga jenis, yakni dependent, independent, dan hybrid yang merupakan gabungan dari dua lainnya.
Dependent data mart
Dependent data mart disusun dari enterprise data warehouse (EDW) yang sudah ada sebelumnya.
Proses penyusunannya dimulai dengan menyimpan semua data bisnis dalam satu lokasi yang terpusat, kemudian data diekstraksi berdasarkan porsi data yang dibutuhkan saja dan dipartisi ke dalam data mart
- Kelebihan: proses administrasi data, termasuk backup dilakukan secara terpusat pada data warehouse, sehingga penggunaan data mart bisa dilakukan lebih mudah.
- Kekurangan: karena berjalannya data mart terpusat pada data warehouse, jika data warehouse offline, maka data mart ikut offline juga.
Independent data mart
Berlawanan dengan dependent data mart yang bergantung pada data warehouse, independent data mart justru tidak membutuhkan data warehouse untuk beroperasi.
Jadi, data dari berbagai sumber yang sudah melalui proses ETL akan otomatis masuk ke dalam data mart hingga siap digunakan oleh pihak yang membutuhkan.
- Kelebihan: tiap departemen atau unit bisnis bisa mengatur data mart agar sesuai dan sejalan dengan kebutuhan operasional masing-masing.
- Kekurangan: karena tiap data mart berjalan sendiri, dibutuhkan teknisi ahli yang khusus mengatur infrastruktur sistem penyimpanan untuk tiap data mart.
Hybrid data mart
Sesuai dengan namanya, tipe data mart satu ini menggabungkan konsep dari dua tipe di atas.
Dalam model hybrid ini, beberapa data mart dalam perusahaan bisa dijalankan dalam data warehouse, dan beberapa lainnya bisa berdiri sendiri.
Biasanya, hybrid data mart digunakan sebagai transit untuk data-data baru sebelum diklasifikasikan berdasarkan fokus topiknya.
- Kelebihan: cocok untuk perusahaan dengan multi-environment database
- Kekurangan: butuh sumber daya lebih, khususnya admin database yang mengurus maintenance dan implementasi dari data mart yang terhubung dengan data warehouse, sekaligus yang berdiri sendiri.
Struktur data mart
Pada dasarnya, struktur data mart merupakan relational database yang bersifat subject-oriented. Dengan kata lain, data disimpan dalam bentuk tabel dengan baris dan kolom.
Berdasarkan skemanya, struktur data mart memiliki tiga jenis, yakni star, snowflake, dan vault.
Star
Struktur data mart satu ini berbentuk seperti bintang. Dalam struktur star ini, terdapat satu tabel fakta di bagian tengah struktur, serta beberapa tabel dimensi di sekitarnya.
Tabel fakta merupakan proses atau tujuan spesifik yang ingin ditampilkan dalam data mart. Sementara itu, tabel dimensi merupakan data-data yang terkait atau menopang tabel fakta.
Karena tidak ada dependensi antar tabel dimensi, proses ETL jadi lebih cepat sehingga akses dan navigasi untuk dataset berukuran besar jadi jauh lebih efisien.
Snowflake
Bisa dibilang bahwa skema snowflake merupakan perpanjangan dari skema star, dengan tambahan tabel dimensi.
Tambahan tabel dimensi terbentuk dari atribut-atribut yang memiliki value unik, yang kemudian dipisah untuk membentuk tabel baru.
Oleh karena itu, integritas data pada skema snowflake jadi lebih terjamin. Namun, kekurangannya adalah proses query jadi lebih kompleks karena bertambahnya joins antar tabel.
Vault
Skema vault merupakan struktur berlapis yang dirancang untuk meningkatkan kecepatan dan efisiensi performa dalam pengelolaan data dalam data warehouse sebelum disegmentasi ke dalam data mart.
Struktur ini lebih populer dan banyak diadopsi karena memiliki pengaplikasian yang lebih mudah daripada struktur star maupun snowflake.
Cara kerja data mart
Data mart bekerja dengan cara mengubah informasi yang mentah (raw) menjadi informasi yang memiliki value untuk departemen atau unit bisnis tertentu.
Ketika data mart terhubung dengan data warehouse, informasi diseleksi berdasarkan relevansi dengan unit bisnis tertentu.
Kemudian proses integrasi dan transformasi data dari berbagai sumber menjadi sebuah database tersendiri dijalankan dengan proses ETL (Extract Transform Load).
Dengan tools ETL, informasi di-copy dari sumber eksternal, seperti spreadsheet, aplikasi, atau dokumen teks lainnya. Kemudian data mart memproses, mengorganisir, dan menyimpan data-data tersebut dalam bentuk yang terstruktur.
Setelah data tersimpan dalam bentuk yang terstruktur, data dapat dimanfaatkan untuk proses analisis oleh data engineer atau business analyst.
Sekarang kamu sudah tahu apa itu data mart, beserta manfaat, tipe-tipenya, hingga cara kerjanya.
Kesimpulannya, data mart adalah sistem penyimpanan yang ideal untuk fokus unit bisnis tertentu.
Misal, jika bagian sales ingin mendapatkan insight untuk performa penjualan, maka mereka cukup mengakses data mart untuk topik sales saja.
Di era big data, manajemen data yang baik merupakan salah satu kunci keberhasilan perusahaan.
Dengan adanya data mart, perusahaan dapat mengakses data dengan lebih cepat dan menarik insight spesifik tanpa proses yang kompleks.
Further reading:
Artikel Popular
Big Data dan Data Mining: Perbedaan dan Hubungannya
June 5, 2023
Mengenal Lebih Jauh tentang Neural Network
June 2, 2023
10 Rekomendasi Blog Data Science Terbaik untuk Diikuti
June 1, 2023
Rekomendasi Course Data Engineering Bersertifikat
May 31, 2023
Bagaimana Machine Learning (ML) Dapat Bantu Mencegah Serangan Phishing
May 30, 2023