Data Warehouse: Definisi, Komponen, dan Manfaatnya untuk Bisnis
Vikra Alizanovic April 4, 2023 10 min read
Data warehouse, atau gudang data, merupakan solusi penyimpanan yang ideal bagi perusahaan.
Berbagai fitur dan manfaatnya dapat mempermudah data scientist, data engineer, dan business analyst dalam melakukan analisis data.
Pada artikel ini, akan dibahas apa itu data warehouse, berikut manfaat, komponen, dan contoh penggunaannya.
Apa itu data warehouse?
Data warehouse adalah salah satu sistem manajemen data yang berfungsi untuk menyimpan informasi. Informasi yang disimpan dalam data warehouse dapat dianalisis untuk menarik insight yang berguna.
Data yang dikumpulkan dalam data warehouse dapat berasal dari berbagai sumber seperti data billing, CRM, log file, atau sumber lainnya. Proses pengambilan data dari berbagai sumber ini biasa disebut dengan ETL (Extract, Transform, Load).
Data warehouse didesain untuk mendukung aktivitas analisis data dan Business Intelligence (BI).
Data yang disimpan memiliki bentuk yang terstruktur (structured data) sehingga memudahkan para data professional untuk memanipulasi data.
Sistem penyimpanan atau repository ini kerap digunakan oleh data scientist, data engineer, hingga business analyst untuk penarikan data menggunakan BI tools, SQL clients, atau tools analisis lainnya.
Karakteristik data warehouse
Berikut adalah empat karakteristik inti yang menjadi ke-khas-an data warehouse:
Mengandung data yang terintegrasi
Data yang tersimpan dalam data warehouse merupakan kumpulan dari berbagai sumber, misalnya:
- cloud database,
- relational database,
- flat files, hingga
- metadata.
Kumpulan data ini kemudian di-cleaning, ditransformasi, dan diubah menjadi sebuah tampilan data yang konsisten, reliable, berkualitas, dan siap diproses dan dianalisis.
Berorientasi pada subjek
Kumpulan data dalam data warehouse biasanya diorganisir berdasarkan satu subjek atau topik, misalnya seperti:
- data konsumen,
- penjualan, atau
- produk.
Dengan begitu, pengguna akan lebih mudah menarik data yang relevan dan spesifik.
Kestabilan data
Data dalam data warehouse tidak akan pernah diubah atau dihapus, dan hanya bisa ditambahkan.
Hal ini penting untuk menjamin adanya histori data yang mendukung analisis perubahan tren, komparasi, dan analisis periodik lainnya.
Time-variant
Setiap data yang disimpan dalam data warehouse memiliki dimensi waktu. Artinya, pengguna mampu mengakses data berdasarkan periode waktu yang spesifik.
Misalnya seperti data sebulan terakhir hingga kuartal terakhir tahun lalu.
Manfaat data warehouse untuk bisnis
Bukan tanpa sebab banyak bisnis memilih menggunakan data warehouse sebagai solusi penyimpanan data mereka.
Berikut adalah beberapa manfaat data warehouse:
Menghasilkan business intelligence yang valuable
Berkat karakteristik data warehouse yang mengkombinasikan data dari berbagai sumber, para manajer dan eksekutif perusahaan tidak lagi dihambat oleh keterbatasan data.
Memperlancar flow informasi dalam perusahaan
Keterhubungan antara data warehouse dan tools BI membuat penarikan insight dari data jadi lebih berkualitas, yang berlanjut mendukung berbagai fungsi bisnis, mulai dari marketing, finansial, hingga sales.
Menghemat waktu
Perusahaan mampu mengakses data vital dari berbagai sumber hanya di satu platform. Kelebihan ini membuat proses pengambilan keputusan berbasis data jadi lebih cepat.
Tidak ada waktu yang terbuang untuk mengumpulkan banyak data dari banyak sumber berbeda.
Meningkatkan kualitas dan konsistensi data
Implementasi data warehouse mencakup pengubahan format data menjadi format yang umum digunakan.
Berkat standarisasi ini, tiap flow data yang terjadi antar departemen bisa berjalan mulus tanpa adanya perubahan atau manipulasi tambahan terhadap data. Hasilnya, konsistensi data terjaga hingga mencapai end-user.
Data yang konsisten dapat menambah kualitas dan tingkat akurasi keputusan yang diambil.
Memberikan ROI yang tinggi
Berdasarkan riset dari International Data Corporation, penggunaan data warehouse dalam rentang waktu tiga tahun memberikan rata-rata return of investment (ROI) di angka 401% pada 62 perusahaan.
Faktor ROI yang tinggi ini dikalkulasi berdasarkan pengeluaran yang lebih rendah, revenue yang meningkat, dan payback period yang singkat.
Memperkuat pengambilan keputusan penting
Karena data warehouse memiliki karakteristik time-variant, perusahaan mampu mengakses data secara historis. Artinya, identifikasi risiko dan potensi jadi lebih mudah dilakukan melalui analisis trend dan komparasi proses bisnis dengan tahun-tahun sebelumnya.
Komponen data warehouse
Arsitektur dari sebuah data warehouse umumnya memiliki lima komponen kunci, yaitu:
Database
Konten dari data warehouse terdiri atas beberapa database yang berfungsi menyimpan data perusahaan dan memudahkan proses reporting.
Terdapat banyak jenis database yang bisa digunakan, berikut adalah beberapa contohnya:
- Relational database seperti SAP, Oracle, atau Microsoft SQL Server
- Cloud-based database seperti Google BigQuery, Microsoft Azure SQL, atau Amazon Redshift
- Analytics database seperti Greenplum atau Teradata
- Aplikasi-aplikasi data warehouse lainnya seperti Oracle Exadata, IBM Netezza, atau SAP HANA
ETL
ETL, singkatan dari Extract, Transform, Load, adalah proses yang digunakan ketika sebuah database perlu memindahkan data dari sumbernya ke data warehouse.
Sederhananya, ETL meng-convert data menjadi sebuah format yang bisa digunakan, supaya ketika data sudah masuk ke data warehouse, aktivitas analisis dan query jadi lebih mudah.
Query tools
Tujuan utama dari data warehousing adalah memastikan data sampai ke end-user sebagai bahan pembuatan keputusan strategis perusahaan.
Dengan berbekal query tools yang mumpuni, end-user mampu berinteraksi dengan data warehouse guna menarik insight dari data yang tersimpan.
Tools bahasa pemrograman yang paling umum digunakan untuk menjalankan query pada data warehouse adalah SQL.
Metadata
Metadata adalah data yang menjelaskan soal data. Sederhananya, metadata memberikan deskripsi pada semua data yang ada dalam sistem data warehouse.
Beberapa contoh metadata adalah sebagai berikut:
- Authors
- Dates
- Locations
- Date created
- File size
Data layer/data mart
Data layer adalah lapisan akses yang membuat pengguna mampu meraih data yang tersimpan dalam data warehouse. Layer atau lapisan akses ini berfungsi membagi data menjadi beberapa segmen atau partisi berdasarkan siapa yang memiliki akses.
Segmen atau partisi ini disebut juga data mart, yakni subdivisi data yang didedikasikan secara khusus untuk pengguna tertentu saja.
Jenis-jenis data warehouse
Berdasarkan implementasinya, data warehouse terbagi menjadi tiga jenis, yaitu:
Enterprise Data Warehouse (EDW)
Enterprise Data Warehouse atau EDW adalah jenis data warehouse yang secara khusus mendukung proses bisnis perusahaan berdasarkan tiap subjek, atau fungsi/divisi yang ada dalam perusahaan.
EDW berbentuk kumpulan database yang bisa digunakan antar-divisi dalam perusahaan dengan menyediakan tampilan dan akses yang terpusat.
Data yang tersimpan juga mampu diorganisir dan diklasifikasikan berdasarkan kebutuhan subjek atau divisi perusahaan.
Operational Data Store (ODS)
Operational Data Store atau ODS merupakan elemen tambahan dari EDW. ODS berfungsi sebagai pusat database untuk laporan operasional perusahaan dan sebagai sumber data untuk EDW.
ODS diperbaharui secara real-time, sehingga cocok untuk aktivitas yang bersifat rutin. Misalnya seperti penyimpanan data karyawan.
Berbeda dengan EDW yang cenderung digunakan untuk aktivitas yang bersifat lebih taktis, seperti pengambilan keputusan penting perusahaan.
Data mart
Seperti dijelaskan di bagian komponen, data mart merupakan subset dari data warehouse yang berfokus pada subjek yang lebih spesifik. Misalnya seperti sales atau layanan konsumen.
Oleh karena itu, kumpulan data dalam data mart cenderung lebih spesifik dan relevan, terutama apabila salah satu divisi dalam perusahaan membutuhkan insight khusus untuk satu bidang saja.
Dengan kata lain, data mart membuat end-user tidak perlu repot-repot menggali data dari keseluruhan data warehouse.
Perbandingan data warehouse dengan data mart
Dari bahasan di atas, kita sudah tahu bahwa data mart merupakan bagian atau subdivisi dari data warehouse.
Bisa dibilang bahwa data mart merupakan data warehouse dengan lingkup yang lebih kecil dan lebih spesifik.
Jika dianalogikan, data warehouse dapat dipahami sebagai sebuah perpustakaan, sedangkan data mart adalah rak-rak di dalamnya yang dibagi berdasarkan topik buku.
Untuk lebih jelas memahami perbedaan antara data warehouse vs data mart, kamu bisa perhatikan tabel di bawah ini.
Perbedaan | Data warehouse | Data mart |
---|---|---|
Cakupan bidang | Terpusat, multiple-subject yang terintegrasi menjadi satu | Tidak terpusat, subjeknya spesifik |
Pengguna | Keseluruhan perusahaan/organisasi | Satu departemen atau divisi khusus |
Sumber data | Bermacam-macam dan banyak sumber | Sumbernya lebih sedikit dan lebih spesifik, termasuk sebagian porsi data yang sudah ada di data warehouse |
Kapasitas penyimpanan | Ratusan gigabyte hingga petabyte | Umumnya kurang dari 100 gigabyte |
Detail data | Data berbentuk komplit dan mendetail | Data merupakan bentuk rangkuman atau summarized |
Proses desain | Rumit dan memakan waktu | Mudah dan cepat |
Implementation time | Proses implementasi data warehouse bisa diperpanjang hingga hitungan bulan bahkan tahun | Proses implementasi data mart hanya terbatas dalam hitungan bulan |
Bagaimana data warehouse, databases, dan data lake bekerja sama?
Data warehouse, data lake, dan database merupakan tiga sistem yang berbeda.
Data warehouse didesain secara khusus untuk analisis data, termasuk proses relationship analysis dan analisis trend.
Sementara itu, data lake berfungsi sebagai penyimpanan segala jenis data tanpa adanya batasan size. Namun, data lake tidak memiliki standarisasi, sehingga sulit untuk diproses dan dianalisis.
Di sisi lain, database digunakan untuk menyimpan data secara instan, misalnya seperti detail dari transaksi.
Nah, meskipun berbeda, ketiga sistem ini biasa digunakan oleh banyak bisnis secara bersamaan guna memperlancar proses penyimpanan dan analisis data.
Runtutan prosesnya biasanya adalah sebagai berikut:
- Data masuk ke dalam database atau data lake
- Data dibaca dan disiapkan untuk proses analisis
- Data disortir, dipilih, dan dipindahkan ke data warehouse
- Data dianalisis untuk penarikan insight dan performance reporting
Selain itu, banyak juga perusahaan yang mulai menggunakan sistem hybrid yang merupakan perpaduan dari data warehouse dan data lake, yakni data lakehouse.
Use case penggunaan data warehouse
Dengan berbagai manfaat dan karakteristik dari data warehouse yang disebutkan di atas, tentunya banyak perusahaan dan industri yang meraup banyak keuntungan dari data warehouse.
Berikut adalah beberapa contoh perusahaan dan organisasi besar yang mengimplementasikan data warehouse dalam proses bisnisnya:
Walmart
Walmart merupakan salah satu jaringan toko retail terbesar di Amerika. Perusahaan ini merupakan salah satu yang pertama menggunakan database berskala terabyte di tahun 1992.
Pada tahun 2008, sistem operasionalnya sudah menggunakan hingga 2,5 terabyte. Hingga saat ini, Walmart terus mengumpulkan data dari sekitar 4000 cabang di Amerika.
Di tahun tersebut, Walmart melakukan kerjasama dengan Hewlett-Packard untuk mengkonsolidasi lebih dari 700 data mart menjadi EDW.
Alhasil, hingga sekarang Walmart sukses menjadi consignment shop ternama di dunia.
eBay
Sebagai salah satu platform e-commerce terbesar di Amerika, tiap harinya eBay menampung structured data yang mencakup:
- pesanan,
- pengiriman,
- listing,
- bid,
- pembayaran,
- data konsumen, dan banyak lagi.
Terhitung hingga tahun 2002, EDW milik eBay, bekerjasama dengan Teradata, sudah mencapai kapasitas 14 petabyte.
Tiap harinya, hingga 7000 orang data analyst mengolah data sebesar 50 terabyte dalam perusahaan ini.
American Society for Clinical Oncology
Di industri medis, American Society for Clinical Oncology di tahun 2008 merilis proyek data onkologi yang bertujuan memfasilitasi data operasi penyakit kanker di negara tersebut. Namun, kebanyakan data medis hadir dalam bentuk yang tidak terstruktur.
Hingga akhirnya dibuatlah sistem penyimpanan data yang disebut Clinical Data Warehouse (CDW) yang berfungsi mengkonsolidasi data-data tersebut menjadi data yang terstruktur.
Hasilnya, riset Jung dkk, di tahun 2021 sukses memanfaatkan sistem data warehouse tersebut untuk memetakan perjalanan pasien kanker di Amerika guna mengidentifikasi tingkat interoperability, yakni pemindahan pasien antar rumah sakit.
Tujuan akhirnya adalah meningkatkan layanan medis bagi pasien kanker dengan dibantu data yang terupdate secara real-time melalui CDW tersebut.
Starbucks
Starbucks juga berada pada jajaran perusahaan terkemuka yang menggunakan data warehouse. Sejak 1971, perusahaan kopi yang satu ini berkomitmen menyajikan kopi kualitas terbaik di dunia.
Starbucks menggunakan data warehouse untuk enterprise yang mengakomodasi data penjualan, pemasaran, manajemen toko, point of sale, customer loyalty, dan data supply chain.
Tujuannya adalah agar Starbucks dapat mengambil keputusan yang sejalan dengan kebutuhan perusahaan namun tetap berbasis data.
Garuda Indonesia
Sebagai salah satu maskapai penerbangan terbesar di Indonesia, Garuda Indonesia berhasil memanfaatkan sistem data warehouse guna meningkatkan efektivitas loyalty program mereka.
Melalui sebuah studi kasus oleh Mujoko di tahun 2009, Garuda Indonesia mencanangkan program Garuda Frequent Flyer (GFF) yang memegang peranan penting untuk membidik core customer.
Sistem operasional GFF menyimpan data anggota dan transaksi penerbangan, dan dikumpulkan dalam satu bentuk data warehouse yang secara periodik di-update, sehingga reporting dapat dieksekusi dari data warehouse tanpa mempengaruhi kinerja operasional.
Sekarang kamu sudah tahu apa itu data warehouse, serta komponen, manfaat, hingga contoh penggunaannya.
Bisa dilihat bahwa banyak perusahaan besar di berbagai industri yang mampu meraup banyak manfaat dari penggunaan data warehouse.
Ingin tahu lebih dalam soal data warehouse dan sistem manajemen data lainnya? Kamu bisa join di program Software and Data Engineering Pacmann.
Further reading:
What is a Data Warehouse? | Key Concepts
Artikel Popular
Data Engineer dan ML Engineer: Perbedaan Tanggung Jawab, Skill, dan Gaji
July 23, 2023
Mengenal Data Preprocessing: Langkah Awal dalam Data Mining
July 21, 2023
Apa yang Dimaksud dengan Machine Learning?
July 21, 2023
Ini Dia Alasan Mengapa Data Scientist Digaji Besar!
July 20, 2023
Pentingnya Business Intelligence (BI) Dashboard untuk Pengambilan Keputusan Bisnis
July 19, 2023