Blog Data Lake: Definisi, Arsitektur, dan Use Case-nya

Data Lake: Definisi, Arsitektur, dan Use Case-nya

April 3, 2023 8 min read

Bagi banyak perusahaan, memiliki banyak data sama dengan banyak keuntungan. Kuncinya adalah menggunakan data tersebut dengan optimal. Namun, sebelum bisa digunakan, data-data yang banyak itu tentunya harus bisa disimpan di suatu tempat, bukan?

Nah, salah satu solusi penyimpanan data yang cukup populer adalah data lake.

Di artikel ini akan dibahas apa itu data lake, arsitektur dan elemennya, hingga use case-nya.

Apa itu data lake?

Data lake adalah sebuah repository dengan sistem terpusat yang didesain untuk menyimpan dan memproses data dalam jumlah besar.

Data yang tersimpan dalam data lake bisa dalam berbagai bentuk, seperti:

  • Structured (tabel atau spreadsheet)
  • Semi-structured (file XML atau webpage)
  • Unstructured (gambar atau file audio)

Data lake mampu menyimpan data dalam bentuk aslinya dan bisa memprosesnya dalam format apa pun tergantung kebutuhan, tanpa ada batasan size.

Arsitektur dan elemen data lake

Arsitektur data lake terdiri atas beberapa tier, yakni:

  • Ingestion tier: tahapan proses masuknya data. Data yang masuk ke data lake bisa diproses dalam bentuk batch atau secara real-time.
  • Insights tier: tahapan analisis data yang diproses menjadi insight.
  • Storage tier: tahapan penyimpanan data secara pasif di dalam data lake.
  • Distillation tier: tahapan pengambilan data dari storage tier untuk di-convert menjadi structured data guna mempermudah analisis.
  • Processing tier: tahapan berjalannya algoritma analisis dan queries untuk pemrosesan dan penarikan data.
  • Unified operations tier: tahapan manajemen sistem dan monitoring yang mencakup auditing dan pengelolaan data serta workflow.

Tahapan-tahapan di atas berjalan sebagai sebuah lifecycle data dalam data lake.

Semua tahapan tersebut tentunya mencakup beberapa elemen wajib.

Berikut adalah lima elemen kunci yang ada dalam arsitektur data lake:

Data ingestion

Data lake wajib memiliki sistem ingestion dengan tingkat skalabilitas tinggi yang berfungsi mengekstraksi data dari berbagai sumber, seperti:

  • website,
  • aplikasi,
  • media sosial, hingga
  • IoT (Internet of Things).

Sistem ini bisa dijalankan secara fleksibel–baik secara:

  • one-time-use,
  • batch processing, atau
  • mode real-time.

Proses ingestion pada data lake juga mampu menerima data dalam jenis apa pun.

Data storage

Sistem penyimpanan data dalam data lake harus mampu menyimpan dan memproses raw data, mendukung enkripsi, dan data compression, dengan metode yang cost-effective.

Data security

Seperti apa pun jenis data yang diproses, data lake harus memiliki sistem keamanan standar seperti:

  • multi-factor authentication,
  • pengaturan hak pengguna,
  • data protection, dsb.

Data analytics

Setelah melalui tahapan data ingestion, data harus bisa dianalisis dengan efisien menggunakan tools analytics atau machine learning untuk menarik insight yang berguna.

Setelah dianalisis, data kemudian dapat dipindahkan ke data warehouse.

Data governance

Keseluruhan proses, mulai dari data ingestion, data preparation, integrasi data, hingga akselerasi query harus diproses secara mulus (streamlined) guna menghasilkan kualitas data yang layak untuk perusahaan.

Kelebihan dan kekurangan data lake

Meski memiliki banyak kegunaan dan elemen penting, data lake bukanlah solusi untuk semua kebutuhan penyimpanan data.

Berikut adalah beberapa kelebihan dan kekurangan dari data lake.

Kelebihan data lake

  • Efisiensi performa: karena data lake tidak memerlukan skema data, proses data pipeline jadi lebih simpel, cepat, dan mempermudah proses perencanaan bisnis.
  • Kemudahan akses: data lake mempermudah proses bisnis karena setiap stakeholder mampu mengakses data perusahaan mana pun selama mereka memiliki hak akses.
  • Penghematan sumber daya: berkat kemampuan data lake dalam menyimpan dan memproses berbagai jenis data, berarti perusahaan tidak perlu menghabiskan sumber daya untuk memproses data yang belum tentu diperlukan.
  • Skalabilitas: data lake mampu mengelola data dalam jumlah besar yang terus bertambah, sehingga cocok digunakan oleh perusahaan yang memiliki pertumbuhan volume data yang pesat dan butuh banyak ruang penyimpanan.

Kekurangan data lake

  • Butuh skill khusus: karena volume data yang besar dan jenis data yang bermacam-macam, proses data sorting dari data lake biasanya hanya mampu dilakukan oleh profesional dengan skill khusus seperti data scientist atau data engineer.
  • Kualitas data: data lake memerlukan pemeliharaan dan tata kelola data secara rutin untuk menjaga integritas data di dalamnya. Tanpa pemeliharaan, data lake bisa berubah menjadi data swamp, yakni tumpukan data yang tidak terorganisir dan tidak bisa digunakan.
  • Risiko keamanan: karena jumlah data yang masif, pemantauan terhadap data jadi sulit, termasuk pemantauan terhadap akses pengguna. Segelintir data penting yang sensitif bisa saja diakses oleh orang tidak bertanggung jawab.

Perbedaan data lake dan data warehouse

Data lake bukanlah satu-satunya alat untuk menyimpan dan memproses data. Selain data lake, ada juga data warehouse, yang memiliki fungsi yang sama.

Meski sama-sama berfungsi untuk menyimpan data, data lake dan data warehouse memiliki banyak perbedaan. Masing-masing memiliki kegunaan spesifik tergantung kebutuhan bisnis.

Berikut adalah perbedaaan data lake dan data warehouse:

PerbedaanData lakeData warehouse
Jenis dataData berbentuk structured, semi-structured, atau unstructuredStructured data
Pemrosesan dataData diintegrasikan dalam bentuk raw/unstructuredData diproses sebelum diintegrasikan
SkemaSaat data dibaca (read)Saat data dimanipulasi (write)
PenggunaData engineer, data scientistData engineer, data scientist, business analyst
Kualitas dataData lebih fleksibel tanpa perlu mengikuti ketentuan tata kelola dataData dikurasi dan mengikuti ketentuan tata kelola data
ACID complianceNon-ACID compliant; ada isu integritas dataACID-compliant; integritas data terjaga
Sumber dataBig data, IoT, media sosial, data streamingAplikasi, data bisnis, data transactional, batch reporting
SkalabilitasMudah dan low-costTergolong sulit dan high-cost
Use casesMachine learning, predictive analytics, real-time analyticsCore reporting, business intelligence

Apa itu data lakehouse?

Sekarang kamu tahu bahwa data lake dan data warehouse memiliki kekurangan dan kelebihan masing-masing. Namun, kebutuhan banyak perusahaan sulit dipenuhi jika hanya menggunakan salah satu dan harus kehilangan keunggulan dari yang lainnya.

Oleh karena itu, diciptakanlah sebuah pendekatan hybrid yang mengambil konsep unggul dari data lake dan data warehouse, lalu mengkombinasikannya menjadi satu solusi; yakni data lakehouse.

Persis seperti data lake, data lakehouse mampu menyimpan data dalam bentuk terstruktur maupun tidak terstruktur.

Data yang disimpan dalam data lakehouse dapat digunakan untuk machine learning maupun business intelligence.

Selain itu, data lakehouse mengadopsi sistem data warehouse, yaitu penerapan skema dan struktur data. Kelebihannya, skema dan struktur data bisa diterapkan pada data yang tidak terstruktur.

Berikut ini adalah beberapa keunggulan menggunakan data lakehouse:

  • Proses administrasi lebih singkat dan tidak buang-buang waktu
  • Skema yang lebih simpel
  • Mengurangi data redundancy
  • Memiliki akses langsung terhadap tools untuk analisis data
  • Penyimpanan data lebih cost-effective

Use case penggunaan data lake

Berkat fleksibilitas dan kemampuannya dalam menyimpan berbagai jenis data, data lake dapat digunakan di banyak industri; mulai dari marketing, kesehatan, konstruksi, migas, hingga transportasi.

Sekarang mari kita tilik beberapa implementasi penggunaan data lake di berbagai perusahaan dengan industri yang berbeda-beda:

Devon Energy

Dalam industri migas, Devon Energy dapat dijadikan contoh. Perusahaan migas ini mampu mengumpulkan setidaknya 1,5 TB data yang bersumber dari IoT setiap harinya.

Untuk data dengan volume sebesar itu, data lake menjadi solusi pilihan bagi Devon Energy. Sebagai moda penyimpanan yang fleksibel, Devon Energy mampu memanfaatkan silo untuk eksplorasi data.

Hasil pemrosesan data ini diprediksi dapat membantu mengoptimalkan arah drilling, mengurangi downtime yang tidak terprediksi, menurunkan biaya operasional, dan meningkatkan keamanan.

Huawei Smart City

Dalam industri konstruksi, Huawei menerapkan solusi ‘One Cloud, One Lake, One Platform’.

Konsep ‘one lake’ ini mengacu pada penggunaan data lake untuk konstruksi Smart City, yakni model hunian modern yang menyimpan segala proses dan perkembangannya dalam bentuk data digital.

Sistem data lake yang digunakan Huawei ini terdiri atas platform pengelolaan metadata, data lake warehouse, serta data lake service.

Platform pengelolaan metadata ini difungsikan untuk mencatat, menghitung, dan mengevaluasi semua aset data dari Smart City tersebut.

Siemens Mobility

Siemens Mobility merupakan sebuah perusahaan yang bergerak di bidang layanan transportasi, khususnya kereta api.

Setiap harinya, mereka menerima data stream dari ribuan sensor IoT yang terpasang di jalur kereta konsumen. Semua data yang tidak terstruktur ini mereka simpan secara raw dalam cloud data lake.

Data ini kemudian diproses oleh data scientist mereka menggunakan konsep schema-on-read dengan Amazon Athena agar bisa di-query berdasarkan negara, ID konsumen, lokasi, dan banyak lagi.

Dengan sistem ini, Siemens Mobility mampu meningkatkan kualitas jasa bagi konsumen, sekaligus sebagai early warning system untuk masalah yang muncul, misalnya seperti kerusakan rel.


Dengan berbagai use case di atas, dapat disimpulkan bahwa data lake banyak digunakan karena kemampuannya menyimpan data dalam jenis apa pun tanpa ada batasan size.

Data lake adalah solusi penyimpanan data yang fleksibel, low-cost, dan memiliki banyak kegunaan.

Solusi penyimpanan yang versatile seperti data lake semakin penting untuk kelangsungan bisnis dan pekerjaan yang menuntut kemampuan menguasai data lake seperti data scientist dan data engineer juga akan semakin dicari.

Asah kemampuanmu di bidang data sekarang bersama Pacmann.

Cek informasi lengkapnya di halaman program Software and Data Engineering Pacmann.

Further reading:

What is a data lake? | Amazon Web Services

What is a Data Lake? | Google Cloud

What is a Data Lake? | Microsoft Azure

What Is A Data Lakehouse? A Super-Simple Explanation For Anyone