Blog Web Scraping: Alternatif Cari Data dengan Cepat

Web Scraping: Alternatif Cari Data dengan Cepat

Maret 20, 2022 4 min read

Andrea, seorang YouTuber, penjual lipstick di e-commerce, dan bermain saham, ingin mencatat berapa pendapatan hariannya ke dalam sebuah spreadsheet.

Dengan multiple source of income yang ia punya, Andrea harus melihat 3 website yang berbeda hanya untuk copy-paste pendapatan hariannya ke spreadsheet.

Bila untuk melakukan hal tersebut membutuhkan 10 menit per harinya, maka dalam setahun Andrea menghabiskan 3.560 menit atau setara dengan 2,5 hari hanya untuk menghitung jumlah pendapatan hariannya.

Adakah cara yang lebih efisien untuk menghitung pendapatan Andrea?

Web scraping adalah solusinya!

Dengan web scraping, Andrea tidak perlu lagi membuka ketiga website berbeda untuk mencari tahu berapa pendapatan hariannya.

Apa itu web scraping?

Secara singkat, web scraping adalah metode yang digunakan untuk mengumpulkan informasi, baik angka, teks, tabel, maupun media dari berbagai website menggunakan sebuah software yang dapat menyimpan dan mengatur informasi yang telah diunduh.

Bila menggunakan web scraping, Andrea tidak perlu lagi melakukan copy-paste secara manual informasi dari ketiga website berbeda ke spreadsheet untuk mengetahui pendapatan hariannya.

Selain berguna untuk mengekstrak data dari berbagai website secara otomatis, metode ini dapat menjadi alternatif data konvensional yang diambil melalui survey, observasi.

Melalui web scraping, data bisa didapatkan dengan cepat dan murah, mengingat Internet sudah menjadi salah satu sumber informasi yang cukup lengkap di masa sekarang ini.

Fungsi web scraping

Secara umum, metode ini dapat digunakan untuk melakukan:

1. Price intelligence

Web scraping memungkinkan penggunanya untuk mengambil data produk dan harga dari berbagai sumber, seperti e-commerce atau dari kompetitor.

Maka dari itu, pengguna dapat membandingkan harga barang yang dijual dengan kompetitor sehingga pengguna dapat menetapkan harga atau melakukan strategi marketing berdasarkan data.

2. Market research

Web scraping dapat berguna bagi business intelligence.

Pengguna dapat mengekstrak data dari Internet dan melihat bagaimana market trend, market pricing, research and development, dan memonitor kompetitor.

3. Monitoring berita

Web scraping dapat digunakan untuk memonitor berita.

Sebagai contoh, bila sebuah bisnis sering diberitakan oleh media, metode ini dapat berguna untuk mengagregasi berbagai sumber yang memberitakan bisnis tersebut dan menganalisis sentimen publik terhadap pemberitaan media.

4. Melihat sentimen publik terhadap kebijakan

Tidak hanya bisnis, web scraping juga dapat membantu sektor pemerintahan dan dilakukan pada sosial media, sehingga pemerintah dapat melihat bagaimana sentimen publik terhadap suatu kebijakan atau isu tertentu.

Cara melakukan web scraping

Setelah mengetahui kegunaannya, lalu bagaimana cara melakukannya?

Seperti yang telah disebutkan sebelumnya, untuk melakukan web scraping, dibutuhkan software tertentu.

Maka dari itu, perlu ditentukan terlebih dahulu software apa yang ingin digunakan.

Ada berbagai pilihan software yang dapat digunakan seperti:

Setelah memilih software yang ingin digunakan, tentukan website yang dapat memberikan data yang dibutuhkan.

Sesudah memilih website yang ingin digunakan sebagai sumber data, software akan meminta request HTML dari website tersebut.

Bila website yang menjadi sumber data sudah menerima request tersebut dan sudah memprosesnya, data yang diminta akan dikirimkan ke software yang dipakai.

Ada berbagai format data yang dapat dikirimkan website sumber data, mulai dari HTML, XML, JSON, sampai dalam bentuk multimedia seperti video, audio, dan gambar.

Tantangan dalam melakukan web scraping

Walaupun terdengar mudah, ada tantangan yang harus dihadapi.

Masalah yang sering ditemui ketika melakukan web scraping adalah struktur website yang diupdate.

Tools yang digunakan untuk mengambil informasi dari website spesifik tidak dapat bekerja dengan struktur baru website tersebut.

Maka dari itu, pengguna harus memastikan code yang digunakan pada software cukup fleksibel untuk beradaptasi dengan perubahan struktur sebuah website.

Tantangan lain yang ditemui adalah perihal legalitas.

Sebuah web scraper dapat mengcopy data dari sebuah website tanpa adanya pelanggaran hak cipta.

Sulit untuk menunjukkan hak cipta dari sebuah data karena hanya ada beberapa data yang dilindungi secara hukum.

Walaupun beberapa website memiliki forms Terms of Service (ToS), lingkup ToS sering kali berada di ‘grey area’.

Tidak heran, terdapat kasus di mana pengguna web scraper berargumen kalau ia tidak pernah melihat atau menyetujui ToS ini secara resmi.

Maka dari itu, ada baiknya untuk menggunakan metode web scraping secara bijak.

Bila ingin mengeksplorasi lebih banyak lagi mengenai metode ini maupun metode machine learning lainnya, Artificial Intelligence and Machine Learning Engineering Program Pacmann (program di bawah Sekolah Data Pacmann) dapat menjadi solusinya.

Kunjungi halaman Artificial Intelligence and Machine Learning Engineering Program Pacmann untuk mengetahui informasi mengenai programnya lebih lanjut.

Further reading:

Encyclopedia of Big Data

A Useful Tool to Collect Data

What is Web Scraping?