5 Ide Proyek Data Analysis untuk Portofolio Kamu
Nuzulul Khairu Nissa Juni 13, 2022 7 min read
Bagi Anda yang saat ini sedang belajar data analysis atau switch career ke industri data, membangun portofolio proyek adalah salah satu hal penting yang perlu Anda persiapkan.
Portofolio dapat bermanfaat untuk menggambarkan bagaimana kemampuan dan keahlian Anda dalam menyelesaikan suatu permasalahan yang berkaitan dengan data.
Selain itu, portofolio proyek bisa membantu Anda untuk lebih percaya diri dan terlihat outstanding dibandingkan dengan kandidat lainnya dan meyakinkan recruiter bahwa kemampuan yang Anda miliki memang relevan dengan requirement dari posisi yang Anda incar.
Artikel ini akan membahas lima rekomendasi ide proyek data analysis yang bisa membantu Anda agar bisa dilirik oleh recruiter.
Berikut penjelasan untuk masing-masing ide proyek.
1. TikTok reviews rating analysis
TikTok adalah salah satu media sosial yang sangat populer saat ini.
Menganalisis bagaimana kecenderungan opini dari pengguna TikTok merupakan hal yang cukup menarik.
Jika Anda tertarik untuk membuat proyek data dengan topik analisis rating (ulasan) dan opini dari pengguna TikTok, berikut merupakan sampel dataset ulasan yang bisa Anda gunakan: TikTok – Review Dataset.
Word Cloud jenis kata yang paling sering digunakan dalam ulasan positif (thecleverprogrammer)
Beberapa poin yang bisa dianalisis untuk ide proyek ini adalah:
- Bagaimana persentase rating yang diberikan oleh pengguna TikTok?
- Bagaimana kecenderungan sentimen opini atau ulasan dari pengguna TikTok?
- Apa saja jenis kata yang sering muncul untuk ulasan yang termasuk kategori sentimen positif?
Berikut ini source code yang bisa Anda jadikan sebagai referensi pengerjaan proyek portofolio data analysis Anda: TikTok Reviews Sentiment Analysis.
2. COVID-19 world vaccination progress analysis
Program vaksinasi adalah salah satu usaha untuk mengurangi dan mencegah tingkat persebaran COVID-19.
Menganalisis bagaimana progress program vaksinasi COVID-19 cukup menarik untuk dijadikan ide proyek data analysis.
Jika Anda tertarik untuk mengangkat topik progress vaksinasi COVID-19, Anda bisa menggunakan referensi dataset berikut: COVID-19 World Vaccination Progress Dataset.
Dataset tersebut dikumpulkan dari situs Our World Data.
Tingkat vaksinasi harian berdasarkan negara dalam skala log (Kaggle)
Beberapa hal yang bisa dianalisis lebih lanjut untuk menambah insight dari proyek yang dilakukan adalah:
- Negara mana sajakah yang menggunakan jenis vaksin tertentu?
- Negara mana sajakah yang progress vaksinasinya paling cepat dan besar?
- Berapa jumlah orang yang divaksinasi per hari berdasarkan negara tertentu?
Berikut ini source code yang bisa Anda jadikan sebagai referensi pengerjaan proyek portofolio Anda: Source Code COVID-19 World Vaccination Progress.
3. Exploratory data analysis project on life expectancy
Harapan hidup adalah perkiraan jumlah tahun hidup dari individu yang berdiam di suatu wilayah tertentu.
Angka harapan hidup dapat menjadi salah satu sarana evaluasi kinerja pemerintah dalam meningkatkan kesejahteraan penduduk di suatu negara.
Ide membuat proyek data analysis dengan tujuan untuk mengetahui faktor penting apa saja yang berkorelasi dengan angka harapan hidup seseorang merupakan ide yang sangat menarik.
Jika Anda tertarik menjadikan topik penentuan faktor yang mempengaruhi harapan hidup, Anda bisa menggunakan sampel dataset berikut: Life Expectancy Dataset.
Dataset ini dikumpulkan dari situs web WHO dan PBB.
Rentang waktu yang tersedia pada dataset ini yaitu dari tahun 2000 hingga 2015 untuk 193 negara.
Gambaran umum kategori faktor harapan hidup yang tersedia di dataset ini meliputi faktor imunisasi, faktor kematian, faktor ekonomi dan faktor sosial.
Anda dapat menggunakan dataset ini untuk membuat model yang menganalisis menentukan faktor apa saja yang berkorelasi dengan tingkat harapan hidup suatu negara.
Matriks korelasi untuk data harapan hidup
Beberapa pertanyaan yang bisa dianalisis lebih lanjut, jika Anda ingin mengerjakan ide proyek ini adalah:
- Apa variabel yang sebenarnya mempengaruhi harapan hidup?
- Bagaimana korelasi tingkat harapan hidup dengan kebiasaan makan, gaya hidup, olahraga dsb?
- Apakah negara berpenduduk padat cenderung memiliki harapan hidup yang lebih rendah?
Berikut ini source code yang bisa Anda jadikan sebagai referensi pengerjaan proyek: Source Code Life Expectancy.
4. Earth surface temperature visualization projects
Pemanasan global atau global warming adalah suatu proses meningkatnya suhu rata-rata atmosfer, laut, dan daratan bumi.
Berdasarkan model yang dirilis oleh Intergovernmental Panel on Climate Change (IPCC), dinyatakan bahwa suhu permukaan bumi akan meningkat 1,1 hingga 6,4 derajat Celcius antara tahun 1990 sampai 2100.
Ide proyek data dengan topik pemetaan rata-rata temperatur di permukaan bumi sangat menarik.
Proyek ini bisa memberikan informasi terkait bagaimana gambaran temperatur di negara tertentu di dunia.
Dataset yang bisa dijadikan sampel untuk membuat proyek tersebut adalah data temperatur bumi yang dikumpulkan dari Berkeley Earth data page.
Untuk mengunduh dataset proyek ini, Anda mengunjungi tautan: Earth Surface Temperature Dataset.
Visualisasi rata-rata temperatur permukaan bumi
Berikut ini source code yang bisa Anda jadikan sebagai referensi: Source Code Earth Surface Temperature Visualization Projects.
5. Customer churn analysis project
Churn analysis adalah sebuah proses analisis data dengan tujuan untuk memahami mengapa customer berhenti menggunakan produk atau layanan dari suatu perusahaan.
Selain itu, jika Anda mampu untuk memanfaatkan data historis dan umpan balik (feedback) dari customer, Anda bisa memperkirakan perencanaan untuk mencegah kemungkinan customer akan churn ke depannya.
Jika Anda tertarik untuk membuat proyek customer churn analysis, dataset berikut bisa Anda jadikan sebagai referensi: Customer Churn Analysis Dataset.
Distribusi ScatterPolar dari Customer yang Churn dan Non-Churn
Berikut ini source code Python yang bisa Anda jadikan sebagai referensi: Source Code Customer Churn Analysis.
Ide proyek data analysis lainnya
Selain kelima rekomendasi ide di atas, Anda juga bisa mengeksplorasi opsi lainnya seperti Web Scraping, Data Cleaning, Machine Learning, Natural Language Processing (NLP), Computer Vision (CV), Reinforcement Learning dan sebagainya.
Juga, Anda dapat mencari dataset secara gratis lewat Google Dataset Search tanpa perlu mengulik dataset satu per satu di website yang ingin Anda gunakan datanya.
Menggunakan Google Dataset Search sama halnya seperti menggunakan Google Search biasa, hanya saja, Anda mencari dataset.
Jika Anda sudah berhasil mengerjakan beberapa project portofolio dan merilisnya ke publik, Anda bisa menyertakan tautan akses portofolio itu ke dalam CV Anda agar lebih menarik perhatian dari recruiter.
Untuk referensi lebih lanjut terkait dengan tips pembuatan CV, Anda bisa membaca lebih lanjut artikel pada link berikut CV Data Scientist, Bagaimana Agar Outstanding?
Pacmann juga telah beberapa kali merilis data analysis blog post. Beberapa di antaranya adalah:
- Kota dengan Keluhan Macet Terbanyak di Twitter, dan
- Pemain dan Tim Piala Dunia 2022 Terpopuler di Twitter
Kedua data analysis project ini menggunakan data dari Twitter dan machine learning model Named-Entity Recognition.
Upgrade skill dan portofolio data analysis di Sekolah Data Pacmann
Anda bisa mendapatkan fasilitas berupa arahan untuk membuat End-to-End Data Science Project, jika Anda bergabung di career path Sekolah Data Pacmann.
Melalui program tersebut, selain arahan dan feedback terkait pengerjaan project data science, Anda juga akan di fasilitasi dengan tambahan materi Data Science lainnya.
Jika Anda tertarik untuk bergabung di program ini, segera kunjungi Sekolah Data Pacmann untuk mengetahui informasi lebih lanjut.
Further reading:
5 Data Analytics Projects for Beginners
Top 30 Data Science Projects with Source Code
28 Data Analysis Projects to Boost Your Skills [2022 Guide]
Artikel Popular
Big Data dan Data Mining: Perbedaan dan Hubungannya
June 5, 2023
Mengenal Lebih Jauh tentang Neural Network
June 2, 2023
10 Rekomendasi Blog Data Science Terbaik untuk Diikuti
June 1, 2023
Rekomendasi Course Data Engineering Bersertifikat
May 31, 2023
Bagaimana Machine Learning (ML) Dapat Bantu Mencegah Serangan Phishing
May 30, 2023