Teknik Data Cleaning Menggunakan Snowflake untuk Studi Kasus Objek Pariwisata di Bali

  • Ni Putu Ayu Widiari Universitas Udayana
  • I Made Agus Dwi Suarjaya Universitas Udayana
  • Dwi Putra Githa Universitas Udayana

Abstract

Sejumlah besar data memiliki beberapa masalah yang sering ditemui seperti duplikasi  data, ketidakkonsistenan data, dan ketidaklengkapan data. Variasi data yang dikumpulkan dari berbagai sumber akan mempengaruhi keakuratan hasil prediksi. Semakin banyak jumlah data yang dikumpulkan, pembersihan data manual hampir tidak mungkin karena memakan waktu dan rentan terhadap kesalahan. Untuk mempersingkat waktu dan mengurangi rentan kesalahan, diperlukan sebuah sistem yang dapat melakukan proses data cleaning secara otomatis. Tujuan dari proses data cleaning adalah menawarkan kualitas data yang lebih baik yang sangat membantu untuk memastikan data siap untuk tahap analisis. Salah satu tools pengolahan data yang dapat digunakan adalah Snowflake. Snowflake adalah tools pengolahan dengan basis query SQL yang dirancang untuk cloud. Data yang digunakan adalah tweet objek wisata di Bali melalui proses crawling data menggunakan Twitter API. Data yang dikumpulkan akan dibersihkan melalui dua tahap yaitu pembersihan Retweet dan kata noise, yang dilanjutkan dengan pembersihan untuk mencari tweet spesifik yang mengarah ke pariwisata Bali. Hasil proses cleaning objek wisata Bali pada 4 objek wisata yaitu Uluwatu, Sanur, Nusa Penida, dan Garuda Wisnu Kencana menunjukkan bahwa Nusa Penida merupakan objek wisata dengan jumlah penurunan yang signifikan dengan jumlah raw data yaitu 8087, cleaning tahap pertama yaitu 4770 data, dan cleaning tahap kedua adalah 2608 data.

Author Biographies

I Made Agus Dwi Suarjaya, Universitas Udayana

I Made Agus Dwi Suarjaya

(Doctor of Philosophy in Engineering, Kanazawa University, Japan) works as a fulltime lecturer and researcher at Udayana University, Bali, Indonesia. His research interests include Data and Information science, Computer Networks, and Computer Security.

Dwi Putra Githa, Universitas Udayana

Dwi Putra Githa

 Works as a fulltime lecturer and researcher at Udayana University, Bali, Indonesia. His research interests include Information System and Data Management.

Published
2020-07-24
How to Cite
WIDIARI, Ni Putu Ayu; SUARJAYA, I Made Agus Dwi; GITHA, Dwi Putra. Teknik Data Cleaning Menggunakan Snowflake untuk Studi Kasus Objek Pariwisata di Bali. Jurnal Ilmiah Merpati (Menara Penelitian Akademika Teknologi Informasi), [S.l.], p. 137-145, july 2020. ISSN 2685-2411. Available at: <https://ojs.unud.ac.id/index.php/merpati/article/view/61808>. Date accessed: 21 nov. 2024. doi: https://doi.org/10.24843/JIM.2020.v08.i02.p07.
Section
Articles

Most read articles by the same author(s)

Obs.: This plugin requires at least one statistics/report plugin to be enabled. If your statistics plugins provide more than one metric then please also select a main metric on the admin's site settings page and/or on the journal manager's settings pages.