Metode ROBPCA (Robust Principal Component Analysis) dan Clara (Clustering Large Area) pada Data dengan Outlier
Studi Kasus Data Laporan Indeks Kebahagiaan Dunia Tahun 2018
Abstract
Principal Component Analysis (PCA) merupakan salah satu analisis multivariat yang digunakan untuk mengganti variable dengan Principal Component yang sedikit jumlahnya namun tidak terlalu banyak informasi yang hilang. Atau dengan kata lain, it used to explain the underlying variance-covariance structure of the large data set of variables through a few linear combination of these variables. PCA sangat dipengaruhi oleh kehadiran outlier karena didasarkan pada matriks kovarian yang sensitive terhadap outlier. Oleh karena itu, pada analisis ini akan digunakan PCA yang robust terhadap outlier yaitu ROBPCA atau PCA Hubert. Selanjutnya, dari Principal Component yang terbentuk digunakan sebagai input (masukan) untuk cluster analysis dengan metode Clara (Clustering Large Area). Clustering Large Area merupakan salah satu metode k-medoids yang robust terhadap outlier dan baik digunakan pada data dalam jumlah besar. Dalam studi kasus terhadap variabel penyusun indeks kebahagiaan berdasarkan The World Happiness Report 2018 dengan metode Clara yang menggunakan jarak manhattan didapatkan nilai rata-rata Overall Average Silhouette Width yang terbaik pada 5 cluster.