Klasifikasi Teks Bahasa Bali dengan Metode Information Gain dan Naive Bayes Classifier
Abstract
Ketersediaan dokumen teks bahasa Bali yang meningkat jumlahnya membuat proses pencarian informasi pada dokumen teks berbahasa Bali menjadi semakin sulit. Mengklasifikasikanya secara manual menjadi tidak efisien mengingat peningkatan jumlah dokumen yang semakin banyak. Pada penelitian ini dikembangkan sebuah aplikasi yang dapat mengklasifikasikan teks bahasa Bali ke dalam kategori yang ditentukan. Aplikasi ini menggunakan metode klasifikasi Naive Bayes Classifier (NBC) dan metode Information Gain(IG) untuk seleksi fitur. Aplikasi ini diuji dengan teknik cross validation. Hasilnya adalah nilai rata-rata akurasi dari 10 fold cross validation sebesar 95,22%.Downloads
References
Rozaq A., Arifin A.Z. dan Purwitasari,“Klasifikasi Dokumen Teks Berbahasa Arab Menggunakan Algoritma Naive Bayes”, ITS Surabaya, 2011.
Feldman R. dan Sanger J.,“The Text Mining Handbook Advanced Approaches in Analyzing Unstructured Data”, Cambridge University Press, 2007.
Suwirmayanti P., Darma Putra IKG dan Satya Kumara IN, “Optimasi Pusat Cluster K-Prototype dengan Algoritma Genetika”, MITE Udayana, Vol. 13 No. 2, 2014.
Swamy M.N., Hanumanthappa, M. dan Jyothi, N.M., “Indian Language Text Representation and Categorization Using Supervised Learning Algorithm”, Intelligent Computing Applications (ICICA), Page. 406–410, 2014.
Chy A. N., Seddiqui M.H., dan Das S.,“Bangla news classification using Naive Bayes Classifier”, Computer and Information Technology (ICCIT), p. 596-615, 2014.
Purnama N., Darma Putra IKG dan Bayupati AG., “Klasifikasi Website menggunakan Algoritma Multilayer Perception”, MITE Udayana, Vol. 13 No. 2, 2014.
Hong Z., Yong R., dan Xue Y, “Research on Text Feature Selection Algorithm Based on Information Gain and Feature Relation Tree”,Web Information System and Application Conference (WISA), paper 11.3.4, p. 109, 2000.
Khorsheed M. S. & Al-Thubaity A.O, “Comparative evaluation of text classification techniques using a large diverse Arabic dataset”. Language Resources and Evaluation, Volume 47, Issue 2, pp 513-538, 2013.
Hatta H. R., Arifin A. Z dan Yuniarti A., “Metode Hibridasi Ant Colony Optimization Dan Information Gain Untuk Seleksi Fitur Pada Dokumen Teks Arab”, SCAN , Vol 8 no 2, 2013.
Hamzah A., “Klasifikasi Teks Dengan Naïve Bayes Classifier (NBC) Untuk Pengelompokan Teks Berita dan Abstract Akademis”, Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST), Periode 3, 2012.
Keywords
This work is licensed under a Creative Commons Attribution 4.0 International License