EFEKTIVITAS PENGGUNAAN STOPLIST KATA UMUM DARI DOKUMEN HASIL KLASIFIKASI PRETOPOLOGY
Abstract
Dokumen teks bahasa Indonesia sangat melimpah dan setiap waktu bertambah. Dalam proses pencarian, banyak dokumen yang dihasilkan menjadi kurang relevan jika tidak sesuai dengan keinginan pengguna. Stoplist merupakan kumpulan kata yang “tidak relevanâ€, namun sering muncul dalam dokumen. Kata umum juga sering digunakan pada bidang tertentu sehingga dimungkinkan untuk dokumen sebidang akan ada kata umum yang sering muncul. Pada sistem temu kembali informasi, asumsi yang ada adalah dengan menghapus stoplist, maka mengurangi jumlah kata yang akan diproses. Adanya kata umum bidang, memungkinkan adanya mengurangan jumlah kata yang akan diproses juga. Dalam penelitian ini dilakukan ekstraksi kata umum dari dokumen hasil klasifikasi dan melakukan perbandingan efektifitas antara aplikasi pencarian-1 menggunakan penghapusan stoplist dengan aplikasi pencarian-2 menggunakan penghapusan stoplist dan kata umum. Hal ini dilakukan untuk mengetahui model pencarian dengan tingkat relevansi dan waktu proses pencarian dokumen yang lebih tinggi. Hasil uji coba klasifikasi pretopology dengan 25 dokumen teknik, 25 ekonomi dan 25 pertanian diperoleh nilai rata-rata recall dan precision sebesar 90% dan 76%. Dan uji coba pencarian dengan 6 query terhadap 746 dokumen pada aplikasi pencarian-1 diperoleh nilai rata-rata f-measure dan waktu proses adalah 30.6% dan 0.239 detik. Sedangkan aplikasi pencarian-2 dengan threshold kata umum 1% adalah 76.5% dan 0.098 detik. Sehingga dapat dikatakan bahwa aplikasi pencarian-2 (dengan menggunakan penghapusan stoplist dan kata umum) lebih efektif dari pada aplikasi pencarian-1.
Kata kunci: Sistem temu kembali informasi, Stoplist, Klasifikasi Pretopology, Kata Umum.
Downloads
References
D. B. Deshmukh and Y. Pandey, “A Review on Hierarchical Document Clustering,†J. Data Min. Knowl. Discov., vol. 3, no. 5, pp. 65–68, 2012.
F. A. Hermawati and D. A. Zuhdi, “Aplikasi Sistem Temu Kembali Dokumen dengan Metode Vector Space Model,†KONVERGENSI, vol. 5, no. 2, pp. 38–49, 2009.
F. Z. Tala, “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia,†2003.
K. J. Cios, W. Pedrycz, R. W. Swiniarski, and L. A. Kurgan, Data Mining : A Knowledge Discovery Approach. Springer, 2007.
C. D. Manning, P. Raghavan, and H. Schütze, An Introduction to Information Retrieval. Cambridge, England: Cambridge University Press, 2009.
A. Z. Arifin, I. P. A. K. Mahendra, and H. T. Ciptaningtyas, “Enhanced Confix Stripping Stemmer and ANTS Algorithm for Classifying News Docements in Indonesian Language,†in The 5th International Conference on Information & Communication Technology and Systems, 2009, pp. 149–158.
G. Tsatsaronis and V. Panagiotopoulou, “A generalized vector space model for text retrieval based on semantic relatedness,†EACL 2009 - 12th Conf. Eur. Chapter Assoc. Comput. Linguist. Proc., no. April, pp. 70–78, 2009.
J. N. Singh and S. K. Dwivedi, “Performance Analysis of Layered Vector Space Model in Web Information Retrieval,†Int. J. Appl. Inf. Syst., vol. 8, no. 5, pp. 7–15, 2015.
P. Harcourt and R. B. Japheth, “Application of Vector Space Model to Query Ranking and Information Retrieval,†Int. J. Adv. Res. Comput. Sci. Softw. Eng., vol. 6, no. 5, pp. 42–47, 2016.
M. Ahat, S. Amor, and M. Bui, “Document Classification with LSA and Pretopology.,†Stud. Inform. Universalis, vol. 8, no. 1, pp. 125–144, 2010.
R. T.-W. Lo, B. He, and I. Ounis, “Automatically Building a Stopword List for an Information Retrieval System,†J. Digit. Inf. Manag. Spec. Issue 5th Dutch-belgian Inf. Retr. Work., vol. 3, pp. 3–8, 2005.
F. A. Hermawati, H. Tjandrasa, and N. Suciati, “Sistem Retrieval Citra Berbasis Region Dengan Transformasi Wavelet Berdasarkan Karakteristik Color-Texture,†KONVERGENSI, vol. 2, no. 1, pp. 1–9, 2006.
F. A. Hermawati, H. H. Tjandrasa, and N. Suciati, “Evaluasi Representasi Warna Untuk Retrieval Citra Berbasis Region,†J. Saintek, vol. 9, no. 2, pp. 101–107, 2005.
F. A. Hermawati, “Sistem Temu Kembali Citra Berdasarkan Karakteristik Bentuk dengan Metode Color-Edge Extraction,†in Seminar Nasional Teknik 2009, 2009, pp. 253–257.
Authors whose manuscript is published will approve the following provisions:
- The right to publication of all journal material published on the Konvergensi Teknologi Informasi & Komunikasi website is held by the editorial board with the author's knowledge (moral rights remain the property of the author).
- The formal legal provisions for access to digital articles of this electronic journal are subject to the terms of the Creative Commons Attribution-ShareAlike (CC BY-SA) license, which means Konvergensi Teknologi Informasi & Komunikasi reserves the right to store, modify the format, administer in database, maintain and publish articles without requesting permission from the Author as long as it keeps the Author's name as the owner of Copyright.
- Printed and electronic published manuscripts are open access for educational, research and library purposes. In addition to these objectives, the editorial board shall not be liable for violations of copyright law.