EFEKTIVITAS PENGGUNAAN STOPLIST KATA UMUM DARI DOKUMEN HASIL KLASIFIKASI PRETOPOLOGY

  • Mohammad Mastur Universitas Trunojoyo
  • Fika Hastarita Rachman Universitas Trunojoyo
  • Firdaus Solihin Universitas Trunojoyo

Abstract

Dokumen teks bahasa Indonesia sangat melimpah dan setiap waktu bertambah. Dalam proses pencarian, banyak dokumen yang dihasilkan menjadi kurang relevan jika tidak sesuai dengan keinginan pengguna. Stoplist merupakan kumpulan kata yang “tidak relevanâ€, namun sering muncul dalam dokumen. Kata umum juga sering digunakan pada bidang tertentu sehingga dimungkinkan untuk dokumen sebidang akan ada kata umum yang sering muncul. Pada sistem temu kembali informasi, asumsi yang ada adalah dengan menghapus stoplist, maka mengurangi jumlah kata yang akan diproses. Adanya kata umum bidang, memungkinkan adanya mengurangan jumlah kata yang akan diproses juga. Dalam penelitian ini dilakukan ekstraksi kata umum dari dokumen hasil klasifikasi dan melakukan perbandingan efektifitas antara aplikasi pencarian-1 menggunakan penghapusan stoplist dengan aplikasi pencarian-2 menggunakan penghapusan stoplist dan kata umum. Hal ini dilakukan untuk mengetahui model pencarian dengan tingkat relevansi dan waktu proses pencarian dokumen yang lebih tinggi. Hasil uji coba klasifikasi pretopology dengan 25 dokumen teknik, 25 ekonomi dan 25 pertanian diperoleh nilai rata-rata recall dan precision sebesar 90% dan 76%. Dan uji coba pencarian dengan 6 query terhadap 746 dokumen pada aplikasi pencarian-1 diperoleh nilai rata-rata f-measure dan waktu proses adalah 30.6% dan 0.239 detik. Sedangkan aplikasi pencarian-2 dengan threshold kata umum 1% adalah 76.5% dan 0.098 detik. Sehingga dapat dikatakan bahwa aplikasi pencarian-2 (dengan menggunakan penghapusan stoplist dan kata umum) lebih efektif dari pada aplikasi pencarian-1.

Kata kunci: Sistem temu kembali informasi, Stoplist, Klasifikasi Pretopology, Kata Umum.

Downloads

Download data is not yet available.

References

D. B. Deshmukh and Y. Pandey, “A Review on Hierarchical Document Clustering,†J. Data Min. Knowl. Discov., vol. 3, no. 5, pp. 65–68, 2012.

F. A. Hermawati and D. A. Zuhdi, “Aplikasi Sistem Temu Kembali Dokumen dengan Metode Vector Space Model,†KONVERGENSI, vol. 5, no. 2, pp. 38–49, 2009.

F. Z. Tala, “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia,†2003.

K. J. Cios, W. Pedrycz, R. W. Swiniarski, and L. A. Kurgan, Data Mining : A Knowledge Discovery Approach. Springer, 2007.

C. D. Manning, P. Raghavan, and H. Schütze, An Introduction to Information Retrieval. Cambridge, England: Cambridge University Press, 2009.

A. Z. Arifin, I. P. A. K. Mahendra, and H. T. Ciptaningtyas, “Enhanced Confix Stripping Stemmer and ANTS Algorithm for Classifying News Docements in Indonesian Language,†in The 5th International Conference on Information & Communication Technology and Systems, 2009, pp. 149–158.

G. Tsatsaronis and V. Panagiotopoulou, “A generalized vector space model for text retrieval based on semantic relatedness,†EACL 2009 - 12th Conf. Eur. Chapter Assoc. Comput. Linguist. Proc., no. April, pp. 70–78, 2009.

J. N. Singh and S. K. Dwivedi, “Performance Analysis of Layered Vector Space Model in Web Information Retrieval,†Int. J. Appl. Inf. Syst., vol. 8, no. 5, pp. 7–15, 2015.

P. Harcourt and R. B. Japheth, “Application of Vector Space Model to Query Ranking and Information Retrieval,†Int. J. Adv. Res. Comput. Sci. Softw. Eng., vol. 6, no. 5, pp. 42–47, 2016.

M. Ahat, S. Amor, and M. Bui, “Document Classification with LSA and Pretopology.,†Stud. Inform. Universalis, vol. 8, no. 1, pp. 125–144, 2010.

R. T.-W. Lo, B. He, and I. Ounis, “Automatically Building a Stopword List for an Information Retrieval System,†J. Digit. Inf. Manag. Spec. Issue 5th Dutch-belgian Inf. Retr. Work., vol. 3, pp. 3–8, 2005.

F. A. Hermawati, H. Tjandrasa, and N. Suciati, “Sistem Retrieval Citra Berbasis Region Dengan Transformasi Wavelet Berdasarkan Karakteristik Color-Texture,†KONVERGENSI, vol. 2, no. 1, pp. 1–9, 2006.

F. A. Hermawati, H. H. Tjandrasa, and N. Suciati, “Evaluasi Representasi Warna Untuk Retrieval Citra Berbasis Region,†J. Saintek, vol. 9, no. 2, pp. 101–107, 2005.

F. A. Hermawati, “Sistem Temu Kembali Citra Berdasarkan Karakteristik Bentuk dengan Metode Color-Edge Extraction,†in Seminar Nasional Teknik 2009, 2009, pp. 253–257.

Published
2019-08-28
Section
Articles