ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER

W, ANDRIYANTO DWI (2013) ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER. Other thesis, Universitas Sebelas Maret.

[img]
Preview
PDF - Published Version
Download (898Kb) | Preview

    Abstract

    ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER ANDRIYANTO DWI NURAHMAT Jurusan Informatika.Fakultas Matematika dan Ilmu Pengetahuan Alam. Universitas Sebelas Maret. ABSTRAK Spam pada email merupakan hal yang sangat menggangu maka diperlukan filtering untuk mengklasifikasikan email, terdapat beberapa metode yang dapat mengklasifikasikan email. Metode tersebut antara lain Bayesian Chi-Square dan Naïve Bayes Classifier, kedua metode tersebut mengklasifikan email secara matematis, untuk mengklasifikasikan email berdasarkan kata, frasa dan domain yang terdapat didalam email. Penelitian analisis spam filtering pada mail server ini menggunakan metode Bayesian-Chi Square dan Naïve Bayes Classifier. Kedua metode dibandingkan untuk mengetahui metode yang lebih efektif digunakan pada spam filtering. Keduanya diintegrasikan dengan mail server, selanjutnya dilakukan training dengan menggunakan dataset TREC2007 yang telah diklasifikasikan menjadi ham dan spam. Sampel data diperoleh dengan mengambil sebagian data secara random dari TREC2007. Pada tahap pengujian masing-masing bagian, dilakukan pengujian dengan sample data random yang berjumlah 300 email. Untuk menginputkan data training dilakukan secara bertahap tahap I data training berjumlah 750 email, tahap II berjumlah 1050 email, dan terakhir 1350. selanjutnya sampai pada tahap pengujian, pengujian dilakukan untuk setiap tahap training data di kedua metode tersebut. Pada metode Bayesian Chi-Square dilakukan pengujian dengan mengubah threshold antara spam dan ham, sehingga akan diketahui threshold yang terbaik untuk digunakan. Hasil penelitian dari serangkaian pengujian menunjukkan metode Bayesian Chi-Square mempunyai akurasi terbaik pada saat threshold 40 dan 60, dengan nilai akurasi 87%. Sementara metode Naïve Bayes Classifier memiliki hasil yang lebih baik dengan required default 5 mampu menghasilkan akurasi terbaik mencapai 92,6%, akurasi tinggi juga mengakibatkan beberapa tiper error menjadi tinggi seperti error spam menjadi ham yang berakibat mengganggu kinerja server, error kedua adalah ham menjadi spam akibatnya email yang seharusnya berada diinbox akan kespam atau terhapus. Untuk metode bayesian chi-square terdapat error unsure akibatnya user harus mengklasifikasikan email secara mandiri tetapi nilainya berbanding terbalik dengan akurasi. Kata Kunci : Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier, Spam SPAM FILTERING ANALYSIS ON THE MAIL SERVER WITH THE BAYESIAN CHI-SQUARE METHODS AND THE NAIVE BAYES CLASSIFIER METHODS ANDRIYANTO DWI NURAHMAT Department of Informatic. Mathematic and Science Faculty. Sebelas Maret University ABSTRACT Spam is a very disturbing case, so it is necessary to filtering the classify email and there are several methods that can classify the email. the methods are Bayesian Chi-Square and Naïve Bayes Classifier, both are classify the email mathematically based on words, phrases and domains contained within the email. this Research of analysing spam filtering on the mail server is using the Bayesian-Chi Square and Naïve Bayes Classifier methods. Both were compared to determine which method is more effective on spam filtering. the methods could be integrated with the mail server, then training using the data set TREC2007 which have been classified into ham and spam. the Samples obtained take some random data from TREC2007 . In the testing phase of each pieces, performed testing with 300 sample data of random email. gradually, Input training data first phase up to 750 emails, second phase up to 1050 email, and the last was 1350. next, the testing phase, the testing is done for each phase of training data in both methods. the Bayesian Chi- Square test method is done by changing the threshold between spam and ham, so there will know which is the best threshold to use. based on test result, the conclusion are the Bayesian Chi-Square method has the best accuracy threshold at 40 and 60, with the accuracy was 87%. While Naïve Bayes Classifier method had better results with the required default 5 is able to produce the best accuracy reaches 92,6%, this high accuracy also resulted in some type of the error such as errors result in spam being the ham that interfere the performance of the server, the second error is ham being spam which is the email that should be in inbox will become spam or deleted. there are error unsure in Chisquare bayesian that consequently the user must classify email independently but its value is inversely proportional to accuracy. Keywords: Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier, Spam

    Item Type: Thesis (Other)
    Subjects: Z Bibliography. Library Science. Information Resources > Z665 Library Science. Information Science
    Divisions: Fakultas Matematika dan Ilmu Pengetahuan Alam > Informatika
    Depositing User: Noviana Daruwati Kusuma Adi
    Date Deposited: 28 Apr 2014 22:55
    Last Modified: 28 Apr 2014 22:55
    URI: https://eprints.uns.ac.id/id/eprint/13903

    Actions (login required)

    View Item