DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI TWEET-BASED FEATURES

Wardhani, Yulia (2012) DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI TWEET-BASED FEATURES. Other thesis, Universitas Sebelas Maret.

[img]
Preview
PDF - Published Version
Download (1625Kb) | Preview

    Abstract

    ABSTRAK Spam merupakan penyalahgunaan dalam pengiriman berita dari jaringan komunikasi dan memiliki berbagai bentuk dan definisi yang berbeda tergantung pada jenis jaringannya. Dengan jutaan pengguna di seluruh dunia, Twitter menyediakan berbagai berita dan peristiwa yang terjadi. Namun, dengan adanya kemudahan dalam penyebaran berita dan memungkinkan pengguna untuk membahas berita tersebut dalam status mereka, layanan ini juga membuka peluang terbentuknya spam. Pada penelitian ini dilakukan deteksi spammer untuk mengklasifikasikan akun ke dalam spammer atau nonspammer dengan mempelajari tweet-based features (jumlah follower, following, URL, @mention dan #hashtag). Hasil penelitian menunjukkan bahwa algoritma yang dibangun mempunyai kesalahan (error) lebih sedikit dibanding dengan algoritma pembandingnya (algoritma C5.0), yaitu sebesar 11% untuk dataset 1, 14% untuk dataset 2, dan 6,3% untuk dataset 3. Ketelitian mengklasifikasikan sebesar 87,8% untuk dataset 1, 82,35% untuk dataset 2, dan 92,10% untuk dataset 3. Keakurasian sebesar 89% untuk dataset 1, 86% untuk dataset 2, dan 93,67% untuk dataset 3. Kata Kunci: Algoritma C5.0, Deteksi Spammer, Tweet-based Features, Twitter. ABSTRACT Spam is the abuse in the delivery of news and communication networks. It has different shapes and different definitions depending on the type of network. With millions of users worldwide, Twitter provides a variety of news and events. However, with the ease of dissemination of news, and allow users to discuss the stories in their status, these services also open opportunities for another kind of spam. In this study, spammer detection algorithm is applied to classify accounts into a spammer or non spammer by identifying tweet-based features (number of followers, followings, URLs, @mentions and #hashtags). The results showed that the algorithm has constructed an error 11% (dataset 1), 14% (dataset 2), 6,3% (dataset 3) is less than the comparison algorithm (C5.0 algorithm), achieve 87.8% precision (dataset 1), 82,35% precision (dataset 2), 92,10% precision (dataset 3) and 89% accuracy (dataset 1), 86% accuracy (dataset 2), 93,67% accuracy (dataset 3). Keywords: C.50 Algorithm, Spammer Detection, Tweet-based Features, Twitter.

    Item Type: Thesis (Other)
    Subjects: Q Science > QA Mathematics > QA76 Computer software
    Divisions: Fakultas Matematika dan Ilmu Pengetahuan Alam > Informatika
    Depositing User: Nurrahma Restia
    Date Deposited: 03 May 2014 18:01
    Last Modified: 03 May 2014 18:01
    URI: https://eprints.uns.ac.id/id/eprint/11114

    Actions (login required)

    View Item