Review : Sentiment analysis
Pendahuluan
Pemikiran, ide, dan opini dari orang lain merupakan salah satu dasar dari bagaimana seseorang memutuskan atau memilih sesuatu. Perkembangan web memberikan kontribusi yang sangat besar pada konten seperti komentar, opini, dan review tentang suatu produk yang jumlahnya sangat besar. Dalam konten ini, terdapat sentimen yang menunjukkan ekspresi seseorang terhadap produk tersebut baik berupa sentimen yang positif, negatif, maupun netral. Sentimen inilah yang menjadi sumber yang sangat berguna bagi consumer atau pemilik produk itu sendiri. Saat membeli barang secara online, konsumer akan mengecek sentimen orang lain atau konsumer yang telah membeli sebelumnya dari produk yang akan dibelinya. Pemilik produk juga dapat memanfaatkan opini ini untuk mengetahui reaksi pasar terhadap produknya atau untuk meningkatkan kualitas produk. Sehingga, sentimen ini bermanfaat baik bagi perusahaan maupun individual. Namun menganalisa sentimen dari data yang sangat besar secara menual merupakan masalah bagi user (perusahaan maupun individu). Maka dari itu, diperlukan suatu penelitian tentang bagaimana menganalisa data dari komentar dan sentimen dan dirangkum menjadi sesutau yang berguna bagi user tanpa mengeluarkan banyak tenaga. Oleh karenanya digunakan suatu metode sentimen analisis untuk megatasi hal tersebut.
“Sentimen analysis meupakan metode untuk me-mining perilaku, opini, dan emosi secara otomatis dari teks, speech, maupun database” (Vohra dan Tereiya, 2013). Sentiment analysis mengklasifikasi opini dalam teks menjadi kategori “positif”, “negatif” atau “netral” berdasar subyektifitas dari analisis opini. Klasifikasi sentimen ini dapat dilakukan pada level dokumen, kalimat, dan level aspek atau feature.
Pendekatan yang digunakan untuk sentiment analysis ini pada umumnya ada 3. Yakni machine learning, lexicon dan hybrid atau campuran dari machine learning dan lexicon. Pendekatan machine learning menggunakan machine learning untuk mengklasifikasi teks. Pendekatan lexicon menggunakan kamus sentimen dan dicocokkan dengan kata-kata dalam opini yang kemudian dihitung probabilitasnya. Pendekatan hybrid menggabungkan pendekatan machine learning dengan pendekatan lexicon. Dalam review ini, akan dibahas beberapa penelitian sentimen analisis terhadap review produk.
Studi Literatur
Penelitian pada sentiment analysis telah banyak dilakukan baik pada produk maupun pada microblog. Pada laporan ini akan dibahas khususnya pada review produk dari beberapa penelitian sebelumnya.
Varma (2011) menggunakan machine learning SVM untuk mengklasifikasikan sentimen pada produk dan untuk memprediksi sentimen dari produk baru berdasarkan sentimen yang telah dipelajari pada produk sebelumnya. Penelitian ini mengembangkan ensemble SVM dengan memasukkan kriteria vocabulary overlap dari dua produk ke dalam hasil SVM yakni kesamaan vocabulary antar produk. Dikatakan dalam paper ini bahwa dalam memprediksi sentimen produk baru, kita akan lebih suka menggunakan classifier dari produk yang sejenis atau mirip dari pada produk yang berbeda sama sekali. Ensemble SVM dieksperimenkan pada data review situs amazon.com dengan domain penelitian books, games, covers and cases, dan kindle based product. Ensemble SVM ini mampu meningkatkan hasil klasifikasi sebesar 6.18% dari baseline SVM.
Review atau opini bisa berisi kalimat yang positif, negatif, atau berisi keduanya. Zirn et.al. (2011) mencoba menyelesaikan adanya dua sentimen polarity yakni positif dan negatif dalam satu kalimat dengan mendeteksinya pada subsentence-level. Misal “Despite the pretty design// I would never recommend it,// because the sound quality is unacceptable” sub-kalimat pertama berupa sentimen positif, kedua dan ketiga berupa negatif. Penelitian ini menggunakan metode statistik Markov Logic Network berdasar relasi neighborhood dan adanya kontras (discourse relation) seperti “but”, “despite” dsb. Lexicon positif dan negatif ditentukan dengan Menggunakan database lexicon SentiWordNet (SWN) yakni lexical resource yang berisi skor positif, negatif, dan obyektifitasnya, dan Taboada and Grieve’s Turney Adjective List (TGL) yang berisi adjektif dan polaritynya (positif atau negatif). Tiap bertemu dengan kontras, polarity akan diubah, misal positif menjadi negatif dan negatif menjadi positif. Data berasal dari user review pada amazon.com. Review dibagi kedalam topik dimana dalam paper ini dibagi dalam tiga kategori yakni ”Cell Phones & Service”,”Gourmet Food” dan ”Kitchen & Housewares” dimana tiap kategori terdiri dari 100 review lebih. Dengan 10 cross validation, MLN dengan relasi neighborhood menghasilkan akurasi dan F-measure tertinggi, F-measure positif sebesar 69.50%, F-measure negatif sebesar 68.52%, dan akurasi sebesar 69.02%.
Tchalakova et.al. (2011) mencoba mengidentifikasi frase yang terjadi secara maximal dalam teks sebagai feature untuk mengklasifikasi sentimen pada produk. Frase ini dapat dicontohkan sebagai berikut : “bugs bunny” tidak dihitung sendiri-sendiri sebagai “bugs” dan “bunny”, namun satu kesatuan sebagai “bugs bunny” karena kemunculannya yang sering sebagai satu frase. Metode yang digunakan adalah dengan mengesktrak frase yang kemunculan frasenya maksimal dalam teks dan menggunakan SVM sebagai classifiernya. Kemunculan frase ini dibagi kedalam 3 bentuk. Left maximal, right maximal, dan maximal. Left maximal dapat dicontohkan misal kata “highly recommended”, left maximal-nya bukan “recommended” karena di sisi kiri dari recommended terdapat kemunculan tambahan kata “highly” menjadi satu frase “highly recommended”. Right maximal sama dengan left minimal, tapi tambahan berada pada sisi kanan. Sedangkan maximal merupakan kejadian frase baik left maximal maupun right maximal. Data yang dipakai dalam penelitian ini berasal dari amazon.com pada domain “books” dan “camera & photos”. Eksperimen dilakukan dengan 10 cross validation dengan data training terdiri dari 665 review positif dan 665 review negatif serta untuk testing sebanyak 333 review positif dan 333 review negatif. Hasil eksperimen pada domain “books” memiliki F-measure sebesar 81% dan pada domain “camera & photos” sebesar 86%.
Opini merupakan subyektifitas dari reviewer dan disampaikan dengan berbagai gaya dan tata kalimat. Narayanan, et.al. (2013) menyampaikan metode sentiment analysis untuk menyelesaikan beberapa masalah : negasi pada kata misalnya “not good”, adanya kata yang sama dalam satu dokumen, terdapat kata yang ada dalam training tapi tidak ada dalam testing, frase, dan redundant feature. Metode tersebut menggunakan naïve bayes untuk klasifikasi, negation handling untuk mengatasi masalah negasi, Bernoulli naïve bayes untuk mengatasi adanya kata yang sama dalam satu dokumen, Laplacian smoothing untuk mengatasi terdapat kata yang ada dalam training tapi tidak ada dalam testing, N-gram untuk mengatasi masalah frase, Feature selection untuk mengatasi masalah redundant feature dengan mengeliminasi feature yang tidak terlalu berpengaruh pada klasifikasi. Metode ini diaplikasikan pada dataset review movie dari Internet Movie Database (IMDb). Eksperimen menggunakan 25,000 data untuk training dan 25,000 untuk testing pada naïve bayes. Hasil menunjukkan bahwa penerapan metode diatas dapat meningkatkan akurasi. Akurasi tertinggi diperoleh dengan mengaplikasikan feature selection pada naïve bayes dengan akurasi mencapai 88.80%.
Mengklasifikasi review sebagai recommended (thumbs up) atau not recommended (thumbs down) dilakukan oleh Graebner et.al. (2012). Metode yang dipakai adalah menggunakan unsupervised learning algorithm berdasar rata-rata orientasi semantic dari frase. Orientasinya positif jika asosiasi dalam frase tersebut bagus, dan negatif jika asosiasi dalam frase tersebut menunjukkan buruk. Metode ini dibagi ke dalam 3 fase. Fase pertama mengekstrak frase yang mengandung adjective atau adverb. Yakni dua kata berturut-turut, dimana yang pertama merupakan adjective atau adverb, dan yang kedua berupa context berdasarkan pola dari pos tag-nya. Fase kedua mengestimasi orientasi semantic dari frase yang telah di ekstrak dengan algoritma PMI-IR (Pointwise Mutual Information – IR). Fase ketiga menghitung rata-rata orientasi semantic dari frase review dan mengklasifikasikannya menjadi recommended jika rata-ratanya positif dan not recommended jika rata-ratanya negatif. Data review berasal dari Epinions (http://www.epinions.com) dengan 5 domain yakni automobiles, banks, movies, dan travel destinations. Eksperimen dilakukan dengan 410 data review dimana 170 (41%) merupakan review not recommended dan 240 review (59%) merupakan review yang recommended. Yang kemudian dicari rata-rata orientasi semanticnya. Hasil akurasi terbaik pada klasifikasi automobile dengan 84% dan rata-rata akurasi dari ke-lima domain sebesar 74.39%.
Hasil dari kelima paper tersebut dapat dilihat pada tabel 1.
Tabel 1. Perbandingan Metode Sentiment analysis
Daftar Pustaka
Varma, S., Cross-Product Sentiment analysis via Ensemble SVM Classifiers. 2011 International Conference on Advancements in Information Technology With workshop of ICBMG 2011 IPCSIT vol.20 (2011) © (2011) IACSIT Press, Singapore pp.67-71
Vohra, S. M., Tereiya J. B., A Comparative Study of Sentiment analysis Techniques. Journal of Information, Knowledge and Research in Computer Engineering. ISSN: 0975 – 6760| Nov 12 to Oct 13 | volume – 02, issue – 02 pp. 313-317
Zirn et.al., Fine-Grained Sentiment analysis with Structural Features. Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 336–344, Chiang Mai, Thailand, November 8 – 13, 2011. c 2011 AFNLP
Tchalakova et. al., Automatic Sentimen Classification of Product Reviews Using Maximal Phrases Based Analysis. Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment analysis, ACL-HLT 2011, pages 111–117, 24 June, 2011, Portland, Oregon, USA c 2011 Association for Computational Linguistics
Narayanan, V., I. Arora, and A. Bhatia. Fast and accu-rate sentimen classification using an enhanced naïve bayes model. In H. Yin, K. Tang, Y. Gao, F. Kla-wonn, M. Lee, T. Weise, B. Li, and X. Yao, editors, Intelligent Data Engineering and Automated Learning IDEAL 2013, volume 8206 of Lecture Notes in Computer Science, pages 194–201. Springer Berlin Heidel-berg, 2013.
Turney, Peter D., Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, pp. 417-424.
Read More..
Jumat, 08 Januari 2016
KEMBALI LAGI
sudah bertahun-tahun (lebay) berlalu. yep, sejak terakhir belum lulus kuliah S1-ku di salah satu universitas negeri di Surakarta (atau satu-satunya yah?) waktu itu belom nikah, belom punya buntut, waktu itu masih banyak waktu luang, waktu itu pengen menyisihkan sedikit waktu buat nulis sekedarnya biar nggak lupa sama kuliah, waktu itu pengen nyimpen kenangan, waktu itu... banyak sekali.
sekarang sudah berbeda kondisi, yah hanya kondisi. Orangnya masih sama, tambah tua lha iya.
Sekarang sudah berkeluarga, punya anak satu, sudah kerja juga di salah satu universitas negeri di Jakarta, oh ya, tentu juga sudah menyelesaikan kuliah lanjut juga. huftt.. agendanya padat tiga tahun terakhir ini, dan ini sudah tahun keempat sejak terakhir nulis.
Karena merasa telah melewatkan banyak sekali kenangan dan tidak pernah dibagi kedalam tulisan, sudah bingung mau mulai lagi dari mana. Hari ini melihat foto-fota lama, merasa sayang sekali nggak ikut membagi memori, sayang sekali nggak sedikit meluangkan waktu untuk berbagi atau sedikit menulis. at least bisa dibaca sendiri nanti. but yaah.. it's ok, mari kita tata kembali satu persatu. tidak ada kata terlambat untuk menulis. banyak sekali kenangan, banyak sekali ilmu, banyak sekali pengetahuan,,, sayang untuk dilewatkan.
beberapa bulan terakhir ini, saya juga belajar banyak ilmu kontemporer yang bukan bidang saya, tapi saya rasa saya perlu untuk tahu. motivasinya, tentu saja penasaran. ketika mulai bekerja kemudian keal yang namanya NPWP, tentu saya nggak mau asal bikin tapi nggak tau buat apa. ketika notaris mengatakan bahwa ada biaya a, b, c dst. tentu saja saya harus tau apa itu a, b, c,dan benarkah itu semua. ketika kita dibebani sebuah tugas, nggak mungkin kita ngga belajar deskripsinya, dan apa saja yang harus dikerjakan bukan????
ok. maka dari sekarang harus rajin nulis. sambil sesekali mengunggah kenangan-kenangan lama.. tidak penting apakah itu akan bermanfaat bagi orang lain, sukur-sukur penting deh. tapi misal itu hanya bisa menjadi kesenangan atau kenangan pribadi, saya pikir tidak ada salahnya.
let's blogging Read More..
sekarang sudah berbeda kondisi, yah hanya kondisi. Orangnya masih sama, tambah tua lha iya.
Sekarang sudah berkeluarga, punya anak satu, sudah kerja juga di salah satu universitas negeri di Jakarta, oh ya, tentu juga sudah menyelesaikan kuliah lanjut juga. huftt.. agendanya padat tiga tahun terakhir ini, dan ini sudah tahun keempat sejak terakhir nulis.
Karena merasa telah melewatkan banyak sekali kenangan dan tidak pernah dibagi kedalam tulisan, sudah bingung mau mulai lagi dari mana. Hari ini melihat foto-fota lama, merasa sayang sekali nggak ikut membagi memori, sayang sekali nggak sedikit meluangkan waktu untuk berbagi atau sedikit menulis. at least bisa dibaca sendiri nanti. but yaah.. it's ok, mari kita tata kembali satu persatu. tidak ada kata terlambat untuk menulis. banyak sekali kenangan, banyak sekali ilmu, banyak sekali pengetahuan,,, sayang untuk dilewatkan.
beberapa bulan terakhir ini, saya juga belajar banyak ilmu kontemporer yang bukan bidang saya, tapi saya rasa saya perlu untuk tahu. motivasinya, tentu saja penasaran. ketika mulai bekerja kemudian keal yang namanya NPWP, tentu saya nggak mau asal bikin tapi nggak tau buat apa. ketika notaris mengatakan bahwa ada biaya a, b, c dst. tentu saja saya harus tau apa itu a, b, c,dan benarkah itu semua. ketika kita dibebani sebuah tugas, nggak mungkin kita ngga belajar deskripsinya, dan apa saja yang harus dikerjakan bukan????
ok. maka dari sekarang harus rajin nulis. sambil sesekali mengunggah kenangan-kenangan lama.. tidak penting apakah itu akan bermanfaat bagi orang lain, sukur-sukur penting deh. tapi misal itu hanya bisa menjadi kesenangan atau kenangan pribadi, saya pikir tidak ada salahnya.
let's blogging Read More..
Langganan:
Postingan (Atom)
