Jumat, 08 Januari 2016

Review Sentimen Analisis (review dikit dari beberapa paper)

Review : Sentiment analysis

Pendahuluan


Pemikiran, ide, dan opini dari orang lain merupakan salah satu dasar dari bagaimana seseorang memutuskan atau memilih sesuatu. Perkembangan web memberikan kontribusi yang sangat besar pada konten seperti komentar, opini, dan review tentang suatu produk yang jumlahnya sangat besar. Dalam konten ini, terdapat sentimen yang menunjukkan ekspresi seseorang terhadap produk tersebut baik berupa sentimen yang positif, negatif, maupun netral. Sentimen inilah yang menjadi sumber yang sangat berguna bagi consumer atau pemilik produk itu sendiri. Saat membeli barang secara online, konsumer akan mengecek sentimen orang lain atau konsumer yang telah membeli sebelumnya dari produk yang akan dibelinya. Pemilik produk juga dapat memanfaatkan opini ini untuk mengetahui reaksi pasar terhadap produknya atau untuk meningkatkan kualitas produk. Sehingga, sentimen ini bermanfaat baik bagi perusahaan maupun individual. Namun menganalisa sentimen dari data yang sangat besar secara menual merupakan masalah bagi user (perusahaan maupun individu). Maka dari itu, diperlukan suatu penelitian tentang bagaimana menganalisa data dari komentar dan sentimen dan dirangkum menjadi sesutau yang berguna bagi user tanpa mengeluarkan banyak tenaga. Oleh karenanya digunakan suatu metode sentimen analisis untuk megatasi hal tersebut.

“Sentimen analysis meupakan metode untuk me-mining perilaku, opini, dan emosi secara otomatis dari teks, speech, maupun database” (Vohra dan Tereiya, 2013). Sentiment analysis mengklasifikasi opini dalam teks menjadi kategori “positif”, “negatif” atau “netral” berdasar subyektifitas dari analisis opini. Klasifikasi sentimen ini dapat dilakukan pada level dokumen, kalimat, dan level aspek atau feature.

Pendekatan yang digunakan untuk sentiment analysis ini pada umumnya ada 3. Yakni machine learning, lexicon dan hybrid atau campuran dari machine learning dan lexicon. Pendekatan machine learning menggunakan machine learning untuk mengklasifikasi teks. Pendekatan lexicon menggunakan kamus sentimen dan dicocokkan dengan kata-kata dalam opini yang kemudian dihitung probabilitasnya. Pendekatan hybrid menggabungkan pendekatan machine learning dengan pendekatan lexicon. Dalam review ini, akan dibahas beberapa penelitian sentimen analisis terhadap review produk.

Studi Literatur

Penelitian pada sentiment analysis telah banyak dilakukan baik pada produk maupun pada microblog. Pada laporan ini akan dibahas khususnya pada review produk dari beberapa penelitian sebelumnya.

Varma (2011) menggunakan machine learning SVM untuk mengklasifikasikan sentimen pada produk dan untuk memprediksi sentimen dari produk baru berdasarkan sentimen yang telah dipelajari pada produk sebelumnya. Penelitian ini mengembangkan ensemble SVM dengan memasukkan kriteria vocabulary overlap dari dua produk ke dalam hasil SVM yakni kesamaan vocabulary antar produk. Dikatakan dalam paper ini bahwa dalam memprediksi sentimen produk baru, kita akan lebih suka menggunakan classifier dari produk yang sejenis atau mirip dari pada produk yang berbeda sama sekali. Ensemble SVM dieksperimenkan pada data review situs amazon.com dengan domain penelitian books, games, covers and cases, dan kindle based product. Ensemble SVM ini mampu meningkatkan hasil klasifikasi sebesar 6.18% dari baseline SVM.

Review atau opini bisa berisi kalimat yang positif, negatif, atau berisi keduanya. Zirn et.al. (2011) mencoba menyelesaikan adanya dua sentimen polarity yakni positif dan negatif dalam satu kalimat dengan mendeteksinya pada subsentence-level. Misal “Despite the pretty design// I would never recommend it,// because the sound quality is unacceptable” sub-kalimat pertama berupa sentimen positif, kedua dan ketiga berupa negatif. Penelitian ini menggunakan metode statistik Markov Logic Network berdasar relasi neighborhood dan adanya kontras (discourse relation) seperti “but”, “despite” dsb. Lexicon positif dan negatif ditentukan dengan Menggunakan database lexicon SentiWordNet (SWN) yakni lexical resource yang berisi skor positif, negatif, dan obyektifitasnya, dan Taboada and Grieve’s Turney Adjective List (TGL) yang berisi adjektif dan polaritynya (positif atau negatif). Tiap bertemu dengan kontras, polarity akan diubah, misal positif menjadi negatif dan negatif menjadi positif. Data berasal dari user review pada amazon.com. Review dibagi kedalam topik dimana dalam paper ini dibagi dalam tiga kategori yakni ”Cell Phones & Service”,”Gourmet Food” dan ”Kitchen & Housewares” dimana tiap kategori terdiri dari 100 review lebih. Dengan 10 cross validation, MLN dengan relasi neighborhood menghasilkan akurasi dan F-measure tertinggi, F-measure positif sebesar 69.50%, F-measure negatif sebesar 68.52%, dan akurasi sebesar 69.02%.

Tchalakova et.al. (2011) mencoba mengidentifikasi frase yang terjadi secara maximal dalam teks sebagai feature untuk mengklasifikasi sentimen pada produk. Frase ini dapat dicontohkan sebagai berikut : “bugs bunny” tidak dihitung sendiri-sendiri sebagai “bugs” dan “bunny”, namun satu kesatuan sebagai “bugs bunny” karena kemunculannya yang sering sebagai satu frase. Metode yang digunakan adalah dengan mengesktrak frase yang kemunculan frasenya maksimal dalam teks dan menggunakan SVM sebagai classifiernya. Kemunculan frase ini dibagi kedalam 3 bentuk. Left maximal, right maximal, dan maximal. Left maximal dapat dicontohkan misal kata “highly recommended”, left maximal-nya bukan “recommended” karena di sisi kiri dari recommended terdapat kemunculan tambahan kata “highly” menjadi satu frase “highly recommended”. Right maximal sama dengan left minimal, tapi tambahan berada pada sisi kanan. Sedangkan maximal merupakan kejadian frase baik left maximal maupun right maximal. Data yang dipakai dalam penelitian ini berasal dari amazon.com pada domain “books” dan “camera & photos”. Eksperimen dilakukan dengan 10 cross validation dengan data training terdiri dari 665 review positif dan 665 review negatif serta untuk testing sebanyak 333 review positif dan 333 review negatif. Hasil eksperimen pada domain “books” memiliki F-measure sebesar 81% dan pada domain “camera & photos” sebesar 86%.

Opini merupakan subyektifitas dari reviewer dan disampaikan dengan berbagai gaya dan tata kalimat. Narayanan, et.al. (2013) menyampaikan metode sentiment analysis untuk menyelesaikan beberapa masalah : negasi pada kata misalnya “not good”, adanya kata yang sama dalam satu dokumen, terdapat kata yang ada dalam training tapi tidak ada dalam testing, frase, dan redundant feature. Metode tersebut menggunakan naïve bayes untuk klasifikasi, negation handling untuk mengatasi masalah negasi, Bernoulli naïve bayes untuk mengatasi adanya kata yang sama dalam satu dokumen, Laplacian smoothing untuk mengatasi terdapat kata yang ada dalam training tapi tidak ada dalam testing, N-gram untuk mengatasi masalah frase, Feature selection untuk mengatasi masalah redundant feature dengan mengeliminasi feature yang tidak terlalu berpengaruh pada klasifikasi. Metode ini diaplikasikan pada dataset review movie dari Internet Movie Database (IMDb). Eksperimen menggunakan 25,000 data untuk training dan 25,000 untuk testing pada naïve bayes. Hasil menunjukkan bahwa penerapan metode diatas dapat meningkatkan akurasi. Akurasi tertinggi diperoleh dengan mengaplikasikan feature selection pada naïve bayes dengan akurasi mencapai 88.80%.

Mengklasifikasi review sebagai recommended (thumbs up) atau not recommended (thumbs down) dilakukan oleh Graebner et.al. (2012). Metode yang dipakai adalah menggunakan unsupervised learning algorithm berdasar rata-rata orientasi semantic dari frase. Orientasinya positif jika asosiasi dalam frase tersebut bagus, dan negatif jika asosiasi dalam frase tersebut menunjukkan buruk. Metode ini dibagi ke dalam 3 fase. Fase pertama mengekstrak frase yang mengandung adjective atau adverb. Yakni dua kata berturut-turut, dimana yang pertama merupakan adjective atau adverb, dan yang kedua berupa context berdasarkan pola dari pos tag-nya. Fase kedua mengestimasi orientasi semantic dari frase yang telah di ekstrak dengan algoritma PMI-IR (Pointwise Mutual Information – IR). Fase ketiga menghitung rata-rata orientasi semantic dari frase review dan mengklasifikasikannya menjadi recommended jika rata-ratanya positif dan not recommended jika rata-ratanya negatif. Data review berasal dari Epinions (http://www.epinions.com) dengan 5 domain yakni automobiles, banks, movies, dan travel destinations. Eksperimen dilakukan dengan 410 data review dimana 170 (41%) merupakan review not recommended dan 240 review (59%) merupakan review yang recommended. Yang kemudian dicari rata-rata orientasi semanticnya. Hasil akurasi terbaik pada klasifikasi automobile dengan 84% dan rata-rata akurasi dari ke-lima domain sebesar 74.39%.

Hasil dari kelima paper tersebut dapat dilihat pada tabel 1.


Tabel 1. Perbandingan Metode Sentiment analysis

Daftar Pustaka
Varma, S., Cross-Product Sentiment analysis via Ensemble SVM Classifiers. 2011 International Conference on Advancements in Information Technology With workshop of ICBMG 2011 IPCSIT vol.20 (2011) © (2011) IACSIT Press, Singapore pp.67-71
Vohra, S. M., Tereiya J. B., A Comparative Study of Sentiment analysis Techniques. Journal of Information, Knowledge and Research in Computer Engineering. ISSN: 0975 – 6760| Nov 12 to Oct 13 | volume – 02, issue – 02 pp. 313-317
Zirn et.al., Fine-Grained Sentiment analysis with Structural Features. Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 336–344, Chiang Mai, Thailand, November 8 – 13, 2011. c 2011 AFNLP
Tchalakova et. al., Automatic Sentimen Classification of Product Reviews Using Maximal Phrases Based Analysis. Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment analysis, ACL-HLT 2011, pages 111–117, 24 June, 2011, Portland, Oregon, USA c 2011 Association for Computational Linguistics
Narayanan, V., I. Arora, and A. Bhatia. Fast and accu-rate sentimen classification using an enhanced naïve bayes model. In H. Yin, K. Tang, Y. Gao, F. Kla-wonn, M. Lee, T. Weise, B. Li, and X. Yao, editors, Intelligent Data Engineering and Automated Learning IDEAL 2013, volume 8206 of Lecture Notes in Computer Science, pages 194–201. Springer Berlin Heidel-berg, 2013.
Turney, Peter D., Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, pp. 417-424.

Read More..

KEMBALI LAGI

sudah bertahun-tahun (lebay) berlalu. yep, sejak terakhir belum lulus kuliah S1-ku di salah satu universitas negeri di Surakarta (atau satu-satunya yah?) waktu itu belom nikah, belom punya buntut, waktu itu masih banyak waktu luang, waktu itu pengen menyisihkan sedikit waktu buat nulis sekedarnya biar nggak lupa sama kuliah, waktu itu pengen nyimpen kenangan, waktu itu... banyak sekali.

sekarang sudah berbeda kondisi, yah hanya kondisi. Orangnya masih sama, tambah tua lha iya.
Sekarang sudah berkeluarga, punya anak satu, sudah kerja juga di salah satu universitas negeri di Jakarta, oh ya, tentu juga sudah menyelesaikan kuliah lanjut juga. huftt.. agendanya padat tiga tahun terakhir ini, dan ini sudah tahun keempat sejak terakhir nulis.

Karena merasa telah melewatkan banyak sekali kenangan dan tidak pernah dibagi kedalam tulisan, sudah bingung mau mulai lagi dari mana. Hari ini melihat foto-fota lama, merasa sayang sekali nggak ikut membagi memori, sayang sekali nggak sedikit meluangkan waktu untuk berbagi atau sedikit menulis. at least bisa dibaca sendiri nanti. but yaah.. it's ok, mari kita tata kembali satu persatu. tidak ada kata terlambat untuk menulis. banyak sekali kenangan, banyak sekali ilmu, banyak sekali pengetahuan,,, sayang untuk dilewatkan.

beberapa bulan terakhir ini, saya juga belajar banyak ilmu kontemporer yang bukan bidang saya, tapi saya rasa saya perlu untuk tahu. motivasinya, tentu saja penasaran. ketika mulai bekerja kemudian keal yang namanya NPWP, tentu saya nggak mau asal bikin tapi nggak tau buat apa. ketika notaris mengatakan bahwa ada biaya a, b, c dst. tentu saja saya harus tau apa itu a, b, c,dan benarkah itu semua. ketika kita dibebani sebuah tugas, nggak mungkin kita ngga belajar deskripsinya, dan apa saja yang harus dikerjakan bukan????

ok. maka dari sekarang harus rajin nulis. sambil sesekali mengunggah kenangan-kenangan lama.. tidak penting apakah itu akan bermanfaat bagi orang lain, sukur-sukur penting deh. tapi misal itu hanya bisa menjadi kesenangan atau kenangan pribadi, saya pikir tidak ada salahnya.

let's blogging Read More..

Sabtu, 15 Oktober 2011

cari karakter

seringkali saya bingung nyari karakter ascii,,, daripada susah-susah, mending nyari sampel code dari pascalnya......
progrmnya simpel aja. (soale cuma baca ASCII)
=======================================
uses WinCrt;

var
I: Integer;
begin
for I := 1 to 165 do Write(Chr(I));
end.
========================================

Read More..

Bintang

Bingung mau ngepost apaan,,, saya mau bermemory tentang pascal sebelum saya melupakannya.. hehehehehe...

ini adalah contoh penggunaan for dalam pascal..
misalnya saja kita mau bikin bintang-bintang.. yang bentuknya kayak gini
* * * * * *
* * * * *
* * * *
* * *
* *
*

kita dapat menuliskannya dalam program pascal sbb :
========================================================
Program Bintang_1;
uses wincrt;
var n, i, j : integer;
begin
write('Masukkan n : ');
readln(n);
for i := 1 to n do
begin
for j := n downto i do
begin
write('* ');
end;
writeln;
end;
end.
======================================================
hasilnya akan sbb :



program di atas dibuat dengan TPW alias Turbo Pascal for Windows.. jika teman-teman ingin membuatnya di turbo pascal atau free pascal, pakai uses crt bukan uses wincrt..
Misal teman-teman ingin membuat bentuk semacam ini
*
* *
* * *
* *
*

code berikut bisa di coba :
==========================================================
Program Bintang_2;
uses wincrt;
var n, i, j : integer;
begin
write('Masukkan n : ');
readln(n);
for i := 1 to n do
begin
for j := 1 to i do
begin
write ('* ');
end;
writeln;
end;
for i := 1 to j do
begin
for j := n-1 downto i do
begin
write ('* ');
end;
writeln;
end;
end.
==========================================================
dan hasilnya akan sejenis ini ;


dan bagaimana kalau dari sedikit ke banyak???
=================================================================
Program Bintang_3;
uses wincrt;
var n, i, j : integer;
begin
write('Masukkan n : ');
readln(n);
for i := 1 to n do
begin
for j :=1 to i do
begin
write('* ');
end;
writeln;
end;
end.
=======================================================================





ingat ya.. n yang diminta diisi dengan angka ^^v Read More..

Sabtu, 11 Juni 2011

Data Mining dan Data Warehousing

sedikit membahas tentang data mining dan data warehousing, berhubung ini resume, ya kayak gini bahasanya.. gak terlalu bagus.. hohohoho

A. Data mining merupakan proses menemukan atau “memining” pengetahuan dari data dalam jumlah yang besar.
o Data mining merupakan proses rumit mengidentifikasi pola kevalidan, ke-baruan, yang berpotensial bermanfaat, dan dipahami dalam data yang tersimpan dalam database terstruktur.
o Secara umum, data mining digunakan untuk mengidentifikasi empat jenis utama dari pola yakni asosiasi, prediksi, kluster, dan hubungan sequensial
o Terdapat empat proses dalam data mining
1. memahami bisnis / business understanding yakni mengetahui tujuan bisnis
2. data understanding / memamahami data yakni menempatkan data pada tugas bisnis yang telah terdefinisi dengan baik dan tugas bisnis yang berbeda memerlukan set data yang berbeda pula.
3. data preparation / persiapan data (data preprocessing), tujuan dari persiapan data adalah untuk mengambil data yang telah di identifikasi dari langkah sebelumnya dan mempersiapkan data tersebut untuk analisis dengan metode data mining. Yakni dengan data consolidation, data cleaning, data transformation dan data reduction.
4. model building / membangun model, dalam langkah ini berbagai teknik model dipilih dan digunakan pada dataset yang telah dipersiapkan unutk mengalamatkan kebutuhan bisnis tertentu.
5. test dan evaluasi. Model yang telah di bangun dinilai dan dievaluasi untuk keakuratan dan keumuman. Menilai apakah derajat dari model yang telah dipilih telah mencapai tujuan bisnis.
o Data mining merupakan proses untuk menggali(mining) pengetahuan dan informasi baru dari data yang berjumlah banyak pada data warehouse, dengan menggunakan kecerdasan buatan (Artificial Intelegence), statistik dan matematika. Data mining merupakan teknologi yang diharapkan dapat menjembatani komunikasi antara data dan pemakainya.
o Beberapa solusi yang diberikan data mining antara lain :
1. Menebak target pasar. Data mining dapat mengelompokkan (clustering) model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli dan melakukan klasifikasi terhadap setiap pemebeli sesuai dengan karakteristik yang diinginkan.
2. Melihat pola beli dari waktu ke waktu. Data mining dapat digunakan untuk melihat pola beli dari waktu ke waktu.
3. cross-market analysis. Data mining dapat dimanfaatkan untuk melihat hubungan antara satu produk dengan produk lainnya.
4. Profil pelanggan. Data mining bisa membantu pengguna untuk melihat profil pembeli sehingga dapat diketahui kelompok pembeli tertentu cenderung kepada suatu produk apa saja.
5. Informasi summary. Data mining dapat membuat laporan summary yang bersifat multi dimensi dan dilengkapi dengan informasi statistik lainnya.
B. Data warehouse / DW merupakan kolam data yang di produksi untuk mendukung pembuatan keputusan.
o Karakteristik data warehousing :
1. Subject Oriented (Berorientasi subject). Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu.
2. Integrated (Terintegrasi). Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri.
3. Time-variant (Rentang Waktu). Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu.
4. Non Volatile. Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler.
5. client server. Data warehouse menggunakan arsitektur client/server untuk menyediakan akses yang mudah kepada end-user nya.
6. rela time. Data warehouse yang lebih baru menyediakan akses data real-time atau aktif dan kemampuan analisa.
7. include metada. Data warehouse berisi metadata tentang bagaimana data di organisasi dan bagaimana memanfaatkan data tersebut secara efektif.
o Komponen utama dari proses data warehousing anatara lain :
1. data sources / sumber data. Data bersumber dari beberapa operasi independen dari system legacy dan mungkin dari penyedia data eksternal.
2. ekstraksi data. Data di ekstrak menggunakan software ETL
3. Data loading. Data di load kedalam staging area diaman data di ubah dan dibersihkan menjadi data yang siap di load kedalam data warehouse
4. comprehensive database. Untuk mendukung semua analysis keputusan dengan menyediakan informasi asli yang ringkas dan detail dari sumber yang berbeda.
5. metadata. Metadata di maintain sehingga dapat diakses oleh personel IT dan user.
6. middleware tools. Memungkinkan akses ke data warehouse. Sehingga analis dapat menuliskan SQL query nya sendiri.
o Berikut ini adalah tiga jenis dasar sistem Data Warehouse :
1. Functional Data Warehouse (Data Warehouse Fungsional)
Data warehouse dibuat lebih dari satu dan dikelompokkan berdasar fungsi-fungsi yang ada di dalam perusahaan seperti fungsi keuangan(financial),marketing,personalia dan lain-lain.
2. Centralized Datawarehouse (Data Warehouse Terpusat)
Seperti bentuk data warehouse fungsional, namun terlebih dahulu sumber data dikumpulkan dalam satu tempat terpusat, kemudian data disebar ke dalam fungsinya masing-masing, sesuai kebutuhan perusahaan. Data warehouse terpusat ini, biasa digunakan oleh perusahaan yang belum memiliki jaringan eksternal.
3. Distributed Data Warehouse (Data Warehouse terdistribusi)
Menggunakan gateway yang berfungsi sebagai jembatan penghubung antara data warehouse dengan workstation yang menggunakan sistem beraneka ragam. Dengan sistem terdistribusi seperti ini memungkinkan perusahaan dapat mengakses sumber data yang berada diluar lokasi perusahaan(eksternal).

Sumber :
Inmon, W.H. 2002. Building the Data Warehouse,edisi-3. Wiley Computer Publishing.
Turban, Efraim, Ramesh Sharda, and Dursun Delen. 2011. Decision Support and Business Intelligence System. New Jersey: Pearson Education Inc.
Poe, Vidette. 1998. Building Data Warehouse for Decision Support, edisi-2. Prentice Hall.
Read More..

Teks Mining dan Web Mining

Dalam post ini, saya sekedar menuangkan tugas kuliah saya buat resume, dari pada ilang, saya suka nge-post tugas-tugas lama saya.. hehehehehe.. ini tentang teks mining dan web mining 
Teks Mining

Teks mining/text data mining merupakan proses semi otomatis untuk mengekstrak polainformasi penting dan pengetahuan dari sumber data tidak terstruktur yang sangat besar (Turban et al.,2011). Beberapa area aplikasi terpopuler dalam teks mining antara ekstraksi informasi, topic tracking, summarization, categorization, clustering, concept linking dan question answering. Bidang-bidang yang memanfaatkan aplikasi text mining antara lain bidang marketing, security, biomedis, dan akademik.
Salah satu komponen penting dalam teks mining adalah natural language processing (NLP). NLP mempelajari maslah untuk memahami bahasa natural manusia dengan mengubah representasi dari bahasa manusia kebahasa yang lebih formal (angka atau simbol) yang lebih mudah dimanipulasi oleh program komputer. Proses teks mining yakni (Turban et al., 2011):
1.    Menyusun bahan. Bertujuan untuk mengumpulkan seluruh dokumen yang berkaitan dengan konteks yang dipelajari. Terasuk dokumen teks, file-file xml, email, web page dan catatan pendek. Semua yang telah terkumpul di ubah kedalam bentuk representasi yang sama untuk di proses oleh komputer
2.    Membuat Term-Document Matrix (TDM). Dokumen yeang telah terdigitisasi dan terorganisasi digunakan untuk membuat TDM. Dalam TDM baris merepresentasikan doukumen dan kolom merepresentasikan term. Hubungan anatar dokumen dan term dikarakterisasikan dengan indeks. Yakni untuk menemukan hubungan anatar dokumen dan term yang paling tepat.
3.    Mengekstrak pengetahuan dengan klasifikasi yakni dengan mengkategorikan teks, clustering dengan mengelompokkan objek kedalam cluster tanpa memprioritaskan pengetahuan tertentu, asosiasi untuk mengidentifikasi himpunan-himpunan yang sering bersama, dan analisis tren.


Teks mining adalah aplikasi data mining untuk file teks tidak terstruktur atau kurang terstruktur. Data mining mengambil keuntungan dari infrastruktur data yang disimpan untuk mengekstrak informasi yang prediktif. Misalnya untuk mengetahui tren berita saat ini dan akan berbeda untuk masa-masa berikutnya. Kemudian berita tersebut akan menjadi tren kembali pada masa tertentu.
Teks mining membantu menemukan isi tersembunyi dari dokumen atau inti dari dokumen termasuk hubungan tambahan yang penting di dalam dokumen tersebut. Teks mining juga membantu mengelompokkan dokumen kedalam tema-tema tertentu. Sehingga dapat diringkas bahwa definisi text mining yakni menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen.
Tahapan teks mining secara umum (Mooney, 2006) adalah, Tokenizing merupakan tahan pemotongan string input berdasarkan tiap kata yang menyusunnya. Filtering merupakan tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stop list (membuang jata yang kurang penting) atau word list (menyimpan kata penting). Stemming adalah tahap mencari root kata dari setiap kata hasil filtering. Tagging adalah tahap mencari bentuk awal/root dari tiap kata lampau atau kata hasil stemming. Analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata anatar dokumen yang ada.

Web mining
Web mining merupakan aplikasi teknik data mining untuk menemukan pola, profil, dan tren dari web site (Lee, 2004). Web mining dapat didefinisikan sebagai penemuan dan analisis dari informasi yang menarik dan penting dari web, tentang web dan biasanya menggunakan web based tool. Web mining digunakan untuk mendeskripsikan tiga tipe information mining, yakni web content mining, web structure mining dan web usage mining.
Web content mining merupakan proses menemukan informasi dari jutaan dokumen web dan menunjuk kepada ekstraksi informasi penting dari web serta banyak digunakan untuk meningkatkan hasil pencarian yang dihasilkan oleh search engine.
Web structure mining menunjuk proses ekstraksi informasi penting dari link yang terdapat pada web page dan digunakan untuk mengidentifikasi penulisan halaman dan merupakan batu loncatan untuk page rank dalam search engine.
Web usage mining merupakan proses untuk menganalisa apa yang dilakukan oleh pengguna di web atau analisa clickstream data baik melalui web server log, user profile, dan informasi transaksi. Dalam web mining, data clickstream tersimpan di dalam data warehouse click stream khusus atau di data mart. Singkatnya, web mining merupakan alat mining yang digunakan untuk menganalisa data dalam jumlah yang besar di web.
Web mining merupakan penemuan dari pola yang penting, profil dan tren yang ditindaklanjuti dan bersumber dari web didefinisikan sebagai web mining (Turban, et al,. 2005). Misalnya dalam suatu toko online, customer hanya mengakses produk-produk atau service tertentu. dari perilaku customer ini dapat ditemukan pola ketertarikan dari si customer tersebut sehingga dapat dibuat suatu penawaran atau iklan tentang produk-produk tersebut yang dikirim ke email customer.
Dalam web content mining, perilaku customer dianalisa menurut tipe informasi yang mereka akses di web site. Dimana web-usage mining melibatkan log web akses dari customer, pola akses dan pola browsing. Dari mining tool, informasi produk mana yang paling banyak dilihat oleh customer dapat di identifikasi

Referensi :
Lee , Laurence Lock . 2004. Web Mining . LEF Research Grant.  Melbourne : Australia Group
Mooney, Raymond J.  2006. Machne learning text categorization. University of texas at Austin.
Turban, Efraim, Ramesh Sharda, and Dursun Delen. 2011. Decision Support and Business Intelligence System. New Jersey: Pearson Education Inc.
Turban, E., et al. 2005. Decision Support and Intelligent Systems. Upper Saddle River, NJ: Prentice Hall.
Read More..

Buat Lagi

Setelah sekian lama gak nge-blog.. domain hosting q juga udah ilang gara-gara gak pernah di buka dan diurus, akhirnya saya memutuskan untuk membuat blog saja. Blog saya yang satu lagi di universitas telah di masuki banyak spam, saya jadi muales ngurus juga (itu juga lama gak di buka). yap, let's start blogging.... Read More..