Dalam post ini, saya sekedar menuangkan tugas kuliah saya buat resume, dari pada ilang, saya suka nge-post tugas-tugas lama saya.. hehehehehe.. ini tentang teks mining dan web mining
Teks Mining
Teks mining/text data mining merupakan proses semi otomatis untuk mengekstrak polainformasi penting dan pengetahuan dari sumber data tidak terstruktur yang sangat besar (Turban et al.,2011). Beberapa area aplikasi terpopuler dalam teks mining antara ekstraksi informasi, topic tracking, summarization, categorization, clustering, concept linking dan question answering. Bidang-bidang yang memanfaatkan aplikasi text mining antara lain bidang marketing, security, biomedis, dan akademik.
Salah satu komponen penting dalam teks mining adalah natural language processing (NLP). NLP mempelajari maslah untuk memahami bahasa natural manusia dengan mengubah representasi dari bahasa manusia kebahasa yang lebih formal (angka atau simbol) yang lebih mudah dimanipulasi oleh program komputer. Proses teks mining yakni (Turban et al., 2011):
1. Menyusun bahan. Bertujuan untuk mengumpulkan seluruh dokumen yang berkaitan dengan konteks yang dipelajari. Terasuk dokumen teks, file-file xml, email, web page dan catatan pendek. Semua yang telah terkumpul di ubah kedalam bentuk representasi yang sama untuk di proses oleh komputer
2. Membuat Term-Document Matrix (TDM). Dokumen yeang telah terdigitisasi dan terorganisasi digunakan untuk membuat TDM. Dalam TDM baris merepresentasikan doukumen dan kolom merepresentasikan term. Hubungan anatar dokumen dan term dikarakterisasikan dengan indeks. Yakni untuk menemukan hubungan anatar dokumen dan term yang paling tepat.
3. Mengekstrak pengetahuan dengan klasifikasi yakni dengan mengkategorikan teks, clustering dengan mengelompokkan objek kedalam cluster tanpa memprioritaskan pengetahuan tertentu, asosiasi untuk mengidentifikasi himpunan-himpunan yang sering bersama, dan analisis tren.
Teks mining adalah aplikasi data mining untuk file teks tidak terstruktur atau kurang terstruktur. Data mining mengambil keuntungan dari infrastruktur data yang disimpan untuk mengekstrak informasi yang prediktif. Misalnya untuk mengetahui tren berita saat ini dan akan berbeda untuk masa-masa berikutnya. Kemudian berita tersebut akan menjadi tren kembali pada masa tertentu.
Teks mining membantu menemukan isi tersembunyi dari dokumen atau inti dari dokumen termasuk hubungan tambahan yang penting di dalam dokumen tersebut. Teks mining juga membantu mengelompokkan dokumen kedalam tema-tema tertentu. Sehingga dapat diringkas bahwa definisi text mining yakni menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen.
Tahapan teks mining secara umum (Mooney, 2006) adalah, Tokenizing merupakan tahan pemotongan string input berdasarkan tiap kata yang menyusunnya. Filtering merupakan tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stop list (membuang jata yang kurang penting) atau word list (menyimpan kata penting). Stemming adalah tahap mencari root kata dari setiap kata hasil filtering. Tagging adalah tahap mencari bentuk awal/root dari tiap kata lampau atau kata hasil stemming. Analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata anatar dokumen yang ada.
Web mining
Web mining merupakan aplikasi teknik data mining untuk menemukan pola, profil, dan tren dari web site (Lee, 2004). Web mining dapat didefinisikan sebagai penemuan dan analisis dari informasi yang menarik dan penting dari web, tentang web dan biasanya menggunakan web based tool. Web mining digunakan untuk mendeskripsikan tiga tipe information mining, yakni web content mining, web structure mining dan web usage mining.
Web content mining merupakan proses menemukan informasi dari jutaan dokumen web dan menunjuk kepada ekstraksi informasi penting dari web serta banyak digunakan untuk meningkatkan hasil pencarian yang dihasilkan oleh search engine.
Web structure mining menunjuk proses ekstraksi informasi penting dari link yang terdapat pada web page dan digunakan untuk mengidentifikasi penulisan halaman dan merupakan batu loncatan untuk page rank dalam search engine.
Web usage mining merupakan proses untuk menganalisa apa yang dilakukan oleh pengguna di web atau analisa clickstream data baik melalui web server log, user profile, dan informasi transaksi. Dalam web mining, data clickstream tersimpan di dalam data warehouse click stream khusus atau di data mart. Singkatnya, web mining merupakan alat mining yang digunakan untuk menganalisa data dalam jumlah yang besar di web.
Web mining merupakan penemuan dari pola yang penting, profil dan tren yang ditindaklanjuti dan bersumber dari web didefinisikan sebagai web mining (Turban, et al,. 2005). Misalnya dalam suatu toko online, customer hanya mengakses produk-produk atau service tertentu. dari perilaku customer ini dapat ditemukan pola ketertarikan dari si customer tersebut sehingga dapat dibuat suatu penawaran atau iklan tentang produk-produk tersebut yang dikirim ke email customer.
Dalam web content mining, perilaku customer dianalisa menurut tipe informasi yang mereka akses di web site. Dimana web-usage mining melibatkan log web akses dari customer, pola akses dan pola browsing. Dari mining tool, informasi produk mana yang paling banyak dilihat oleh customer dapat di identifikasi
Referensi :
Lee , Laurence Lock . 2004. Web Mining . LEF Research Grant. Melbourne : Australia Group
Mooney, Raymond J. 2006. Machne learning text categorization. University of texas at Austin.
Turban, Efraim, Ramesh Sharda, and Dursun Delen. 2011. Decision Support and Business Intelligence System. New Jersey: Pearson Education Inc.
Turban, E., et al. 2005. Decision Support and Intelligent Systems. Upper Saddle River, NJ: Prentice Hall.

terkait dengan implementasi Data Mining, bisa diunduh artikel berikut http://repository.gunadarma.ac.id/bitstream/123456789/1359/1/50407997.pdf
BalasHapus