Data Mining ( 2 Dari 2 ) Lanjutan
Seperti yang telah disampaikan pada goresan pena sebelumnya, bahwa Data Mining terdiri dari :
- Pembersihan Data: yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.
- Integrasi Data: yaitu menggabungkan aneka macam sumber data.
- Pemilihan Data: yaitu menentukan data yang relevan.
- Transformasi Data: yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data.
- Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.
- Evaluasi pola: yaitu mengenali pola-pola yang menarik saja.
- Penyajian pola: yaitu memvisualisasi contoh ke pengguna.
Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di aneka macam bidang, menghasilkan basis data yang terlampau besar. Namun, data yang dikumpulkan jarang dilihat lagi, alasannya terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya menurut data- dibentuk tidak lagi menurut data, melainkan dari intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu penggalian data ini.
Analisis data tanpa memakai otomasi dari penggalian data yakni tidak memungkinkan lagi, bila 1) data terlalu banyak, 2) dimensionalitas data terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: data time series, data spatiotemporal, data multimedia, data streams).
Teknik Penggalian Data
Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:
- Karakterisasi dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
- Penggalian contoh berulang: yaitu pencarian contoh asosiasi (association rule) atau contoh intra-transaksi, atau contoh pembelian yang terjadi dalam satu kali transaksi.
- Klasifikasi: yaitu membangun suatu model yang dapat mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas sasaran sudah tersedia dalam data sebelumnya, sehingga fokusnya yakni bagaimana mempelajari data yang ada biar klasifikator dapat mengklasifikasikan sendiri.
- Prediksi: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, memakai model dari klasifikasi.
- Penggugusan/Cluster analysis: yaitu mengelompokkan sekumpulan objek data menurut kemiripannya. Kelas sasaran tidak tersedia dalam data sebelumnya, sehingga fokusnya yakni memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.
- Analisis outlier: yaitu proses pengenalan data yang tidak sesuai dengan sikap umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.
- Analisis ekspresi dominan dan evolusi: mencakup analisis regresi, penggalian contoh sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.
Berikut ini yakni 9 algoritma penggalian data yang paling terkenal menurut konferensi ICDM '06, semua algoritma dinominasikan oleh para pemenang ACM KDD Innovation Award dan IEEE ICDM Research Contributions Award :
- C4.5 (61 suara)
- k-Means (60 suara)
- SVM (58 suara)
- Apriori (52 suara)
- EM (48 suara)
- PageRank (46 suara)
- AdaBoost (45 suara)
- kNN (45 suara)
- Naive Bayes (34 suara)
Berikut ini yakni 9 algoritma yang hanya masuk nominasi:
- CART
- FP-Tree
- HITS
- BIRCH
- GSP
- PrefixSpan
- CBA
- Finding Reduct
- gSpan
Sumber :
https://id.wikipedia.org/wiki/Penggalian_data
www.ilmukomputer.com (Data Mining by Yudho)