Data Mining adalah serangkaian proses untuk menggali nilai
tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak
diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha
untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar.
Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu
seperti kecerdasan buatan (artificial intelligent), machine learning, statistik
dan database.
Berdasarkan
(JK06) adalah proses mengekstraksi pola-pola yang menarik
(tidak remeh-temeh, implisit, belum diketahui sebelumnya, dan berpotensi
untuk bermanfaat) dari data yang berukuran besar.
Definisi data mining dari Adelman. pengertian data
mining adalah proses pencarian pola data yang tidak diketahui atau tidak
diperkirakan sebelumnya.
Pengertian data
mining menurut Gartner Group, data mining sebagai suatu proses menemukan
hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam
sekumpulan besar data yg tersimpan dalam penyimpanan dengan menggunakan teknik
pengenalan pola seperti teknik statisik dan matematika.
Data mining menjadi alat yang semakin penting untuk mengubah
data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai
praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan
ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan
pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang
penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan
riset pasar.
Alasan utama untuk menggunakan data mining adalah untuk
membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan
terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan
data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili
seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis
tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi
masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan
pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia.
Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau
dihapus sama sekali, selama konstruksi desain eksperimental.
Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar.
Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar.
Pola Proses Data Mining
A. Pola
Pencarian Proses
Data mining merupakan salah satu bagian dari proses pola
pencarian. Berikut pola urutan proses pencarian :
- Data
Cleaning: yaitu menghapus data gangguan (noise) dan mengisi data yang
hilang.
- Data
Integrasi: yaitu menggabungkan berbagai sumber data.
- Pemilihan
Data: yaitu memilih data yang relevan.
- Transformasi
data: yang mengubah data menjadi format untuk diproses dalam data mining.
- Penggalian
Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.
- Pola
evaluasi: yang mengenali pola yang menarik saja.
- Pola
presentasi: pengguna untuk memvisualisasikan pola.
B. Latar belakang
Perkembangan pesat di bidang pengumpulan data dan teknologi
penyimpanan di berbagai bidang, menghasilkan database terlalu besar. Namun,
data yang dikumpulkan jarang terlihat lagi, karena terlalu panjang,
membosankan, dan tidak menarik. Seringkali, keputusan berdasarkan data- dibuat
-yang ia tidak lagi berdasarkan data, bukan pengambil keputusan intuisi. Dengan
demikian, lahir cabang data mining.
Analisis data tanpa menggunakan otomatisasi data mining
tidak mungkin lagi, jika :
1) data terlalu banyak,2) dimensi data terlalu besar,
3) data terlalu kompleks untuk dianalisis secara manual (misalnya time series Data, spatiotemporal data, data multimedia, data stream).
C. Teknik penggalian data
Pada dasarnya, fungsi data mining dibagi menjadi dua, yaitu deskripsi dan prediksi. Berikut adalah beberapa fungsi data mining yang sering digunakan :
·
Karakterisasi
dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan
karakteristik data.
·
Penggalian
berulang pola: pola pencarian asosiasi (Asosiasi aturan) atau pola
intra-transaksi, atau pola pembelian yang terjadi dalam satu transaksi.
·
Klasifikasi:
yaitu membangun model yang dapat mengklasifikasikan obyek berdasarkan
atributnya. Kelas Target sudah tersedia dalam data sebelumnya, sehingga
fokusnya adalah bagaimana mempelajari data yang ada untuk mengklasifikasikan
klasifikator sendiri.
·
Prediksi:
nilai prediksi adalah nilai yang tidak diketahui atau hilang, menggunakan model
klasifikasi.
·
Analisis
/ Cluster Penggugusan: yaitu pengelompokan satu set objek data berdasarkan
kesamaan. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya
adalah pada memaksimalkan intrakelas kesamaan dan meminimalkan kemiripan antara
kelas.
·
Outlier
Analisis: yaitu pengenalan data yang tidak sesuai dengan perilaku umum data
lainnya. Contoh: mengidentifikasi kebisingan dan pengecualian dalam data.
·
Analisis
tren dan evolusi: meliputi analisis regresi, penggalian pola sekuensial,
analisis periodisitas, dan analisis berbasis kesamaan.
·
Berikut
adalah 10 paling algoritma data mining yang didasarkan pada ICDM ’06 konferensi
populer, semua algoritma dinominasikan oleh pemenang ACM KDD Innovation Award
dan IEEE ICDM Penelitian Kontribusi Award.
D. Konsep Data Mining
Meliputi
Proses KDD (Knowledge Discovery in Database) dapat secara
luas digambarkan sebagai berikut :1. Data Selection
Kumpulan data operasional Seleksi (Selection) Data darurat perlu dilakukan sebelum langkah penggalian informasi di KDD dimulai. Hasil seleksi data yang akan digunakan untuk proses data mining, disimpan dalam file terpisah dari database operasional.
2. Pre-processing / Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan pada proses pembersihan data menjadi fokus KDD.
Proses pembersihan meliputi, antara lain, menghilangkan duplikasi data, memeriksa inkonsistensi data, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).
Juga membuat proses pengayaan, yaitu proses “memperkaya” data dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal yang ada.
3. Transformation
Coding adalah proses transformasi data yang telah, higga data itu telah sesuai dengan proses data mining. Coding dalam proses KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam database
5. Interpretation/ Evaluation
Informasi Pola yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretasi. Fase ini termasuk memeriksa apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada.
KDD proses garis terdiri dari lima tahap seperti yang dijelaskan sebelumnya. Namun, dalam proses KDD nyata, hanya dapat terjadi iterasi atau pengulangan pada tahap tahap. Pada setiap langkah dalam proses KDD, seorang analis dapat kembali ke tahap sebelumnya.
Sebagai contoh, pada saat proses coding atau data mining, analis menyadari pembersihan tidak dilakukan dengan sempurna, atau mungkin analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.
KDD mencakup seluruh proses mencari pola atau informasi dalam database, mulai dari pemilihan dan penyusunan data ke representasi pola yang ditemukan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu komponen dalam KDD difokuskan pada penggalian pola tersembunyi dalam data base.
Berikut ini Materi Data Mining yang berformat pdf, word, dan ppt. Silahkan Anda
Download dan Pelajari :