-->
Mas Basyir

Data Mining

Data Mining
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database.

Berdasarkan (JK06) adalah proses mengekstraksi pola-pola yang menarik (tidak remeh-temeh, implisit, belum diketahui sebelumnya, dan berpotensi untuk bermanfaat) dari data yang berukuran besar. 

Definisi data mining dari Adelman. pengertian data mining adalah proses pencarian pola data yang tidak diketahui atau tidak diperkirakan sebelumnya.

Pengertian data mining menurut Gartner Group, data mining sebagai suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yg tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statisik dan matematika.



Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.

Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental.

Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar. 

Pola Proses Data Mining


A. Pola Pencarian Proses
Data mining merupakan salah satu bagian dari proses pola pencarian. Berikut pola urutan proses pencarian :
  • Data Cleaning: yaitu menghapus data gangguan (noise) dan mengisi data yang hilang.
  • Data Integrasi: yaitu menggabungkan berbagai sumber data.
  • Pemilihan Data: yaitu memilih data yang relevan.
  • Transformasi data: yang mengubah data menjadi format untuk diproses dalam data mining.
  • Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.
  • Pola evaluasi: yang mengenali pola yang menarik saja.
  • Pola presentasi: pengguna untuk memvisualisasikan pola.

B. Latar belakang
Perkembangan pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan database terlalu besar. Namun, data yang dikumpulkan jarang terlihat lagi, karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan berdasarkan data- dibuat -yang ia tidak lagi berdasarkan data, bukan pengambil keputusan intuisi. Dengan demikian, lahir cabang data mining.
Analisis data tanpa menggunakan otomatisasi data mining tidak mungkin lagi, jika :
1) data terlalu banyak,
2) dimensi data terlalu besar,
3) data terlalu kompleks untuk dianalisis secara manual (misalnya time series Data, spatiotemporal data, data multimedia, data stream).

C. Teknik penggalian data
Pada dasarnya, fungsi data mining dibagi menjadi dua, yaitu deskripsi dan prediksi. Berikut adalah beberapa fungsi data mining yang sering digunakan :
·         Karakterisasi dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
·         Penggalian berulang pola: pola pencarian asosiasi (Asosiasi aturan) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu transaksi.
·         Klasifikasi: yaitu membangun model yang dapat mengklasifikasikan obyek berdasarkan atributnya. Kelas Target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada untuk mengklasifikasikan klasifikator sendiri.
·         Prediksi: nilai prediksi adalah nilai yang tidak diketahui atau hilang, menggunakan model klasifikasi.
·         Analisis / Cluster Penggugusan: yaitu pengelompokan satu set objek data berdasarkan kesamaan. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah pada memaksimalkan intrakelas kesamaan dan meminimalkan kemiripan antara kelas.
·         Outlier Analisis: yaitu pengenalan data yang tidak sesuai dengan perilaku umum data lainnya. Contoh: mengidentifikasi kebisingan dan pengecualian dalam data.
·         Analisis tren dan evolusi: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kesamaan.
·         Berikut adalah 10 paling algoritma data mining yang didasarkan pada ICDM ’06 konferensi populer, semua algoritma dinominasikan oleh pemenang ACM KDD Innovation Award dan IEEE ICDM Penelitian Kontribusi Award.

D. Konsep Data Mining Meliputi
Proses KDD (Knowledge Discovery in Database) dapat secara luas digambarkan sebagai berikut :

1. Data Selection
Kumpulan data operasional Seleksi (Selection) Data darurat perlu dilakukan sebelum langkah penggalian informasi di KDD dimulai. Hasil seleksi data yang akan digunakan untuk proses data mining, disimpan dalam file terpisah dari database operasional.

2. Pre-processing / Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan pada proses pembersihan data menjadi fokus KDD.
Proses pembersihan meliputi, antara lain, menghilangkan duplikasi data, memeriksa inkonsistensi data, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).
Juga membuat proses pengayaan, yaitu proses “memperkaya” data dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal yang ada.

3. Transformation
Coding adalah proses transformasi data yang telah, higga data itu telah sesuai dengan proses data mining. Coding dalam proses KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam database

5. Interpretation/ Evaluation
Informasi Pola yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretasi. Fase ini termasuk memeriksa apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada.

KDD proses garis terdiri dari lima tahap seperti yang dijelaskan sebelumnya. Namun, dalam proses KDD nyata, hanya dapat terjadi iterasi atau pengulangan pada tahap tahap. Pada setiap langkah dalam proses KDD, seorang analis dapat kembali ke tahap sebelumnya.

Sebagai contoh, pada saat proses coding atau data mining, analis menyadari pembersihan tidak dilakukan dengan sempurna, atau mungkin analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.

KDD mencakup seluruh proses mencari pola atau informasi dalam database, mulai dari pemilihan dan penyusunan data ke representasi pola yang ditemukan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu komponen dalam KDD difokuskan pada penggalian pola tersembunyi dalam data base.

Berikut ini Materi Data Mining yang berformat pdf, word, dan ppt. Silahkan Anda Download dan Pelajari :



Mas Basyir
Load comments