Data Mining merupakan sekumpulan proses untuk menggali ’emas’ dari sekumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. proses dalam Data Mining melibatkan teknik statistik, matematika, kecerdasan buatan dan machine learning untuk menggali informasi yang bermanfaat dan pengetahuan yang terakit dari berbagai database besar. Dari definisi diatas, didapat hal yang penting dari data mining seperti :
1. Proses otomatis terhadap data yang sudah ada
2. Data yang akan diproses berupa data yang besar.
3. Tujuan dari data mining adalah untuk mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat.
Pengelompokan Data Mining
1. Deskripsi
Deskripsi bisa dibilang sebagai cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Contohnya adalah : Petugas pengumpulan suara mungkin tidak dapat menemukan fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.
2. Estimasi
Estimasi mirip dengan klasifikasi, tetapi variabel target estimasi lebih kearah numerik, bukan ke arah kategori. Contoh : Estimasi nilai IPK mahasiswa program pascasarjana dengan melihat nilai index prestasi saat mahasiswa tersebut mengikuti program sarjana.
3. Prediksi
Pada prediksi, nilai yang akan merupakan nilai yang akan ada dimasa mendatang. Contohnya adalah prediksi harga beras dalam tiga bulan mendatang. Prediksi jumlah kecelakaan lalulintas tahun depan jika batas bawah kecepatana dinaikkan.
4. Klasifikasi
Dalam Klasifikasi, terdapat target variabel kategori. Contoh : Menentukan apakah suatu traksaksi kartu kredit merupakan transaksi yang curang atau bukan.
5. CLustering
Merupakan pengkelompokkan kelas objek yang memiliki kemiripan. Pada clustering tidak ada variabel target yang seperti pada kalsifikasi. Contoh : Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar.
6. Asosiasi
Asosiasi bertujuan untuk menemukan atribut yang muncul dalam satuan waktu. Contoh : Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan.
Untuk tulisan selanjutnya, saya akan membahas contoh-contoh algoritma yang sering digunakan dalam data mining, seperti C4.5, Nearest Neighbour, A Priori, Fuzzy C Means, Bayesian Classification dan Backpropagation
mas tolong upload program dengan algoritma c4.5 saya butuh reverensi y dengan java??