KDD vs Data Mining
KDD (Penemuan Pengetahuan dalam Pangkalan Data) adalah bidang sains komputer, yang merangkumi alat dan teori untuk membantu manusia dalam mengekstrak maklumat yang berguna dan tidak diketahui sebelumnya (i.e. pengetahuan) dari koleksi besar data digital. KDD terdiri daripada beberapa langkah, dan perlombongan data adalah salah satu daripada mereka. Perlombongan data adalah penggunaan algoritma tertentu untuk mengekstrak corak dari data. Walau bagaimanapun, KDD dan perlombongan data digunakan secara bergantian.
Apa itu KDD?
Seperti yang disebutkan di atas, KDD adalah bidang sains komputer, yang berkaitan dengan pengekstrakan maklumat yang tidak diketahui dan menarik dari data mentah yang sebelumnya tidak diketahui. KDD adalah keseluruhan proses cuba memahami data dengan membangunkan kaedah atau teknik yang sesuai. Proses ini berurusan dengan pemetaan data peringkat rendah ke dalam bentuk lain yang lebih padat, abstrak dan berguna. Ini dicapai dengan membuat laporan pendek, memodelkan proses menjana data dan membangunkan model ramalan yang dapat meramalkan kes masa depan. Oleh kerana pertumbuhan data eksponen, terutamanya dalam bidang seperti perniagaan, KDD telah menjadi proses yang sangat penting untuk menukar kekayaan data yang besar ini kepada kecerdasan perniagaan, kerana pengekstrakan corak manual telah menjadi mustahil dalam beberapa dekad yang lalu. Sebagai contoh, ia kini digunakan untuk pelbagai aplikasi seperti analisis rangkaian sosial, pengesanan penipuan, sains, pelaburan, pembuatan, telekomunikasi, pembersihan data, sukan, pengambilan maklumat dan sebahagian besarnya untuk pemasaran. KDD biasanya digunakan untuk menjawab soalan seperti apa produk utama yang mungkin membantu mendapatkan keuntungan yang tinggi tahun depan di Wal-Mart?. Proses ini mempunyai beberapa langkah. Ia bermula dengan membangunkan pemahaman domain aplikasi dan matlamat dan kemudian membuat dataset sasaran. Ini diikuti dengan pembersihan, pra -proses, pengurangan dan unjuran data. Langkah seterusnya adalah menggunakan perlombongan data (dijelaskan di bawah) untuk mengenal pasti corak. Akhirnya, pengetahuan yang ditemui disatukan dengan menggambarkan dan/atau menafsirkan.
Apa itu Data Perlombongan?
Seperti yang disebutkan di atas, perlombongan data hanya satu langkah dalam proses KDD keseluruhan. Terdapat dua matlamat perlombongan data utama seperti yang ditakrifkan oleh matlamat permohonan, dan mereka iaitu pengesahan atau penemuan. Pengesahan mengesahkan hipotesis pengguna mengenai data, sementara penemuan secara automatik mencari corak yang menarik. Terdapat empat tugas perlombongan data utama: kluster, klasifikasi, regresi, dan persatuan (ringkasan). Clustering mengenal pasti kumpulan serupa dari data yang tidak berstruktur. Klasifikasi adalah peraturan pembelajaran yang boleh digunakan untuk data baru. Regresi mencari fungsi dengan ralat minimum untuk model data. Dan persatuan mencari hubungan antara pembolehubah. Kemudian, algoritma perlombongan data tertentu perlu dipilih. Bergantung pada matlamat, algoritma yang berbeza seperti regresi linear, regresi logistik, pokok keputusan dan bayes naif boleh dipilih. Kemudian corak minat dalam satu atau lebih bentuk perwakilan dicari. Akhirnya, model dinilai sama ada dengan menggunakan ketepatan ramalan atau kebolehpahaman.
Apakah perbezaan antara KDD dan perlombongan data?
Walaupun, kedua -dua istilah KDD dan perlombongan data banyak digunakan secara bergantian, mereka merujuk kepada dua konsep yang berkaitan namun sedikit berbeza. KDD adalah proses keseluruhan untuk mengekstrak pengetahuan dari data manakala perlombongan data adalah satu langkah di dalam proses KDD, yang berkaitan dengan mengenal pasti corak data. Dengan kata lain, perlombongan data hanya aplikasi algoritma tertentu berdasarkan matlamat keseluruhan proses KDD.