Hierarki vs kluster parti
Clustering adalah teknik pembelajaran mesin untuk menganalisis data dan membahagikan kepada kumpulan data yang serupa. Kumpulan atau set data yang serupa ini dikenali sebagai kelompok. Analisis kluster melihat algoritma kluster yang dapat mengenal pasti kelompok secara automatik. Hierarki dan parti adalah dua kelas algoritma clustering. Algoritma kluster hierarki memecahkan data ke hierarki kluster. Algoritma parisi membahagikan data yang ditetapkan ke dalam partition yang saling diselaraskan.
Apa itu kluster hierarki?
Algoritma kluster hierarki mengulangi kitaran sama ada menggabungkan kelompok yang lebih kecil ke yang lebih besar atau membahagikan kluster yang lebih besar kepada yang lebih kecil. Sama ada cara, ia menghasilkan hierarki kelompok yang dipanggil Dendogram. Strategi clustering agglomerative menggunakan pendekatan bottom-up untuk menggabungkan kluster ke yang lebih besar, sementara strategi clustering yang memecah belah menggunakan pendekatan atas ke bawah untuk memecah masuk ke yang lebih kecil. Biasanya, pendekatan tamak digunakan dalam menentukan kelompok yang lebih besar/lebih kecil digunakan untuk menggabungkan/membahagikan. Jarak Euclidean, jarak Manhattan dan persamaan kosinus adalah beberapa metrik kesamaan yang paling biasa digunakan untuk data angka. Untuk data bukan angka, metrik seperti jarak Hamming digunakan. Adalah penting untuk diperhatikan bahawa pemerhatian sebenar (contoh) tidak diperlukan untuk kluster hierarki, kerana hanya matriks jarak yang mencukupi. Dendogram adalah perwakilan visual kelompok, yang memaparkan hierarki dengan sangat jelas. Pengguna boleh mendapatkan clustering yang berbeza bergantung pada tahap di mana Dendogram dipotong.
Apa itu kluster parti?
Algoritma kluster parti menghasilkan pelbagai partisi dan kemudian menilai mereka dengan beberapa kriteria. Mereka juga disebut sebagai nonhierarki kerana setiap contoh diletakkan di dalam satu kluster kaum eksklusif K. Kerana hanya satu set kluster adalah output algoritma kluster parti biasa, pengguna dikehendaki memasukkan bilangan kluster yang dikehendaki (biasanya dipanggil k). Salah satu algoritma clustering parti yang paling biasa digunakan ialah algoritma kluster k-means. Pengguna dikehendaki memberikan bilangan kelompok (k) sebelum bermula dan algoritma pertama memulakan pusat (atau centroid) dari partition k. Singkat. Kedua-dua langkah ini diulang sehingga fungsi objektif persamaan intra-cluster tertentu dan fungsi objektif ketidaksetaraan antara kluster dioptimumkan. Oleh itu, permulaan pusat yang masuk akal adalah faktor yang sangat penting dalam mendapatkan hasil yang berkualiti dari algoritma kluster parti.
Apakah perbezaan antara kluster hierarki dan parti?
Kluster hierarki dan partisi mempunyai perbezaan utama dalam masa berjalan, andaian, parameter input dan kelompok yang dihasilkan. Biasanya, clustering partisi lebih cepat daripada clustering hierarki. Clustering hierarki hanya memerlukan ukuran kesamaan, sementara clustering partitional memerlukan andaian yang lebih kuat seperti bilangan kluster dan pusat awal. Clustering Hierarki tidak memerlukan sebarang parameter input, sementara algoritma kluster parti memerlukan bilangan kluster untuk mula berjalan. Clustering Hierarki Mengembalikan pembahagian kelompok yang lebih bermakna dan subjektif tetapi clustering partitional menghasilkan kluster Kepat K Tepat. Algoritma kluster hierarki lebih sesuai untuk data kategori selagi ukuran persamaan dapat ditakrifkan dengan sewajarnya.