Cara Menemukan Centroid dalam Analisis Pengelompokan- Probabilitas & Statistik



Analisis cluster adalah metode pengorganisasian data ke dalam kelompok perwakilan berdasarkan karakteristik yang sama. Setiap anggota cluster memiliki lebih banyak kesamaan dengan anggota lain dari cluster yang sama dibandingkan dengan anggota kelompok lain. Titik paling representatif dalam grup disebut centroid. Biasanya, ini adalah rata-rata dari nilai titik-titik data dalam cluster.

Atur datanya. Jika data terdiri dari satu variabel, histogram mungkin sesuai. Jika ada dua variabel yang terlibat, gambarkan data pada bidang koordinat. Misalnya, jika Anda melihat tinggi dan berat badan anak sekolah di kelas, gambarkan titik data untuk setiap anak pada grafik, dengan berat sebagai sumbu horizontal dan tinggi sebagai sumbu vertikal. Jika lebih dari dua variabel yang terlibat, matriks mungkin diperlukan untuk menampilkan data.

Kelompokkan data ke dalam cluster. Setiap cluster harus terdiri dari titik-titik data yang paling dekat dengannya. Dalam contoh tinggi dan berat, kelompokkan setiap titik data yang tampak berdekatan. Jumlah klaster, dan apakah setiap titik data harus berada dalam klaster, dapat bergantung pada tujuan penelitian.

Untuk setiap cluster, tambahkan nilai semua anggota. Misalnya, jika sekelompok data terdiri dari titik (80, 56), (75, 53), (60, 50), dan (68,54), jumlah nilainya adalah (283, 213).

Bagi total dengan jumlah anggota cluster. Pada contoh di atas, 283 dibagi empat adalah 70,75, dan 213 dibagi empat adalah 53,25, sehingga centroid cluster adalah (70,75, 53,25).

Plot centroid cluster dan tentukan apakah ada titik yang lebih dekat ke centroid cluster lain daripada ke centroid cluster mereka sendiri. Jika ada titik yang lebih dekat ke centroid yang berbeda, distribusikan kembali ke cluster yang berisi centroid terdekat.

Ulangi Langkah 3, 4 dan 5 sampai semua titik data berada di cluster yang berisi centroid terdekat.

    • Kalkulator
    • Kertas grafik
  • Jika centroid harus berupa titik data tertentu dan bukan titik tengah di antara data, maka median dapat digunakan untuk menentukannya, bukan rata-rata.

Gambar Kreatas/Kreatas/Getty

Related Posts

Dia