Apa itu Distribusi Gaussian?- Probabilitas & Statistik

Dalam statistik, distribusi Gaussian, atau normal, digunakan untuk mengkarakterisasi sistem kompleks dengan banyak faktor. Seperti yang dijelaskan dalam The History of Statistics karya Stephen Stigler, Abraham De Moivre menemukan distribusi yang menyandang nama Karl Fredrick Gauss. Kontribusi Gauss terletak pada penerapan pendekatan distribusi ke kuadrat terkecil untuk meminimalkan kesalahan dalam menyesuaikan data dengan garis yang paling sesuai. Dengan demikian ia menjadikannya distribusi kesalahan terpenting dalam statistik.

Motivasi

Apa distribusi sampel data? Bagaimana jika Anda tidak mengetahui distribusi yang mendasari data? Apakah ada cara untuk menguji hipotesis tentang data tanpa mengetahui distribusi yang mendasarinya? Berkat Teorema Limit Pusat, jawabannya adalah ya.

Pernyataan Teorema

Ini menyatakan bahwa rata-rata sampel dari populasi tak terbatas kira-kira normal, atau Gaussian, dengan rata-rata sama dengan populasi yang mendasarinya, dan varian sama dengan varian populasi dibagi dengan ukuran sampel. Perkiraan meningkat saat ukuran sampel menjadi besar.

Pernyataan aproksimasi terkadang salah saji sebagai kesimpulan tentang konvergensi ke distribusi normal. Karena perkiraan distribusi normal berubah seiring bertambahnya ukuran sampel, pernyataan seperti itu menyesatkan.

Teorema ini dikembangkan oleh Pierre Simon Laplace.

Kenapa Ada Dimana-mana

Distribusi normal ada di mana-mana. Alasannya berasal dari Teorema Limit Pusat. Seringkali, ketika suatu nilai diukur, itu adalah efek penjumlahan dari banyak variabel independen. Oleh karena itu, nilai yang diukur itu sendiri memiliki kualitas rata-rata sampel. Misalnya, distribusi penampilan atlet mungkin berbentuk lonceng, sebagai akibat dari perbedaan diet, pelatihan, genetika, kepelatihan, dan psikologi. Bahkan tinggi badan pria memiliki distribusi normal, yang merupakan fungsi dari banyak faktor biologis.

Kopula Gaussian

Apa yang disebut â€œfungsi kopulaâ€ dengan distribusi Gaussian menjadi berita pada tahun 2009 karena kegunaannya dalam menilai risiko berinvestasi pada obligasi yang dijaminkan. Penyalahgunaan fungsi sangat berperan dalam krisis keuangan 2008-2009. Meskipun ada banyak penyebab krisis, distribusi Gaussian sepertinya tidak seharusnya digunakan. Fungsi dengan ekor yang lebih tebal akan memberikan probabilitas yang lebih besar untuk kejadian buruk.

Penurunan

Teorema Limit Pusat dapat dibuktikan dalam banyak baris dengan menganalisis fungsi pembangkit momen (mgf) dari (rata-rata sampel – rata-rata populasi)/?(varian populasi / ukuran sampel) sebagai fungsi dari mgf populasi yang mendasarinya. Bagian aproksimasi dari teorema diperkenalkan dengan memperluas mgf populasi yang mendasarinya sebagai deret pangkat, kemudian menunjukkan sebagian besar suku tidak signifikan ketika ukuran sampel menjadi besar.

Ini dapat dibuktikan dalam garis yang jauh lebih sedikit dengan menggunakan perluasan Taylor pada persamaan karakteristik dari fungsi yang sama dan membuat ukuran sampel menjadi besar.

Kenyamanan Komputasi

Beberapa model statistik menganggap kesalahannya adalah Gaussian. Ini memungkinkan distribusi fungsi variabel normal, seperti distribusi chi-kuadrat dan F, untuk digunakan dalam pengujian hipotesis. Secara khusus, dalam uji-F, statistik F terdiri dari rasio distribusi chi-kuadrat, yang merupakan fungsi dari parameter varians normal. Rasio keduanya menyebabkan varians dibatalkan, memungkinkan pengujian hipotesis tanpa mengetahui varians selain dari normalitas dan keteguhannya.

Gambar Comstock/Comstock/Getty Images