Pendayasahajaan (statistik)

Pendayasahajaan adalah pengujian atau metrik apa pun yang menggunakan pencuplikan (misalnya meniru proses pencuplikan), dan termasuk dalam kelas metode pencuplikan ulang yang lebih luas. Pendayasahajaan memberikan ukuran ketepatan ( bias, keragaman, selang kepercayaan, kesalahan prakiraan, dll.) ke perkiraan sampel. ^[1] ^[2] Teknik ini memungkinkan prakiraan sebaran pencuplikan dari hampir semua statistik menggunakan metode pencuplikan acak. ^[3]

Pendayasahajaan memperkirakan properti suatu prakiraan (seperti variansnya ) dengan mengukur properti tersebut saat pencuplikan dari persebaran perkiraan. Salah satu pilihan baku untuk perkiraan sebaran adalah fungsi sebaran empiris dari data yang diamati. Dalam kasus di mana sekumpulan pengamatan dapat dianggap berasal dari populasi yang independen dan tersebar secara identik, hal ini dapat diterapkan dengan membuat sejumlah cuplikan ulang dengan penggantian, dari kumpulan data yang diamati (dan berukuran sama dengan kumpulan data yang diamati) .

Ini juga dapat digunakan untuk membangun uji duga . ^[4] Ini sering digunakan sebagai alternatif inferensi statistik berdasarkan anggapan model parametrik ketika anggapan tersebut diragukan, atau ketika inferensi parametrik tidak mungkin atau memerlukan rumus yang rumit untuk penghitungan galat baku.

Pendekatan

Cuplikan diambil dari suatu populasi. Dari cuplikan ini, pencuplikan ulang dihasilkan dengan menggambar dengan penggantian (oranye). Titik data yang diambil lebih dari satu kali (yang terjadi pada sekitar 26,4% titik data) ditampilkan dengan warna merah dan sedikit diimbangi. Dari pencuplikan ulang, statistiknya

x

dihitung dan, oleh karena itu, bagan riwayat dapat dihitung untuk memperkirakan sebaran

x

.

Gagasan dasar dari pendayasahajaan adalah bahwa inferensi tentang suatu kumpulan dari data cuplikan (cuplikan → populasi) dapat dimodelkan dengan mencuplik ulang dari data cuplikan dan melakukan inferensi tentang suatu sampel dari data yang dicuplik ulang (cuplik ulang → cuplikan). ^[5] Karena populasinya tidak diketahui, galat sebenarnya dalam statistik cuplikan terhadap nilai populasinya tidak diketahui. Dalam pencuplikan ulang dayasahaja, 'populasi' sebenarnya adalah cuplikan, dan ini diketahui; oleh karena itu, kualitas inferensi sampel 'sebenarnya' dari data yang diambil dari pencuplikan ulang (cuplik ulang →cuplikan) dapat diukur.

Secara lebih formal, dayasahaja bekerja dengan memperlakukan inferensi sebaran peluang sebenarnya J, berdasarkan data asli, sebagai analogi dengan inferensi sebaran empiris Ĵ, berdasarkan data pencuplikan ulang. Keakuratan kesimpulan mengenai Ĵ dengan menggunakan data sampel ulang pencuplikan ulang dapat dinilai karena kita mengetahui Ĵ . Jika Ĵ merupakan perkiraan yang masuk akal terhadap J, maka kualitas inferensi pada J dapat disimpulkan.

Sebagai contoh, asumsikan kita tertarik pada rata-rata ( rata-rata ) tinggi badan orang di seluruh dunia. Kita tidak bisa mengukur semua orang dalam populasi global, jadi kita hanya mencuplik sebagian kecil saja dan mengukurnya. Asumsikan sampel berukuran N ; yaitu, kita mengukur tinggi N individu. Dari sampel tunggal tersebut, hanya satu prakiraan rata-rata yang dapat diperoleh. Untuk menjelaskan populasi, kita memerlukan pemahaman tentang keberagaman rata-rata yang telah kita hitung. Metode dayasahaja yang paling sederhana melibatkan pengambilan kumpulan data ketinggian asli, dan, dengan menggunakan komputer, pencuplikan dari data tersebut untuk membentuk cuplikan baru (disebut 'cuplikan ulang' atau cuplikan dayasahaja) yang juga berukuran N . Cuplikan dayasahaja diambil dari aslinya dengan menggunakan pencuplikan dengan penggantian (misalnya kita mungkin 'mencuplik ulang' 5 kali dari [1,2,3,4,5] dan mendapatkan [2,5,4,4,1]), jadi, dengan asumsi N cukup besar, untuk semua tujuan praktis, hampir tidak ada kemungkinan bahwa N akan identik dengan cuplikan"nyata" yang asli. Proses ini diulang berkali-kali (biasanya 1.000 atau 10.000 kali), dan untuk masing-masing cuplikan dayasahaja ini, kita bisa menghitung rata-ratanya (masing-masing disebut "perkiraan dayasahaja"). Kita sekarang dapat membuat histogram sarana dayasahaja Histogram ini memberikan perkiraan bentuk sebaran rata-rata cuplikan sehingga kita dapat menjawab pertanyaan tentang seberapa besar keberagaman rata-rata antar sampel yang dicuplik. (Metode di sini, yang dijelaskan sebagai rata-rata, dapat diterapkan pada hampir semua statistik atau penduga lainnya.)

Referensi

^ Efron, B.; Tibshirani, R. (1993). An Introduction to the Bootstrap. Boca Raton, FL: Chapman & Hall/CRC. ISBN 0-412-04231-2. software Diarsipkan 2012-07-12 di Archive.is
^ Second Thoughts on the Bootstrap – Bradley Efron, 2003
^ Weisstein, Eric W. "Bootstrap Methods." From MathWorld--A Wolfram Web Resource. http://mathworld.wolfram.com/BootstrapMethods.html
^ Lehmann E.L. (1992) "Introduction to Neyman and Pearson (1933) On the Problem of the Most Efficient Tests of Statistical Hypotheses". In: Breakthroughs in Statistics, Volume 1, (Eds Kotz, S., Johnson, N.L.), Springer-Verlag. ISBN 0-387-94037-5 (followed by reprinting of the paper).
^ Good, P. (2006) Resampling Methods. 3rd Ed. Birkhauser.

[:0-1] Efron, B.; Tibshirani, R. (1993). An Introduction to the Bootstrap. Boca Raton, FL: Chapman & Hall/CRC. ISBN 0-412-04231-2. software Diarsipkan 2012-07-12 di Archive.is

[2] Second Thoughts on the Bootstrap – Bradley Efron, 2003

[3] Weisstein, Eric W. "Bootstrap Methods." From MathWorld--A Wolfram Web Resource. http://mathworld.wolfram.com/BootstrapMethods.html

[4] Lehmann E.L. (1992) "Introduction to Neyman and Pearson (1933) On the Problem of the Most Efficient Tests of Statistical Hypotheses". In: Breakthroughs in Statistics, Volume 1, (Eds Kotz, S., Johnson, N.L.), Springer-Verlag. ISBN 0-387-94037-5 (followed by reprinting of the paper).

[5] Good, P. (2006) Resampling Methods. 3rd Ed. Birkhauser.

[1]

[2]

[3]

[4]

[5]