Statistika nonparametrik

Statistika nonparametrik adalah cabang statistika yang tidak hanya didasarkan pada keluarga distribusi probabilitas yang terparameterkan (contoh umum dari parameter adalah mean dan varians). Statistik nonparametrik didasarkan pada distribusi bebas atau memiliki distribusi yang ditentukan tetapi dengan parameter distribusi tidak ditentukan. Statistika nonparametrik mencakup statistika deskriptif dan statistika inferensi.

Contoh estimasi kepadatan bersyarat

Definisi sunting

Istilah "statistika nonparametrik" telah didefinisikan atau dimaknai secara umum dalam beberapa cara berbeda. Berikut adalah dua definisi tentang statistik nonparametrik.

Istilah nonparametrik dapat dimaknai sebagai teknik-teknik yang tidak bergantung pada data berasal dari suatu keluarga distribusi yang terparameterkan.[1] Beberapa metode nonparametrik dalam makna ini adalah:

  • Metode distribusi bebas (distribution free methods), yang tidak mengasumsikan data diambil (secara spesifik) dari suatu keluarga distribusi probabilitas yang terparameterkan. Metode ini adalah kebalikan dari statistika parametrik.
  • Statistik nonparametrik, yang membangun suatu statistik sebagai fungsi dari sampel; tanpa ketergantungan pada suatu parameter distribusi. Contoh statistik ini adalah statistik terurut, yang didasarkan pada pengurutan hasil observasi.

Istilah nonparametrik juga dapat dimaknai sebagai teknik-tenik yang tidak mengasumsikan struktur dari suatu model. Umumnya, model akan membesar menyesuaikan kompleksitas dari data. In these techniques, individual variables are typically assumed to belong to parametric distributions, and assumptions about the types of connections among variables are also made. These techniques include, among others:

  • non-parametric regression, which is modeling whereby the structure of the relationship between variables is treated non-parametrically, but where nevertheless there may be parametric assumptions about the distribution of model residuals.
  • non-parametric hierarchical Bayesian models, such as models based on the Dirichlet process, which allow the number of latent variables to grow as necessary to fit the data, but where individual variables still follow parametric distributions and even the process controlling the rate of growth of latent variables follows a parametric distribution.

Aplikasi dan tujuan sunting

Metode nonparametrik banyak digunakan untuk mempelajari populasi yang mengambil urutan peringkat (seperti ulasan film menerima satu hingga empat bintang). Penggunaan metode nonparametrik mungkin diperlukan ketika data memiliki peringkat tetapi tidak ada interpretasi numerik yang jelas, seperti ketika menilai preferensi . Dalam hal tingkat pengukuran, metode non-parametrik menghasilkan data ordinal .

Karena metode non-parametrik membuat asumsi lebih sedikit, penerapannya jauh lebih luas daripada metode parametrik yang sesuai. Secara khusus, mereka dapat diterapkan dalam situasi di mana sedikit yang diketahui tentang aplikasi tersebut. Selain itu, karena ketergantungan pada asumsi yang lebih sedikit, metode non-parametrik lebih kuat .

Pembenaran lain untuk penggunaan metode non-parametrik adalah kesederhanaan. Dalam kasus tertentu, bahkan ketika penggunaan metode parametrik dibenarkan, metode non-parametrik mungkin lebih mudah digunakan. Karena kedua kesederhanaan ini dan keawetannya yang lebih besar, metode non-parametrik dilihat oleh beberapa ahli statistik sebagai menyisakan lebih sedikit ruang untuk penggunaan yang tidak tepat dan kesalahpahaman.

Penerapan yang lebih luas dan peningkatan ketahanan uji non-parametrik dikenakan biaya: jika uji parametrik sesuai, uji non-parametrik memiliki daya yang lebih kecil. Dengan kata lain, ukuran sampel yang lebih besar dapat diminta untuk menarik kesimpulan dengan tingkat kepercayaan yang sama.

Model non parametrik sunting

Model non-parametrik berbeda dari model parametrik karena struktur model tidak ditentukan secara apriori melainkan ditentukan dari data. Istilah non-parametrik tidak dimaksudkan untuk menyiratkan bahwa model seperti itu benar-benar kekurangan parameter tetapi bahwa jumlah dan sifat parameter itu fleksibel dan tidak diperbaiki terlebih dahulu.

  • Histogram adalah estimasi nonparametrik sederhana dari distribusi probabilitas.
  • Estimasi kepadatan kernel memberikan estimasi kepadatan yang lebih baik daripada histogram.
  • Metode regresi nonparametrik dan regresi semiparametrik telah dikembangkan berdasarkan kernel, splines, dan wavelet .
  • Analisis pembungkus data memberikan koefisien efisiensi yang sama dengan yang diperoleh dengan analisis multivariat tanpa asumsi distribusi.
  • KNNs mengklasifikasikan instance yang tidak terlihat berdasarkan pada poin K di set pelatihan yang terdekat dengan itu.
  • Mesin vektor dukungan (dengan kernel Gaussian) adalah classifier margin besar nonparametrik.
  • Metode momen (statistik) dengan distribusi probabilitas polinomial.

Metode sunting

Metode statistika inferensial non-parametrik (atau bebas distribusi ) adalah prosedur matematika untuk pengujian hipotesis statistik yang, tidak seperti statistika parametrik, tidak membuat asumsi tentang distribusi probabilitas dari variabel yang dinilai. Tes yang paling sering digunakan termasuk

Sejarah sunting

Statistika nonparametrik awal termasuk median (abad ke-13 atau lebih awal, digunakan dalam estimasi oleh Edward Wright, 1599; lihat Median § History ) dan tes tanda oleh John Arbuthnot (1710) dalam menganalisis rasio jenis kelamin manusia saat lahir (lihat Sign test § History ).[2][3]

Lihat juga sunting

  • Statistika parametrik
  • Resampling (statistik)
  • Interval kepercayaan nonparametrik berbasis CDF
  • Teori bidang informasi

Catatan sunting

  1. ^ Stuart A., Ord J.K, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model, sixth edition, §20.2–20.3 (Arnold). Statistical hypotheses concern the behavior of observable random variables.... For example, the hypothesis (a) that a normal distribution has a specified mean and variance is statistical; so is the hypothesis (b) that it has a given mean but unspecified variance; so is the hypothesis (c) that a distribution is of normal form with both mean and variance unspecified; finally, so is the hypothesis (d) that two unspecified continuous distributions are identical. It will have been noticed that in the examples (a) and (b) the distribution underlying the observations was taken to be of a certain form (the normal) and the hypothesis was concerned entirely with the value of one or both of its parameters. Such a hypothesis, for obvious reasons, is called parametric. Hypothesis (c) was of a different nature, as no parameter values are specified in the statement of the hypothesis; we might reasonably call such a hypothesis non-parametric. Hypothesis (d) is also non-parametric but, in addition, it does not even specify the underlying form of the distribution and may now be reasonably termed distribution-free. Notwithstanding these distinctions, the statistical literature now commonly applies the label "non-parametric" to test procedures that we have just termed "distribution-free", thereby losing a useful classification.
  2. ^ Conover, W.J. (1999), "Chapter 3.4: The Sign Test", Practical Nonparametric Statistics (edisi ke-Third), Wiley, hlm. 157–176, ISBN 0-471-16068-7 
  3. ^ Sprent, P. (1989), Applied Nonparametric Statistical Methods (edisi ke-Second), Chapman & Hall, ISBN 0-412-44980-3 

Referensi sunting