Bootstrap aggregating: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
HsfBot (bicara | kontrib)
k Bot: Mengganti kategori yang dialihkan Algoritma menjadi Algoritme
k Bot: Penggantian teks otomatis (-  + )
Baris 1:
'''Bootstrap aggregating''', disebut juga '''bagging''', adalah penggabungan algoritma pembelajaran mesin (''machine learning'') yang dirancang untuk meningkatkan stabilitas dan akurasi dari algoritma ''machine learning''  yang digunakan dalam klasifikasi statistik dan [[Analisis regresi|regresi]]. Bagging juga mengurangi [[varians]] dan membantu untuk menghindari terjadinya  ''overfitting''. Meskipun biasanya diterapkan untuk metode  ''decision tree'', bagging dapat digunakan dengan semua jenis metode. Bagging merupakan kasus khusus dari pendekatan  [[Metode Ensemble|model averaging]].
 
== Sejarah ==
Bagging ('''B'''ootstrap '''agg'''regat'''ing''') diusulkan oleh [[Leo Breiman]] pada tahun 1994 untuk memodifikasi klasifikasi dengan menggabungkan klasifikasi dengan data latih (''training set'') yang dihasilkan secara acak. 
 
== Deskripsi secara teknik ==
Diberikan sebuah standar  ''training set'' <math />  yang berukuran ''n'', bagging menghasilkan ''m'' training set baru  <math />, masing-masing berukuran ''n'<nowiki/>'', dengan [[Teknik sampling|sampling]] dari ''D''  secara  [[Sebaran probabilitas|u]]<nowiki/>niform  dan [[Teknik sampling|dengan penggantian]]  (with replacement). Karena sampling dengan penggantian, maka beberapa observasi dapat diulang dalam setiap <math />. Jika ''n'''=''n'', maka besar ''n'' set <math /> diharapkan memiliki fraksi (1 - 1/''[[E (konstanta matematika)|e]]'') (≈63.2%) dari contoh unik dari ''D'', sisanya menjadi duplikat.<ref>Aslam, Javed A.; Popa, Raluca A.; and Rivest, Ronald L. (2007); [http://people.csail.mit.edu/rivest/pubs/APR07.pdf ''On Estimating the Size and Confidence of a Statistical Audit''], Proceedings of the Electronic Voting Technology Workshop (EVT '07), Boston, MA, August 6, 2007. More generally, when drawing with replacement ''n′'' values out of a set of ''n'' (different and equally likely), the expected number of unique draws is <math>n(1 - e^{-n'/n})</math>.</ref>  Jenis contoh/sampel ini dikenal sebagai bootstrap sampel.  Model ''m'' dipasang menggunakan sampel bootstrap ''m'' di atas dan dikombinasikan dengan rata-rata output (untuk regresi) atau voting (untuk klasifikasi).
 
Bagging mengarah ke "perbaikan prosedur yang tidak stabil" (Breiman, 1996), yang meliputi  [[Jaringan saraf tiruan|jaringan syaraf tiruan]], klasifikasi dan pohon regresi, dan seleksi subset dalam regresi linier (Breiman, 1994). Pengaplikasian yang menarik dari bagging yang menunjukkan perbaikan dalam operasi pembelajaran dapat dilihat di sini.<ref>Sahu, A., Runger, G., Apley, D., Image denoising with a multi-phase kernel principal component approach and an ensemble version, IEEE Applied Imagery Pattern Recognition Workshop, pp.1-7, 2011.</ref><ref>Shinde, Amit, Anshuman Sahu, Daniel Apley, and George Runger. "Preimages for Variation Patterns from Kernel PCA and Bagging." IIE Transactions, Vol.46, Iss.5, 2014</ref> Di sisi lain, hal ini dapat sedikit menurunkan kinerja metode yang stabil seperti K-NN (Breiman, 1996).
 
== Contoh: Data Ozon ==
Untuk menggambarkan prinsip-prinsip dasar bagging, berikut ini adalah analisis tentang hubungan antara [[ozon]] dan suhu (data berasal dari Rousseeuw dan Leroy (1986), analisis yang dilakukan di [[R (bahasa pemrograman)|R]]).
 
Hubungan antara suhu dan ozon dalam kumpulan data ini adalah berupa non-linear, berdasarkan scatter plot. Untuk menggambarkan secara matematis, digunakan  LOESS smoothers (dengan bandwidth 0.5). Untuk membangun smoother tunggal dari himpunan data yang lengkap, sebanyak 100 sampel  bootstrap  diambil. Masing-masing sampel berbeda dari dataset asli tetapi menyerupai dalam hal distribusi dan variabilitas. Untuk masing-masing sampel bootstrap, LOESS smoother cocok digunakan. Prediksi dari 100 smoother kemudian dibuat di seluruh rentang data. 10 predicted smooth pertama muncul sebagai garis abu-abu pada gambar di bawah.  Garis-garisnya jelas sangat bergerigi dan overfit dari data  sebagai akibat dari bandwidth yang terlalu kecil.
 
Dengan mengambil rata-rata dari 100 smoothers, masing-masing dipasang ke sebuah subset dari data asli yang ditetapkan, dan tiba di salah satu bagged predictor (garis merah). Dengan rata-rata  smoother menjadi lebih stabil dan tidak overfit.
 
== Lihat juga ==