Revisi per 12 Mei 2018 09.46 sunting HsfBot (bicara \| kontrib) Bot 1.172.010 suntingan k Bot: Mengganti kategori yang dialihkan Algoritma menjadi Algoritme ← Revisi sebelumnya		Revisi per 23 November 2018 22.32 sunting balikkan AABot (bicara \| kontrib) Bot, Pengecualian blokir IP 868.777 suntingan k Bot: Penggantian teks otomatis (- + ) Tag: PAWS [1.2] Revisi selanjutnya →
Baris 1: '''Bootstrap aggregating''', disebut juga '''bagging''', adalah penggabungan algoritma pembelajaran mesin (''machine learning'') yang dirancang untuk meningkatkan stabilitas dan akurasi dari algoritma ''machine learning'' yang digunakan dalam klasifikasi statistik dan [[Analisis regresi\|regresi]]. Bagging juga mengurangi [[varians]] dan membantu untuk menghindari terjadinya ''overfitting''. Meskipun biasanya diterapkan untuk metode ''decision tree'', bagging dapat digunakan dengan semua jenis metode. Bagging merupakan kasus khusus dari pendekatan [[Metode Ensemble\|model averaging]]. == Sejarah == Bagging ('''B'''ootstrap '''agg'''regat'''ing''') diusulkan oleh [[Leo Breiman]] pada tahun 1994 untuk memodifikasi klasifikasi dengan menggabungkan klasifikasi dengan data latih (''training set'') yang dihasilkan secara acak. == Deskripsi secara teknik == Diberikan sebuah standar ''training set'' <math /> yang berukuran ''n'', bagging menghasilkan ''m'' training set baru <math />, masing-masing berukuran ''n'<nowiki/>'', dengan [[Teknik sampling\|sampling]] dari ''D'' secara [[Sebaran probabilitas\|u]]<nowiki/>niform dan [[Teknik sampling\|dengan penggantian]] (with replacement). Karena sampling dengan penggantian, maka beberapa observasi dapat diulang dalam setiap <math />. Jika ''n'''=''n'', maka besar ''n'' set <math /> diharapkan memiliki fraksi (1 - 1/''[[E (konstanta matematika)\|e]]'') (≈63.2%) dari contoh unik dari ''D'', sisanya menjadi duplikat.<ref>Aslam, Javed A.; Popa, Raluca A.; and Rivest, Ronald L. (2007); [http://people.csail.mit.edu/rivest/pubs/APR07.pdf ''On Estimating the Size and Confidence of a Statistical Audit''], Proceedings of the Electronic Voting Technology Workshop (EVT '07), Boston, MA, August 6, 2007. More generally, when drawing with replacement ''n′'' values out of a set of ''n'' (different and equally likely), the expected number of unique draws is <math>n(1 - e^{-n'/n})</math>.</ref> Jenis contoh/sampel ini dikenal sebagai bootstrap sampel. Model ''m'' dipasang menggunakan sampel bootstrap ''m'' di atas dan dikombinasikan dengan rata-rata output (untuk regresi) atau voting (untuk klasifikasi). Bagging mengarah ke "perbaikan prosedur yang tidak stabil" (Breiman, 1996), yang meliputi [[Jaringan saraf tiruan\|jaringan syaraf tiruan]], klasifikasi dan pohon regresi, dan seleksi subset dalam regresi linier (Breiman, 1994). Pengaplikasian yang menarik dari bagging yang menunjukkan perbaikan dalam operasi pembelajaran dapat dilihat di sini.<ref>Sahu, A., Runger, G., Apley, D., Image denoising with a multi-phase kernel principal component approach and an ensemble version, IEEE Applied Imagery Pattern Recognition Workshop, pp.1-7, 2011.</ref><ref>Shinde, Amit, Anshuman Sahu, Daniel Apley, and George Runger. "Preimages for Variation Patterns from Kernel PCA and Bagging." IIE Transactions, Vol.46, Iss.5, 2014</ref> Di sisi lain, hal ini dapat sedikit menurunkan kinerja metode yang stabil seperti K-NN (Breiman, 1996). == Contoh: Data Ozon == Untuk menggambarkan prinsip-prinsip dasar bagging, berikut ini adalah analisis tentang hubungan antara [[ozon]] dan suhu (data berasal dari Rousseeuw dan Leroy (1986), analisis yang dilakukan di [[R (bahasa pemrograman)\|R]]). Hubungan antara suhu dan ozon dalam kumpulan data ini adalah berupa non-linear, berdasarkan scatter plot. Untuk menggambarkan secara matematis, digunakan LOESS smoothers (dengan bandwidth 0.5). Untuk membangun smoother tunggal dari himpunan data yang lengkap, sebanyak 100 sampel bootstrap diambil. Masing-masing sampel berbeda dari dataset asli tetapi menyerupai dalam hal distribusi dan variabilitas. Untuk masing-masing sampel bootstrap, LOESS smoother cocok digunakan. Prediksi dari 100 smoother kemudian dibuat di seluruh rentang data. 10 predicted smooth pertama muncul sebagai garis abu-abu pada gambar di bawah. Garis-garisnya jelas sangat bergerigi dan overfit dari data sebagai akibat dari bandwidth yang terlalu kecil. Dengan mengambil rata-rata dari 100 smoothers, masing-masing dipasang ke sebuah subset dari data asli yang ditetapkan, dan tiba di salah satu bagged predictor (garis merah). Dengan rata-rata smoother menjadi lebih stabil dan tidak overfit. == Lihat juga ==

Bootstrap aggregating: Perbedaan antara revisi