Wikipedia:Unduh basis data

(Dialihkan dari Wikipedia:DUMPS)
Artikel ini adalah tentang cara mengunduh Wikipedia untuk digunakan secara luring

Wikipedia bahasa Indonesia versi offline adalah Wikipedia bahasa Indonesia yang dapat digunakan pada saat komputer tidak terhubung dengan jaringan Internet. Wikipedia menyediakan seluruh isi basis data untuk pengguna yang berminat. Ini dapat digunakan untuk mirroring, penggunaan pribadi, cadangan (backup), atau kueri basis data (misalnya untuk pemeliharaan). Semua isi teks dilisensikan di bawah Lisensi Dokumentasi Bebas GNU (GDFL). Gambar dan berkas lainnya tersedia dengan lisensi lain, seperti yang dijelaskan pada masing-masing halaman deskripsi berkasnya. Untuk petunjuk untuk menyesuaikan dengan lisensi mereka, lihat Wikipedia:Hak cipta.

Tempat pengunduhan

Wikipedia bahasa Indonesia

Dump basis data Wikipedia bahasa Indonesia dilakukan secara rutin dan berkala oleh Wikimedia Foundation kira-kira setiap 10-20 hari, dan dapat diakses di download.wikimedia.org/idwiki/. Folder latest berisi berkas-berkas hasil dump terbaru, sedangkan folder-folder lain adalah hasil dump pada tanggal yang lampau. Setiap berkas terkompresi pada folder-folder ini hanya berisi data teks, berkas-berkas gambar disimpan ditempat yang berbeda (lihat bagian dibawah). Setiap nama berkas menandakan jenis konten yang disimpan :

idwiki-pages-articles.xml.bz2
Kemungkinan besar ini berkas yang Anda butuhkan. Berkas ini hanya berisi revisi terkini, tanpa halaman pembicaraan maupun halaman pengguna. Data templat dan deskripsi gambar pada artikel-artikel juga disimpan dalam berkas ini. Ukuran berkas terkompresi ini sekitar 800MB.
pages-meta-current.xml.bz2
Hanya revisi terkini dari semua halaman (termasuk halaman pembicaraan) termasuk kategori-kategorinya. Ukuran berkas ini sekitar 1GB.
pages-meta-history.xml.bz2
Semua revisi, dari semua halaman.
all-titles-in-ns0.gz
Hanya judul halaman (termasuk halaman pengalihan)

Berkas SQL untuk halaman dan pranala juga tersedia.

Bahasa dan proyek yang lain

Direktori dumps.wikimedia.org juga menyimpan dump SQL dan XML terbaru untuk proyek-proyek lain selain bahasa Indonesia. Setiap sub-direktori dinamai sesuai kode bahasa dan nama proyeknya. Sebagai contoh, dump untuk Wikipedia bahasa Inggris dapat diakses di download.wikimedia.org/enwiki/. Berkas-berkas dump ini juga tersedia di Internet Archive. Berikut adalah beberapa bahasa dan proyek lain yang mungkin Anda inginkan:

Multistream

Jika memungkinkan, Anda sebaiknya menggunakan versi multistream dari berkas. Sebagai contoh, gunakan pages-articles-multistream.xml.bz2 ketimbang pages-articles.xml.bz2. Kedua berkas memiliki konten XML yang sama, sehingga Anda mendapatkan data yang sama ketika meng-unpack-nya. Tetapi, berkas multistream memungkinkan Anda mendapatkan artikel dari arsip tanpa perlu meng-unpack seluruh berkas. Pembaca (reader) yang Anda gunakan seharusnya mengurus hal ini, dan jika pembaca anda tidak mendukung multistream, Anda masih dapat menggunakannnya karena keduanya mengandung XML yang sama. Satu-satunya kekurangan multistream adalah ukuran berkasnya yang jauh lebih besar. Anda mungkin berpikir untuk mengunduh berkas non-multistream yang berukuran kecil, namun berkas ini tidak dapat digunakan jika Anda tidak meng-unpack-nya (dan hasil unpack umumnya berkisar 5-10 kali lebih besar daripada ukuran awal).

Perhatikan bahwa berkas dump multistream mengandung beberapa 'stream' bz2 (header, body, dan footer) yang digabung menjadi satu berkas. Setiap 'stream' (atau sebenarnya juga berupa berkas) mengandung 100 halaman, kecuali mungkin untuk stream terakhir. Hal ini berbeda dengan berkas non-multistream hanya yang mengandung satu 'stream' berisi data semua halaman.

Untuk memroses multistream, Anda dapat menggunakan berkas indeks pages-articles-multistream-index.txt.bz2. Field data pertama indeks ini adalah banyaknya bita yang perlu dilewati di arsip pages-articles-multistream.xml.bz2, field kedua adalah ID artikel, dan ketiga adalah judul artikel. Untuk memprosesnya secara manual, Anda dapat memotong berkas arsip menggunakan dd dan data offset bita yang didapatkan dari berkas indeks. Selanjutnya anda dapat men-decompress-nya atau menggunakan bzip2recover, dan mencari berkas yang dihasilkan berdasarkan ID artikel. Lihat informasi bz2.BZ2Decompressor untuk cara men-decompress menggunakan Python.

Lokasi berkas-berkas yang diunggah (gambar, audio, video, dll.)

Gambar dan jenis media-media lain tersedia di mirror dan disediakan langsung dari server Wikimedia. Pengunduhan secara massal (bulk download) hanya dapat dilakukan di mirror; server Wikimedia tidak melayani proses ini. Lihat daftar mirror saat ini. Anda sebaiknya melakukan rsync dengan mirror, lalu mengunduh gambar-gambar yang hilang di upload.wikimedia.org. Ketika mengunduh dari upload.wikimedia.org, sebaiknya Anda men-throttle proses ke 1 cache miss per detik (lihat header pada respons yang Anda terima untuk mengetahui apakah Anda mendapatkan hit atau miss), dan tidak menggunakan lebih dari satu koneksi HTTP secara bersamaan. Pastikan Anda memiliki user-agent yang akurat dan berisi data surel, sehingga admin dapat mengontak Anda jika terjadi kendala. Anda akan mendapatkan checksums dari API Mediawiki dan memverifikasi mereka. Halaman Etika API berisi beberapa pedoman melakukan proses ini, walaupun tidak semuanya berlaku (sebagai contoh, karena upload.wikimedia.org bukan Mediawiki, tidak ada parameter maxlag).

Tidak seperti sebagian besar teks artikel, gambar tidak diharuskan memiliki lisensi GFDL dan CC-BY-SA-3.0. Mereka dapat dilisensikan dibawah salah satu dari banyaknya lisensi bebas, berada di domain publik, memiliki syarat penggunaan, atau bahkan merupakan pelanggaran hak cipta (dan seharusnya dihapus). Secara khusus, penggunaan gambar yang bersyarat, diluar konteks Wikipedia atau sejenisnya mungkin bersifat ilegal. Pada sebagian besar lisensi, gambar yang ditampilkan/dimiliki perlu disertai dengan atribusi dan mungkin informasi hak cipta lainnya. Informasi-informasi ini tersedia di halaman deskripsi gambar, yang tersedia sebagai dump teks di dumps.wikimedia.org. Kesimpulannya, unduh gambar-gambar ini dengan risiko yang Anda tanggung sendiri (lihat dumps.wikimedia.org/legal.html)

Berurusan dengan berkas terkompresi

Berkas dump yang terkompresi (compressed) akan memerlukan banyak memori ketika didekompresi (decompressed). Berikut adalah beberapa program yang dapat digunakan untuk mendekompresi berkas bzip2 (.bz2), .zip, dan .7z.

  • Windows:
  • Macintosh (Mac):
    • OS X menyediakan program command-line bzip2.
  • GNU/Linux
    • Sebagian besar distribusi GNU/Linux menyediakan program command-line bzip2
  • Berkeley Software Distribution (BSD)
    • Beberapa sistem BSD menyediakan program command-line bzip2 sebagai bagian dari sistem operasi. Beberapa sistem yang lain, seperti OpenBSD, menyediakannya sebagai package yang perlu dipasang (installed) terlebih dahulu.

Sebagai catatan,

  1. Beberapa program bzip2 usang mungkin tidak dapat memroses berkas dengan ukuran lebih dari 2 GB, sebaiknya Anda memastikan memiliki versi terbaru jika terjadi kesalahan.
  2. Beberapa arsip lama dikompresi menggunakan gzip, yang kompatibel dengan PKZIP (format yang umum dipakai di Windows).

Cara penggunaan

Cara paling mudah adalah dengan mengunduh perangkat lunak MediaWiki di sini, menginstalnya di server Anda, lalu mengekstrak xml tersebut ke situs MediaWiki Anda dengan menggunakan MWDumper. Untuk langkah yang lebih sederhana, namun membutuhkan tempat yang lebih besar dan waktu yang lebih lama dalam proses pengunduhan, Anda dapat melihat #Kiwix di bawah.

Lihat pula mw:Manual:Importing XML dumps di situs MediaWiki.org

Troubleshooting

  1. Gambarnya tidak muncul
    Memang tidak ikut diunduh, karena jumlahnya yang besar
  2. Referensi tidak tertampil dengan benar
    Silakan download ekstensi-ekstensi tambahan. Daftarnya dapat dilihat di Istimewa:Versi. Ekstensi yang paling diperlukan adalah mw:Extension:ParserFunctions dan mw:Extension:Cite.
  3. Interwiki tidak jalan
    Download dan tambahkan http://dumps.wikimedia.org/idwiki/latest/idwiki-latest-iwlinks.sql.gz ke database. Sekaligus download dan tambahkan http://dumps.wikimedia.org/idwiki/latest/idwiki-latest-pagelinks.sql.gz ke database.


Kiwix

Cara yang kedua adalah menggunakan Kiwix. Sejak April 2012, Wikipedia bahasa Indonesia versi Kiwix telah tersedia melalui situs web www.kiwix.org.

Kiwix adalah program gratis yang digunakan untuk membaca Wikipedia secara offline (di luar jaringan/luring), artinya tidak memerlukan koneksi internet. Hal ini dilakukan dengan membaca seluruh konten tersebut dari sebuah berkas berformat ZIM, yang berisi data Wikipedia yang telah dikompresi terlebih dahulu.

Pengunduhan Kiwix

 
Tampilan Wikipedia bahasa Indonesia dengan menggunakan Kiwix.

Anda hanya perlu mengunduh dua berkas:

  • Software Kiwix: http://www.kiwix.org/
  • File ZIM Wikipedia bahasa Indonesia:
    • Edisi pertama dirilis pada 15 April 2012 (UTC) dengan kapasitas 2,18 GB yang terdiri dari 236.666 artikel dengan media berjumlah 145.875. Berkas ZIM dengan konten Wikipedia bahasa Indonesia yang terakhir disunting pada 13 April 2012 (UTC).
    • Edisi kedua dirilis pada 28 Agustus 2013 dengan kapasitas 2,08 GB (UTC) yang terdiri dari 215.531 artikel dengan media berjumlah 161.284. Berkas ZIM dengan konten Wikipedia bahasa Indonesia yang terakhir disunting pada 26 Agustus 2012 (UTC).
    • Edisi ketiga dirilis pada 16 Maret 2014 (UTC) dengan kapasitas 1,87 GB yang terdiri dari 338.398 artikel dengan media berjumlah 180.350. Berkas ZIM dengan konten Wikipedia bahasa Indonesia yang terakhir disunting pada 14 Maret 2014 (UTC).

Cara penggunaan Kiwix

Setelah penginstalan Kiwix selesai, jalankan program Kiwix lalu klik "File" -> "Open File", lalu buka berkas ZIM yang sudah diunduh. Setelah itu, Anda perlu menunggu proses fitur indeksasi yang hanya perlu dijalankan sekali di saat digunakan untuk pertama kali, supaya fitur pencarian artikel Wikipedia dapat digunakan. Jika proses indeksasi belum sempurna atau belum 100%, silakan restart sistem komputer Anda.

Fitur-fitur Kiwix

  • Pencarian seluruh artikel Wikipedia
  • Pencarian di halaman
  • Menyimpan halaman sebagai HTML
  • Mencetak
  • Mencetak sebagai PDF
  • Menyalin isi halaman
  • Baris tab seperti penjelajah internet
  • Layar penuh
  • Baris status
  • Membesarkan atau mengecilkan huruf
  • Bahasa antarmuka (sekarang sudah tersedia dalam bahasa Indonesia, bahasa Melayu, bahasa Sunda, dan bahasa Banjar)
  • 2 macam kulit: Default dan Evolution (artikelnya menggunakan kulit Monobook)
  • Halaman sembarang
  • Pengecekan integritas berkas ZIM
  • Menghapus riwayat penjelajahan (supaya pranala tidak berwarna ungu)
  • Halaman (ruang nama) kategori
  • Menampilkan gambar yang digunakan pada artikel Wikipedia
  • Tersedia untuk perangkat Android

Perbedaan dengan versi daring:

  • Tidak memerlukan koneksi Internet.
  • Tidak menggunakan javascript. Semua bagian yang disembunyikan dengan javascript akan ditampilkan.
  • Pranala untuk kata yang belum tersedia artikelnya pada versi daring berwarna merah, maka versi luring berwarna hitam dan tidak bisa diklik.
  • Subjudul situs web dihilangkan.
  • Kolom navigasi kiri dan tab-tab dihilangkan (tidak bisa disunting, tidak bisa melihat versi terdahulu ataupun kontributor artikel Wikipedia)
  • Tidak ada ruang nama Wikipedia, Berkas, Pengguna, Templat, Bantuan, Portal, Istimewa, Pembicaraan.
  • Gambar tidak bisa diklik dan hanya memiliki satu ukuran saja.
  • Pranala ke situs saudari (Interwiki, Wikimedia Commons, Wiktionary, dll.) dihilangkan.
  • Templat stub dihilangkan.
  • Kategori yang ditambahkan secara otomatis oleh Templat tidak ditampilkan.

Aard Dictionary

Cara yang ketiga adalah menggunakan Aard Dictionary. Wikipedia bahasa Indonesia (9 Juni 2011) versi Aard Dictionary telah tersedia melalui situs web http://aarddict.org/.

Aard Dictionary adalah program gratis yang digunakan untuk membaca entri kamus maupun Wikipedia secara offline (di luar jaringan/luring), artinya tidak memerlukan koneksi internet. Hal ini dilakukan dengan membaca seluruh konten tersebut dari sebuah berkas berformat AAR, yang berisi data Wikipedia yang telah dikompresi terlebih dahulu.

Pengunduhan Aard Dictionary

Anda hanya perlu mengunduh dua berkas:

Cara penggunaan Aard Dictionary

Setelah penginstalan Aard Dictionary selesai, jalankan program Aard Dictionary lalu klik "Dictionary" -> "Add Dictionaries", lalu buka berkas AAR yang sudah diunduh. Anda dapat langsung menggunakan Aard Dictionary.

Fitur-fitur Aard Dictionary

  • Format berkas kecil
  • Pencarian entri yang cepat
  • Pencarian di beberapa versi Wikipedia dan kamus sekaligus
  • Pencarian di halaman
  • Menyimpan halaman sebagai HTML
  • Membuka versi daring dari artikel
  • Menyalin isi halaman
  • Baris tab (seperti penjelajah internet)
  • Layar penuh
  • Membesarkan/mengecilkan huruf
  • Sejarah pencarian
  • CSS yang dapat dikustomisasi
  • Pengecekan integritas berkas AAR
  • Navigasi artikel dan tab menggunakan papan ketik
  • Dapat mengompilasi kamus maupun Wikipedia sendiri ke format AAR
  • Tidak menampilkan gambar yang digunakan pada artikel Wikipedia

Okawix

Situs resmi: http://okawix.com

Silakan tambahkan informasi di halaman ini apabila Anda pernah menggunakannya.

WikiTaxi

Situs resmi: http://wikitaxi.org

Anda dapat lihat panduannya di WikiTaxi offline Wikipedia mirror

Silakan tambahkan informasi di halaman ini apabila Anda pernah menggunakannya.

Daluang

Sebuah pembaca Wikipedia luring karya pemrogram Indonesia. Anda dapat mencobanya dengan cara klik di sini.

Silakan tambahkan informasi di halaman ini apabila Anda pernah menggunakannya.

Lihat pula

Pranala luar