Perayap web
Perayap Web (Bahasa Inggris: web crawler), merupakan mesin/perangkat lunak yang secara sistematis menjelajahi World Wide Web dan biasanya dioperasikan oleh mesin pencari untuk tujuan pengindeksan[1] maupun untuk tujuan pengarsipan.
Cara kerja Perayap web adalah dengan cara mengunjungi URL web tujuan, dan berkomunikasi dengan peladen web yang merespons URL tersebut, perayap web mengidentifikasi semua hyperlink di halaman web yang diambil dan menambahkannya ke daftar URL yang akan dikunjungi, atau yang dikenal dengan istilah crawl frontier. Pada saat perayap web melakukan pengarsipan, perayap akan menyalin dan menyimpan informasi yang ada pada web tersebut, kemudian arsip web akan disimpan, sehingga dapat dilihat, dibaca, dan dinavigasi seolah-olah berada di web asli langsung[2].
Daftar perayap web
Beberapa perayap web adalah sebagai berikut:
Perayap web dengan sumber terbuka
Beberapa perayap web sumber terbuka:
- GNU Wget
- GRUB
- Heritrix
- ht://Dig
- HTTrack
- mnoGoSearch
- Apache Nutch
- Open Search Server
- Scrapy
- Seeks
- StormCrawler
- tkWWW Robot
- Xapian
- YaCy
Perayap web komersial
Beberapa perayap web berbayar:
Referensi
- ^ Bai, Quan; Xiong, Gang; Zhao, Yong; He, Longtao (2014-01-01). "Analysis and Detection of Bogus Behavior in Web Crawler Measurement". Procedia Computer Science. 2nd International Conference on Information Technology and Quantitative Management, ITQM 2014 (dalam bahasa Inggris). 31: 1084–1091. doi:10.1016/j.procs.2014.05.363. ISSN 1877-0509.
- ^ Web archiving. Julien Masanès. Berlin: Springer. 2006. ISBN 978-3-540-46332-0. OCLC 262691786.
Halaman ini sedang dipersiapkan dan dikembangkan sehingga mungkin terjadi perubahan besar. Anda dapat membantu dalam penyuntingan halaman ini. Halaman ini terakhir disunting oleh Rizalganie (Kontrib • Log) 604 hari 676 menit lalu. Jika Anda melihat halaman ini tidak disunting dalam beberapa hari, mohon hapus templat ini. |