apalagi manual crawling
manual crawling adalah kegiatan crawling yang merupakan pesanan dari seseorang
misalnya: "tolong dong crawling situs ****.net"
yang susah dari crawling yang merupakan pesanan tersebut adalah kadang2
website yang dipesan untuk di crawling itu adalah web yang tidak
crawling friendly
sehingga harus menggunakan trik2 tertentu untuk melakukannya
tool yg biasa saya pakai adalah java sebagai engine crawling
dengan java saya bisa mensimulasikan apa yang dilakukan oleh sebuah web browser
sehingga saya bisa mengambil isi dari suatu web
ok, setelah proses crawling di jalankan maka akan terdapat hasilnya
dan hasil tersebut perlu di olah
yup yg biasa saya lakukan adalah saya membuat program php untuk memparsing
hasilnya sehingga menjadi bentuk yg diinginkan. kenapa bukan perl?
jawabannya simpel, karena saya pinginnya php. walaupun perl sudah terkenal
untuk text processing, tapi jenis2 variabelnya yg macem2 bikin pusing
mungkin nantinya untuk post processing saya akan pakai python,atau mungkin ruby
hmm
Ini maksudnya crawling 'ala s/w2 seperti "httrack" dan "wget -m". Yang susah biasanya yang url-nya udah pakai quotation mark ("?").
ReplyDeleteini crawling yg lebih dalam nar, contohnya dikau disuruh crawling situs2 yang berisi banyak data misalnya situs kamus atau situs yang berisi gambar2
ReplyDeletememang ada juga yang akhirnya bisa di crawling dengan httrack ataua wget, tapi ga semuanya bisa.
jadi solusinya adalah buat program sendiri untuk crawling