Thursday, March 27, 2008

manual crawling

crawling itu susah

apalagi manual crawling

manual crawling adalah kegiatan crawling yang merupakan pesanan dari seseorang
misalnya: "tolong dong crawling situs ****.net"

yang susah dari crawling yang merupakan pesanan tersebut adalah kadang2
website yang dipesan untuk di crawling itu adalah web yang tidak
crawling friendly
sehingga harus menggunakan trik2 tertentu untuk melakukannya

tool yg biasa saya pakai adalah java sebagai engine crawling
dengan java saya bisa mensimulasikan apa yang dilakukan oleh sebuah web browser
sehingga saya bisa mengambil isi dari suatu web


ok, setelah proses crawling di jalankan maka akan terdapat hasilnya
dan hasil tersebut perlu di olah

yup yg biasa saya lakukan adalah saya membuat program php untuk memparsing
hasilnya sehingga menjadi bentuk yg diinginkan. kenapa bukan perl?
jawabannya simpel, karena saya pinginnya php. walaupun perl sudah terkenal
untuk text processing, tapi jenis2 variabelnya yg macem2 bikin pusing

mungkin nantinya untuk post processing saya akan pakai python,atau mungkin ruby
hmm

2 comments:

  1. Ini maksudnya crawling 'ala s/w2 seperti "httrack" dan "wget -m". Yang susah biasanya yang url-nya udah pakai quotation mark ("?").

    ReplyDelete
  2. ini crawling yg lebih dalam nar, contohnya dikau disuruh crawling situs2 yang berisi banyak data misalnya situs kamus atau situs yang berisi gambar2

    memang ada juga yang akhirnya bisa di crawling dengan httrack ataua wget, tapi ga semuanya bisa.

    jadi solusinya adalah buat program sendiri untuk crawling

    ReplyDelete