无
用的needle, 学着采集baidu图片。设定采集2000张。但是程序运行一会后就会socket hang up。请问这是代码的问题还是什么啊.
刚写了个爬虫,考察过needle,不过decode的处理不够好,而且缺乏任务调度,不能很好的满足我的需求,因为我主要就是需要任务调度,不然很快就会被识别出是爬虫而被禁止访问,所以自己用request+async+iconv-lite+cheerio简单写了个
分享下? 似乎这个项目也用到了iconv-lite
https://github.com/scottkiss/nodegrass
由于刚学,所以关于任务调度还不是很清楚。不过decode对于我够用了,改了一下,一般的gbk,big5都行。
var max = 10; http.globalAgent.maxSockets = (max || 5);
http://nodejs.org/api/http.html#http_agent_maxsockets
你不会一憋气采集2000张图片吧? 我采集的时候把任务分开,隔几秒采集一些。让人家服务器也缓缓气。
@leapon @creati5 你们挂的什么服务器,我写了爬虫但是找不到合适的服务器挂
你是指百度的服务器?我没有抓百度。
@leapon 我没说百度。我是说,你们把爬虫挂在什么服务器上工作的?或者是本机?
@cony138 本机