抓取代码如下:
async.each(openids,function(openid,callback){//openid为长度200多的数组
getArcticleNum(openid.openid,function(num){//抓取网页获取特定信息的函数
if(openid.pageNum<num)
{
obj={openid:openid.openid,pageNum:num};
arr.push(obj);
}
callback();
})
},function(err){
db.updateArtNum(arr);
})
})
运行一段时间久开始抓不到数据
抓到数据为:
<html>
<head><title>302 Found</title></head>
<body bgcolor="white">
<center><h1>302 Found</h1></center>
<hr><center>nginx</center>
</body>
</html>
###应该是访问速度过快遭网站屏蔽吧,请问有没有好的方法防止屏蔽? 定时器控制?还是有其他好的方法?
5 回复