nowall被爬虫盯上了,怎么办?
发布于 3年前 作者 guilin 2358 次浏览

nowall.be 是 nodejs实现的网页。代。理。其中链接可以包含整个互联网。所以当爬虫进入之后就会无休止的抓取。而且爬虫们很多都不遵守robots协议。

需要想个办法来屏蔽这些爬虫。

5 回复

可以用做一个middleware,HTTP头来判断爬虫,然后屏蔽之。 例如Google爬虫的头是 googlebot(at)googlebot.com 百度是 Baiduspider

不错。顺便更新了以前写的一个middleware一直还没用过。 https://github.com/guileen/connect-block

@guilin block参数只有IE,你是想表达什么吗,呵呵

twitter忘记密码了,找回密码时看不到验证码看了一下是因为有个js没有读取到,地址有问题:

https://ssl.nowall.be/recaptcha/api/?px!=https:www.google.comjs/recaptcha.js

com后面少个/,看看是个bug吗?

是bug, 这种在js中动态拼装的url, 很容易出问题.

回到顶部