这篇文章讲解一下yunshare项目的爬虫模型。
使用nodejs开发爬虫很简单,不需要类似python的scrapy这样的爬虫框架,只需要用request或者superagent这样的http库就能完成大部分的爬虫工作了。
使用nodejs开发爬虫半年左右了,爬虫可以很简单,也可以很复杂。简单的爬虫定向爬取一个网站,可能有个几万或者几十万的页面请求,复杂的爬虫类似google bot这样搜索引擎的蜘蛛爬虫,要每时每刻爬取互联网上最新的内容。
一般的个人开发者都是用爬虫定向爬取一些网站,然后提取一些结构化的数据,使用api接口获取数据也可以归到这一类。如果想简单的练习爬虫技术,可以尝试爬取豆瓣电影数据和书籍数据的,使用api接口和爬取html页面都能完成这个任务。
爬虫的说白了就是一个http客户端,通过http协议和远程http服务器通信,获取html页面内容或者其他的种子文件,pdf文件等等。和浏览器不同的一点就是爬虫不会把抓取的内容渲染出来,而是解析页面内容然后保存到数据库里面。
在开始学习爬虫的时候我考虑的是怎么爬取html页面内容,怎么解析html页面之间的链接规则,后来遇到了页面编码的问题。
统一utf8编码
国内网站主要是使用html和gbk这两种编码方式,解决编码有两种思路,第一个是在获取页面内容的时候根据页面的<meta charset='gbk'>
编码把内容统一转码成utf8的,因为nodejs字符串默认编码就是utf8。
这个方案充满了不确定性。
问题1:不同网站的指定编码的方式不一样,除了前面提到的那种方式,还有<meta http-equiv="Content-Type" content="text/html; charset=gbk">
这种方式指定编码,这个问题还不是很大,很多的http工具库都能正确的解析这两种编码,问题是还有很多网站没有指定编码,又或者指定的编码和文件的实际编码不一致(遇到过真实的案例)。
问题2:如果你把gbk编码的html文件转成utf8编码保存到本地,用浏览器直接打开这个文件的时候会显示乱码,非常不利于开发过程中的查找问题。
不转码html内容
既然前面的方案有这么多的问题,剩下的方法就是把html内容直接按照原来的编码保存到本地,然后解析的时候指定编码。
这个方法有2个好处:1、简化了爬虫模型,2、可以用浏览器打开html文件,不会乱码。唯一的缺点是不同网站文件内容解析的时候似乎需要指定编码,对于小规模爬虫这个问题其实影响不大。
统一爬虫模型
前面的编码方案解决了爬取不同网站html文件的编码问题,我们可以用一个统一的爬虫方法爬取不同网站的内容,那如果你想爬取非html内容呢?
是不是又要重新写一个爬虫方法,解决这个问题的方法就是http协议,假设我们写的这个爬虫方法就是一个完整的http客户端,那理论上这个客户端是不是能根据Content-Typ
获取各种格式的文件。
那到底能不能用一个简单的方法就能实现上述的功能呢?下面的方法就是我采用request写的nodejs简单高效的爬虫模型。
function fetch(url) {
console.log(`down ${url} started`);
const deferred = Q.defer();
const file = getfile(url);
fs.ensureDirSync(path.dirname(file));
const stream = request
.get(url)
.on('error', (err) => {
deferred.reject(`down ${url}:${err}`);
})
.on('response', (res) => {
if (res.statusCode !== 200) {
deferred.reject(`down ${url}:${res.statusCode}`);
} else {
console.log(`down ${url}:${res.statusCode}`);
}
})
.pipe(fs.createWriteStream(`${file}`));
stream.on('finish', () => {
deferred.resolve();
});
return deferred.promise;
}
这段代码在yunshare/src/util/fetch.js
里面,当然这个方法不能单独运行,但是关键的逻辑就是这么简单。
不管是什么格式的http请求,json,html,torrent等都统一把返回的二进制格式文件保存到以md5(url)
为文件名的位置。上面的getfile
就是用来获取文件路径的。
模型扩展
使用MD5散列还是有发生冲突的风险的,如果你想要爬取上亿的网页,可能还需要对上面的模型进行扩展。一个简单的思路就是把网页路径中的域名提取出来,不同网站的内容保存在对应的域文件夹下面。
其他的类似的思路也行,需要注意的就是如果爬虫保存文件和解析文件是分开的,你需要保证在解析文件的时候能用同样的方法定位这个文件。共同的参数就是url,所以你生成文件名的时候不能用一些随时间变化的参数。
最后,献上第一个使用node全栈开发的网站:哔哩网盘搜索,目前索引百度网盘资源1000w条了。
这个哔哩网盘搜索是你自己做的吗,能开源一个吗
@maochunguang 已经开源了啊,文章开头就是开源地址
@callmelanmao 昨天就看到了,哈哈,刚开始没注意到
看抓取的站点那个编码多, 多的做为默认缺省值, 然后与默认值不一样的,写个配置文件 或者redis保存 运行时读出来
@yakczh 如果是抓取结构化数据的话肯定是要针对每一个域名写parser的,小规模爬虫还引入redis没有必要,如果是搜索引擎的话也不会针对每一个网站写配置文件的,大规模爬虫还是需要一个更统一的方法例如读取二进制内容,然后识别文件编码更好一点,也可以读取html编码标签,只是有些网站指定编码和实际编码有出入
这个网站有黄色录像啊
先收藏了,晚点看下,对爬虫很感兴趣,但是我是小白…… /冷汗 @callmelanmao 大神,你是不是 github 的地址放错了?
@leeseean 你说的是广告还是内容啊, 网站内容是百度网盘分享的内容, 广告你别点就行了
我把你那个源码下下来了,但是怎么跑起来啊
@leeseean 安装mongodb和mysql,就能跑爬虫任务了, 安装elasticsearch之后才能建索引
@callmelanmao 不会用啊,怎么在nodejs里面运行这个源码,我刚学
没人发现用jS写复杂爬虫太麻烦吗?Python要简单很多啊。
@flamingtop 并没有觉得,写复杂爬虫也可以很简单,Request抓页面文本,JSDom将文本转换成Document对象,再用jQuery取想要的内容,结构化再存数据库。
目测你的开源地址多写了一个l
404
对于编码问题,可以通过猜编码来确定编码,这样统一成utf8,好搜索好在一个页面显示
给的项目地址报404了
@nnliang 地址是手打的,没有直接复制,导致多写了一个l,已经修改好了
@callmelanmao 嗯嗯,谢谢分享啦
厉害,收藏一下