学着做了一个Nodejs爬虫
一直想用Nodejs做点好玩的东西,感觉做爬虫是最简单的,于是参考其他大神的爬虫,学着写了一个。 爬取目标选择的是cnBeta,因为每天一上班就要上去逛个把钟头,第一想到的爬取目标就是它了。 功能实现就是最简单的保存新闻内容和图片,貌似西贝也没做什么防爬措施,因此没遇到特别大的困难,从一篇文章开始,异步取得关联文章id就可以实现连续爬取了,期间遇到个301跳转的问题,也很容易就解决了。
完整代码见 Github 思路分析: Nodejs爬虫实践小记
1 回复
对爬虫有兴趣的话可以交流下,近期在考虑是否可以搞一个node的爬虫框架,见https://cnodejs.org/topic/5943a5915ee4f56e642e8753 对大规模数据爬取来说,能请求到数据和储存只是基础,还有很多其他的特性要有才能满足实际的数据挖掘需求