写了个爬豆瓣top250的小程序,如果几千几万条的数据,该用什么办法来爬呢?
https://github.com/Kevinzhang29/doubanSpider github如上,只有十页用的是for循环,如果几千几万几百万条数据的话,爬虫该怎么写呢?
8 回复
分而治之
把获取url和爬取过程分离开 可以考虑用生产消费模型 配合async+多进程 这是我的一个例子,也是千万级别的请求数量 : ) https://github.com/Yuki-Minakami/PHelper
分开来处理
@Yuki-Minakami 好的谢谢参考一下!
@godghdai 谢谢
@as13579e 好的看一下上面的老哥代码
爬虫前端多进程爬取,通过消息队列路由到后端,后端单DB起启动多个消费者接收处理数据并落地,在不是很大的并发量的情况下都可以扛住。
@nullcc 谢谢 最近正在做个demo测试一下