做知乎爬虫的过程中,遇到了一些问题
写一个爬虫,但是遇到了一些问题,想向大家请教一下
- 知乎获取下一页的方法是滚动条滚到最下边,我现在只能获取到第一页,请问怎么获取下一页
- (假设我可以获取下一页)我应该在对每一页分别处理,还是获取到足够的页数后统一处理。
- 如果我对每一页分别处理,我怎样将每一页分开
- 怎样可以提高我爬取数据的效率
4 回复
没爬过zhihu,但你可以试试selenium,可以模拟浏览器动作
@Yuki-Minakami mark
刚刚看了下知乎,点击查看更多,会访问这个地址 https://www.zhihu.com/api/v4/questions/60522025/answers 当然后面还有一堆参数。修改下其中的offset和limit就可以获得答案。不过需要登录。
打开控制台查看network网络状态,然后往下拉看是否有数据加载,然后模拟调用相关api即可