最近在玩爬虫,关于数据页数的问题该如何选择?
发布于 2 年前 作者 Kevinzhang29 1933 次浏览 来自 问答

因为lz之前是前端现在做产品经理,关于旅游方面的,所以想写个内部使用的系统demo。 现在已经可以一口气抓取所有主题的旅游产品,但是只能抓第一页。 比如 自然探索 的url是http://vacations.ctrip.com/themetravel/zirantansuo 如果是第二页的话是http://vacations.ctrip.com/themetravel/zirantansuo/p2 以此类推,如果要抓全部的话逻辑该如何选择呢 1、每次抓主产品前,获取页数 然后载入函数抓取全部。 2、写个函数 设计逻辑来计算页数 3、函数写入逻辑 if(此抓取页面为最后一页) 那就pass 然后抓取下一组主题网页。 谢谢看到这里!

2 回复

页面上难道没有下一页之类的链接或者按钮吗?如果有 dom 里找一下,如果没有,暴力点儿,写个大数字逐页爬过去直到404。

@pinxue 有的有的 我在想要么就暴力抓取

回到顶部