nodejs如何扒取整个网站

phantomjs 了解一下

http模块结合cheerio模块可以实现

整个网站。。。链接是不是还要跟下去爬

kdming 5楼•10 个月前

puppeteer

x-cold 6楼•10 个月前

1、如何爬取页面？

这个不谈，各种爬虫虫教程总有一款合你心意，主要分为两类吧，一类是只处理接口 / 页面数据的（例：cheerio + request），另一类是需要处理渲染页面逻辑，甚至会涉及到 web 自动化的（比如 puppeteer / phantomjs），当然两者的用途和优缺点不言而喻；

2、如何遍历网站（获取网站的所有链接）？

通用的搜索引擎的方案是通过抽取某个页面（通常是首页）的所有链接，然后再按照不同的遍历策略（例：广度优先）依次将所有存在的链接全部爬取下来；同时进行 URL 去重、分类、语义识别等操作后，将内容完全爬取和入库；

但是通常来说，爬取单独一个站点都是有目的性的！所以会尽可能的挖掘有用的数据，通常来说爬取的思路很多情况都是列表+详情，即先爬取列表（可能存在搜索 / 分页）中所有详情的链接，然后再把所有详情的内容抓取下来；