nodejs如何扒取整个网站
使用nodejs如何扒取整个网站? 里面的链接页面也扒取
6 回复
phantomjs 了解一下
http模块结合cheerio模块可以实现
整个网站。。。链接是不是还要跟下去爬
puppeteer
1、如何爬取页面?
这个不谈,各种爬虫虫教程总有一款合你心意,主要分为两类吧,一类是只处理接口 / 页面数据的(例:cheerio + request),另一类是需要处理渲染页面逻辑,甚至会涉及到 web 自动化的(比如 puppeteer / phantomjs),当然两者的用途和优缺点不言而喻;
2、如何遍历网站(获取网站的所有链接)?
通用的搜索引擎的方案是通过抽取某个页面(通常是首页)的所有链接,然后再按照不同的遍历策略(例:广度优先)依次将所有存在的链接全部爬取下来;同时进行 URL 去重、分类、语义识别等操作后,将内容完全爬取和入库;
但是通常来说,爬取单独一个站点都是有目的性的!所以会尽可能的挖掘有用的数据,通常来说爬取的思路很多情况都是列表+详情,即先爬取列表(可能存在搜索 / 分页)中所有详情的链接,然后再把所有详情的内容抓取下来;