superagent 爬取页面问题
我在用superagent.get爬取页面。本来希望得到的是生成好的页面。但是爬到是源代码,请问如何处理。代码如下:
superagent.get(“http://huaban.com/pins/6524842/”).buffer(true).end(function(error,data){ if(error){ console.log(“error exception occured !”); return next(error); } var $=cheerio.load(data.text); var arr=[]; console.log(’--------------- ',data.text); });
3 回复
你的意思是,这个网页里是有用js生成的是吧
如果那样的话,你可以考虑用selenium-webdriver控制浏览器的方法去爬,demo https://gitee.com/null_639_7345/steemit/blob/master/services/steemit.js