现在有一些爬取任务, 但有些站点的页面是需要先渲染,才能得到相应的数据。 直接拉源码分析。获取不到数据。 请问下,node.js 有没有相应的可以渲染页面的模块?
15 回复
@342479384 没办法,速度的确是硬伤,不过这也没办法啊。。。。我的解决策略就是先用cheerio 进行页面的解析,然后,自己分析页面把那些异步加载的dom 丢到另外一个队列去,然后修改dom 里面的引用。这也就算崩溃也不会影响到主任务,然后记录,奔溃日志,不断重新跑就好了。。
@342479384 其实我觉得cheerio + request 跟符合你的需求,用cheerio 解析页面,把那些异步加载的请求给request 处理,页面的相关请求规则可以用firebug 来找出来。最后可以在本地用jquery 把数据整合起来