目前用Node做抓取,流程如下, 1、读取目标地址配置列表(异步) 2、遍历配置列表抓取新闻列表得到内容页Url集合 3、遍历Url集合抓取内容页,同时入库。 此流程涉及多个异步,现流程有些许混乱。代码如下,请大神指点 myconfig.FindConfigList(function (err, ops) { //异步得到配置列表 async.forEachSeries(ops, function (_soption, callback) { //遍历配置列表 spider.getHtmlByUrl(_soption.url, _soption.decode, function (err, html) { //获取列表页, async.forEachSeries(urllist, function (url, cb) { //、遍历Url集合抓取内容页 mynews.InsertNew(news, function (err) {//异步入库 cb(); }); },function(err){ callback() } }); },function(err){ }); });
13 回复