node 爬取今日头条数据数据的排版有很多不一样的怎么爬呢

今日头条 pc端网页的推荐热点科技等等栏目每条数据展示的排版有些情况下有区别该怎么处理还有其它新闻类网站呢这些该怎么爬我用的是phantom 爬的 loadPage(‘https://www.toutiao.com/’); async function loadPage(url) { const newsArray = []; driver.get(url); let result = await driver.getPageSource() let channelArr = channelList(result); // 暂时用推荐做实验 getNewsList(driver,channelArr[0]); } function channelList(pageSource) { const $ = cheerio.load(pageSource); eles.each(function (index, element) { let item = $(element).text(); let path = $(element).find(‘a’).attr(‘href’)； channelArr.push({channel: item, href: path}) }); return channelArr; } 我现在这种处理太简单了感觉没啥用好多都爬不到

sodawy 1楼•2 年前

考虑一下直接抓接口，而不是等他js把各种业务加进去再解？
考虑下https://github.com/GoogleChrome/puppeteer
性能方面，也是抓接口好于抓页面，headless开销还是太大了

xiaozhongliu 2楼•2 年前

拉取新闻是异步请求的接口, query string参数如下. 其它参数固定, 后面三个是前端计算得来, 为了不掉头发, 直接上headless吧.

min_behot_time:0
category:__all__
utm_source:toutiao
widen:1
tadrequire:true
as:A1357AB3D57C7B7
cp:5A35CCD7BB674E1
_signature:.cXgZRARp.olwLh.AtDAJv3F4H

teenth 3楼•2 年前作者

@soda-wy 🙏 我在研究下

teenth 4楼•2 年前作者

@XiaozhongLiu 如果抓取其它的新闻呢如百度搜狐新浪呢

xiaozhongliu 5楼•2 年前

@teenth 你还想我给你分别分析一下? 我的头发还不够掉呢, 兄弟. 多自己动动手.

teenth 6楼•2 年前作者

@XiaozhongLi 谢谢我当时没看明白