cli-scraper 一个为命令行而生的小爬虫库
发布于 9 个月前 作者 j1wu 847 次浏览 来自 分享

cli-scraper 的开发初衷是希望能帮助大家更方便的开发自己的爬虫,以便在命令行中浏览静态网页内容。如果你和我一样,生活在命令行世界中,那它给了你又一个留下的理由。😂

全局安装后,要让 cli-scraper 开始工作,仅需如下三步:

  1. 运行 $ clis init hello.js 这条命令,新建一个新的配置文件。
  2. 通过编写 CSS 选择条件,告诉 cli-scraper 如何定位到你希望从网页中提取的内容。
  3. 最后,运行 $ clis process hello.js。

话不多说,上🌰

范例 - 访问 https://bing.com 并提取 logo 文本:

运行 init 命令生成配置文件 $ clis init bing.js

// 如下是完成后的配置文件,复制粘贴到你本地的 bing.js ,试试吧。
module.exports = {
  url: 'https://www.bing.com/',     // 目标地址
  process: function ({ $ }) {
    return $('.hp_sw_logo').text()  // 选中目标元素,并提取其中文本
  },
  finally: function (res) {
    console.log(res + 'go :)')      // 结果任你处置
  }
}

运行 process 命令开工 $ clis process bing.js,easy as pie 😊 在 README 中有更多的🌰和参数的详细说明。

在开发中,没有选择使用 async / await,而用的是原生的 Promise,因为感觉这样写出来的 data pipeline 看起来更加直观,Happy coding :)

1 回复
回到顶部