爬了知乎日报十多万条数据后分析统计,并用Vue2.0写了一个webapp
发布于 2 个月前 作者 ccforward 754 次浏览 来自 分享

爬取了从 20150519 以来所有的文章、点赞数、评论数和部分评论内容

感觉数据挺多,简单的统计了下,还挺有趣的。

具体的数据统计和分析移步到我在知乎上的回答

线上地址

技术栈

Node.js + Vue.js + MongoDB

  • Node.js做爬虫、express搭建web框架
  • MongoDB 存储所有爬取的历史数据和定时任务爬取的新数据
  • Vue2.0全家桶 + ES6 + stylus + webpack 做前端开发和构建
  • ES6 + echarts 做数据统计页面
  • 知乎的图片做了防盗链,部署了一个php服务来代理图片
  • 整个项目托管在了百度云-BAE上面

功能

爬虫任务

  1. 爬取所有历史记录,包括:文章标题、正文、评论、点赞相关的数据
  • 每天 07:30 - 21:30 每两个小时爬取一次最新数据
  • 每天 23:30 爬取当天的数据
  • 每周三、日 00:30 更新前7天的评论点赞数

展示页面

  1. 统计入口页面

  2. 首页 顶部是每天最新数据,点赞大于 1000 的做了高亮标红处理

    下面是历史每日数据

  3. 文章详情页 - 下面是2015年评论 TOP 1 的文章

  4. 文章的部分评论也爬了下来

    在页面最底部点开

  5. 按日期查看每日历史文章

    可以查看历史每一天的所有文章,主要用在统计页面上,后面做个日历入口方便跳转,链接如下:

    http://zhihu.ccforward.net/#/date?dtime=20161001

PS: 知乎日报第一篇文章

6 回复

挺好的,目前在学习vue2,坑挺多的 以后得向你学习 把前后端分离 最后问句,数据量有多少?

@hezhongfeng

爬虫爬的数据 从2013年5月到2016年10月底 所有文章、点赞数、评论数和小部分的长评论短评论一共在数据库里存了17万条数据

(评论数太多没有全部爬取)

回到顶部