之前做了好几个爬虫的项目,抓取rss的所有信息,抓取新闻的正文和图片等等。使用 java 和 nodejs 实现过。 以前写的 rss 相关的博客 csdn 。
自己开发的一个库,用来做新闻抓取阅读器非常合适,对Rss信息抓取有一点点心得,希望一起交流探讨,
rss爬虫 https://github.com/kissliux/rssSpider
快速开始
var spide = require('rssspider');
var url = 'http://www.bigertech.com/rss';
spide.getCleanBody(url).then(function(data){
console.log(data); // rss post list
});