发布一个node-readability模块,提取出网页的文章内容
发布于 3年前 作者 luinlee 2428 次浏览

Readability是从一个开源项目发展而来的产品,该项目托管在Google Code上,不过现在已经不再维护。由于其最初设计在浏览器上运行,在node.js中难以使用,而且转换效果和Readability现在的服务也相差较大。所以这几天我重写了这个项目。

具体见:http://zihua.li/2012/03/node-readability-release/

我希望达到的目的是把网页中文章的结构提取出来,而不包括样式和行为。感觉jsdom对于这个模块来说笨重了一些,速度有些慢,可能只用htmlparser就能实现,正在研究中。

最后希望这个模块对大家有用:-) (这是我发布到npm的第一个模块,欢迎大家提些意见~)

7 回复

能不能簡單舉個例子,什麼叫把「文章結構提取出來」?

好东西.可以用来做一些收藏文章的东东.

类似readability和read it later的东西。可以去除网页中的无用信息(如广告,logo,评论,侧边栏),把网页中的正文提取出来

如何识别正文呢, 不是所有网站的结构都是一样的啊

有很多规则,比如类名,文本长度,标点,层次结构,前后关系…具体可以看看源码

@luinlee 原來是基於規則啊,我還以爲是基於機器學習的人工智能實現的正文提取算法呢。

@luinlee 试了一下, 很不错

回到顶部