基于TF-IDF自动提取摘要,关键字 插件 for Hexo
发布于 2年前 作者 vfasky 1592 次浏览

最近看了 阮一峰 关于 TF-IDF与余弦相似性的应用 的一系列文章, 深受启发。

加上发现一个非常好的 blog皮肤

于时心血来潮,写个插件练习下。

插件安装方法

npm install git://github.com/vfasky/hexo-summarizer.git

编辑配置文件 _config.yml

plugins:
- hexo-summarizer

在模板的适当处加入

<%- auto_keyword_desc(page.content) %>

当然,你要适当的改下模板的逻辑,如:

<% if (page.description){ %>
<meta name="description" content="<%= page.description %>">
<% } else if (page.content){ %>
<%- auto_keyword_desc(page.content) %>
<% } else if (config.description){ %>
<meta name="description" content="<%= config.description %>">
<% } %>

提取效果

示例文章

用机器代替人工做文章摘要,国内创业公司推出类Summly产品“自动摘要”

提取的值:

[ '其网站上现有三个示例,新闻说明文议论文各一篇,从示例的效果来看,个人觉得虽不如人工摘要来的紧凑和传情达意,但基本上也能从摘出来的内容了解到文章的大意',
  '有创业者在试图减轻人们信息筛选之苦,我们之前介绍过两款机器代替人工做文章摘要的产品,一是Summy,该产品出自一个 16 岁的少年之手,Nick DAosio 为自己的自动新闻摘要应用Summy拿到100万美元融资,后传 Yahoo CEO Marissa Mayer 也有意收购 Summy暂无更新的消息',
  '我同事体验后发现,这两款产品想法和愿景很好,但是实际使用效果并不如人意:Summy 基本就是截取个开头,而一些文章的核心内容并没放在开头;而针对一些比较偏重事实的文章,确实读 Cipped 提出的三点摘要就能大概了解文章内容了,而一些偏重观点性的文章,Cipped 还是提的不是很好' ]

demo

vfasky.com

1 回复

nice 我也看了那系列的三篇文章,我手上在做 TF-IDF 关键词提取。有空在论坛交流。

回到顶部