文本相似度比较
发布于 5个月前 作者 gitchs 549 次浏览 来自 分享

之前用Node写了爬虫,需要做数据分析,有些地方需要比较两个文本的相似度,没有找到可以用的module(如果你知道有请@我)。 搜了一下其他语言,发现PHP有一个similar_text函数^_^ 为了少装个PHP,果断把PHP的源代码弄回来写Node.js的native addon 目前代码基本是基于PHP解释器的,后面有时间会优化一下,欢迎吐槽。

https://github.com/gitchs/similar_str.js https://www.npmjs.org/package/similar-str

4 回复

好粗暴的实现方式啊。。。没考虑复杂长文本的比较吗, 比如 Damerau–Levenshtein distance 什么的 https://github.com/cbaatz/damerau-levenshtein

楼主可以研究下编辑距离和最长公共子序列 这两个研究好了后,可以帮助楼主很快的解决问题 @gitchs

@struCoder 谢谢,有空看看。以前没做过相关的东西,赶时间直接从PHP的代码里面port过来。

@wenbob 我有空看看你发的链接,谢谢。

回到顶部