之前用Node写了爬虫,需要做数据分析,有些地方需要比较两个文本的相似度,没有找到可以用的module(如果你知道有请@我)。 搜了一下其他语言,发现PHP有一个similar_text函数^_^ 为了少装个PHP,果断把PHP的源代码弄回来写Node.js的native addon 目前代码基本是基于PHP解释器的,后面有时间会优化一下,欢迎吐槽。
https://github.com/gitchs/similar_str.js https://www.npmjs.org/package/similar-str
4 回复
好粗暴的实现方式啊。。。没考虑复杂长文本的比较吗, 比如 Damerau–Levenshtein distance 什么的 https://github.com/cbaatz/damerau-levenshtein