爬虫时如何做到url等去重??是哈希表还是布隆过滤器??
有没有例子源码借鉴一下
3 回复
这个是问题么。。写redis。
海量数据又能容忍一定错误率的情况下用布隆过滤器很高效。
如果是分布式的就用redis 不是分布式的 就搞个对象表示一下 也行啊~~
有没有例子源码借鉴一下
这个是问题么。。写redis。
海量数据又能容忍一定错误率的情况下用布隆过滤器很高效。
如果是分布式的就用redis 不是分布式的 就搞个对象表示一下 也行啊~~