nodejs开发的购书搜索网站(http://youkes.com/).欢迎访问。
发布于 3年前 作者 youkes 2501 次浏览

优克斯youkes.com(推荐chrome浏览器) 该网站的定位:轻量级购书,在线影视搜索引擎。 目前状态:在线影视索引了 优酷 PPTV 爱奇艺 迅雷 搜狐,更多的正在进行中。 在线书籍购买索引了京东(书的价格有可能些须不一致,京东可能要调整价格),下一步将加入亚马逊的价格。 现在开始测试,欢迎大家充当测试者。 用到的技术有nodejs, solr,mongodb(数据备份). 本站选择nodejs的原因,nodejs虽然选择javascript作为其编程语言,但是其实它是个底层框架,编程操作其实很原始,本站采用的是类似于控制台输出方式,首先根据用户的输入或链接的点击转化为内部调用,然后再用类似jquery的nodejs插件cheerio操作html生成字符串,最后直接将字符串通过http协议输出给用户。这样服务器端也采用了类jquery的技术,保持了简单和快速。 采用了solr,solr是基于lucene的企业级搜索服务器,本人用过后感觉挺不错的,百万级的数量级的搜索速度是飞快,本人亲自测试过。 国外有大型搜索应用,据说数量级在10亿级以上。本站采用solr,感觉良好,尤其是facet功能,可以在数以百万级中的数据中快速筛选信息。 强烈推荐静态的搜索应用采用它,本站使用solr的过程,感觉其简单易用,推荐两本书(都是英文的) Apache.Solr.3.Enterprise.Search.Server和Apache.Solr.3.1.Cookbook. 其中第一本用于学习,第二本用于遇到问题查找,当然也可以到stackoverflow去查找. 界面采用的是 twitter bootstrap 文档默认界面,简单实用. 以下是一些搜索例子 搜索天涯明月刀 http://youkes.com/video?q=%E5%A4%A9%E6%B6%AF%E6%98%8E%E6%9C%88%E5%88%80

搜索演员周星驰 [http://youkes.com/video?q=%E5%91%A8%E6%98%9F%E9%A9%B0&site=%E4%BC%98%E9%85%B7][2]

合作演员搜索,如 周星驰 和 吴孟达 [http://youkes.com/videoactors=%E5%91%A8%E6%98%9F%E9%A9%B0%2C%E5%90%B4%E5%AD%9F%E8%BE%BE][3]

几个简单的例子就是如此了,更多的请到http://youkes.com/试试,输入关键词后,乱点一通,就会明白了。

25 回复

嘻嘻, 有没有的看代码?

solr是个好东西。楼主是拿vps玩的?

恩,solr强大啊。

现阶段代码暴乱,呵呵

域名不错,产品体验做得太差了。

用户体验确实有点差。。。

感觉体验爆弱…很多功能很粗糙,如果这么粗糙的做项目估计2天就可以做你这个东西了 如果细致的做 20天以上 都不好说。

solr 太吃内存了。

要什么样的体验?请指点。

产品体验指的是哪方面?

很多功能很粗糙,请指明感觉粗糙的功能和需要的功能,现阶段正急需反馈,在反馈中中前进…万分感谢…

用户体验确实有点差,请指出是那方面,界面方面是有些…,不过搜索功能还需要哪些改进,请提出,万分感谢

有些,相当其强大功能来说还算划算…

界面。。。。。。。。。。

很不错,用户体验神马的固然重要,但是搜索这类实用的工具的话有个简单的搜索框就够啦 我还是比较关注技术实现 :)

很好很强大啊~静态全文检索,速度很快

谢谢关注,恩,界面真的很恼火,什么样的界面看久了都烦。

solr真的好用,尤其是其杀手锏 facet。我网站的按演员合作就是用facet实现的。

@youkes 对JAVA不熟悉的人能轻松部署solr服务器吗?facet是什么能简单介绍下?

@snoopy 能够,很简单,solr提供REST服务,只需按solr的规则用http GET(检索)或http POST(建立索引)就可以了,facet是一种功能,可以将含相同属性的检索结果归为同一组,典型用于分类搜索中,如我网站: http://youkes.com/book?q=google 其中出现的链接 类别: 计算机(37) 管理(14) 港台(4) 科技(3) 励志(2) 外语(2) 建筑(1) 法律(1)就是facet功能。它能找出含google关键字的书籍有哪些类别,并且各内别有多少个检索结果。

@youkes 原来是这样啊,学习啦,谢谢啊,下次有需要再仔细研究下哦~

请问一个问题,你这个应用solr 在appfog 上是如何配置的?就是如何配置solr 对应的索引文件路径?

appfog 什么东西。我用的是阿里云服务器。

我想知道您是如何抓取数据的 不知道可否透漏

我自己用nodejs编写的抓取程序,按照各个类别进行抓取,不是整站抓取,所以要对每个网站链接做特殊分析和逆向,不具有通用性。不是通用的,抓取的都是在各网站排行靠前的各种商品。京东抓取很简单,它的网页索引都静态化了。另外分词是基于ik,但是在建立索引时加入了特定的商品相关词分析.现在排序没有完善,在慢慢改进中。

回到顶部