问题是这样的
我想做一个简单的爬虫程序,抓取端用javascript,因为js是弱类型的语言,这样我就可以把抓取的内容打包成一个对象发送给服务器端进行持久化,同时nodejs具有较强的并发能力和异步I/O,还有事件驱动,这些也是我想要的。现在的问题是nodejs和javascript的交互中介是什么呢?
期待你的精彩回答。。。
9 回复
谢谢提醒,后来我也意识到js的跨域问题,现在使用phantomjs抓取和解析页面,可是phantomjs不支持操作数据库,我现在的想法是用phantomjs抓取,然后调用jquery.ajax把抓取的数据发送给node,让node进行数据库操作。可是我觉得这一步(ajax到nodejs)可能会造成性能上的损失。请问您有好的方法吗?
@SoftICE 这是之前的想法了,用浏览器端的js抓取好像不太合适,因为有跨域的问题,现在我用的是phantomjs做抓取,数据传送给node进行数据库操作。问题是phantomjs的数据怎么样传给node呢?ajax? node小白,希望不吝赐教。。。