公司业务需要,有比较大的数据爬取需求,有本人负责完成,没找到node里有类似python Scrapy 这种完整的爬虫框架 ,只能自己不断踩坑碰墙,一步步把爬虫也完善了不少。 目前拥有的一些特性: 1.0回调,所有异步操作async化,这个感觉是基础。 2.请求失败的重试、重新登录、账号切换、切换账号Profile等特性 3.多样化数据实时存储,文件方式或数据库方式 4.爬取过程的详细日志,失败任务从断点重新开始等 5.单个爬虫任务以参数启动,配套一个身份账号配置,爬虫任务监控、创建、启动等一系列管理操作的web界面
想搞个类似 Scrapy 的框架,配套各种爬取常用的特性,爬虫的状态监控、日志系统、批量爬取任务管理等等特性,让node开发者在做数据爬取的时候只需要聚焦在爬虫自身的逻辑上,大家觉得有意义吗?可行性有多少?
感觉没必要或者没用的也可以说说,求不沉
意义不大 既然有了一个现成好用的轮子scrapy 为什么还要造一个nodejs版的 python的上手难度又不高
node版的大部分受益群体是前端…难点在于后续维护和更新
我觉得还是有点意义的,毕竟全世界都在 Node.js 化,手动滑稽
来自酷炫的 CNodeMD
@ztplz 最近也在学习python的scrapy,感觉确实很强大和完善,但是python要熟练操作到能应对各种复杂爬取和数据解析存储还是要花些时间的,在想如果搞个简化版的node爬虫框架多少会帮助到node开发者
@caiyuncheng 前端对数据挖掘的需求还是很小的,受众应该还是有数据爬取需求的node服务端开发者吧。 维护和更新是难,所以想先看看大家到底觉得这个东西有必要没
@XGHeaven 多谢支持,不过其实我也不清楚搞个node版除了对node开发者友好以外,对数据挖掘本身有没有帮助,或者说对比python有没有自己的优势
支持呀!
为啥不用Scrapy 神他妈好用
@wangchaoduo 已经在学习着用Scrapy了,自己node版的一些东西也是借鉴的Scrapy,只是在想node需不需要一个类似Scrapy的东西
@linjie2017 谢谢支持,不过真的实践着搞起来感觉还需要更多人支持
早就有了,意义不大,社区没有scrapy大
@jiangzhuo 可以说下名字吗,去github上看看