例如有一个页面:http://www.xxxx.com/xx.html,想获取这个页面变量名为flag的值, 希望大家能说下大概的实现思路。。非常谢谢
用request拿到页面,正则去匹配
request
jsdom 希望有所帮助
jsdom
解析页面的神器 : https://github.com/cheeriojs/cheerio
恩,谢谢,我用的是这个模块, 现在又遇到一个问题:我已经获取了这个页面的内容,并且可以正常解析,但是获取的内容和该页面实际的dom不太一样,通过request获取的内容,embed这个标签是空的,实际在网页查看是存在的,我想获取embed的src属性。。。 请问下这个是什么原因造成的啊?是因为这个页面所需的js还没加载完成,request已经把页面返回了吗?还是其他什么原因?
@zdan 不是js没加载完,获取的就是源代码,没有DOM修改的样子,需要js修改DOM之后的页面可以试试PhantomJS
@zdan 有没有可能是没有请求到你想要的页面?例如如果是做登陆功能时,登陆失败和登陆成功他返回的页面时不一样的
@nihgwu 恩恩,刚我查看了源代码,确实是这个问题,我抓取的这块代码是动态加载的,必须要抓取动态修改以后的dom才行,那我试下PhantomJS。