位置: 编程技术 - 正文
推荐整理分享Node.JS利用PhantomJs抓取网页入门教程(nodejs怎么使用),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:node.js ts,node.js 怎么调用python接口,node.js怎么用,nodejs 调用python代码,node.js利用cas实现单点登录,node.js利用cas实现单点登录,node.js使用教程,node.js利用cas实现单点登录,内容如对您有帮助,希望把文章链接给更多的朋友!
前言
当想用 nodejs 抓取一些网页 , 我第一反应想到的就是使用 http 模块 , 比如抓取百度首页:
但是 , 这仅限于简单地抓取 html , 有很大的局限性。
假如你想要的内容不在 html 里 , 而是 js 动态生成的 , 那 http 模块就不能满足你的需求了 ;
假如网页使 gbk 编码的 , 上述方法也不太好用了。
假如是 https 上述方法也要改一改了。
我渴望一个更强大 , 但使用起来也不麻烦的工具。
PhantomJs
用 PhantomJs 就可以解决上述问题。
PhantomJs 就是一个没有界面的浏览器。
安装
使用 cnpm 安装 PhantomJS 即可:
这里我没有选择全局安装 , 因为全局安装的话 , 别人使用我的源码的时候 , 不知道还有这么一个依赖 , 项目就跑不起来了。
如果你也选择局部安装 , 那么你需要在 package.json 里的 scripts 中加入一段 :
等下会用到这个的 , 到这里 , 安装算完成了。
写代码
我们新建一个文件 , 名字随意 , 这里我新建一个 main.js :
这里有个 webpage 模块 , 我们刚才明明没有这个模块 , 为什么能引用这个模块
当然不能引用 , 假如我们使用 node main.js 来跑这段代码 , 是跑不起来的 , 应该这样运行这段代码 :
这里的 npm run phantomjs 对应的就是前面我们在 package.json 里加入的那段命令 , 很方便吧 , 几乎和 http 模块一样方便。
page.content 就是 html 代码了 , 这个 page 对象还有很多的属性 , 功能更强大。
到这里 , 你就已经算入门了 , 想知道更多可以去 phantomjs 官网看看文档了。
总结
标签: nodejs怎么使用
本文链接地址:https://www.jiuchutong.com/biancheng/380793.html 转载请保留说明!友情链接: 武汉网站建设