位置: 编程技术 - 正文

基于node.js制作简单爬虫教程(node. js教程)

编辑:rootadmin

推荐整理分享基于node.js制作简单爬虫教程(node. js教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node.js视频教程,node怎么做,node.js视频教程,node.js怎么用,node怎么做,node.js怎么用,node.js怎么用,node怎么做,内容如对您有帮助,希望把文章链接给更多的朋友!

前言:最近想学习node.js,突然在网上看到基于node的爬虫制作教程,所以简单学习了一下,把这篇文章分享给同样初学node.js的朋友。

目标:爬取 网站的所有门店发型师的基本信息。

思路:访问上述网站,通过chrome浏览器的network对网页内容分析,找到获取各个门店发型师的接口,对参数及返回数据进行分析,遍历所有门店的所有发型师,直到遍历完毕,同事将信息存储到本地。

步骤一:安装node.js

下载并安装node,此步骤比较简单就不详细解释了,有问题的可以直接问一下度娘。

步骤二:建立工程

1)打开dos命令条,cd进入想要创建项目的路径(我将此项目直接放在了E盘,以下皆以此路径为例);

2)mkdir node (创建一个文件夹用来存放项目,我这里取名为node);

3)cd 进入名为node的文件夹,并执行npm init初始化工程(期间会让填写一些信息,我是直接回车的);

步骤三:创建爬取到的数据存放的文件夹

1)创建data文件夹用来存放发型师基本信息;

2)创建image文件夹用来存储发型师头像图片;

  此时工程下文件如下: 

步骤四:安装第三方依赖包(fs是内置模块,不需要单独安装)

1)npm install cheerio ?save

基于node.js制作简单爬虫教程(node. js教程)

2)npm install superagent ?save

3)npm install async ?save

4)npm install request ?save

分别简单解释一下上面安装的依赖包:

cheerio:是nodejs的抓取页面模块,为服务器特别定制的,快速、灵活、实施的jQuery核心实现,则能够对请求结果进行解析,解析方式和jQuery的解析方式几乎完全相同;

superagent:能够实现主动发起get/post/delete等请求;

async:async模块是为了解决嵌套金字塔,和异步流程控制而生,由于nodejs是异步编程模型,有一些在同步编程中很容易做到的事情,现在却变得很麻烦。Async的流程控制就是为了简化这些操作;

request:有了这个模块,http请求变的超简单,Request使用简单,同时支持https和重定向;

步骤五:编写爬虫程序代码

打开hz.js,编写代码:

步骤六:运行爬虫程序

输入node hz.js命令运行爬虫程序,效果图如下:

运行成功后,发型师基本信息以html文件的形式存储在data文件夹中,发型师头像图片存储在image文件夹下:

后记:到此一款基于node.js制作的简单爬虫就大功告成了,由于我也是初学者,好多地方也不是很理解,但好在是自己完成了,不足之处敬请谅解。

代码下载地址:

十大 Node.js 的 Web 框架(快速提升工作效率) Node.js系统含有多种不同的结构,如MVC、全栈、RESTAPI和生成器等。这些结构不仅提升了Web应用的开发效率,也优化了开发过程。在这里,我们收集整理了

NodeJS实现图片上传代码(Express) 文件上传是每个网站不可避免的,最近需要做些上传图片的功能,主要解决两个问题,一个是文件上传样式和服务端路径保存,功能很简单,做起来倒

node.js + socket.io 实现点对点随机匹配聊天 真心佩服那些可以经常发布笔记的人,其实我也想经常发来的,奈何技术不够加上懒,要向大神们多多学习了,前段时间有用bomb平台自带的socket写一个

标签: node. js教程

本文链接地址:https://www.jiuchutong.com/biancheng/382124.html 转载请保留说明!

上一篇:详解如何使用Node.js编写命令工具——以vue-cli为例(noodoe如何使用)

下一篇:十大 Node.js 的 Web 框架(快速提升工作效率)(node.js权威指南)

  • 会计新手如何学会收款流程
  • 成立蔬菜公司免税吗
  • 补缴以前年度增值税和罚款、滞纳金的所得税处理
  • 机票抵扣进项只能在发生当月吗
  • 摄影服务的开票项目
  • 什么是外购类标签
  • 电子发票的有效性在哪里查看
  • 企业中征码怎么办
  • 一般纳税人的税率是多少个点
  • 账本一般保存几年就可以销毁2004年的规定
  • 旧设备用于投资是否应按视同销售处理
  • 哪些产品计算消费税时可以扣除
  • 企业间无偿划转会计分录
  • 不动产进项税额分两年抵扣
  • 公司买房需要交房产税吗
  • 收到红字发票会计处理
  • 开票信息里面的电话号码怎么来的?
  • 购进固定资产抵扣时咋填报增值税
  • 一次性发放几个月的工资怎么申报
  • 稳岗补贴能享受多久
  • 购买原材料发生的采购费用计入
  • 土地使用税计税依据及计算方式
  • 分红个人所得税怎么交
  • 企业收到政府补助时,无需开发票,双方根据银行电汇单
  • 财政拨款收入属什么科目
  • err出错
  • NEC笔记本电脑开机启动热键
  • php 时间差
  • Linux下which、whereis、locate、find 区别
  • MAC OS X 10.12.5 beta 4怎么升级 OS X 10.12.5 beta 4升级图文教程
  • PHP:Memcached::casByKey()的用法_Memcached类
  • PHP:pg_connection_busy()的用法_PostgreSQL函数
  • PHP:imagepsextendfont()的用法_GD库图像处理函数
  • 基于springboot的毕设
  • download github
  • vue快速入门与实战开发
  • 报销人和收款人不一致
  • 会计制度备案附件要上传什么
  • 会计常用单据样本大全
  • 应付票据贴现是负债吗
  • 企业基本养老金退休后能领多少
  • python如何建立函数
  • 小规模纳税人可以做进出口贸易吗
  • 数据库镜像是什么意思
  • sqlserver 数据迁移
  • 公司优秀党员奖章
  • 交强险和车船税在哪里买
  • 城市维护建设税属于中央还是地方
  • 员工借款还款怎么做账
  • 事业单位应交增值税明细科目
  • 员工拿发票报销账务处理
  • 汽车4s店费用预算
  • 分公司人数要求
  • 银行存款日记账填写样本图
  • 如何整理装订记账凭证
  • 如何优化sql语句执行效率
  • sql server在表里查找具体数据
  • uefi模式怎么装机
  • wlanplus是什么软件
  • gwsystemservice.exe是什么进程 有什么作用 gwsystemservice进程查询
  • mac修改java版本
  • win7不能运行应用程序的方法
  • WIN10系统中没有接入音频设备 要启动gui
  • mac装xp系统
  • linux命令光标移动到末尾
  • android.system.suspend@1.0-service耗电
  • cocos2dx4.0教程
  • Extjs Label的 fieldLabel和html属性值对齐的方法
  • shell脚本读取ini文件
  • unity3d添加组件
  • linux中wget命令出现错误
  • 手游开发商和发行商有哪些
  • Unity destructor Or OnDestory
  • android刷题
  • jQuery+ajax实现实用的点赞插件代码
  • 建筑服务纳税人有哪些
  • 江西国税电子税务局
  • 什么叫以物易物
  • 北京国税电子税务局网址
  • 一般纳税人办理退税流程及手续
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设