位置: 编程技术 - 正文

利用node.js写一个爬取知乎妹纸图的小爬虫(nodejs实例教程)

编辑:rootadmin

推荐整理分享利用node.js写一个爬取知乎妹纸图的小爬虫(nodejs实例教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:用node写接口,node怎么写,用nodejs做的项目,node.js使用教程,怎么用node.js写接口,怎么用node.js写接口,怎么用node.js写接口,node.js怎么用,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

说起写node爬虫的原因,真是羞羞呀。一天,和往常一样,晚上吃过饭便刷起知乎来,首页便是推荐的你见过最漂亮的女生长什么样?,点进去各种漂亮的妹纸爆照啊!!!,看的我好想把这些好看的妹纸照片都存下来啊!一张张点击保存,就在第张得时候,突然想起。我特么不是程序员么,这种手动草做的事,怎么能做,不行我不能丢程序员的脸了,于是便开始这次爬虫之旅。

原理

初入爬虫的坑,没有太多深奥的理论知识,要获取知乎上帖子中的一张图片,我把它归结为以下几步。

准备一个url(当然是诸如你见过最漂亮的女生长什么样?&#;) 获取这个url的html内容,并分析其中的dom结构,遍历找到这些漂亮的妹纸图片url 获取图片内容 将图片内容写入本地文件

开始动手

大概知道原理之后我们就可以开干了

准备一个url

这个最简单了,去知乎随便一搜就是一大把,我们以

发一张你认为很漂亮的美女照片?

为例子,先来分析一下这个页面的dom结构,其实很简单,知乎的一个页面中会包含很多种类型的图片,有头像,用户评价上传的图片啥的。基本上在noscript种都可以找到对应的图片地址。

利用node.js写一个爬取知乎妹纸图的小爬虫(nodejs实例教程)

获取这个url的html内容,并且拿到当前页面noscript中的img链接

这一步我们需要会点简单的nodejs的知识,以及用到一个库叫cheerio,这个库具体是用来做什么的,详细请移步cheerio。

简单来说就是可以在命令行中使用jQuery来搜索遍历获取相应的元素。

那么怎样才能获取这个帖子的html呢

使用nodejs的https模块

通过以上操作拿到网站的html之后,便是遍历出我们需要的图片地址来了

有了图片的url,如何下载到本地呢?

我们需要使用request这个库,简单的调用一下api再结合node原生写文件的api。

到这里就大功告成了,是不是很简单!!!已经将源码上传,欢迎大家下载查看。

gitHub地址:

详解Node.js串行化流程控制 串行任务:需要一个接着一个坐的任务叫做串行任务。可以使用回调的方式让几个异步任务按顺序执行,但如果任务过多,必须组织一下,否则过多的

win系统下nodejs环境安装配置 win系统下nodejs安装及环境配置,具体内容如下第一步:下载安装文件下载nodejs,官网:

Node.js中的http请求客户端示例(request client) Node.JS有一个request模块,可以很方便的抓取网页内容。最简单的一个示例:varrequest=require('request');request('

标签: nodejs实例教程

本文链接地址:https://www.jiuchutong.com/biancheng/379452.html 转载请保留说明!

上一篇:浅谈Node.js轻量级Web框架Express4.x使用指南(node.js ts)

下一篇:详解Node.js串行化流程控制(nodejs co)

  • 所得税汇算清缴报告在哪查
  • 高新技术企业享受15%税率优惠的条件
  • 个体户每个月要申报个税吗
  • 餐饮行业的成本率在多少才正常
  • 金蝶eas怎么用
  • 非盈利组织减免的增值税怎么做账
  • 个人经营所得税减免税优惠政策
  • 进项都抵扣完了怎么办
  • 查增应纳税所得额怎么算
  • 公司一上来要签三年
  • 应收账款坏账计提政策
  • 增值税广告服务包括哪些内容
  • 往年预付账款错了,应如何调?
  • 期末应交企业所得税怎么算
  • 网银费用及回单箱费用账务处理?
  • 报关单不存在
  • 事业单位收到增值税专用发票抵扣联怎么办
  • 评估资产没有发票和流水怎么办
  • 建筑行业当月无收入成本如何结转?
  • 跨年销项税红字发票会计处理?
  • 净利润分配股利的会计分录
  • 公司餐饮费怎么做账
  • 荣耀畅玩7怎么截长图
  • 建筑装饰工程公司取名
  • 调整固定资产折旧年限,折旧额的变化
  • php自动执行函数
  • 非关联企业借款利息扣除
  • Thinkphp和onethink实现微信支付插件
  • 滑模控制理论与应用研究pdf
  • Python web开发基础教程的心得
  • 微信小程序解锁安全吗
  • box-sizing:border-box的理解和作用
  • es6体验
  • 生育津贴的钱怎么取出来
  • dedecms使用教程
  • 企业账户对私人账户转账多久到账
  • 其他收益在利润表填在哪里
  • 帝国cms标题生成图片
  • phpcms文档
  • 企业股东变更流程及费用
  • 事故赔偿给谁
  • 应付职工薪酬的会计科目
  • 进口退货退税
  • 以房抵债涉税分析
  • 财务管理考试时间不够怎么办
  • 企业借款利息如何计算
  • 公司支付的劳务费如何走不用交税
  • 捐赠货物的账务处理和纳税调整
  • 净利润为负数还计提盈余公积吗
  • 电子税务局财务报表在哪里查询
  • 收不回来的其他应收款如何坏账处理
  • 税前扣除是什么时候开始的
  • sql server多表查询
  • centosgui
  • 存储过程sql server
  • macos 备份
  • windows8设置
  • windows中复制文件的几种方法
  • win8个性化外观恢复默认设置
  • linux sed
  • win10系统安装cad2008的注册机无法打开
  • 跑跑跑游戏
  • 常用的加锁方式
  • Unity3D游戏开发毕业论文
  • python中判断数值类型
  • django图片加载不出来
  • js处理跨域方式及原理
  • ndk dose not contain any platform
  • shell脚本实现文件移动、复制等操作
  • jQuery继承extend用法详解
  • python如何处理文本
  • javascript生成随机整数
  • python二分查找非递归
  • 北京市地方税务局发票查验
  • 缴纳车辆购置税的会计处理
  • 企业出租房产的税收优惠政策
  • 车险包括车船费吗
  • 上海市黄浦区有什么路
  • 实名办税人员承诺书范本
  • 纳税服务投诉整改报告
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设