位置: 编程技术 - 正文
推荐整理分享利用node.js写一个爬取知乎妹纸图的小爬虫(nodejs实例教程),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:用node写接口,node怎么写,用nodejs做的项目,node.js使用教程,怎么用node.js写接口,怎么用node.js写接口,怎么用node.js写接口,node.js怎么用,内容如对您有帮助,希望把文章链接给更多的朋友!
前言
说起写node爬虫的原因,真是羞羞呀。一天,和往常一样,晚上吃过饭便刷起知乎来,首页便是推荐的你见过最漂亮的女生长什么样?,点进去各种漂亮的妹纸爆照啊!!!,看的我好想把这些好看的妹纸照片都存下来啊!一张张点击保存,就在第张得时候,突然想起。我特么不是程序员么,这种手动草做的事,怎么能做,不行我不能丢程序员的脸了,于是便开始这次爬虫之旅。
原理
初入爬虫的坑,没有太多深奥的理论知识,要获取知乎上帖子中的一张图片,我把它归结为以下几步。
准备一个url(当然是诸如你见过最漂亮的女生长什么样?) 获取这个url的html内容,并分析其中的dom结构,遍历找到这些漂亮的妹纸图片url 获取图片内容 将图片内容写入本地文件开始动手
大概知道原理之后我们就可以开干了
准备一个url
这个最简单了,去知乎随便一搜就是一大把,我们以
发一张你认为很漂亮的美女照片?
为例子,先来分析一下这个页面的dom结构,其实很简单,知乎的一个页面中会包含很多种类型的图片,有头像,用户评价上传的图片啥的。基本上在noscript种都可以找到对应的图片地址。
获取这个url的html内容,并且拿到当前页面noscript中的img链接
这一步我们需要会点简单的nodejs的知识,以及用到一个库叫cheerio,这个库具体是用来做什么的,详细请移步cheerio。
简单来说就是可以在命令行中使用jQuery来搜索遍历获取相应的元素。
那么怎样才能获取这个帖子的html呢
使用nodejs的https模块
通过以上操作拿到网站的html之后,便是遍历出我们需要的图片地址来了
有了图片的url,如何下载到本地呢?
我们需要使用request这个库,简单的调用一下api再结合node原生写文件的api。
到这里就大功告成了,是不是很简单!!!已经将源码上传,欢迎大家下载查看。
gitHub地址:
详解Node.js串行化流程控制 串行任务:需要一个接着一个坐的任务叫做串行任务。可以使用回调的方式让几个异步任务按顺序执行,但如果任务过多,必须组织一下,否则过多的
win系统下nodejs环境安装配置 win系统下nodejs安装及环境配置,具体内容如下第一步:下载安装文件下载nodejs,官网:
Node.js中的http请求客户端示例(request client) Node.JS有一个request模块,可以很方便的抓取网页内容。最简单的一个示例:varrequest=require('request');request('
标签: nodejs实例教程
本文链接地址:https://www.jiuchutong.com/biancheng/379452.html 转载请保留说明!友情链接: 武汉网站建设