nodejs制作爬虫实现批量下载图片(node爬取数据)

编辑：rootadmin

推荐整理分享nodejs制作爬虫实现批量下载图片(node爬取数据)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:node做爬虫,node.js写爬虫,nodejs做爬虫,nodejs爬虫框架crawler,nodejs做爬虫,node.js写爬虫,node做爬虫,node.js写爬虫,内容如对您有帮助，希望把文章链接给更多的朋友！

今天想获取一大批猫的图片，然后就在流浪器搜索框中输入猫，然后点击图片。就看到了一大波猫的图片：，我在想啊，要是审查元素，一张张手动下载，多麻烦，所以打算写程序来实现。不写不知道，一写发现里面还是有很多道道的。

1. 爬取图片链接

因为之前也写过nodejs爬虫功能（参见：NodeJS制作爬虫全过程），所以觉得应该很简单，就用cheerio来处理dom啦，结果打印一下啥也没有，后来查看源代码：

发现 waterfall_zoom 里面空空如也，查找了一下，发现所有的数据都是写在 <script> 里面，然后动态加载到页面的，所以用cheerio.load到的页面里面其实没数据的。真实数据：

分析完毕，刷刷写代码：

2. 下载图片到本地 2.1 粗糙的方案

最初的思路很简单，简单的 fs.createWriteStream() 就能解决：

使用方式：

成功捕获一只猫！然后写了一个循环准备捕获所有猫。然而这种方式是串行的，速度很慢！下载一大批图片要花大量时间。

2.2 使用async异步批量下载

关于async的map操作，详见： async_demo/map.js ，对集合中的每一个元素，执行某个异步操作，得到结果。所有的结果将汇总到最终的callback里。与forEach的区别是，forEach只关心操作不管最后的值，而map关心的最后产生的值。

提供了两种方式：

并行执行。 async.map 同时对集合中所有元素进行操作，结果汇总到最终callback里。如果出错，则立刻返回错误以及已经执行完的任务的结果，未执行完的占个空位

顺序执行。 async.mapSeries 对集合中的元素一个一个执行操作，结果汇总到最终callback里。如果出错，则立刻返回错误以及已经执行完的结果，未执行的被忽略。

在此处：

注：此处使用setTimeout，是因为下载需要一定时间，在笔者较慢网速下，需要ms的间隔能确保每张图片下载完全。

成功捕获一批猫猫！

2.3 使用bagpipe批量

bagpipe 是朴灵大大做的一个在nodejs中控制并发执行的模块。其安装和使用也比较简单:

使用：

在此处：

3.总结

作为一个程序员，能用程序解决就不手动解决。每一次尝都会有新的收获。

详解Node.js开发中的express-session 什么是sessionsession是保存在服务器端的会话。session的典型应用场景是用户登录某网站之后，将其登录信息放入session，在以后的每次请求中查询相应的登

nodejs批量下载图片的实现方法今天想获取一大批猫的图片，然后就在流浪器搜索框中输入猫，然后点击图片。就看到了一大波猫的图片：

深入理解nodejs中Express的中间件 Express是一个基于Node.js平台的web应用开发框架，在Node.js基础之上扩展了web应用开发所需要的基础功能，从而使得我们开发Web应用更加方便、更加快捷。

标签: node爬取数据

本文链接地址:https://www.jiuchutong.com/biancheng/380794.html 转载请保留说明！

上一篇：Node.JS利用PhantomJs抓取网页入门教程(nodejs怎么使用)

下一篇：详解Node.js开发中的express-session(node 开发)

随机推荐

在IIS下安装PHP扩展的方法（超简单）(iis安装php环境)

sqlserver禁止management studio的自动提交事务(sql server禁用)

SQLSERVER SQL性能优化技巧(sql数据库性能)

fedora 17 硬盘安装图文教程(fedora系统怎么安装)

双系统下没有出现启动选择菜单无法选择的处理方法(双系统没有选择)

升级JDK后SdkManager无法启动的问题(升级jdk版本)

Android 事件分发(android事件分发流程图)

自定义右键属性覆盖浏览器默认右键行为实现代码(自定义右键属性是什么)

标签

退税怎么做账务处理,需要交什么税

企业所得税的纳税人有哪些简答题

长期股权投资在哪个报表里

对账结算流程

win7开机提示由于启动计算机时出现页面文件

'd:skin' 开头的无效内容。此处不应含有子元素。

android解压app

js中面向对象编程

打单子的打印机能否打a4的纸