位置: - 正文

简单好用的nodejs 爬虫框架分享(简单好用的记账app)

编辑：rootadmin

推荐整理分享简单好用的nodejs 爬虫框架分享(简单好用的记账app)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:简单好用的水印相机,简单好用的黄腰柳莺饲料配方,简单好用的3d建模软件,简单好用的3d建模软件,简单好用的水印相机,简单好用的黄腰柳莺饲料配方,简单好用的输入法,简单好用的输入法,内容如对您有帮助，希望把文章链接给更多的朋友！

这个就是一篇介绍爬虫框架的文章，开头就不说什么剧情了。什么最近一个项目了，什么分享新知了，剧情是挺好，但介绍的很初级，根本就没有办法应用，不支持队列的爬虫，都是耍流氓。所以我就先来举一个例子，看一下这个爬虫框架是多么简单并可用。

第一步：安装 Crawl-pet

nodejs 就不用多介绍吧，用 npm 安装 crawl-pet

运行，程序会引导你完成配置，首次运行，会在项目目录下生成 info.json 文件

这里使用的测试网站是一个自由版权的，分享美食图片的网站，网站里的图片质量非常棒，这里用它只是为测试学习用，大家可以换其它网站测试

如果使用默认解析器的话，已经可以运行，看看效果:

试试看

这是下载后的目录结构

本地目录结构

第二步：写自己的解析器

现在我们来看一看如何写自己的解析器，有三种方法来生成我们自己的解析器

在新建项目时, 在 Set parser rule module 输入自己的解释器路径。修改 info.json 下的 parser 项这个最简单，直接在项目录下新建一个 parser.js 文件

使用 crawl-pet，新建一个解析器模板

打开 ./test-crawl-pet/parser.js 文件

在最后会有一个分享，懂得的请往下看

第三步：查看爬取下来的数据

根据以下载到本地的文件，查找下载地址

查找下载地址

查看等待队列

查看已下载的文件列表

已下载的文件

查看已解析页面列表，参数与查看已下载的相同

基本功能就这些了，看一下它的帮助吧

该爬虫框架是开源的，GIthub 地址在这里： reddit 的，那就这样了。

GIthub 地址在这里：

NodeJS处理Express中异步错误摘要比起回调函数，使用Promise来处理异步错误要显得优雅许多。结合Express内置的错误处理机制和Promise极大地降低产生未捕获错误（uncaughtexception）的可

nodejs学习笔记之路由 server.jsvarhttp=require("http");varurl=require("url");functionstart(route){//route.js的route方法//服务实现functiononRequest(request,response){varpathname=url.parse(request.url.).pathname;route

深入nodejs中流(stream)的理解 nodejs的fs模块并没有提供一个copy的方法，但我们可以很容易的实现一个，比如：varsource=fs.readFileSync('/path/to/source',{encoding:'utf8'});fs.writeFileSync('/path/to/dest'

本文链接地址:https://www.jiuchutong.com/biancheng/377892.html 转载请保留说明！

下一篇链接:https://www.jiuchutong.com/biancheng/377893.html