位置: 编程技术 - 正文

Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译)

编辑:rootadmin

推荐整理分享Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node.js编译,nodejs编程,node.js怎么用,node.js编译,nodejs编程,node.js环境搭建,nodejs编程,nodejs编程,内容如对您有帮助,希望把文章链接给更多的朋友!

基本思路思路一(origin:master):从维基百科的某个分类(比如:航空母舰(key))页面开始,找出链接的title属性中包含key(航空母舰)的所有目标,加入到待抓取队列中。这样,抓一个页面的代码及其图片的同时,也获取这个网页上所有与key相关的其它网页的地址,采取一个类广度优先遍历的算法来完成此任务。思路二(origin:cat):按分类进行抓取。注意到,维基百科上,分类都以Category:开头,由于维基百科有很好的文档结构,很容易从任一个分类,开始,一直把其下的所有分类全都抓取下来。这个算法对分类页面,提取子分类,且并行抓取其下所有页面,速度快,可以把分类结构保存下来,但其实有很多的重复页面,不过这个可以后期写个脚本就能很容易的处理。

库的选择开始想用jsdom,虽然感觉它功能强大,但也比较“重”,最要命的是说明文档不够好,只说了它的优势,没一个全面的说明。因此,换成cheerio,轻量级,功能比较全,至少文档一看就能有一个整体概念。其实做到后来,才发现根本不需要库,用正则表达式就能搞定一切!用库只是少写了一点正则而矣。

关键点全局变量设定:

图片下载使用request库的流式操作,让每一个下载操作形成闭包。注意异步操作可能带来的副作用。另外,图片名字要重新设定,开始我取原名,不知道为什么,有的图明明存在,就是显示不出来;并且要把srcset属性清理掉,不然本面显示不出来。

Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译)

广度优先遍历开始没能完全理解异步的概念,以循环方式来做,以为使用了Promise,就已经全转化为同步了,但其实只是能保证交给promise的操作会有序进行,并不能让这些操作与其它的操作有序化!如,下面的代码就是不正确的。

上面的操作看试很正常,但其实(2)会在(1)之间被运行!哪怎么办?我使用递归来解决这个问题。如下示例代码:

正则清理使用正则表达式清理无用的页面代码,因为有很多模式需要处理,写了一个循环统一处理。

运行效果上维基中文是需要FQ的,试运行了一下,抓取 航空母舰 分类,运行过程中,发现了三百左右的相关链接(包括分类页面,这些页面我是只取有效链接,不下载),最终正确的下载了个,手工测试了一些出错链接,发现都为无效链接,显示该词条还未建立,整个过程大概花了不到十五分钟,压缩后近三十M,感觉效果还不错。

源代码

Node.js的Koa框架上手及MySQL操作指南 由Express原班人马打造的koa,致力于成为一个更小、更健壮、更富有表现力的Web框架。使用koa编写web应用,通过组合不同的generator,可以免除重复繁琐的

浅析Nodejs npm常用命令 npm是一个node包管理和分发工具,已经成为了非官方的发布node模块(包)的标准。有了npm,可以很快的找到特定服务要使用的包,进行下载、安装以及管

在Mac OS上安装使用Node.js的项目自动化构建工具Gulp 安装node.js首先需要安装node.js,通常情况下,只需要到Node.js官网下载安装包安装就可以了。不过我可耻的失败了,弹出了如下错误:于是我换成了brew大

标签: node.js编译

本文链接地址:https://www.jiuchutong.com/biancheng/370747.html 转载请保留说明!

上一篇:Node.js环境下JavaScript实现单链表与双链表结构(nodejs调用java)

下一篇:Node.js的Koa框架上手及MySQL操作指南(nodejsapi框架)

  • 怎样理解一般纳税人
  • 关联交易金额是付款还是入账
  • 发票税号不对还能报销吗
  • 发票抬头公司名称有空格
  • 资产减值损失有二级科目吗
  • 招标代理公司转让
  • 附加税按实际缴纳计提吗
  • 为什么有的公司没有一金
  • 企业间借款利息开票税目
  • 转让股权凭证怎么写
  • 残保金逾期未申报的税务怎么处理
  • 软件企业研发费用占比要求
  • 制造费用如何分摊到产品的成本
  • 预存电费余额是什么意思
  • 公司暂估成本过高,如何处理
  • 收到服务费发票怎么做账
  • 专设销售机构的各项经费应列支什么科目
  • windows问题报告桌面一直闪
  • 网络环境中存在不同网段的nvr
  • 不征税收入有哪些条件
  • 退货的会计分录怎么做
  • 提供应税服务的纳税义务发生时间
  • 编制合并财务报表时,下列各项中不属于子公司
  • 最小全画幅的数值是多少
  • svg怎么改大小
  • 股票红利税如何收
  • python程序怎么看
  • php多线程curl
  • PHP:imagecolorstotal()的用法_GD库图像处理函数
  • 固定资产转让出去租赁收入怎么入账
  • 进项税额的账务处理
  • 固定资产评估如何做
  • js fetch api
  • 序列标注技术应用
  • vue企业开发实战
  • apache trace
  • 公司从银行提取现金4000元备作零星开支
  • 单位之间的争议由谁处理
  • 劳务公司需要缴纳社保吗
  • 优先股股息必须支付吗
  • abs函数python怎么用
  • 汽车的计提折旧
  • 买汽车计算公式
  • 不抵扣勾选是什么
  • 一般计税预缴增值税2%怎么算
  • 企业所得税是指哪些
  • 用友软件操作流程图片
  • 新企业购买税控盘,没收入,怎么抵扣
  • 收到红票账务处理
  • 原材料用于在建工程要进项转出吗
  • 结转本月福利费会计分录
  • 营业外支出会影响所有者权益吗
  • 领用包装物的会计处理
  • 无形资产出资入股的会计处理
  • 物流公司怎么做利润高
  • 事业单位会计岗位属于哪一类
  • mysql的函数
  • mysql免安装版下载
  • haozipsvc.exe是什么
  • linux 维护命令
  • xp3软件
  • linux服务器常用命令
  • synchost.exe - synchost是什么进程 有什么作用
  • sistray.exe - sistray是什么进程 有什么用
  • win8跳过开机密码
  • win7右键设置方法
  • python函数详解
  • css如何设置div位置
  • nodejs利用http模块实现银行卡所属银行查询和骚扰电话验证示例
  • 禁止指定qq号登录怎么弄
  • nodejs 写文件
  • jquery.validate 自定义验证方法及validate相关参数
  • 深入理解javascript特性
  • 图片旋转鼠标键盘怎么弄
  • 退休个人所得税专项附加扣除减免
  • 河南车船税收费标准图片
  • 进项名称和销项同一产品不同称呼
  • 广东省国家税务总局班子成员
  • 税务稽查查哪些
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设