位置: 编程技术 - 正文

Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译)

发布时间:2024-02-27

推荐整理分享Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node.js编译,nodejs编程,node.js怎么用,node.js编译,nodejs编程,node.js环境搭建,nodejs编程,nodejs编程,内容如对您有帮助,希望把文章链接给更多的朋友!

基本思路思路一(origin:master):从维基百科的某个分类(比如:航空母舰(key))页面开始,找出链接的title属性中包含key(航空母舰)的所有目标,加入到待抓取队列中。这样,抓一个页面的代码及其图片的同时,也获取这个网页上所有与key相关的其它网页的地址,采取一个类广度优先遍历的算法来完成此任务。思路二(origin:cat):按分类进行抓取。注意到,维基百科上,分类都以Category:开头,由于维基百科有很好的文档结构,很容易从任一个分类,开始,一直把其下的所有分类全都抓取下来。这个算法对分类页面,提取子分类,且并行抓取其下所有页面,速度快,可以把分类结构保存下来,但其实有很多的重复页面,不过这个可以后期写个脚本就能很容易的处理。

库的选择开始想用jsdom,虽然感觉它功能强大,但也比较“重”,最要命的是说明文档不够好,只说了它的优势,没一个全面的说明。因此,换成cheerio,轻量级,功能比较全,至少文档一看就能有一个整体概念。其实做到后来,才发现根本不需要库,用正则表达式就能搞定一切!用库只是少写了一点正则而矣。

关键点全局变量设定:

图片下载使用request库的流式操作,让每一个下载操作形成闭包。注意异步操作可能带来的副作用。另外,图片名字要重新设定,开始我取原名,不知道为什么,有的图明明存在,就是显示不出来;并且要把srcset属性清理掉,不然本面显示不出来。

Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译)

广度优先遍历开始没能完全理解异步的概念,以循环方式来做,以为使用了Promise,就已经全转化为同步了,但其实只是能保证交给promise的操作会有序进行,并不能让这些操作与其它的操作有序化!如,下面的代码就是不正确的。

上面的操作看试很正常,但其实(2)会在(1)之间被运行!哪怎么办?我使用递归来解决这个问题。如下示例代码:

正则清理使用正则表达式清理无用的页面代码,因为有很多模式需要处理,写了一个循环统一处理。

运行效果上维基中文是需要FQ的,试运行了一下,抓取 航空母舰 分类,运行过程中,发现了三百左右的相关链接(包括分类页面,这些页面我是只取有效链接,不下载),最终正确的下载了个,手工测试了一些出错链接,发现都为无效链接,显示该词条还未建立,整个过程大概花了不到十五分钟,压缩后近三十M,感觉效果还不错。

源代码

Node.js的Koa框架上手及MySQL操作指南 由Express原班人马打造的koa,致力于成为一个更小、更健壮、更富有表现力的Web框架。使用koa编写web应用,通过组合不同的generator,可以免除重复繁琐的

浅析Nodejs npm常用命令 npm是一个node包管理和分发工具,已经成为了非官方的发布node模块(包)的标准。有了npm,可以很快的找到特定服务要使用的包,进行下载、安装以及管

在Mac OS上安装使用Node.js的项目自动化构建工具Gulp 安装node.js首先需要安装node.js,通常情况下,只需要到Node.js官网下载安装包安装就可以了。不过我可耻的失败了,弹出了如下错误:于是我换成了brew大

标签: node.js编译

本文链接地址:https://www.jiuchutong.com/biancheng/370747.html 转载请保留说明!

上一篇:Node.js环境下JavaScript实现单链表与双链表结构(nodejs调用java)

下一篇:Node.js的Koa框架上手及MySQL操作指南(nodejsapi框架)

  • 安防监控工程会计分录
  • 小规模交社保有人数限制吗
  • 政府奖励企业如何申请
  • 滴滴打车电子票怎么取票
  • 房地产开发企业预缴增值税
  • 土地增值税计税价格
  • 企业所得税季报时间
  • 保险赔款个人所得税计算
  • 自产的不同产品有哪些
  • 小规模免征增值税会计处理
  • 收汇结汇的账务处理
  • 固定资产评估费计入什么会计科目
  • 员工住院押金会计处理
  • 发票丢失如何处理
  • 未开发的土地被司法查封,自然资源局可以收回吗
  • 怎么用老毛桃u盘装win7系统 老毛桃u盘装win7系统教程图解
  • 铁杆茉莉的养殖方法
  • Linux系统中怎么开机自动运行拍摄文件
  • 预收一年的30万怎么算
  • 发票认证了,但是没有入账
  • 工程投标保证金一般是多少
  • 未取得专用发票是否计算增值税
  • 如何做世界上最小的遥控飞机
  • 土地增值税的意思
  • php表单内容写入txt
  • 附加税从哪里进去申报
  • php运行linux命令
  • 旅游业发票怎么抵扣
  • 母公司资产包括子公司吗
  • 代扣代缴个税手续费返还文件
  • 结转个人承担的社保费分录
  • 买轿车产生的服务费用
  • python第三方库安装教程
  • 硬盘录像机开发票属于哪一类
  • sqlserver数据库和mysql区别
  • 购销合同印花税税率表
  • 同控和非同控的企业合并的分录
  • 收到采购发票如何录入系统
  • 纳税人的进项税额怎么算
  • mysql主从复制实现原理
  • 应收账款资金占用费怎么算
  • 社区居委会有哪些成员
  • 增值税劳务费税率是多少
  • 专票金额和实际报销金额不符
  • 应收账款收不回来怎么处理分录
  • 扣除工程款说明
  • 生产的产品不合格,追究时公司已经注销
  • 没报税可以先清卡吗
  • 一般纳税人提供劳务税率是多少
  • 公司费用报销单样本
  • 个人生产经营所得税怎么申报
  • windows 8
  • mac打不了字什么原因
  • CentOS6 32/64位安装Adobe Flash Player组件的方法
  • wbs是什么文件
  • ubuntu的终端在哪
  • linux命令合集
  • win8怎么打开系统设置
  • Ubuntu下配置vpn工作环境
  • win8.1如何关闭windows defender
  • 计算机策略设置
  • dll文件应该放在哪里
  • win7电脑网络慢怎么提升
  • windows 7如何连接
  • unity性能优化工具
  • 安卓影音播放软件
  • perl写文件
  • jquery添加id属性
  • JavaScript中的方法名不区分大小写
  • 自动登入
  • unity更新下载文件
  • android音频播放器
  • android.view.window.addflags
  • python的爬虫技术
  • jquery遍历json对象
  • 公司开票明细如何查询
  • 湖南税务局发票查询
  • 河南个体工商户营业执照年检
  • steam 申请
  • 新疆医保哪里查
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号