位置: 编程技术 - 正文

Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译)

编辑:rootadmin

推荐整理分享Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node.js编译,nodejs编程,node.js怎么用,node.js编译,nodejs编程,node.js环境搭建,nodejs编程,nodejs编程,内容如对您有帮助,希望把文章链接给更多的朋友!

基本思路思路一(origin:master):从维基百科的某个分类(比如:航空母舰(key))页面开始,找出链接的title属性中包含key(航空母舰)的所有目标,加入到待抓取队列中。这样,抓一个页面的代码及其图片的同时,也获取这个网页上所有与key相关的其它网页的地址,采取一个类广度优先遍历的算法来完成此任务。思路二(origin:cat):按分类进行抓取。注意到,维基百科上,分类都以Category:开头,由于维基百科有很好的文档结构,很容易从任一个分类,开始,一直把其下的所有分类全都抓取下来。这个算法对分类页面,提取子分类,且并行抓取其下所有页面,速度快,可以把分类结构保存下来,但其实有很多的重复页面,不过这个可以后期写个脚本就能很容易的处理。

库的选择开始想用jsdom,虽然感觉它功能强大,但也比较“重”,最要命的是说明文档不够好,只说了它的优势,没一个全面的说明。因此,换成cheerio,轻量级,功能比较全,至少文档一看就能有一个整体概念。其实做到后来,才发现根本不需要库,用正则表达式就能搞定一切!用库只是少写了一点正则而矣。

关键点全局变量设定:

图片下载使用request库的流式操作,让每一个下载操作形成闭包。注意异步操作可能带来的副作用。另外,图片名字要重新设定,开始我取原名,不知道为什么,有的图明明存在,就是显示不出来;并且要把srcset属性清理掉,不然本面显示不出来。

Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译)

广度优先遍历开始没能完全理解异步的概念,以循环方式来做,以为使用了Promise,就已经全转化为同步了,但其实只是能保证交给promise的操作会有序进行,并不能让这些操作与其它的操作有序化!如,下面的代码就是不正确的。

上面的操作看试很正常,但其实(2)会在(1)之间被运行!哪怎么办?我使用递归来解决这个问题。如下示例代码:

正则清理使用正则表达式清理无用的页面代码,因为有很多模式需要处理,写了一个循环统一处理。

运行效果上维基中文是需要FQ的,试运行了一下,抓取 航空母舰 分类,运行过程中,发现了三百左右的相关链接(包括分类页面,这些页面我是只取有效链接,不下载),最终正确的下载了个,手工测试了一些出错链接,发现都为无效链接,显示该词条还未建立,整个过程大概花了不到十五分钟,压缩后近三十M,感觉效果还不错。

源代码

Node.js的Koa框架上手及MySQL操作指南 由Express原班人马打造的koa,致力于成为一个更小、更健壮、更富有表现力的Web框架。使用koa编写web应用,通过组合不同的generator,可以免除重复繁琐的

浅析Nodejs npm常用命令 npm是一个node包管理和分发工具,已经成为了非官方的发布node模块(包)的标准。有了npm,可以很快的找到特定服务要使用的包,进行下载、安装以及管

在Mac OS上安装使用Node.js的项目自动化构建工具Gulp 安装node.js首先需要安装node.js,通常情况下,只需要到Node.js官网下载安装包安装就可以了。不过我可耻的失败了,弹出了如下错误:于是我换成了brew大

标签: node.js编译

本文链接地址:https://www.jiuchutong.com/biancheng/370747.html 转载请保留说明!

上一篇:Node.js环境下JavaScript实现单链表与双链表结构(nodejs调用java)

下一篇:Node.js的Koa框架上手及MySQL操作指南(nodejsapi框架)

  • 劳务报酬个税的税率是多少
  • 无形资产摊销是当月还是下月
  • 个税申报数据有误,如何快速更正
  • 公司期权激励如何兑现
  • 发票上盖了老税号怎么办
  • 旅游业一般纳税人
  • 住宿税率是多少 5%
  • 年初的进项税额计算公式
  • 技术服务费属于现代服务吗
  • 境内企业借外债最新政策出台
  • 发出存货的计价方法对企业财务状况和经营成果有何影响
  • 来料加工账务处理办法
  • 购进货物用于免征增值税项目
  • 退税后钱到哪里
  • 增值税税负率怎么算
  • 小规模税控盘280服务费怎么申报
  • 劳务派遣企业差额扣除占比过高怎么办
  • 成本费用率偏低
  • 行政单位对固定资产购买保险
  • 党建工作经费计提比例
  • 工程结算属于哪个类别
  • 收取对方损失赔偿
  • windows10如何卸载edge
  • 公务接待和商务接待自查
  • 招待客户住宿费可以抵扣进项税吗合理吗
  • 认定科技型中小企业简单吗
  • 预收和应收怎么转换
  • 汽车修理公司的成本怎么核算
  • 支持h5浏览器
  • django ajax 分页
  • PHP:proc_get_status()的用法_命令行函数
  • PHP:zip_entry_filesize()的用法_Zip函数
  • php stl
  • 应付账款盘盈会计分录
  • 公司向股东借的钱怎么还
  • 安装winsock
  • php如何继承多个类
  • vue项目使用百度地图怎么长久使用
  • nlp自然语言处理框架
  • 增值税留抵税额退税政策
  • 营业税改增值税的背景
  • 征收率是税率吗
  • 织梦系统如何更换网站内容
  • mysql备份数据恢复
  • 什么时候计提所得税费用会计分录
  • mysql异常退出
  • 防伪税控开票系统年费
  • 关于发票的相关法律
  • 期货风险准备金计提比例
  • 暂估原材料,材料成本如何冲
  • 外贸企业退税怎么申报
  • 实收资本为零该怎么办
  • 拒收发票需要拒收证明么
  • 银行日记账上月的余额要结转吗
  • 房屋拆除的会计分录
  • 应收账款已收回95元
  • 个人所得税专项扣除需要交钱吗
  • 免征印花税的6个项目
  • 银行卡账户年费
  • 总账的建立
  • mysql常用命令
  • sqlserver2000企业管理器自动关闭
  • window 脚本
  • win7开机提示便签损坏
  • Linux /bin, /sbin, /usr/bin, /usr/sbin 区别
  • rasman.exe - rasman是什么进程 有什么作用
  • win7报错0x0000007b
  • 正版win10怎么用
  • CSS锦囊
  • 用什么命令查看linux启动信息
  • 关于中秋节的古诗
  • 批处理实现语音报警
  • 怎样用python
  • angular卸载
  • javascript面向对象编程
  • jquery获取单选按钮的值
  • 电子发票开票失败怎么回事?
  • 耕地占用税 湖北
  • 地税完税证明是什么样子
  • 甘肃税务政策
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设