位置: 编程技术 - 正文
推荐整理分享Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:node.js编译,nodejs编程,node.js怎么用,node.js编译,nodejs编程,node.js环境搭建,nodejs编程,nodejs编程,内容如对您有帮助,希望把文章链接给更多的朋友!
基本思路思路一(origin:master):从维基百科的某个分类(比如:航空母舰(key))页面开始,找出链接的title属性中包含key(航空母舰)的所有目标,加入到待抓取队列中。这样,抓一个页面的代码及其图片的同时,也获取这个网页上所有与key相关的其它网页的地址,采取一个类广度优先遍历的算法来完成此任务。思路二(origin:cat):按分类进行抓取。注意到,维基百科上,分类都以Category:开头,由于维基百科有很好的文档结构,很容易从任一个分类,开始,一直把其下的所有分类全都抓取下来。这个算法对分类页面,提取子分类,且并行抓取其下所有页面,速度快,可以把分类结构保存下来,但其实有很多的重复页面,不过这个可以后期写个脚本就能很容易的处理。
库的选择开始想用jsdom,虽然感觉它功能强大,但也比较“重”,最要命的是说明文档不够好,只说了它的优势,没一个全面的说明。因此,换成cheerio,轻量级,功能比较全,至少文档一看就能有一个整体概念。其实做到后来,才发现根本不需要库,用正则表达式就能搞定一切!用库只是少写了一点正则而矣。
关键点全局变量设定:
图片下载使用request库的流式操作,让每一个下载操作形成闭包。注意异步操作可能带来的副作用。另外,图片名字要重新设定,开始我取原名,不知道为什么,有的图明明存在,就是显示不出来;并且要把srcset属性清理掉,不然本面显示不出来。
广度优先遍历开始没能完全理解异步的概念,以循环方式来做,以为使用了Promise,就已经全转化为同步了,但其实只是能保证交给promise的操作会有序进行,并不能让这些操作与其它的操作有序化!如,下面的代码就是不正确的。
上面的操作看试很正常,但其实(2)会在(1)之间被运行!哪怎么办?我使用递归来解决这个问题。如下示例代码:
正则清理使用正则表达式清理无用的页面代码,因为有很多模式需要处理,写了一个循环统一处理。
运行效果上维基中文是需要FQ的,试运行了一下,抓取 航空母舰 分类,运行过程中,发现了三百左右的相关链接(包括分类页面,这些页面我是只取有效链接,不下载),最终正确的下载了个,手工测试了一些出错链接,发现都为无效链接,显示该词条还未建立,整个过程大概花了不到十五分钟,压缩后近三十M,感觉效果还不错。
源代码
Node.js的Koa框架上手及MySQL操作指南 由Express原班人马打造的koa,致力于成为一个更小、更健壮、更富有表现力的Web框架。使用koa编写web应用,通过组合不同的generator,可以免除重复繁琐的
浅析Nodejs npm常用命令 npm是一个node包管理和分发工具,已经成为了非官方的发布node模块(包)的标准。有了npm,可以很快的找到特定服务要使用的包,进行下载、安装以及管
在Mac OS上安装使用Node.js的项目自动化构建工具Gulp 安装node.js首先需要安装node.js,通常情况下,只需要到Node.js官网下载安装包安装就可以了。不过我可耻的失败了,弹出了如下错误:于是我换成了brew大
标签: node.js编译
本文链接地址:https://www.jiuchutong.com/biancheng/370747.html 转载请保留说明!友情链接: 武汉网站建设