位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 企业所得税季度申报表怎么填
  • 小规模纳税人缴纳增值税怎么算
  • 进项税额转出会影响利润吗
  • 甲企业持有乙企业的非上市股票2000股
  • 贴现怎么计算公式
  • 账面价值低于可变现净值按什么计量
  • 季报利润表本月金额和本年累计金额
  • 发票上的金额是什么字体
  • 捐赠的费用放在什么科目
  • 未支付的货款属于什么会计科目
  • 随意变更会计处理方法违背了
  • 房租有进项发票能抵扣吗
  • 销售固定资产未收到钱
  • 在汇兑结算方式中汇入行对流行代取的款项应先转入
  • 在线负利计算器
  • 股利分配政策的研究背景
  • 包工包料的工程怎么做账
  • 物业费分摊会计分录
  • 已确认为坏账的应收账款,并不意味着企业放弃了
  • 企业重组特殊性处理通俗理解
  • linux的sh
  • 危险废物处置是冶金行业吗
  • win8.1电脑设置在哪里
  • 如何彻底关闭电脑右下角弹窗
  • 无法登陆wifi怎么登陆路由器
  • PHP:xml_get_current_byte_index()的用法_XML解析器函数
  • windows 10月更新
  • 资产减值损失结转
  • 分公司不纳入合并
  • 农产品进项税额转出怎么算
  • explore.exe
  • onekey.exe是什么
  • enter an integer
  • php列表
  • php模拟post提交
  • 大前端入门指南
  • java使用循环结构输出九九乘法表
  • 发票去税务局认证了就可以直接抵扣了吗
  • 银行回单箱费会退回吗
  • 借贷公司借钱给别的公司需要开什么会
  • rhel6安装教程
  • 坏账准备计提额怎么计算
  • 去银行取对账单需要带什么
  • 购买旧固定资产入账
  • 读取注册表失败,请检查注册表
  • 库存商品转出
  • 红字转账凭证怎样录入
  • 交易性金融资产公允价值变动怎么算
  • 收到红票账务处理
  • 售后更换零件的申请
  • 收到垫付款计入什么科目
  • 营业外支出会导致所有者权益减少吗
  • 旅游费的发票可以进成本吗?
  • 实际利率与名义利率的换算
  • 购买农药化肥怎么入账
  • Linux/UNIX和Window平台上安装Mysql
  • windows xp系
  • 电脑开机显示xp后无反应
  • 禁用windows杀毒
  • ubuntu系统中安装微信步骤
  • centos如何下载
  • windows xp.exe
  • 怎么添加第二个人脸识别
  • centos cpu 内存
  • 苹果mac系统怎么更新
  • linux命令的含义
  • opengl sharder
  • nodejss
  • jquery validation plugin
  • Node.js中的什么模块是用于处理文件和目录的
  • 相同目录
  • js中递归是什么意思
  • jquery原理解析
  • jquery写下拉框
  • 12123罚款滞纳金不能交嘛
  • 为什么医保卡显示无效
  • 所得税汇总纳税分配表
  • 土地占用税是什么意思
  • 申报的销项税额怎么计算
  • 工商注册app是不是在手机上可以完全操作
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设