位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 其他权益工具影响哪些报表
  • 本月无销售额,但是有进项,需要认证吗
  • 小规模在税务局开的专票已交税,如何在税务平台申报
  • 职业年金单位缴费方式
  • 政府奖励收入要交企业所得税么
  • 收外汇必须报关吗
  • 企业工程款发票税率是多少2021
  • 两家公司实际控制人为一个人
  • 养老险的基数
  • 企业合并有几种
  • 企业收到跨年度的政府补贴款,是否计入当年企业所得税
  • 企业进行股票买入的条件
  • 公司持有的房产税
  • 个人股东转让股权印花税税率
  • 增值税普通发票税率
  • 买入返售金融资产什么意思
  • 团体意外伤害险是保的什么
  • 金税盘和报税盘图片
  • 企业发放工资时,可能涉及的会计科目有
  • 进项抵扣抵扣
  • 零售环节包括哪些
  • 国税登记流程
  • 津贴证明是让单位开吗
  • 库存现金清查短款会计分录
  • 兼营销售的销售额的确定
  • 发现以前年度未做领料生产的分录怎么处理
  • 管理会计完全成本法和变动成本法例题
  • xp系统怎么删除打印机驱动程序
  • 电脑安装的软件桌面上没显示
  • 以前年度损益调整
  • win10应用显示模糊发虚
  • 发票认证了,但是没有入账
  • 图像类别
  • 铁路运输企业受托代征的印花税款信息
  • 投资性房地产的主要构成内容为
  • 手把手教你如何套路男神
  • python标准库在哪个目录
  • vuexy
  • 增值税农产品免税是哪一条
  • 进项税额转出需要补税
  • 企业应纳税所得额是指什么
  • 劳动法辞退员工补偿标准2023
  • 无形资产比如
  • 库存现金怎么做预算会计
  • 报销原材料运输费怎么算
  • 实收资本现金入账怎么办
  • 未开票收入如何申报
  • 利润总额是负数怎么计算利润率
  • 厂房装修费用账务处理
  • 上一年的奖金在哪查
  • 存货报废损失会计处理
  • 增值税开票系统怎么改开票人名字信息
  • 坏账准备计提标准
  • 天猫佣金会返还吗
  • 计提工资时一定要发票吗
  • 建筑业当月有收入,没成本怎样办
  • 债务重组的方式主要包括哪些
  • sql server 错误
  • mysql8.0存储过程
  • SQLServer Top语句参数化方法
  • 数据库备份sqlserver
  • 如何win8.1升级win10正式版
  • win7系统怎么调鼠标
  • win8打不开软件怎么解决
  • PureVoice.exe - PureVoice是什么进程 有什么用
  • win8如何切换用户登录
  • window10突然激活失效
  • player文件怎么打开
  • 怎么免费升级win10系统
  • window10如何解除密码
  • jquery插件使用教程
  • android studiojava报错
  • nodejs快速入门
  • nodejs bff
  • jquery-easyui-1.3.3
  • jquery命名空间
  • 在windows中快捷键的作用
  • jquery给下拉框添加选项
  • 佛山国家税务局招聘
  • 湖北退役士兵退伍费
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设