位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 北京市增值税发票
  • 增值税的账务处理 月末怎么结转 案例
  • 企业保持存货的必要性是什么
  • 其他债权投资的交易费用计入什么科目
  • 科技公司技术服务费计入什么科目
  • 可转债如何不转换的财务处理
  • 残保金减免需要每月发放不低于本市最低工资标准是应发
  • 收到固定资产发票抵扣进项税
  • 个税是否可以跨区缴纳
  • 小规模季度报税流程
  • 开具不规范的发票
  • 委托加工应税消费品名词解释
  • 小规模纳税人实收资本印花税如何交
  • 公户转到老板私人账户
  • 法院退诉讼费账务处理
  • 公司章程上的出资时间2050年
  • 合伙企业可以弥补以前年度亏损吗
  • 车辆购置税会计账务处理
  • 小规模纳税人可以出口退税吗
  • 注册资本变更增加意味着什么
  • 发票与报税记录不一致
  • 在职员工 开公司
  • 事业单位固定资产处置流程
  • 工会经费80%
  • 原材料对外投资进项税额可以抵扣吗
  • 稿费用交个人所得税吗
  • 商场充值卡发票在哪开
  • 应付票据可能涉及的科目
  • keyemain.exe是什么进程
  • 推荐一款免费的vba编辑器
  • less中使用js变量
  • 前端数据导出为excel
  • 为什么我的命令提示符里显示user
  • 如何利用数据有效性制作单元格菜单
  • 【机器学习】前置知识:矩阵的表示与定义 | Identity 身份矩阵 | 逆矩阵和转置 | 标量乘法
  • linux的nfs如何使用
  • dedecms使用教程
  • 用pullout造句
  • 固定资产清理的借贷方向表示什么
  • 税金及附加包括哪些
  • 什么情况下可以提取公积金
  • 消费税增值税和个人所得税是什么意思
  • 车间购买办公用品
  • 企业向个人借款利息如何缴纳增值税
  • mongodb快速入门
  • 增值税纳税申报类型怎么填
  • 利润减负债
  • 体检入账的原始凭证是
  • 加油预付卡销售 IC卡充值
  • 增值税发票超过多久不能抵扣
  • 现金支票作用
  • 融资租赁可以折旧吗
  • 利息收入的正确分录凭证怎么写
  • 投资收益下期间怎么结转
  • sqlserver查看磁盘大小
  • 恢复mysql数据库
  • win8系统怎样
  • linux系统中的输入输出分为三类
  • CentOS安装配置adb环境
  • linux系统中命令什么大小写
  • Radio.exe - Radio是什么进程 有什么用
  • win7 设置
  • javascript definitive guide
  • javascript的区别
  • ios shell脚本
  • JavaScript 浏览器对象
  • python django事务transaction源码分析详解
  • 深入讲解MACD:MACD红绿柱
  • npm镜像是什么意思
  • javascript面向对象编程指南
  • python写脚本教程
  • 随申办如何缴纳社保
  • 复函地税务机关对自产货物原材料向上游发函
  • 电子专票操作视频
  • 南京税务局 局长
  • 不用税控盘可以清卡吗
  • 厦门象屿正式员工招聘
  • 增值税普通发票和电子普通发票的区别
  • 我国近十年财政支出结构占比
  • 电费增值税专用发票如何抵税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设