位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 小规模纳税人每月不超过10万
  • 补报以前年度收入后当年所得税怎么处理
  • 建筑企业可以挂靠吗
  • 运动会奖品有什么
  • 增值税少企业所得税多说明什么
  • 起重机属于固定资产哪个类别
  • 5月工资按多少天算
  • 公司购买汽车可以抵扣吗
  • 二类经适房转商品房需要交多少钱
  • 购房契税应该交给谁
  • 企业注销清算方案
  • 货物所有权转移制度研究
  • 每个月固定发工资
  • 暂估确定收不到发票会计分录怎么做
  • 营改增操作指引
  • 营改增之后的税率
  • 公司去大厅交社保要带什么证件
  • 高新技术企业注销后退回补贴
  • 总分机构类型怎么选
  • 跨年发票如何入账小企业会计准
  • 增值税专用发票抵扣期限
  • 个税所得期和所得税区别
  • 外贸过程中的银行是什么
  • flash设置旋转
  • 制作flash动画步骤
  • 递延性负债
  • PHP:ftp_nb_get()的用法_FTP函数
  • 公司暂估成本是什么意思
  • 汽车消费税有发票吗
  • 车辆被盗
  • php模板之家官网
  • jsonp解决跨域问题spring3.0
  • 收到电子退库如何入账
  • 工业企业应付账款周转率多少合适
  • 应交税费的进项税和销项税
  • 文章列表是什么
  • vue笔记大全
  • mysql中regexp_substr函数的使用
  • 售后租回交易的第二年利息怎么算
  • 空调入固定资产几年折旧
  • 电子发票税率怎么改
  • 不需要开发票的现金收入怎么做内账?
  • mysql索引和主键
  • 调减加计抵减额什么意思
  • 发放职工福利的会计处理
  • 个体工商户核算方式填什么
  • 所得税交多了怎么留抵
  • 乡村道路属于城市道路吗
  • 进项税额转出是借方科目还是贷方科目
  • 农产品收购发票可以不抵扣吗
  • 一般纳税人固定资产处置税率
  • 国外扣款手续费
  • 研发费用如何做账
  • 老板买了手机,算入什么费用
  • 公司既没有收入怎么办
  • 快递费用是否可以开发票
  • 购货方享受现金折扣增值税
  • 市场营销策划开票品目
  • 建设工程施工管理
  • 无票收入怎么做账,要交税吗,填入增值税申报表
  • sqlserver 触发器 redis
  • ubuntu服务器命令
  • 在linux中使用哪个命令可以用于管理用户账户
  • centos6.7防火墙
  • 中国有多少台百万机组
  • mac如何打印文件
  • 笔记本w8系统怎么取消开机密码
  • window10添加虚拟网卡
  • linux 746
  • node管理工具
  • 浏览器如何批量打开网址
  • wordpress单页面店铺
  • jquery.css
  • unity 移动应用开发
  • java模拟银行存款功能
  • 使用灭火器时要对准火焰的什么部位喷射
  • 安卓hook注入工具
  • 江苏国家税务局电子税务局
  • 亦庄地税局税务局营业大厅
  • 开票风险预警机制黄色预警严重吗?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设