位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 公司租的住宅和商品房
  • 补缴关税税率
  • 控股收益
  • 固定资产清理净损失计入什么科目
  • 生产车间安装监控的目的
  • 从一个公司到另一个公司公积金
  • 申请开红字发票,原蓝字发票要退回来吗
  • 小规模购买税盘的费用可以抵税吗
  • 已认证的进项税发票要退回,怎么操作
  • 投资盈利后可以买股票吗
  • 损益表上的数据怎么看
  • 税务登记注销前异常项目类型非强制什么意思
  • 核定征收企业注销后安全吗
  • 现金折扣是否可抵税
  • 没有取得发票可以抵扣成本吗
  • 收到保险公司财产理赔款怎么做账
  • 主营业务收入和产值
  • 会计中包装物计入
  • 暂估入库企业所得税税率
  • 餐饮行业固定资产界定
  • 日常服务app
  • 退车辆保险费如何计算
  • 工会筹备金如何补报
  • 工商年报中企业税费缴纳怎么填写
  • 潜在表决权如何影响表决权
  • 以报销形式发放的工资 劳动仲裁
  • macos如何备份
  • 上季度成本多结转了怎么调
  • 个人所得税查账征收管理办法
  • 财务费用利息收入怎么结转
  • 农村自建房买卖怎样才合法
  • 公司支付保洁费可以付给个人吗
  • 工程项目合同签订
  • php代码检测
  • 收回已确认的坏账准备为什么在贷方
  • 已经开票但是未达到收入确认条件的怎么进行账务处理
  • php获取mysql数据
  • html表白代码动态
  • php正则匹配中文
  • 进项税已认证未缴纳
  • 一般纳税人增值税结转账务处理
  • Python如何检测两个相同的列表
  • 连带责任担保会被拘留吗
  • 哪些行业不用缴纳增值税
  • 质量赔偿金 计入什么科目
  • mysql慢查询日志查看
  • sqlyog
  • 运输费用会计
  • 股权转让受让方委托书
  • 结转上年
  • 金银首饰以旧换新会计处理
  • 持有至到期投资减值准备
  • 资产负债表日后非调整事项应当在附注中披露
  • 原材料的采购成本怎么计算
  • 融资租赁和经营租赁的会计处理
  • 培训费产生的差额怎么算
  • 销售折让的会计分录
  • 房地产行业人工成本占比
  • 私营公司固定资产怎么查
  • sql clean
  • u盘装win8系统教程图解
  • 如何设置windows启动密码
  • win8系统版本
  • linux里find命令
  • win8系统怎么激活
  • ubuntu with linux
  • docker如何部署环境到生产
  • unity多人语音
  • bootstrap步骤
  • java中的锁机制
  • 字符串查找子串
  • android基础知识点
  • 对xmlHttp对象的理解
  • jQuery使用contains过滤器实现精确匹配方法详解
  • 高性能javascript的内容简介
  • 怎样查询退休审核表
  • 新一代票据系统怎么开通
  • 技术合同备案要求
  • 个体诊所可以申请医保报销吗
  • 北京社保个人账户10万元退休金多少
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设