位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 房子税票是什么意思
  • 费用性税金计入什么科目
  • 认缴后怎么才算实缴
  • 租赁合同印花税率
  • 技术开发免征增值税吗
  • 营业外收入包括其他业务收入吗
  • 车辆保险怎么计算器
  • 减少注册资本弥补亏损的依据
  • 集团财务公司可以放款给外部单位吗
  • 去年增值税销项少2元
  • 免抵退说
  • 办税员身份怎么办理
  • 不小心开了发票
  • 福利费进项税额转出会计分录账务处理
  • 申请增值税一般纳税人登记在办理手续
  • 其他收益等于什么
  • 计提印花税会计分录怎么写
  • 个体工商户开票免税额度是多少
  • 利润表中的销售收入
  • 出纳应做到
  • 补缴房产税需要什么资料
  • 公司作为二房东怎么给别人开发票
  • 压缩包损坏修复软件
  • 经营性租赁 会计准则
  • 主合同变更对保险的影响
  • 计提企业所得税会计分录怎么做
  • 进项税一定是专票吗
  • pc应用是什么意思
  • yii2组件的理解
  • php正则函数内容匹配
  • 让渡资产使用权包含哪些内容
  • background-size 之 背景图的尺寸设置
  • php实现数据库查询
  • vue前端常见面试题
  • 库存现金每月终了由谁清点
  • 土地增值税成本费用
  • 支付水电费如何做账务处理
  • 如何测试php
  • ubuntu下安装windows
  • 企业租赁厂房需要交什么税
  • 收到现金投资计入什么科目
  • 免税收入货款要交税吗
  • 出口报关单运费可以填0吗
  • 珊瑚虫怎么变成珊瑚的
  • mysql同步复制搭建方法指南详细步骤
  • 会计和税法折旧年限不相同
  • 什么是认缴出资金额
  • 研发支出资本化计入什么科目
  • 在建工程包括哪些大类科目
  • 应付账款抹零摘要怎么写
  • 个体工商户怎么变更法人
  • 其他综合收益为什么不影响利润
  • 甲方代交水电费合法吗
  • 境外企业向境内企业提供技术服务
  • 其他收益和营业外收入有什么区别
  • 私营企业固定资产法律制度
  • boxjs
  • 不接入局域网更新
  • ubuntu系统管理
  • Ubuntu配置永久IP配置文件
  • explorer.exe进程文件
  • win xp 虚拟内存
  • macos教程
  • iphone手机文件怎么传到电脑
  • win8.1开始菜单怎么改成win7那样
  • win10电脑磁盘损坏
  • vr moke
  • javascript入门教程
  • 菜鸟教程安卓开发
  • jquery的css样式
  • nodejs登录成功跳转
  • linux系统如何搜索文件内容
  • [置顶]bilinovel
  • 终于实现的图片
  • javascript数据结构与算法
  • 国家税务总局2012年20号公告
  • 江苏电子税务局app下载
  • 单位医保账号怎么注销掉
  • 纳税人在国外签字流程
  • 小规模纳税人的增值税怎么计算
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设