位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 陈列费可以开专票吗
  • 企业所得税工会经费调整
  • 买卖煤矿
  • 耕地占用税退税政策
  • 合伙企业主要缴纳的税种?
  • 研发费用加计扣除是什么意思啊
  • 运输开票的税点是多少
  • 保理公司发放贷款
  • 被投资方宣告发放股票股利
  • 小微企业未开票收入大于45万怎么填
  • 其他业务支出是
  • 接受捐赠收入会计利润含税吗
  • 营改增举例说明
  • 企业所得税退税的会计分录怎么做
  • 个人所得税生产经营所得税率表2023
  • 固定资产提前报废需要补提折旧吗
  • 购入原材料没有发票只有入库单
  • 小规模纳税人增值税超过30万怎么纳税
  • 企业所得税法的主要内容
  • 营改增后的劳务费怎么开
  • 我公司以房产土地为主
  • windows11如何
  • 计提的工资大于实际发放的
  • 以公允价值计量的投资性房地产
  • 签发商业承兑汇票计入什么科目
  • 企业所得税什么时候交
  • 最新制作视频的软件
  • PHP:session_register()的用法_Session函数
  • 转让股权怎么做会计分录
  • 营业利润,利润总额的计算公式是
  • 系统win7旗舰版
  • 增值税的优惠有哪三种形式
  • 应酬用的香烟
  • php教程视频
  • linux安装配置ftp
  • php htmlentities()函数的定义和用法
  • 应收票据计提利息
  • 收到转账怎么写分录
  • HTTP Tunneling (HTTP Proxy Socket Client)
  • 如何免费下载win10 家庭版
  • php压缩文件怎么打开
  • 投稿网址打不开
  • c语言缺省值
  • 呆账核销账务处理程序
  • 增值税发票有哪些项目
  • 已开普通发票记账联丢失怎么办?
  • 收回以前年度的应收账款较多能说明什么呢?
  • 增值税 附加税费
  • 员工外出培训报告范文
  • 未开票收入怎么做账
  • 酒店代金券是什么意思
  • 企业所得税税率多少
  • linux 的ll
  • Win10 Mobile 10563预览版微软官方模拟器下载
  • 苹果电脑邮箱添加163邮箱
  • 3种方法教你有效祛湿
  • bios 设置
  • ubuntu 10.04安装
  • win7桌面图标无法拖到任务栏
  • win10mobile升级顾问
  • ds是什么文件
  • win7隐藏账户
  • linux php教程
  • nodejs实战
  • python3.5 + PyQt5 +Eric6 实现的一个计算器代码
  • iframe嵌套页面滚动事件
  • scrapy—redis
  • 如何用python连接数据库
  • c++ 编程
  • Android带有注册界面的简单app
  • shell 捕获输出结果
  • jQuery实现TAB选项卡切换特效简单演示
  • android开源app
  • 火狐浏览器不支持弹出对话框操作
  • jquery查找节点
  • Android GridView属性集合
  • javascript for in
  • 国税总局关于总局的文件
  • 河北省国家税务局电子税务局官网入口
  • 如何打印个人所得税明细
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设