位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 应付职工薪酬纳税调整
  • 生产税净额计算实例
  • 销售给学员的教材是否要缴纳增值税?
  • 个体注销了名下的车辆
  • 小规模纳税人发票怎么做账
  • 摊销广告费会计分录
  • 房产出租增值税税目
  • 报税利润表的第二季度本期金额本年累计金额是什么
  • 离境退税政策文件
  • 不含税销售收入含消费税吗
  • 收到前欠销货款290000元,存入银行的会计分录怎么写
  • 公益性生物资产属于什么科目
  • 非营利组织注册登记证件图片
  • 车间停产期间设施有哪些
  • 错把费用计入固定资产次月如何调账
  • 免税单位取得增值税发票
  • 非独立核算的公司怎么报税
  • 个体工商户税种认定的税目可以改吗
  • 收到银联客户备注短信
  • 兼职取酬案例剖析
  • 货物退回发票冲红会计分录
  • 税款所属期是什么意思举例子
  • 利润表与所得税申报表不符
  • 差额征税的计算方式
  • 税金及附加审计说明怎么写
  • 物业公司预收款增值税纳税义务发生时间
  • 建筑施工企业是落实施工现场带班制度的第一责任人
  • 系统托盘无法隐藏文件夹
  • win10组策略编辑器打不开怎么办
  • 股票公允价值变动怎么算
  • 比较有用的sr
  • php获取api内容
  • html visit
  • 逾期未收回包装物押金增值税
  • 企业缴纳的所得税应以净利润为基础
  • 二次封装机
  • php搜索代码
  • 增值税一般纳税人是什么意思
  • 现金盘存的具体方法
  • 外埠存款通过哪个会计账户核算?
  • 增值税纳税申报表怎么填
  • ps抠图之后怎么拿出来
  • 物流货运发票要交税吗
  • 银行汇票和银行承兑汇票的区别
  • 进项税额转出会影响当期纳税吗?
  • 销售返利账务处理及注意事项
  • python包发布
  • vue2响应式原理面试回答
  • 本年缴纳上年的所得税填年报
  • 综合保税区可以随便进出吗
  • 购买净资产为负数怎么办
  • 公允价值变动损益在利润表哪里
  • 其他货币资金的六个内容
  • sql数据库降低版本
  • 企业之间借款利息开票编码
  • 公司减免的社保退给个人吗
  • 纳税人将购买的货物分配给股东,因该货物购买时已缴纳
  • 给员工发工资时要交税吗
  • 确定施工程序怎么写
  • 已付款未认证发票怎么做账
  • 以前年度财务费用漏记
  • 收到增值税专用发票是进项还是销项
  • 预缴的附加税月末结转吗
  • 买断式与回购式
  • sql做判断
  • 三种实现方法实现的特点
  • win10如何设置快捷键
  • windows哪个最好用
  • Windows 2003 SP2 简体中文版下载地址
  • xp系统如何做
  • 神墓凌云
  • xp系统如何设置
  • js promises
  • javascript的引用类型
  • jquery轮播图自动播放
  • Javascript & DHTML 实例编程(教程)DOM基础和基本API
  • javascirpt
  • 12种JavaScript常用的MVC框架比较分析
  • 安卓开发界面ui设计器
  • python socket模块
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设