位置: - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑：rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助，希望把文章链接给更多的朋友！

这篇文章，我们就把上文中采集到的所有文章列表的信息整理一下，开始采集文章并且生成静态html文件了.先看下我的采集效果，我的博客目前篇文章，1分钟不到就全部采集生成完毕了，这里我截了部分的图片，文件名用文章的id生成的，生成的文章，我写了一个简单的静态模板，所有的文章都是根据这个模板生成的.

项目结构:

好了，接下来，我们就来讲解下，这篇文章主要实现的功能：

1，抓取文章，主要抓取文章的标题，内容，超链接，文章id（用于生成静态html文件）

2，根据jade模板生成html文件

一、抓取文章如何实现？

非常简单，跟上文抓取文章列表的实现差不多

参数url就是文章的地址，把文章的内容抓取完毕之后，调用filterArticle( html ) 过滤出需要的文章信息（id, 标题，超链接，内容），然后用jade的renderFile这个api，实现模板内容的替换，

模板内容替换完之后，肯定就需要生成html文件了, 所以用writeFile写入文件，写入文件时候，用id作为html文件名称。这就是生成一篇静态html文件的实现，

接下来就是循环生成静态html文件了，就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后，就把当前文章的url删除，让下一篇文章的url出来，继续采集

完整的实现代码server.js：

layout.jade文件:

后续的打算：

1，采用mongodb入库

2，支持断点采集

3，采集图片

4，采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析从版本8.5.0开始，Node.js开始支持原生ES模块，可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式谈到设计模式，你可能会想到singletons,observers（观察者）或factories（工厂方法）。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现，像依赖

在Debian（Raspberry Pi）树莓派上安装NodeJS的教程详解在树莓派上运行NodeJS并不需要特别的配置，你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明！

下一篇链接:https://www.jiuchutong.com/biancheng/379518.html