详解nodejs爬虫程序解决gbk等中文编码问题(nodejs爬虫技术)

编辑：rootadmin

推荐整理分享详解nodejs爬虫程序解决gbk等中文编码问题(nodejs爬虫技术)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:node爬取数据,node网络爬虫,node网络爬虫,node爬取数据,nodejs爬虫教程,nodejs爬虫教程,node js爬虫,nodejs爬虫框架crawler,内容如对您有帮助，希望把文章链接给更多的朋友！

使用nodejs写了一个爬虫的demo，目的是提取网页的title部分。

遇到最大的问题就是网页的编码与nodejs默认编码不一致造成的乱码问题。nodejs支持utf8, ucs2, ascii, binary, base, hex等编码方式，但是对于汉语言来说编码主要分为三种，utf-8,gb,gbk。这里面gbk是完全兼容gb的，因此在处理编码的时候主要就分为utf-8以及gbk两大类。（这是在没有考虑到其他国家的编码情况，比如日本的Shift_JIS编码等，同时这里这个iconv-lite模块支持的编码方法有限）。

首先说一下浏览器显示网页内容的时候是如何处理编码问题的。服务器和客户端进行通信，服务端将网页按照指定的编码方式（比如gbk）编码成为二进制码流（即我们使用wireshark抓包看到额进制码流）传送给我们的客户端。客户端则会根据网页源码中所规定的编码方式，由浏览器调用对应的解码器，将二进制码流解码后显示出来。而编码方式通常在网页中是如下内容表示：

或者