位置: 编程技术 - 正文
推荐整理分享nodejs爬虫遇到的乱码问题汇总(nodejs爬虫 与python爬虫),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:nodejs爬虫技术,nodejs爬虫 与python爬虫,node爬取数据,node网络爬虫,nodejs爬虫框架crawler,node网络爬虫,nodejs 爬虫,nodejs 爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!
上一篇文章中使用nodejs程序解析了网页编码为gbk,gb,以及utf-8的情况,这里面有三种特殊的乱码情况需要单独的说明一下.
1,网页编码为utf-8,但是解析为乱码,代表网站为www.guoguo-app.com。
这个问题真是个逗逼问题,查看网页源码中给出的编码方式为utf8,如下:
由于解析出来的始终是乱码,我就抓包看了下,报文中的编码方式为gbk,果然我使用gbk的方式之后,得到的不再是乱码了。淘宝为了反爬虫也是操碎了新,但是我也很好奇这种方式是怎么实现的,知道的告诉我。
1,网页编码为utf-8,解析为乱码情况二,代表网站http//andersonjiang.blog.sohu.com/
单纯的查看网页源码看不出任何毛病,于是我又抓了一次包,得到如下情形:
andersonjiang.blog.sohu.com这个网站同时采用了Transfer-Encoding: chunked传输编码和Content-Encoding: gzip内容编码功能,由于nodejs爬虫没有gzip解包功能,因此该网站提取不到任何字段,即title和charset等。要想提取此类网站则要添加gzip解包功能。
下面两个网站www.cr.com以及www.csdn.net是正常的抓包情况。
3,网页编码为其他形式的编码,解析为乱码,例如:
(1)编码为Big5,代表网站为 www.ruten.com.tw, www.ctgoodjobs.hk
(2)编码为Shift_JIS,代表网站为www.vector.co.jp,www.smbc.co.jp
(3)编码为windows-,代表网站为www.tff.org,www.pravda.com.ua
(4)编码为EUC-JP,代表网站为www.showtime.jp
(5)编码为EUC-KR ,代表网站为www.incruit.com,www.samsunghospital.com,
由于iconv-lite的说明中支持如下的编码方式:
Currently only a small part of encodings supported:
Other encodings are easy to add, see the source. Please, participate因此对于上述出现的网页编码,只有自己添加解码方式加以解决了。
总之要写一个通用的爬虫程序还有很长的路要走。
nodejs服务搭建教程 nodejs访问本地站点文件 本教程为大家分享了nodejs服务搭建和如何访问本地站点文件,供大家参考,具体内容如下搭建nodejs服务器步骤:1.安装nodejs服务(从官网下载安装)2.在自己
socket.io实现在线群聊功能 我自己在用socket.io开发,对官方网站上的文档,进行简单的整理,然后自己写了一个简单的聊天程序。最最开始先安装socket.io:npminstallsocket.io利用Node的
初识NodeJS服务端开发入门(Express+MySQL) NodeJS对前端来说无疑具有里程碑意义,在其越来越流行的今天,掌握NodeJS已经不再是加分项,而是前端攻城师们必须要掌握的技能。本文将与同志们一
友情链接: 武汉网站建设