位置: 编程技术 - 正文

nodejs爬虫遇到的乱码问题汇总(nodejs爬虫与python爬虫)

编辑：rootadmin

推荐整理分享nodejs爬虫遇到的乱码问题汇总(nodejs爬虫与python爬虫)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:nodejs爬虫技术,nodejs爬虫与python爬虫,node爬取数据,node网络爬虫,nodejs爬虫框架crawler,node网络爬虫,nodejs 爬虫,nodejs 爬虫,内容如对您有帮助，希望把文章链接给更多的朋友！

上一篇文章中使用nodejs程序解析了网页编码为gbk,gb,以及utf-8的情况，这里面有三种特殊的乱码情况需要单独的说明一下.

1，网页编码为utf-8,但是解析为乱码，代表网站为www.guoguo-app.com。

这个问题真是个逗逼问题，查看网页源码中给出的编码方式为utf8，如下：

由于解析出来的始终是乱码，我就抓包看了下，报文中的编码方式为gbk，果然我使用gbk的方式之后，得到的不再是乱码了。淘宝为了反爬虫也是操碎了新，但是我也很好奇这种方式是怎么实现的，知道的告诉我。

1，网页编码为utf-8,解析为乱码情况二，代表网站http//andersonjiang.blog.sohu.com/

单纯的查看网页源码看不出任何毛病，于是我又抓了一次包，得到如下情形：

andersonjiang.blog.sohu.com这个网站同时采用了Transfer-Encoding: chunked传输编码和Content-Encoding: gzip内容编码功能，由于nodejs爬虫没有gzip解包功能，因此该网站提取不到任何字段，即title和charset等。要想提取此类网站则要添加gzip解包功能。

下面两个网站www.cr.com以及www.csdn.net是正常的抓包情况。

nodejs爬虫遇到的乱码问题汇总(nodejs爬虫与python爬虫)

3，网页编码为其他形式的编码，解析为乱码，例如：

（1）编码为Big5，代表网站为 www.ruten.com.tw， www.ctgoodjobs.hk

（2）编码为Shift_JIS，代表网站为www.vector.co.jp，www.smbc.co.jp

（3）编码为windows-，代表网站为www.tff.org，www.pravda.com.ua

（4）编码为EUC-JP，代表网站为www.showtime.jp

（5）编码为EUC-KR ，代表网站为www.incruit.com，www.samsunghospital.com，

由于iconv-lite的说明中支持如下的编码方式：

Currently only a small part of encodings supported:

Other encodings are easy to add, see the source. Please, participate因此对于上述出现的网页编码，只有自己添加解码方式加以解决了。

总之要写一个通用的爬虫程序还有很长的路要走。

nodejs服务搭建教程 nodejs访问本地站点文件本教程为大家分享了nodejs服务搭建和如何访问本地站点文件，供大家参考，具体内容如下搭建nodejs服务器步骤:1.安装nodejs服务(从官网下载安装)2.在自己

socket.io实现在线群聊功能我自己在用socket.io开发，对官方网站上的文档，进行简单的整理，然后自己写了一个简单的聊天程序。最最开始先安装socket.io:npminstallsocket.io利用Node的

初识NodeJS服务端开发入门（Express+MySQL） NodeJS对前端来说无疑具有里程碑意义，在其越来越流行的今天，掌握NodeJS已经不再是加分项，而是前端攻城师们必须要掌握的技能。本文将与同志们一

标签: nodejs爬虫与python爬虫

本文链接地址:https://www.jiuchutong.com/biancheng/377919.html 转载请保留说明！

上一篇：详解nodejs爬虫程序解决gbk等中文编码问题(nodejs爬虫技术)

下一篇：nodejs服务搭建教程 nodejs访问本地站点文件(node.js搭建服务器)

随机推荐

分页存储过程（一）使用sql2005的新函数构造分页存储过程(分页存储过程是什么)

分页存储过程（一）使用sql2005的新函数构造分页存储过程(分页存储过程是什么)

win10怎么设置有鼠标时关闭触摸板？(win10怎么设置有线网络)

win10怎么设置有鼠标时关闭触摸板？(win10怎么设置有线网络)

c#抽象类与接口(c# 抽象类的作用)

c#抽象类与接口(c# 抽象类的作用)

标签

计算本月所得税税率为25%

以前年度损益结转到未分配利润

季节性临时工是不是可以不上社保

工会经费余额在借方怎么办

小企业会计准则以前年度损益调整

服装业增值税专用发票税率

车船税是费用吗

办公室购买水果做会计分录

先付款后开票是预付吗

当月发票开错了已经红冲怎么做分录?

出售固定资产的净收益

诉讼财产保全保险费能否主张

人力资源外包公司排名

小规模纳税人网上申报税务操作流程

以前年度损益调整属于哪类科目

购买银行承兑利息收入是否缴纳增值税?

加计扣除汇算清缴怎么调减

金税盘报税的服务费怎么抵扣增值税?

企业所得税怎么征收几个点

企业减免所得税

怎样处理教育费附加会计分录？

应收款的周转天数

代扣代缴境外增值税可以抵扣

财务计提个人缴纳社保部分怎么记账?

跨省经营如何缴纳流转税?

苹果mac os x 怎样打开DVD播放程序

雪茄烟在什么环节交消费税

Win11 Build 22449.1000 预览版发布(附更新修复已知问题汇总)

勃朗峰峡谷

一般纳税人未取得增值税专用发票怎么处理

php批量上传图片到服务器

vue组件标签

什么是异步函数

已经申报过的个税在哪里查看

vscode终端显示

报名附件怎么上传

累计折旧在资产负债表中填在哪里

企业分红所得税

企业购置房产进项税税率

乘客人身意外保险单可以报销吗

固定资产清理账户借方

预付发票能入账吗

纳税人的发票填什么

员工购买口罩会计科目

简易征收需要勾选认证吗

补发工资如何计算个税

应收账款对应什么会计科目

怎么做好流水账

专项应付款支出的账务处理

特殊销售方式下销售额的确定

资本公积转为实收资本会计科目

金税盘不申报会不会罚款

函证核对法是什么

如何定义是应付还是应付

sql语句查询去重

windows mysql5.5升级5.7

微软宣布9月30日停止在俄罗斯服务

openssl安装教程

encore是什么软件

window10窗口操作

xp系统桌面图标怎么设置

qq远程桌面操作

win10通过任务管理器打开设置

win10锁屏界面的搜索怎么关

linux消息队列阻塞

android ndk cmake

linux安装jdk和tomcat

jquery层级选择器

js闭包的用处

解读高考作文

jquery全选和全不选效果

上海电子发票试点

企业自建房如何缴税

取得土地使用权后两年未开发

免责声明：网站部分图片文字素材来源于网络，如有侵权，请及时告知，我们会第一时间删除，谢谢！邮箱：opceo@qq.com

鄂ICP备2023003026号

网站地图：企业信息工商信息财税知识网络常识编程技术

友情链接：武汉网站建设