位置: 编程技术 - 正文

nodejs爬虫遇到的乱码问题汇总(nodejs爬虫 与python爬虫)

编辑:rootadmin

推荐整理分享nodejs爬虫遇到的乱码问题汇总(nodejs爬虫 与python爬虫),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:nodejs爬虫技术,nodejs爬虫 与python爬虫,node爬取数据,node网络爬虫,nodejs爬虫框架crawler,node网络爬虫,nodejs 爬虫,nodejs 爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

上一篇文章中使用nodejs程序解析了网页编码为gbk,gb,以及utf-8的情况,这里面有三种特殊的乱码情况需要单独的说明一下.

1,网页编码为utf-8,但是解析为乱码,代表网站为www.guoguo-app.com。

这个问题真是个逗逼问题,查看网页源码中给出的编码方式为utf8,如下:

由于解析出来的始终是乱码,我就抓包看了下,报文中的编码方式为gbk,果然我使用gbk的方式之后,得到的不再是乱码了。淘宝为了反爬虫也是操碎了新,但是我也很好奇这种方式是怎么实现的,知道的告诉我。

1,网页编码为utf-8,解析为乱码情况二,代表网站http//andersonjiang.blog.sohu.com/

单纯的查看网页源码看不出任何毛病,于是我又抓了一次包,得到如下情形:

andersonjiang.blog.sohu.com这个网站同时采用了Transfer-Encoding: chunked传输编码和Content-Encoding: gzip内容编码功能,由于nodejs爬虫没有gzip解包功能,因此该网站提取不到任何字段,即title和charset等。要想提取此类网站则要添加gzip解包功能。

下面两个网站www.cr.com以及www.csdn.net是正常的抓包情况。

nodejs爬虫遇到的乱码问题汇总(nodejs爬虫 与python爬虫)

3,网页编码为其他形式的编码,解析为乱码,例如:

(1)编码为Big5,代表网站为 www.ruten.com.tw, www.ctgoodjobs.hk

(2)编码为Shift_JIS,代表网站为www.vector.co.jp,www.smbc.co.jp

(3)编码为windows-,代表网站为www.tff.org,www.pravda.com.ua

(4)编码为EUC-JP,代表网站为www.showtime.jp

(5)编码为EUC-KR ,代表网站为www.incruit.com,www.samsunghospital.com,

由于iconv-lite的说明中支持如下的编码方式:

Currently only a small part of encodings supported:

Other encodings are easy to add, see the source. Please, participate因此对于上述出现的网页编码,只有自己添加解码方式加以解决了。

总之要写一个通用的爬虫程序还有很长的路要走。

nodejs服务搭建教程 nodejs访问本地站点文件 本教程为大家分享了nodejs服务搭建和如何访问本地站点文件,供大家参考,具体内容如下搭建nodejs服务器步骤:1.安装nodejs服务(从官网下载安装)2.在自己

socket.io实现在线群聊功能 我自己在用socket.io开发,对官方网站上的文档,进行简单的整理,然后自己写了一个简单的聊天程序。最最开始先安装socket.io:npminstallsocket.io利用Node的

初识NodeJS服务端开发入门(Express+MySQL) NodeJS对前端来说无疑具有里程碑意义,在其越来越流行的今天,掌握NodeJS已经不再是加分项,而是前端攻城师们必须要掌握的技能。本文将与同志们一

标签: nodejs爬虫 与python爬虫

本文链接地址:https://www.jiuchutong.com/biancheng/377919.html 转载请保留说明!

上一篇:详解nodejs爬虫程序解决gbk等中文编码问题(nodejs爬虫技术)

下一篇:nodejs服务搭建教程 nodejs访问本地站点文件(node.js搭建服务器)

  • 城市配套费的用途
  • 食品类发票明细有哪些面包方便面
  • 跨年度退货可以开红字发票吗
  • 买金税盘怎么做账
  • 增值税报表填写说明
  • 利润表中财务费用是负数怎么算营业利润
  • 供热企业不得抵扣的进项计算
  • 非货币性资产交换补价大于25%的会计处理
  • 工会经费可以支付哪些费用
  • 交通违章罚款可以在手机上交吗
  • 进项税额留底月底销项税金如何结转?
  • 代付电费开具发票账务处理
  • 发票上有个含税金额什么意思?
  • 增值税专用发票开错了咋办
  • 注册资本的变更
  • 进项税额转出报税填哪个表
  • 开票码必须输入吗
  • 流转税与所得税的区别
  • 代开发票预缴的增值税能否申请退税
  • 债务重组收益会计处理
  • 公司购买一辆车
  • 公司退股需要交什么税
  • windows已禁用
  • centos6.5下载
  • 银行复利息合法吗?
  • 材料发票入账
  • 优先股转化
  • php-mysql安装
  • php pathinfo
  • 工程施工会计做账流程及会计分录
  • 巴芬岛旅游
  • php冒泡法排序
  • c++图像二值化
  • pdf优化器在哪里
  • 借款存入银行会计分录怎么写
  • 增值税是在年末怎么处理
  • 企业一直零申报不经营
  • 帝国cms文件夹介绍
  • 新办商贸企业是国企吗
  • 软件无形资产摊销年限
  • mysql的环境配置
  • 长期待摊费用属于资产类吗
  • 出差在火车上算上班吗
  • 简易计税开具的发票取得的进项可以抵扣嘛
  • 暂估销售收入账目
  • 赠送商品需要开发票吗
  • 建安企业无收入证明模板
  • 备用金取多少钱会被监控
  • 哪些减值准备一经计提不得转回
  • 贷款服务有哪些项目
  • 公司补缴社保怎么查不到
  • 销售商品托收承付怎么确认收入
  • 建账基本要求
  • 明细分类账的记账
  • linux中fi
  • 应用商店windows
  • xp桌面图标设置
  • linux网络不可达是什么原因
  • windows10周年纪念版
  • win10剪贴板怎么调出来
  • kernel headers not found for target kernel
  • win7旗舰版玩dnf总是未响应
  • linux系统怎么隐藏文件
  • 基于jQuery中ajax的相关方法汇总(必看篇)
  • jquery实现表单验证
  • javascript 基础
  • nodejs创建vue
  • vue如何进行组件化开发
  • python中的字典与列表属于什么类型
  • js实现滑块拖动
  • 如何使用开塞露排便
  • js中的require函数
  • Qt Creater调试时一直出现:“DEBUGGER: Waiting for debug socket connect” 和“DEBUGGER: go to sleep”
  • 江苏电子税务局官网登录入口
  • 个体经营所得申报密码怎样设置
  • 外经证可以不交企业所得税吗
  • 陕西省地方税务局公告2016年第1号
  • 自建房交契税需要什么
  • 个体经营所得申报
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设