位置: 编程技术 - 正文

nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫)

编辑:rootadmin

推荐整理分享nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node网络爬虫,node爬取数据,node python 爬虫,nodejs爬取数据,node python 爬虫,node爬取数据,nodejs爬取数据,nodejs 爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

一、非UTF-8页面处理.

1.背景

windows-编码

比如俄语网站: Windows-(cp)编码与utf-8编码的问题,其他的如 gbk就先不考虑在内了~

2.解决方案

1.

使用js原生编码转换

但是我现在还没找到办法哈..

如果是utf-8转window-还可以 charCodeAt 方法只对 unicode有效,其他编码是如何挖掘出其码段? 因为用的是nodejs 所以考虑使用相应模块

2.

安装使用nodejs模块iconv-lite 使用说明见 使用说明见 之前没仔细看官方说明)

一般简单使用后,还是乱码 形如:п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#; п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#; п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;

encoding:binary (默认的encoding是utf-8)

-->另外要说的是,iconv的使用时需要一些环境依赖的,见官方说明: ;

第二需要编译工具的支持(windows下出错最多)

出错类似这种

nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫)

node,如无特定版本或更高版本,默认使用vs编译工具(所以出错提示的解决办法一般为按照vs和framwork sdk2.0)

问题解决方案:

1.安装visual stutio

2.指定vs编译工具版本(如果是vs就是)

(有些时候会自动指定,所有也不一定需要这个命令 npm config set msvs_version --global)

3.如若还是提示找不到 framwork sdk,可将其安装路径添加到系统环境变量path中

(对应sdk4.0版本,类似的 sdj3.5 sdk4.5&#;)

另外要记得的是,环境变量只会读取第一个!

比如你之前已经有了 SDK2.0的路径设到了系统环境变量中,那么你现在再增加设置一个SDK4.0的路径的时候,起作用的只有第一个

所以:

要么把之前那个删了

要么把想添加的路径放到那个前面

二、gzip页面处理

有时候我们发现浏览器访问页面是正常的,但是模拟请求回来就乱码了,可以查看一下浏览器请求的Response信息,如果有Content-Encoding:gzip,极有可能是因为页面被gzip压缩了,这时请求时需要添加如下参数

gzip:true

以上所述就是本文的全部内容了,希望大家能够喜欢。

nodejs爬虫抓取数据之编码问题 cheerioDOM化并解析的时候1.假如使用了.text()方法,则一般不会有html实体编码的问题出现2.如果使用了.html()方法,则很多情况下(多数是非英文的时候)都

node.js调用C++开发的模块实例 如何用C++和node交互,在node的程序中,如果有大数据量的计算,处理起来比较慢,可以用C++来处理,然后通过回调(callback的形式),返回给node。先回顾

node.js中格式化数字增加千位符的几种方法 每三位以逗号分隔的处理方式正则方式:"".split("").reverse().join("").replace(/(d{3})/g,"$1,").split("").reverse().join("");"".split("").reverse().join("").replace(/(

标签: nodejs 爬虫

本文链接地址:https://www.jiuchutong.com/biancheng/377966.html 转载请保留说明!

上一篇:使用DNode实现php和nodejs之间通信的简单实例(php操作dom)

下一篇:nodejs爬虫抓取数据之编码问题(nodejs爬取数据)

  • 增值税一般纳税人税率是多少?
  • 吴中区个体户如何办理
  • 啥子是增值税
  • 受托代销商品款和受托代销商品的区别
  • 补发上年度奖金如何计税
  • 购货方收到红字发票
  • 土地增值所得需交什么税
  • 利润表第二季度本期金额填4-6月还是1-6月数
  • 以前年度损益调整
  • 有留抵税额的会计处理
  • 高速公路通行费电子发票怎么打印
  • 工程发票的备注栏
  • 相互调转总分公司的原料物资 是视同销售吗?
  • 个人可以代公司缴税吗
  • 购买方已抵扣
  • 企业不动产销售包括哪些
  • 电力发票没有到怎么做分录
  • 进项是普票销项是专票,怎么交税
  • 公司购买房子涉及什么税
  • mac host is down
  • win10开机启动文件路径
  • 工程用的东西有什么
  • 简易征收增值税怎么算
  • 在当前目录下打开cmd
  • 新准则管理费用税金
  • 不动产增值税怎么算
  • 在vue3项目中自定义组件通常存放在
  • eccv论文下载
  • 被黑客攻击
  • 固定资产处置缴纳增值税政策依据
  • python中time模块的用法
  • 法人可以开个人票会怎么样
  • 生产成本结转库存商品,怎么算知道数量以及单价
  • phpcms 用的是什么模板引擎
  • 下列项目的进项税额可以从销售税额中抵扣的是
  • 小规模纳税人交通运输服务税率
  • 销项发票属于哪个科目
  • 实收资本结转本年利润
  • 金税四期对企业纳税管理影响分析
  • 基本户是活期还是定期
  • 建筑业挂靠企业所得税如何收取?
  • 低值易耗品费用计入产品成本的方式有哪几种
  • 社保扣款上月没扣费
  • 运费对方出怎么处理
  • 增值税申报开具其他发票包含哪些
  • 固定资产如何入账处理
  • 工厂投产前的准备工作有哪些
  • 律师费能计入办公费吗合法吗
  • 车辆购置税是怎么计算的
  • 小规模申请专票,税率是多少?
  • 如何查询一个企业的纳税情况
  • 培训费发票是否可以抵扣
  • 未打印税务分类怎么处理
  • 从农民手里租用土地用于科研要开发票吗
  • dos命令win10
  • win10补丁导致无法开机
  • ffplay播放视频命令
  • 戴尔电脑u盘快速启动
  • MacOS X Yosemite升级后postgresql启动报错的解决办法
  • win+tab键
  • win102021年1月大更新
  • perl常用函数
  • linux的启动顺序
  • js继承怎么实现
  • Android Studio Attach source code
  • 将字符串小写转换成大写
  • jquery中ajax跨域方法实例分析
  • cmd文件操作基本命令清单
  • pygame csdn
  • 使用权资产
  • nodejs搭建网站
  • js 仿真
  • python3 with语句
  • jquery实现全选和取消全选
  • jquery输出语句
  • 上海各区税务大厅
  • 税务催告期限多久
  • 宁波增值税普通发票有几联发票
  • 稽查局是税务局的派出机构还是内设机构
  • 河南林州在哪三省交界处
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设