位置: 编程技术 - 正文

nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫)

编辑:rootadmin

推荐整理分享nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node网络爬虫,node爬取数据,node python 爬虫,nodejs爬取数据,node python 爬虫,node爬取数据,nodejs爬取数据,nodejs 爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

一、非UTF-8页面处理.

1.背景

windows-编码

比如俄语网站: Windows-(cp)编码与utf-8编码的问题,其他的如 gbk就先不考虑在内了~

2.解决方案

1.

使用js原生编码转换

但是我现在还没找到办法哈..

如果是utf-8转window-还可以 charCodeAt 方法只对 unicode有效,其他编码是如何挖掘出其码段? 因为用的是nodejs 所以考虑使用相应模块

2.

安装使用nodejs模块iconv-lite 使用说明见 使用说明见 之前没仔细看官方说明)

一般简单使用后,还是乱码 形如:п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#; п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#; п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;

encoding:binary (默认的encoding是utf-8)

-->另外要说的是,iconv的使用时需要一些环境依赖的,见官方说明: ;

第二需要编译工具的支持(windows下出错最多)

出错类似这种

nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫)

node,如无特定版本或更高版本,默认使用vs编译工具(所以出错提示的解决办法一般为按照vs和framwork sdk2.0)

问题解决方案:

1.安装visual stutio

2.指定vs编译工具版本(如果是vs就是)

(有些时候会自动指定,所有也不一定需要这个命令 npm config set msvs_version --global)

3.如若还是提示找不到 framwork sdk,可将其安装路径添加到系统环境变量path中

(对应sdk4.0版本,类似的 sdj3.5 sdk4.5&#;)

另外要记得的是,环境变量只会读取第一个!

比如你之前已经有了 SDK2.0的路径设到了系统环境变量中,那么你现在再增加设置一个SDK4.0的路径的时候,起作用的只有第一个

所以:

要么把之前那个删了

要么把想添加的路径放到那个前面

二、gzip页面处理

有时候我们发现浏览器访问页面是正常的,但是模拟请求回来就乱码了,可以查看一下浏览器请求的Response信息,如果有Content-Encoding:gzip,极有可能是因为页面被gzip压缩了,这时请求时需要添加如下参数

gzip:true

以上所述就是本文的全部内容了,希望大家能够喜欢。

nodejs爬虫抓取数据之编码问题 cheerioDOM化并解析的时候1.假如使用了.text()方法,则一般不会有html实体编码的问题出现2.如果使用了.html()方法,则很多情况下(多数是非英文的时候)都

node.js调用C++开发的模块实例 如何用C++和node交互,在node的程序中,如果有大数据量的计算,处理起来比较慢,可以用C++来处理,然后通过回调(callback的形式),返回给node。先回顾

node.js中格式化数字增加千位符的几种方法 每三位以逗号分隔的处理方式正则方式:"".split("").reverse().join("").replace(/(d{3})/g,"$1,").split("").reverse().join("");"".split("").reverse().join("").replace(/(

标签: nodejs 爬虫

本文链接地址:https://www.jiuchutong.com/biancheng/377966.html 转载请保留说明!

上一篇:使用DNode实现php和nodejs之间通信的简单实例(php操作dom)

下一篇:nodejs爬虫抓取数据之编码问题(nodejs爬取数据)

  • 公司债券和企业债券哪个风险大
  • 北京增值税发票勾选认证平台
  • 财务软件增值税
  • 抗税的性质
  • 一键报税财务软件破解版
  • 房产税和车船税计入应交税费吗
  • 公司名下的车怎么报废
  • 基本户可以直接转账给个人吗
  • 支付安全生产费怎么入账
  • 承兑汇票怎么做假
  • 个税手机号码没有了怎么办
  • 成品油跨月发票红字冲销步骤
  • 营改增企业所得税
  • 房地产开发企业的土地使用权计入哪里
  • 外购货物用于集体福利属于什么
  • 安装设备领用自产产品按成本还是计税价格
  • 补计提上一年度费用
  • 普票6个点怎么算
  • 研发费用需要发什么科目
  • 旅行社成本票没有收到,怎么挂账
  • 暂估运费成本的账务处理
  • 取得劳务收入的会计分录
  • 进项退回怎么做账
  • 如何把操作系统转移到固态硬盘
  • 利润分配未分配利润期末有余额吗
  • 建筑公司小规模纳税人怎么做账报税
  • 营业外支出是否需要发票
  • 企业将自有资金无偿提供
  • 消防器材怎么做?
  • 公司注销不清算可以吗
  • 无形资产摊销时点
  • 免税跟零税率
  • 土地承包经营权和土地经营权区别
  • 计提短期借款利息资产增加还是减少
  • php imagettftext()函数
  • 无形资产期末余额在哪方
  • php file_get_contents smb
  • php递归实现1到100的和
  • Linux(CentOS)下PHP扩展PDO编译安装的方法
  • 投标须知所包括的内容有哪些
  • yolo算法python代码
  • php array search
  • nohup命令挂不上 每次都直接退出
  • 代发工资的会计科目
  • 丧葬补贴金和抚恤金怎样领取
  • 车辆上牌费用会涨吗
  • 以个人名义和公司名义入股的利弊
  • phpcms怎么样
  • mysql_assoc
  • 资产是指()
  • 哪些合同不需要线上审批
  • 进项税额和销项税额有什么区别
  • 税盘进项税额怎么做
  • 暂扣员工工资应怎么处理
  • 佣金付给别人公司合法吗
  • 限定性和非限定性资产
  • 请演员的费用账务处理
  • 总资产报酬率的公式
  • 小规模纳税人交通运输服务税率
  • 房租的发票没有收到,账务处理
  • 颁发数字证书要符合什么条件
  • 成本利润率计算销售价格
  • 中文版windows7的安装方式
  • linux 杀掉指定用户的进程
  • win7小键盘数字键不能用怎么办
  • flash是什么文件夹
  • 手把手教你在家制作豆腐脑
  • nodejs test
  • android 自定义
  • 命令以管理员运行
  • 详解16型人格
  • python 列表分片
  • 九宫寓意和象征
  • node.js中使用文件流进行文件复制,首先需要创建一个
  • 法线贴图应该贴在哪里
  • javascript图片切换代码
  • Unity3D游戏开发标准教程
  • 水利基金税率‰6什么时候调整
  • 税局如何查账
  • 国家税务总局风险识别报告
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设