位置: 编程技术 - 正文

nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫)

编辑:rootadmin

推荐整理分享nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node网络爬虫,node爬取数据,node python 爬虫,nodejs爬取数据,node python 爬虫,node爬取数据,nodejs爬取数据,nodejs 爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

一、非UTF-8页面处理.

1.背景

windows-编码

比如俄语网站: Windows-(cp)编码与utf-8编码的问题,其他的如 gbk就先不考虑在内了~

2.解决方案

1.

使用js原生编码转换

但是我现在还没找到办法哈..

如果是utf-8转window-还可以 charCodeAt 方法只对 unicode有效,其他编码是如何挖掘出其码段? 因为用的是nodejs 所以考虑使用相应模块

2.

安装使用nodejs模块iconv-lite 使用说明见 使用说明见 之前没仔细看官方说明)

一般简单使用后,还是乱码 形如:п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#; п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#; п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;п&#;&#;

encoding:binary (默认的encoding是utf-8)

-->另外要说的是,iconv的使用时需要一些环境依赖的,见官方说明: ;

第二需要编译工具的支持(windows下出错最多)

出错类似这种

nodejs爬虫抓取数据乱码问题总结(nodejs 爬虫)

node,如无特定版本或更高版本,默认使用vs编译工具(所以出错提示的解决办法一般为按照vs和framwork sdk2.0)

问题解决方案:

1.安装visual stutio

2.指定vs编译工具版本(如果是vs就是)

(有些时候会自动指定,所有也不一定需要这个命令 npm config set msvs_version --global)

3.如若还是提示找不到 framwork sdk,可将其安装路径添加到系统环境变量path中

(对应sdk4.0版本,类似的 sdj3.5 sdk4.5&#;)

另外要记得的是,环境变量只会读取第一个!

比如你之前已经有了 SDK2.0的路径设到了系统环境变量中,那么你现在再增加设置一个SDK4.0的路径的时候,起作用的只有第一个

所以:

要么把之前那个删了

要么把想添加的路径放到那个前面

二、gzip页面处理

有时候我们发现浏览器访问页面是正常的,但是模拟请求回来就乱码了,可以查看一下浏览器请求的Response信息,如果有Content-Encoding:gzip,极有可能是因为页面被gzip压缩了,这时请求时需要添加如下参数

gzip:true

以上所述就是本文的全部内容了,希望大家能够喜欢。

nodejs爬虫抓取数据之编码问题 cheerioDOM化并解析的时候1.假如使用了.text()方法,则一般不会有html实体编码的问题出现2.如果使用了.html()方法,则很多情况下(多数是非英文的时候)都

node.js调用C++开发的模块实例 如何用C++和node交互,在node的程序中,如果有大数据量的计算,处理起来比较慢,可以用C++来处理,然后通过回调(callback的形式),返回给node。先回顾

node.js中格式化数字增加千位符的几种方法 每三位以逗号分隔的处理方式正则方式:"".split("").reverse().join("").replace(/(d{3})/g,"$1,").split("").reverse().join("");"".split("").reverse().join("").replace(/(

标签: nodejs 爬虫

本文链接地址:https://www.jiuchutong.com/biancheng/377966.html 转载请保留说明!

上一篇:使用DNode实现php和nodejs之间通信的简单实例(php操作dom)

下一篇:nodejs爬虫抓取数据之编码问题(nodejs爬取数据)

  • 印花税购销合同减半征收政策
  • 简易计征怎么开票
  • 技术入股亏损如何清算
  • 研发费用加计扣除新税收政策2023
  • 工程管理费如何使用
  • 二手车公司销售二手车的税率
  • 资产负债表金额越来越大代表什么
  • 公司注销取不到采购发票怎么汇算清缴?
  • 企业所得税减免税额包括哪些
  • 待处理财产损益科目
  • 专家评审费个人所得税计算公式
  • 科研经费税收优惠
  • 小型微利企业普惠性
  • 小规模纳税人销售农产品免税吗
  • 收到未到期的银行承兑汇票会计分录
  • 非营利组织免税收入孳生的银行存款利息
  • 滞留海关发票是谁开
  • 小额纳税人进口增值税适用税率?
  • 酷狗云盘是干什么用的
  • 1000元的打印机双十一满减可以减150吗少
  • 发生销售折让会计分录
  • 手机测wifi网速准不准
  • win11系统开机密码怎么修改
  • php多维数组转一维数组
  • 法人把资产转移到国外有没有限制
  • macbookpro鼠标滚轮是反的
  • 往来款作为投资款的影响
  • 销售购物卡如何交税
  • win10重装系统后网卡没了
  • php的项目
  • 社保代扣代缴会计分录怎么做
  • 工程项目成本预算表
  • 像指纹一样的图形
  • macos安装多版macos并存
  • sed指令可以打印文件的奇数或偶数行
  • wordpress mobile themes
  • 美国人用什么英语词典
  • 收取房屋租赁费的会计分录
  • 织梦是啥
  • 房开企业会计分录
  • 房地产开发企业成本核算方法
  • 账务核对的主要内容
  • 农业种植补贴需要审批吗
  • 办培训机构需要什么条件手续
  • 医院要发票
  • 存货跌价准备在年报哪里
  • 商业会计做账流程视频
  • 厂房的使用寿命
  • 税负率偏低
  • 增值税相关的问题
  • 会计的凭证怎么做账
  • sql server 1222解决
  • 电脑安装win8系统
  • windows xp怎么打开
  • linux 使用技巧
  • xp怎么改密码怎么设置
  • win8应用商店废了
  • win10开始菜单怎么打开
  • win7系统如何隐藏盘符
  • 如何理解python语言
  • jquery下拉菜单插件
  • 设计模式工厂模式使用场景
  • android基础入门教程
  • opencv for linux
  • jquery 正则表达式
  • node实现文件上传
  • python极简讲义pdf
  • python语言解析
  • android完整开源项目
  • jquery原理和实现步骤
  • jquery+ajax实现直接提交表单实例分析
  • 异地社保如何在本地使用医保
  • 税务风险科是干什么的
  • 对超市的建议和意见怎么写简短
  • 15号扣税
  • 怎样从税务局网上交医保
  • 特斯拉购车补贴2023苏州
  • 营业费用指哪些
  • 房地产增值税怎么算举例说明
  • 广东省广州电子税务局
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设