位置: 编程技术 - 正文

python中常用的九种预处理方法分享(python九大特点)

编辑:rootadmin

推荐整理分享python中常用的九种预处理方法分享(python九大特点),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python的常用类型,python语言常用,python九大特点,python九大特点,python九大特点,python基本术语,python九大特点,python九大特点,内容如对您有帮助,希望把文章链接给更多的朋友!

本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;

1. 标准化(Standardization or Mean Removal and Variance Scaling)

变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。

一般会把train和test集放在一起做标准化,或者在train集上做标准化后,用同样的标准化器去标准化test集,此时可以用scaler

实际应用中,需要做特征标准化的常见情景:SVM

2. 最小-最大规范化

最小-最大规范化对原始数据进行线性变换,变换到[0,1]区间(也可以是其他固定最小最大值的区间)

3.规范化(Normalization)

规范化是将不同变化范围的值映射到相同的固定范围,常见的是[0,1],此时也称为归一化。

将每个样本变换成unit norm。

得到:

python中常用的九种预处理方法分享(python九大特点)

可以发现对于每一个样本都有,0.4^2+0.4^2+0.^2=1,这就是L2 norm,变换后每个样本的各维特征的平方和为1。类似地,L1 norm则是变换后每个样本的各维特征的绝对值和为1。还有max norm,则是将每个样本的各维特征除以该样本各维特征的最大值。在度量样本之间相似性时,如果使用的是二次型kernel,需要做Normalization

4. 特征二值化(Binarization)

给定阈值,将特征转换为0/1

5. 标签二值化(Label binarization)

6. 类别特征编码

有时候特征是类别型的,而一些算法的输入必须是数值型,此时需要对其编码。

上面这个例子,第一维特征有两种值0和1,用两位去编码。第二维用三位,第三维用四位。

另一种编码方式

7.标签编码(Label encoding)

8.特征中含异常值时

9.生成多项式特征

这个其实涉及到特征工程了,多项式特征/交叉特征。

原始特征:

转化后:

总结

标签: python九大特点

本文链接地址:https://www.jiuchutong.com/biancheng/385421.html 转载请保留说明!

上一篇:python 打印出所有的对象/模块的属性(实例代码)(python打印出none)

下一篇:浅谈python中的变量默认是什么类型(python 变参)

  • 海关关税计算公式
  • 培训属于什么服务行业
  • 无票收入是否要交税
  • 融资贷款购车
  • 减免税控盘增值税纳税申报
  • 小规模开专票要计提附加税吗
  • 小微企业所得税优惠政策最新2022
  • 增值税出口免退什么意思
  • 手工记账需要什么资质
  • 应收账款坏账计提比例变更
  • 预收款 交税
  • 一般纳税人净利润300万企业所得税怎么算
  • 定额发票验旧是什么意思
  • 普通增值税发票查询结果不一致是什么原因?
  • 采购国产设备增值税
  • 新个税法规定的专项扣除包括住房公积金
  • 公司利润怎么提出来给老板
  • 投资收益税前扣除标准
  • 收购报废车有利润吗
  • 账外资产评估入账固定资产折旧可以税前扣除吗?
  • safedownloader是什么
  • 交上年企业所得税怎么做会计分录
  • 销售折扣单独开票
  • 无法启动个人热点iphone
  • 汇款手续费应由谁承担
  • 抵扣后增值税税率
  • php与mysql基础教程
  • nomoreporn.exe - nomoreporn是什么进程 有什么用
  • mac重装macos
  • vue路由点击没反应
  • 公司为员工投保意外险,意外险赔付给谁
  • 商业汇票不带息到银行办理贴现公式
  • php获取get请求数据
  • 本地部署stable diffusion需要什么显卡
  • php忘记密码功能
  • 七月份收入
  • vmware17虚拟机安装教程
  • discuz如何关闭站点
  • web前端开发规范有哪些
  • 其他应付款包括的内容
  • 出口企业的出口比例怎么算
  • 企业对外报送的财务报表
  • 党建工作经费1%
  • 财务报表与分析outcome2
  • 未开票收入申报有税务风险吗
  • 小型微利企业免税销售额是多少
  • 电子承兑背书了能撤回吗
  • 车间检测费会计分录
  • 上月多出来的薪资怎么算
  • 工资和社保基数的关系
  • 应交税费属于什么科目借方
  • 库存现金日记账怎么填
  • 管理费用和销售费用属于什么科目
  • 工会经费计入科目
  • 公对公转账必须签合同吗
  • 商业折扣的会计分录
  • centos7阿里云yum源
  • 韩国电脑用什么系统
  • centos必学的60个命令
  • 怎么在bios关闭软驱
  • win10开始无法打开
  • dotnetfx35有什么用
  • windowsxp删除所有文件
  • ubuntu14.04启动不了
  • 红石使用基础教学
  • win8如何使用网页版的onedrive
  • win1020h2正式版
  • 如何避免升级为查帐征收
  • vim删除^m
  • win8怎么清空电脑只剩系统
  • 快速掌握知识的方法
  • 使用多进程web
  • 本地 node js 启动vue
  • document.write与writeln的输出内容区别说明
  • jquery可以实现哪些效果
  • 基于python的系统
  • 浙江市税务局怎么进
  • 注销发票怎么处理流程
  • 电子税务局年度申报流程
  • 长春税务局电话朝阳区
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设