位置: 编程技术 - 正文

python中常用的九种预处理方法分享(python九大特点)

编辑:rootadmin

推荐整理分享python中常用的九种预处理方法分享(python九大特点),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python的常用类型,python语言常用,python九大特点,python九大特点,python九大特点,python基本术语,python九大特点,python九大特点,内容如对您有帮助,希望把文章链接给更多的朋友!

本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;

1. 标准化(Standardization or Mean Removal and Variance Scaling)

变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。

一般会把train和test集放在一起做标准化,或者在train集上做标准化后,用同样的标准化器去标准化test集,此时可以用scaler

实际应用中,需要做特征标准化的常见情景:SVM

2. 最小-最大规范化

最小-最大规范化对原始数据进行线性变换,变换到[0,1]区间(也可以是其他固定最小最大值的区间)

3.规范化(Normalization)

规范化是将不同变化范围的值映射到相同的固定范围,常见的是[0,1],此时也称为归一化。

将每个样本变换成unit norm。

得到:

python中常用的九种预处理方法分享(python九大特点)

可以发现对于每一个样本都有,0.4^2+0.4^2+0.^2=1,这就是L2 norm,变换后每个样本的各维特征的平方和为1。类似地,L1 norm则是变换后每个样本的各维特征的绝对值和为1。还有max norm,则是将每个样本的各维特征除以该样本各维特征的最大值。在度量样本之间相似性时,如果使用的是二次型kernel,需要做Normalization

4. 特征二值化(Binarization)

给定阈值,将特征转换为0/1

5. 标签二值化(Label binarization)

6. 类别特征编码

有时候特征是类别型的,而一些算法的输入必须是数值型,此时需要对其编码。

上面这个例子,第一维特征有两种值0和1,用两位去编码。第二维用三位,第三维用四位。

另一种编码方式

7.标签编码(Label encoding)

8.特征中含异常值时

9.生成多项式特征

这个其实涉及到特征工程了,多项式特征/交叉特征。

原始特征:

转化后:

总结

标签: python九大特点

本文链接地址:https://www.jiuchutong.com/biancheng/385421.html 转载请保留说明!

上一篇:python 打印出所有的对象/模块的属性(实例代码)(python打印出none)

下一篇:浅谈python中的变量默认是什么类型(python 变参)

  • 免税肉类主要品种目录
  • 小规模纳税人每季度超过30万交税
  • 豆制品属于农产品初加工吗
  • 商业折扣影响主要因素有
  • 个体户的附加税表怎么填写
  • 小规模纳税人销售农产品税率是多少
  • 企业的培训费会计分录
  • 抽奖中的汽车需要交购置税吗
  • 企业现金股利的支付能力,在很大程度
  • 核定征收企业所得税率是多少
  • 商品流通企业会计心得体会3000字
  • 出口发票开具注意事项及要求有哪些?
  • 年所得12万元以上个人
  • 上年多计提附加税调整了,今年怎么调整
  • 一般纳税人未达到起征点要交税吗
  • 减免税款交企业所得税吗
  • 高速公路通行费抵扣最新规定
  • 工信部推出一键解绑怎么用
  • 劳务公司发放农民工工资要开发票吗?
  • windows10如何开启wifi
  • windows 10 版本 21h1
  • 利息收入结转的正确分录
  • 承包经营税率表
  • 餐饮行业采购
  • 定额发票过期时间是多久
  • 个人独资企业法律责任
  • java如何实现异步处理
  • 计算机视觉未来发展方向
  • nodejs安装及环境配置win7
  • thinkphp教程
  • 车间管理人员为什么是制造费用
  • 防伪税控技术服务费订单号怎么查
  • 公司分红给个人
  • mysql临时表什么时候销毁
  • 无票收入如何报税
  • 生产防疫物资的厂家联系方式
  • sql server 2008r2连接
  • 劳务费与应付职工薪酬的区别
  • 补缴以前年度的印花税会计分录
  • 当年发生亏损会影响所有者权益吗
  • 处置公司车辆收据怎么写
  • 出口退税三类企业影响
  • 长期待摊费用做账
  • 企业将购进的原材料分录
  • 残保金申报常见问题
  • 企业场地租金收入交什么税
  • 预缴的增值税放哪个科目
  • 税务局退回水利基金账务怎么处理
  • 职工福利费汇算清缴
  • 支付借款利息需要交税吗
  • 会计要知道的常识
  • 预提费用怎么做凭证
  • sql不重复数据个数
  • sql server的修改语句
  • win8系统怎么关闭自动更新系统
  • ie11安装方法
  • windows xp的电脑
  • linux grub2
  • linux中的查找命令
  • xpspeak导入数据总是error reading
  • pgptray.exe - pgptray是什么进程 有什么用
  • linux查看开机运行时间
  • win7升级win8.1
  • win10的hyper-v在哪
  • windows8的ie浏览器在哪
  • opengl中点画圆算法
  • python的linux
  • disk指令
  • jquery(document).ready
  • 深入理解新发展理念,推进供给侧结构性改革心得体会
  • shell脚本实例精讲
  • Unity-DF 2048界面
  • javascript面向对象精要
  • Windows下Eclipse+PyDev配置Python+PyQt4开发环境
  • 绿牌电动车需要什么条件
  • 货物无偿赠予政府怎么写
  • 重庆国税局客服电话
  • 福建 退休
  • 怎样在微信小程序里交医保
  • 税控发票打印发票流程
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设