位置: 编程技术 - 正文

python中常用的九种预处理方法分享(python九大特点)

编辑:rootadmin

推荐整理分享python中常用的九种预处理方法分享(python九大特点),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python的常用类型,python语言常用,python九大特点,python九大特点,python九大特点,python基本术语,python九大特点,python九大特点,内容如对您有帮助,希望把文章链接给更多的朋友!

本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;

1. 标准化(Standardization or Mean Removal and Variance Scaling)

变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。

一般会把train和test集放在一起做标准化,或者在train集上做标准化后,用同样的标准化器去标准化test集,此时可以用scaler

实际应用中,需要做特征标准化的常见情景:SVM

2. 最小-最大规范化

最小-最大规范化对原始数据进行线性变换,变换到[0,1]区间(也可以是其他固定最小最大值的区间)

3.规范化(Normalization)

规范化是将不同变化范围的值映射到相同的固定范围,常见的是[0,1],此时也称为归一化。

将每个样本变换成unit norm。

得到:

python中常用的九种预处理方法分享(python九大特点)

可以发现对于每一个样本都有,0.4^2+0.4^2+0.^2=1,这就是L2 norm,变换后每个样本的各维特征的平方和为1。类似地,L1 norm则是变换后每个样本的各维特征的绝对值和为1。还有max norm,则是将每个样本的各维特征除以该样本各维特征的最大值。在度量样本之间相似性时,如果使用的是二次型kernel,需要做Normalization

4. 特征二值化(Binarization)

给定阈值,将特征转换为0/1

5. 标签二值化(Label binarization)

6. 类别特征编码

有时候特征是类别型的,而一些算法的输入必须是数值型,此时需要对其编码。

上面这个例子,第一维特征有两种值0和1,用两位去编码。第二维用三位,第三维用四位。

另一种编码方式

7.标签编码(Label encoding)

8.特征中含异常值时

9.生成多项式特征

这个其实涉及到特征工程了,多项式特征/交叉特征。

原始特征:

转化后:

总结

标签: python九大特点

本文链接地址:https://www.jiuchutong.com/biancheng/385421.html 转载请保留说明!

上一篇:python 打印出所有的对象/模块的属性(实例代码)(python打印出none)

下一篇:浅谈python中的变量默认是什么类型(python 变参)

  • 车辆购置税的纳税义务发生时间为
  • 房产税如何进行税源采集
  • 什么叫风险纳税人员
  • 税收缴款书现在还有吗
  • 缴纳城镇土地使用税
  • 如何确定固定资产的原始价值
  • 盘盈存货会计处理会计分录
  • 外购礼品发放员工
  • 广告公司收到的信息技术发票计入什么科目
  • 因小数点造成的误差称为
  • 收到加工劳务发票怎么做
  • 公司前期没有收入开支怎么记账
  • 个人所得税计算器2023
  • 升级后的百旺开票系统如何操作
  • 同一笔销售业务的收入和成本
  • 国有划拨地是否能转让土地
  • 物业管理费属于应付账款吗
  • 建筑装饰行业税负
  • 所有利息收入都免税吗
  • 进项税和销项税抵扣的会计分录
  • win1020h2更新0x800f081f
  • 此 google 帐号尚未与设备关联
  • 处置固定资产简易计税怎么申报
  • 保证合同的担保范围包括
  • 进项发票失控怎么办
  • win11系统关闭防火墙怎么关
  • 核定征收的企业怎么交所得税
  • 我的电脑图标没了怎么恢复
  • 分公司收到总公司利润分录怎么写
  • 直接材料费用包括
  • 应收票据到期收款
  • 小企业成本管理方法
  • 搬迁收入增值税
  • 黑沙滩是什么意思
  • 会计核算中 制度有哪些
  • php获取数据
  • apache环境搭建
  • 外出经营活动税收管理
  • 递延所得税资产和负债怎么计算
  • php函数的定义和调用
  • 减免税费是几级科目
  • 迪纳利国家公园在哪个国家
  • php json格式
  • vue生命周期钩子函数
  • 电子税务局附加税退税在哪看
  • 固定资产科目的备抵科目
  • 材料发票和工程发票的区别
  • 房地产预缴增值税计税依据
  • mongodb介绍
  • 红冲作废怎么处理
  • 文化事业建设税怎么申报
  • 存货跌价准备确认损失分录
  • 临时售楼部招牌效果图
  • 印花税不足一元免征吗
  • 缴纳印花税如何写分录
  • 研发支出是什么意思
  • 筹建期的开办费开业后如何处理
  • 集团固定资产管理
  • 买公司的钱计入什么科目
  • Linux/UNIX和Window平台上安装Mysql
  • Windows Server 2008下Backup功能全通透
  • ubuntu无线网卡怎么用
  • 苹果电脑如何查看WiFi密码
  • 系统设置技巧有哪些
  • linux 详解
  • win8.0升级win8.1
  • linux挂载的概念
  • cocos2dx 3.5 win7 eclipse 环境搭建及hello world
  • unity里面如何删除一个项目
  • Android UI之TableLayout(表格布局)
  • unity连接
  • unity中物体移动代码
  • Activity的生命周期和页面之间的传递
  • JavaScript While 循环 教程
  • 一个绿色的球英语怎么读
  • java教程
  • javascript面向对象编程指南第三版
  • python里list
  • 生产者消费者的作用
  • 浙江国税网上报税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设