位置: 编程技术 - 正文

python中常用的九种预处理方法分享(python九大特点)

编辑:rootadmin

推荐整理分享python中常用的九种预处理方法分享(python九大特点),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python的常用类型,python语言常用,python九大特点,python九大特点,python九大特点,python基本术语,python九大特点,python九大特点,内容如对您有帮助,希望把文章链接给更多的朋友!

本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;

1. 标准化(Standardization or Mean Removal and Variance Scaling)

变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。

一般会把train和test集放在一起做标准化,或者在train集上做标准化后,用同样的标准化器去标准化test集,此时可以用scaler

实际应用中,需要做特征标准化的常见情景:SVM

2. 最小-最大规范化

最小-最大规范化对原始数据进行线性变换,变换到[0,1]区间(也可以是其他固定最小最大值的区间)

3.规范化(Normalization)

规范化是将不同变化范围的值映射到相同的固定范围,常见的是[0,1],此时也称为归一化。

将每个样本变换成unit norm。

得到:

python中常用的九种预处理方法分享(python九大特点)

可以发现对于每一个样本都有,0.4^2+0.4^2+0.^2=1,这就是L2 norm,变换后每个样本的各维特征的平方和为1。类似地,L1 norm则是变换后每个样本的各维特征的绝对值和为1。还有max norm,则是将每个样本的各维特征除以该样本各维特征的最大值。在度量样本之间相似性时,如果使用的是二次型kernel,需要做Normalization

4. 特征二值化(Binarization)

给定阈值,将特征转换为0/1

5. 标签二值化(Label binarization)

6. 类别特征编码

有时候特征是类别型的,而一些算法的输入必须是数值型,此时需要对其编码。

上面这个例子,第一维特征有两种值0和1,用两位去编码。第二维用三位,第三维用四位。

另一种编码方式

7.标签编码(Label encoding)

8.特征中含异常值时

9.生成多项式特征

这个其实涉及到特征工程了,多项式特征/交叉特征。

原始特征:

转化后:

总结

标签: python九大特点

本文链接地址:https://www.jiuchutong.com/biancheng/385421.html 转载请保留说明!

上一篇:python 打印出所有的对象/模块的属性(实例代码)(python打印出none)

下一篇:浅谈python中的变量默认是什么类型(python 变参)

  • 营业税金及附加包括哪些
  • 支付电费未开具发票
  • 税务信用级别为m级
  • 税控盘费用进什么科目
  • 垃圾袋发票类别是什么
  • 个税上个月没报下个月累计会怎么样
  • 未入账凭证
  • 企业发生破产清算
  • 职工食堂开支会计处理
  • 建筑安装专票票样
  • 小企业核算其它货币资金包括哪些?
  • 购买存货的进口商品
  • 哪些发票无法全开
  • 公司进项票不够怎么回事
  • 增值税一般纳税人税率
  • 企业增值税税负率与利润率的关系
  • 报完税后反结账调整主营业务收入可以吗?
  • 花生油 增值税
  • 公司免费使用我的肖像权用作商业
  • 应收利息和应计利息有什么不同
  • 工资薪金所得税扣除标准
  • 联想笔记本bios密码忘记了
  • window10 锁屏壁纸
  • echarts3d地图
  • thinkphp 数据库查询
  • 材料采购业务流程
  • php生成二维码海报
  • node js 安装
  • ps橡皮擦不是圆圈了
  • 水利基金忘记申报怎么查
  • 人民法院司法警察警用装备
  • 员工出差过程中意外死亡算工伤吗
  • 公司全额承担个税会计分录
  • 购买黄金会计分录怎么写
  • python爬虫入门教程
  • wordpress隐藏内容付费可见
  • python第三方库安装教程
  • Python支持向量能干什么
  • pycharm折叠代码块快捷键
  • 资产损失税前扣除最新政策2021
  • 如何查询金税盘发票金额及开票数量
  • 预收账款可以用什么科目核算
  • 一行的代码
  • 公司户和个人户交强险一样吗
  • 视同销售的情况是?
  • 小规模未开票收入填在哪里
  • 给慈善机构捐款英语
  • 设备融资租赁如何算综合利率
  • 未入账负债怎么算
  • 公司注销前如何先注销工会
  • 暂估入库估多了,汇算清缴前调整
  • 应收账款计提减值准备会计处理
  • 计提商业承兑汇票会计分录怎么写
  • 私募基金公司收入高吗
  • 长期股权投资成本法转权益法例题
  • 残疾人就业保障金怎么申报
  • 行政事业单位会计风险来源于日常的会计活动
  • 管理费用当月可以结转吗
  • 明细分类账怎么做表格
  • win7系统宽带连接
  • 苹果电脑使用u盾怎么用
  • 在linux中使用哪个命令可以用于管理用户账户
  • linux修改服务器ip地址
  • win10桌面图标显示错误
  • 在linux系统中
  • linux保存配置文件
  • cocoscreator分包
  • unity 3d
  • 如何使用ai软件
  • 请问在javascript程序中
  • 绝对给力的超经典
  • ms-sys
  • node.js deno
  • 统计一组数据各个数字出现的次数
  • jquery中如何获取元素?
  • Python 'takes exactly 1 argument (2 given)' Python error
  • 财税专家刘杨简历图片介绍
  • 什么叫银税互动
  • 小规模纳税人网上开专票流程
  • 公司缴税款可以退税吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设