位置: IT常识 - 正文

数据挖掘(2.3)--数据预处理(数据挖掘期末考试大纲)

编辑:rootadmin
数据挖掘(2.3)--数据预处理

目录

三、数据集成和转换

1.数据集成 

2.数据冗余性 

2.1 皮尔森相关系数

2.2卡方检验 

3.数据转换

四、数据的规约和变换

1.数据归约

2数据离散化


三、数据集成和转换1.数据集成 

推荐整理分享数据挖掘(2.3)--数据预处理(数据挖掘期末考试大纲),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:数据挖掘和数据分析的区别与联系,数据挖掘工程师,数据挖掘技术,数据挖掘期末考试大纲,数据挖掘名词解释,数据挖掘是做什么的,数据挖掘是做什么的,数据挖掘的四种基本方法,内容如对您有帮助,希望把文章链接给更多的朋友!

数据集成是将不同来源的数据整合并一致地存储起来的过程。

不同来源的数据可能有不同的格式、不同的元信息和不同的表示方式等。

首先需要将它们变成一致的形式。

通常这个过程牵涉到数据架构的集成,处理属性值冲突,处理数据冗余性,对数据进行转化等的处理过程。

其中两个主要的问题:数据冗余和数据转换。

2.数据冗余性 

原因:

数据冗余可能由许多技术和业务上的原因导致,

同一属性或对象在不同的数据库中的名称可能是不同的,

某些属性可能是由其他属性导出的。

2.1 皮尔森相关系数

皮尔森相关系数是计算两个数数值向量之间的相关性

此图,纯手工技艺。

当相关系数大于0时,称两个向量正相关;

数据挖掘(2.3)--数据预处理(数据挖掘期末考试大纲)

当相关系数小于0时,称两个向量负相关;

当相关系数等于0时,称两个向量不相关。

容易得出,相关系数的取值范围是[-1,1]。

热力图展示环节 (matplotlib库的问题,导致热力图显示不全,建议升版本或降低版本)

python使用corr()函数计算数据中两两元素的皮尔系数 

2.2卡方检验 

 对于非数值型的变量,计算其相关性可以使用卡方检验方法进行,卡方检验的计算方式为:

求和是对每一种不同的变量取值情形进行的,Oi是实际观测到的概率,而Ei是在变量彼此独立的假设下该情况发生概率的估计。

3.数据转换

数据在集成过程中很多情况下需要进行转换,数据转换包括平滑、聚合、泛化、规范化、属性和特征的重构等操作。 (1)数据平滑。数据平滑是将噪声从数据中移除的过程。数据平滑通常是对数据本身进行的,如在连续性的假设下,对时间序列进行平滑,以降低异常点的影响;数据平滑有时也指对概率的平滑。 (2)数据聚合。数据聚合是将数据进行总结描述的过程。数据聚合的目的一般是为了对数据进行统计分析,数据立方体和在线分析处理(OLAP)都是数据聚合的形式。 (3)数据泛化。数据泛化是将数据在概念层次上转化为较高层次的概念的过程。 (4)数据规范化。数据规范化是将数据的范围变换到一个比较小的、确定的范围的过程。数据规范化在一些机器学习方法的预处理中比较常用,可以改善分类效果和抑制过学习。常用的数据规范化方法有最小最大规范化、2-score规范化和十进制比例规范化等。 

 如下的公式是最小最大规范化的例子,它将数据映射到[0,1] 区间。 z-score规范化使用数据的均值μ和标准差σ来将数据转化到某个区间,如下的公式为z-score标准化的例子,规范化后的数据均值为0,标准差为1。

 

十进制比例规范化使用数据绝对值的极值进行规范化.对数据仅使用十进制放缩的方式进行规范化。如要将466,33,- 100,-10这几个数进行规范化,结果为:0.466,0.033,-0.1,0.01。

四、数据的规约和变换1.数据归约

数据归约是用更简化的方式来表示数据集,使得简化后的表示可以用较少的数据量来产生与挖掘全体数据类似的效果。数据归约可以从几个方面入手:

如果对数据的每个维度的物理意义很清楚,就可以舍弃某些无用的维度,并使用平均值、汇总和计数等方式来进行聚合表示,这种方式称为数据立方体聚合如果数据只有有些维度对数据挖掘有益,就可以去除不重要的维度,保留对挖掘有帮助的维度,这种方式称为维度归约;如果数据具有潜在的相关性,那么数据实际的维度可能并不高,可以用变换的方式,用低维的数据对高维数据进行近似的表示,这种方式称为数据压缩;另外一种处理数据相关性的方式是将数据表示为不同的形式来减小数据量,如聚类、回归等,这种方式称为数据块消减。2数据离散化

为什么要数据离散化?

计算机存储器无法存储无限精度的值,计算机处理器也不能对无限精度的数进行处理。某些数据挖掘方法需要离散值的属性,这也催生了对数据进行离散化的需要。

数据离散化是对数据的属性值进行的预处理,它是将属性值划分为有限个部分,之后使用这个部分的标签来代替原来的属性值。

数据离散化的方法主要有分箱、聚类、自顶向下拆分、自底向上合并等。 使用分箱的数据离散化方法是通过先将属性值分箱,再将属性值替换为箱标签的离散化方法;

使用聚类的数据离散化方法是通过先将属性值聚类,再使用类标签作为新的属性值的离散化方法。

通过拆分和合并来进行数据离散化的方法:基于信息增益的离散化、基于卡方检验的离散化和基于自然分区的离散化。

本文链接地址:https://www.jiuchutong.com/zhishi/299358.html 转载请保留说明!

上一篇:Mac系统下Flutter安装教程(mac配置flutter环境变量)

下一篇:如何在Vue3+Vite中使用JSX(vue3 技巧)

  • 手机内存最大是512G吗(手机内存最大是多大的)

    手机内存最大是512G吗(手机内存最大是多大的)

  • vivox23幻彩版售价多少(vivox23幻彩版售后服务电话)

    vivox23幻彩版售价多少(vivox23幻彩版售后服务电话)

  • 微信账号突然不存在了,登录不了(微信账号突然不能用了怎么回事)

    微信账号突然不存在了,登录不了(微信账号突然不能用了怎么回事)

  • 知道对方的电话号码能不能在抖音上搜索到(知道对方的电话号码怎么整他)

    知道对方的电话号码能不能在抖音上搜索到(知道对方的电话号码怎么整他)

  • 苹果手机的备份可以删除吗(苹果手机的备份和恢复在哪)

    苹果手机的备份可以删除吗(苹果手机的备份和恢复在哪)

  • 手机cpu坏的前兆(如何判断cpu被烧了)

    手机cpu坏的前兆(如何判断cpu被烧了)

  • 打印机盖子扣不回去了(打印机盖子扣不回去了怎么办)

    打印机盖子扣不回去了(打印机盖子扣不回去了怎么办)

  • 芒果tv搜不到投屏设备(芒果tv搜不到投屏怎么办)

    芒果tv搜不到投屏设备(芒果tv搜不到投屏怎么办)

  • 抖音一天可以取关多少人(抖音一天可以取关多少人才不影响)

    抖音一天可以取关多少人(抖音一天可以取关多少人才不影响)

  • 华为荣耀5x怎么恢复出厂设置(华为荣耀5x怎么扩大内存)

    华为荣耀5x怎么恢复出厂设置(华为荣耀5x怎么扩大内存)

  • a320主板和b450区别(a320m主板和b450性能差距)

    a320主板和b450区别(a320m主板和b450性能差距)

  • 一个手机能装两个移动卡吗(一个手机能装两个不同运营商的卡吗)

    一个手机能装两个移动卡吗(一个手机能装两个不同运营商的卡吗)

  • 手机qq密码忘记了怎么找回来(手机qq密码忘记了手机号也换了怎么办)

    手机qq密码忘记了怎么找回来(手机qq密码忘记了手机号也换了怎么办)

  • 微信正在输入几种情况(微信正在输入几秒)

    微信正在输入几种情况(微信正在输入几秒)

  • 京东拼购店红包怎么用(京东拼购店红包怎么使用)

    京东拼购店红包怎么用(京东拼购店红包怎么使用)

  • 趣专享怎么注销账号(趣专享怎么样)

    趣专享怎么注销账号(趣专享怎么样)

  • 键盘的乘在哪(键盘键位乘号在哪)

    键盘的乘在哪(键盘键位乘号在哪)

  • 怎么在微信发qq音乐(怎么在微信发起群接龙)

    怎么在微信发qq音乐(怎么在微信发起群接龙)

  • ppo手机微信铃声在哪里设置(phonering微信铃声)

    ppo手机微信铃声在哪里设置(phonering微信铃声)

  • Linux系统中用于复制的cp和scp命令使用解析(linux的使用场合)

    Linux系统中用于复制的cp和scp命令使用解析(linux的使用场合)

  • 苹果14换接口吗详细介绍(苹果14数据线)

    苹果14换接口吗详细介绍(苹果14数据线)

  • myfastupdate.exe - myfastupdate是什么进程文件 有什么用

    myfastupdate.exe - myfastupdate是什么进程文件 有什么用

  • 总结帝国CMS实现内容页调用当前会员信息及文章信息的方法(帝国cms真的很好用)

    总结帝国CMS实现内容页调用当前会员信息及文章信息的方法(帝国cms真的很好用)

  • 劳务合同印花税税目
  • 空调维修保养征收什么税?
  • 抵消损益分录
  • 个税哪种申报方式计税最好
  • 公司期权激励如何兑现
  • 横幅属于什么发票范围
  • 企业支付宝要交哪些税
  • 小企业会计利润报表
  • 办公室购买水果做会计分录
  • 公司没有业务了 可以办理停业
  • 有形动产经营租赁税率
  • 票据遗失可以采取哪些补救措施
  • 分期收款销售商品确认收入会计分录
  • 工资条迟到扣款
  • 高新研发费的账务处理怎么做?
  • 专用设备抵免企业所得税目录
  • 坏账准备一般余额在哪方
  • 设立独立核算的销售机构的筹划
  • 投资收益年底结转怎么算
  • 职业培训和职业技能培训的区别
  • 个人代开专票季未超30万附加税需要交吗
  • 契税减免备案材料是什么
  • macbook如何安装
  • 英雄联盟怎么改左键移动
  • 其它权益工具投资处置时其他综合收益转那
  • 购买监控设备费用谁出
  • php23种设计模式
  • 剪切快捷键ctrl加什么?
  • 本期应计提坏账损失700元调整前坏账准备贷方余额500元
  • 销售食品分录
  • 园林绿化企业设立的条件和程序
  • Vant UI 中 van-collapse 下拉折叠面板如何默认展开第一项
  • PHP:imagecolorclosestalpha()的用法_GD库图像处理函数
  • 差旅费的会计分录怎么做
  • 工业厂房修缮工程需要报建吗
  • 债务重组亏损计入
  • 房产税的征税范围为
  • vue中watch监听对象的变化
  • php 并发 解决方案
  • 个人咨询费发票是增值税
  • 层层剖析的近义词
  • 前端image
  • Chat GPT5如果问世会对世界产生什么影响?以及未来chat gpt 5会取代什么类型的工作。
  • 报税财务报表一定要填吗
  • 临时设施账务处理分录
  • 经营性现金流减利息
  • 帝国cms视频教程
  • css文件代码示例
  • 生产型出口企业的概念
  • 个体工商户季度超过9万怎么交税
  • 营改增方案
  • 金税四期上线后对个人的影响
  • 季报利润表本月金额怎么填
  • 实收资本期末需要结转吗
  • 发票冲红的会计怎么处理
  • 数据库备份怎么做mysql
  • WIN8系统安装教程
  • 最新版的win10
  • centos安装选择哪个
  • eudcedit.exe
  • 标签windows
  • Ubuntu 8.10 Server Ruby 的安装方法
  • ubuntu20.04怎么用
  • WNxp下让所有用户桌面显示系统默认图标的方法
  • mac电脑安装windows
  • qtaet2s.exe - qtaet2s是什么进程 有什么用
  • win7开机没反应怎么办
  • win7系统怎么用无线接收器怎么用
  • windows 10各版本
  • linux getuid
  • 技术故事是什么意思
  • cocos3.0
  • appiumforwindows的简单安装和启动(安卓)
  • java程序员练手项目
  • 使用css设置文字效果
  • jquery的实现原理
  • python嵌套列表生成
  • node使用
  • javascript面向对象编程指南第三版
  • jquery获取当前元素是第几个元素
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设