位置: IT常识 - 正文

数据挖掘(2.3)--数据预处理(数据挖掘期末考试大纲)

编辑:rootadmin
数据挖掘(2.3)--数据预处理

目录

三、数据集成和转换

1.数据集成 

2.数据冗余性 

2.1 皮尔森相关系数

2.2卡方检验 

3.数据转换

四、数据的规约和变换

1.数据归约

2数据离散化


三、数据集成和转换1.数据集成 

推荐整理分享数据挖掘(2.3)--数据预处理(数据挖掘期末考试大纲),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:数据挖掘和数据分析的区别与联系,数据挖掘工程师,数据挖掘技术,数据挖掘期末考试大纲,数据挖掘名词解释,数据挖掘是做什么的,数据挖掘是做什么的,数据挖掘的四种基本方法,内容如对您有帮助,希望把文章链接给更多的朋友!

数据集成是将不同来源的数据整合并一致地存储起来的过程。

不同来源的数据可能有不同的格式、不同的元信息和不同的表示方式等。

首先需要将它们变成一致的形式。

通常这个过程牵涉到数据架构的集成,处理属性值冲突,处理数据冗余性,对数据进行转化等的处理过程。

其中两个主要的问题:数据冗余和数据转换。

2.数据冗余性 

原因:

数据冗余可能由许多技术和业务上的原因导致,

同一属性或对象在不同的数据库中的名称可能是不同的,

某些属性可能是由其他属性导出的。

2.1 皮尔森相关系数

皮尔森相关系数是计算两个数数值向量之间的相关性

此图,纯手工技艺。

当相关系数大于0时,称两个向量正相关;

数据挖掘(2.3)--数据预处理(数据挖掘期末考试大纲)

当相关系数小于0时,称两个向量负相关;

当相关系数等于0时,称两个向量不相关。

容易得出,相关系数的取值范围是[-1,1]。

热力图展示环节 (matplotlib库的问题,导致热力图显示不全,建议升版本或降低版本)

python使用corr()函数计算数据中两两元素的皮尔系数 

2.2卡方检验 

 对于非数值型的变量,计算其相关性可以使用卡方检验方法进行,卡方检验的计算方式为:

求和是对每一种不同的变量取值情形进行的,Oi是实际观测到的概率,而Ei是在变量彼此独立的假设下该情况发生概率的估计。

3.数据转换

数据在集成过程中很多情况下需要进行转换,数据转换包括平滑、聚合、泛化、规范化、属性和特征的重构等操作。 (1)数据平滑。数据平滑是将噪声从数据中移除的过程。数据平滑通常是对数据本身进行的,如在连续性的假设下,对时间序列进行平滑,以降低异常点的影响;数据平滑有时也指对概率的平滑。 (2)数据聚合。数据聚合是将数据进行总结描述的过程。数据聚合的目的一般是为了对数据进行统计分析,数据立方体和在线分析处理(OLAP)都是数据聚合的形式。 (3)数据泛化。数据泛化是将数据在概念层次上转化为较高层次的概念的过程。 (4)数据规范化。数据规范化是将数据的范围变换到一个比较小的、确定的范围的过程。数据规范化在一些机器学习方法的预处理中比较常用,可以改善分类效果和抑制过学习。常用的数据规范化方法有最小最大规范化、2-score规范化和十进制比例规范化等。 

 如下的公式是最小最大规范化的例子,它将数据映射到[0,1] 区间。 z-score规范化使用数据的均值μ和标准差σ来将数据转化到某个区间,如下的公式为z-score标准化的例子,规范化后的数据均值为0,标准差为1。

 

十进制比例规范化使用数据绝对值的极值进行规范化.对数据仅使用十进制放缩的方式进行规范化。如要将466,33,- 100,-10这几个数进行规范化,结果为:0.466,0.033,-0.1,0.01。

四、数据的规约和变换1.数据归约

数据归约是用更简化的方式来表示数据集,使得简化后的表示可以用较少的数据量来产生与挖掘全体数据类似的效果。数据归约可以从几个方面入手:

如果对数据的每个维度的物理意义很清楚,就可以舍弃某些无用的维度,并使用平均值、汇总和计数等方式来进行聚合表示,这种方式称为数据立方体聚合如果数据只有有些维度对数据挖掘有益,就可以去除不重要的维度,保留对挖掘有帮助的维度,这种方式称为维度归约;如果数据具有潜在的相关性,那么数据实际的维度可能并不高,可以用变换的方式,用低维的数据对高维数据进行近似的表示,这种方式称为数据压缩;另外一种处理数据相关性的方式是将数据表示为不同的形式来减小数据量,如聚类、回归等,这种方式称为数据块消减。2数据离散化

为什么要数据离散化?

计算机存储器无法存储无限精度的值,计算机处理器也不能对无限精度的数进行处理。某些数据挖掘方法需要离散值的属性,这也催生了对数据进行离散化的需要。

数据离散化是对数据的属性值进行的预处理,它是将属性值划分为有限个部分,之后使用这个部分的标签来代替原来的属性值。

数据离散化的方法主要有分箱、聚类、自顶向下拆分、自底向上合并等。 使用分箱的数据离散化方法是通过先将属性值分箱,再将属性值替换为箱标签的离散化方法;

使用聚类的数据离散化方法是通过先将属性值聚类,再使用类标签作为新的属性值的离散化方法。

通过拆分和合并来进行数据离散化的方法:基于信息增益的离散化、基于卡方检验的离散化和基于自然分区的离散化。

本文链接地址:https://www.jiuchutong.com/zhishi/299358.html 转载请保留说明!

上一篇:Mac系统下Flutter安装教程(mac配置flutter环境变量)

下一篇:如何在Vue3+Vite中使用JSX(vue3 技巧)

  • 如何注销支付宝账户(如何注销支付宝账号实名认证)

    如何注销支付宝账户(如何注销支付宝账号实名认证)

  • 微信发的信息删掉后还能找到吗(微信发的信息删掉后怎样看不到)

    微信发的信息删掉后还能找到吗(微信发的信息删掉后怎样看不到)

  • 华为畅享9plusOTG在哪(华为畅享9plusOTG功能怎么打开)

    华为畅享9plusOTG在哪(华为畅享9plusOTG功能怎么打开)

  • xp系统ip冲突怎么解决

    xp系统ip冲突怎么解决

  • thinkpad指纹用不了(thinkpad指纹用不了怎么办)

    thinkpad指纹用不了(thinkpad指纹用不了怎么办)

  • oppo手机开机显示存储受损(oppo手机开机显示升级怎么办)

    oppo手机开机显示存储受损(oppo手机开机显示升级怎么办)

  • 开通抖音直播要不要钱(开通抖音直播要收费吗)

    开通抖音直播要不要钱(开通抖音直播要收费吗)

  • 京东商城的调货商品是什么意思(京东商城调货要多久)

    京东商城的调货商品是什么意思(京东商城调货要多久)

  • 红米k20pro是ufs3.0吗(红米k20pro是ab分区吗)

    红米k20pro是ufs3.0吗(红米k20pro是ab分区吗)

  • 怎么添加底纹颜色(这么添加底纹)

    怎么添加底纹颜色(这么添加底纹)

  • 抖音刷赞有什么后果

    抖音刷赞有什么后果

  • 苹果a2197屏幕多大(苹果a1699屏幕多少钱)

    苹果a2197屏幕多大(苹果a1699屏幕多少钱)

  • 多多口令复制怎么解除(多多口令复制怎么发送)

    多多口令复制怎么解除(多多口令复制怎么发送)

  • 快手为什么连不上麦(快手为什么连不上网能连数据)

    快手为什么连不上麦(快手为什么连不上网能连数据)

  • 韩剧tv在哪评分(韩剧tv怎么看评论)

    韩剧tv在哪评分(韩剧tv怎么看评论)

  • 苹果x可以升级ios13吗(苹果x可以升级iOS15吗)

    苹果x可以升级ios13吗(苹果x可以升级iOS15吗)

  • 华为5G手机Mate30发布会时间(华为5g手机mate30pro好不)

    华为5G手机Mate30发布会时间(华为5g手机mate30pro好不)

  • 开发app常见的错误有哪些(开发app的难点)

    开发app常见的错误有哪些(开发app的难点)

  • 小红书里的图怎么保存(小红书上的图)

    小红书里的图怎么保存(小红书上的图)

  • 鼠标引起的玩游戏问题(鼠标玩游戏飘怎么回事)

    鼠标引起的玩游戏问题(鼠标玩游戏飘怎么回事)

  • 银边翠的养殖方法(银边翠的栽培历史)

    银边翠的养殖方法(银边翠的栽培历史)

  • 华卡雷瓦雷瓦森林的红木纪念树林,新西兰北岛 (© Michael Breitung/Huber/eStock Photo)(雷瓦老板)

    华卡雷瓦雷瓦森林的红木纪念树林,新西兰北岛 (© Michael Breitung/Huber/eStock Photo)(雷瓦老板)

  • diff3命令  比较3个文件的不同之处(diff命令参数)

    diff3命令 比较3个文件的不同之处(diff命令参数)

  • 高德地图的2种引入方式(高德地图的2种导航方式)

    高德地图的2种引入方式(高德地图的2种导航方式)

  • PHPCMS怎么仿站?(dedecms仿站如何做)

    PHPCMS怎么仿站?(dedecms仿站如何做)

  • 房地产企业递延所得税资产计算方法
  • 全年一次性奖金税收优惠政策
  • 两个公司如何一起经营
  • 合营企业和联营企业的持股比例
  • 小微企业第一季度不符合条件怎么处理
  • 实际缴纳所得税时应借记什么账户
  • 民办学校账务怎么做
  • 有发票章的存根联可以当发票用吗
  • 跨境电商怎么交税
  • 企业借款不能超过资金多少
  • 土地资产类型
  • 折价收购股权会计分录
  • 二房东税务局开发票
  • 6位开票代码是什么意思
  • 职工福利费税前扣除标准最新
  • 材料报废的会计处理(一般纳税人)
  • 本年已预缴所得税
  • 行程单燃油附加费可以抵扣吗
  • 增值税影不影响企业利润
  • 开票系统能导出几年前的
  • 所得税预缴资产怎么计算
  • 小规模增值税免税额
  • 退休人员再就业受伤算工伤吗
  • 文件类型错误请重新选择
  • 小规模纳税企业在应交增值税明细科目
  • 小规模纳税人增值税免税政策
  • 招标公司在招标过程中的注意事项
  • 默认网关和dns怎么填
  • rosnmgr.exe - rosnmgr是什么进程 有什么用
  • 个人所得税应该计入什么科目
  • 美团提现手续费入哪个会计科目
  • 摊余成本计入哪个科目
  • 股份支付如何缴纳个人所得税?
  • 奥维尔的瓦兹河岸
  • android上传图片到服务器
  • 房地产企业结转收入企业所得税处理
  • 2023前端面试题csdn
  • pdo_mysql
  • 企业利润总额为负
  • 小规模纳税人残保金申报时间
  • 公司更衣柜费用怎么算
  • thinkphp if
  • 税控盘增值税发票怎么开
  • 子公司分公司和办事处账务上的区别有哪些
  • 年报和汇算清缴报表口径的区别
  • 劳务报酬什么情况下可以退税
  • 上传图片php
  • 帝国cms移动端
  • 营运资金为正数说明企业什么
  • 当期可抵扣进项税额包括进项转出额吗
  • 外贸客户付款方式
  • 破产清算不够支付员工补偿金
  • 车间购买的设备怎么记账
  • 个体工商户要做账报税吗
  • 应收票据及应收账款包括哪些科目
  • 固定资产卡片账是什么
  • 自产货物用于在建工程账务处理
  • 城市综合配套
  • 销售佣金的会计科目
  • 如何解绑企业微信绑定的邮箱
  • 现金日记账金额怎么填写
  • 镜的镜像截图
  • ubuntu rar压缩
  • Mac怎么快速显示桌面
  • 联想y485p升级无线网卡
  • 升级win102004
  • windows7准备配置windows
  • Extjs4 消息框去掉关闭按钮(类似Ext.Msg.alert)
  • javascript入门教程
  • 查看系统网络连接数
  • js双击触发
  • 注册表危险组件怎么安装
  • shell 整数赋值
  • shell中的注释用什么表示
  • javascript定律
  • android 分辨率适配
  • 分类所得税和综合所得税的优缺点
  • 陕西国税电子税务局app
  • 企业自建房如何缴税
  • 运输装卸费属于增值税价外费用吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设