位置: IT常识 - 正文

数据挖掘(2.1)--数据预处理(数据挖掘和数据分析的区别与联系)

编辑:rootadmin
数据挖掘(2.1)--数据预处理 一、基础知识1.数据的基本概念1.1基础知识

推荐整理分享数据挖掘(2.1)--数据预处理(数据挖掘和数据分析的区别与联系),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:数据挖掘算法,数据挖掘的四种基本方法,数据挖掘算法,数据挖掘的四种基本方法,数据挖掘是做什么的,数据挖掘算法,数据挖掘是做什么的,数据挖掘是做什么的,内容如对您有帮助,希望把文章链接给更多的朋友!

数据是数据对象(Data Objects)及其属性(Attributes)的集合。

数据对象(一条记录、一个实体、一个案例、一个样本等)是对一个事物或者物理对象的描述。

数据对象的属性则是这个对象的性质或特征,例如一个人的肤色、眼球颜色等是这个人的属性。

每一行为一条记录,每条记录即一个数据对象,代表一个用户的资料。而每一行的序号、男/女、收人、是否有配偶为数据对象的属性。而每一条记录的某一列即该对象属性的属性值,如:序号为一的对象“收入”属性的值为“10000”。

属性值是对一个属性所赋予的数值或符号,是属性的具体化。

1.2属性有不同类别

属性具有不同的类别,可以按照属性值的类型将属性类别分为4种:

(1)名称型属性(Nominal)。如身份证号码、眼球颜色和邮政编码等。(2)顺序型属性(Ordinal)。如比赛排名、学分成绩和身高等。(3)间隔型属性(Interval)。如日期间隔、摄氏和华氏温度等。(4)比率型属性(Ratio)。如百分比和人口比例等。

一个属性属于以上4种属性的哪一种,取决于属性的属性值是否满足下列4种性质:区别性、有序性、可加性和乘除性。

名称型属性的属性值只满足区别性性质,即两个名称型属性的属性值可以判断相等或不等,但没有判断大小、加减乘除的意义。

顺序型属性的属性值除了满足区别性属性之外,也满足有序性。

间隔型属性的属性值满足区别性、有序性和可加性3种性质。

比率型属性的属性值满足以上全部4种性质。 属性除了以上分类之外,还有离散属性和连续属性之分。

数据挖掘(2.1)--数据预处理(数据挖掘和数据分析的区别与联系)

离散属性只能从有限或可数的属性值集合中取值,通常可以用整数变量表示,如邮政编码、文档中的词数和身份证号码等。

二进制属性是离散属性的一个特例。连续属性与离散属性相对,可以从不可数无穷多个属性值中取值,通常取值范围为实数。实际中,通常只用有限多位来表示-一个数,因此连续属性在计算机中通常表示为浮点数。

1.3根据数据的组织方式和相对关系将数据呈现为以下形式

根据数据的组织方式和相对关系将数据呈现为以下形式: 

(1)记录数据。这种数据由一条条的记录组成,如记录数据、数据矩阵、文档数据和事务数据等。(2)图数据。这种数据由记录(点)和记录之间的联系(边)组成,如万维网数据、化学分子结构数据等。(3)有序数据。这种数据的记录之间存在时间和空间上的序关系,如序列数据、时间序列数据和空间数据等。

图数据和有序数据在孤立数据的基础上增加了数据之间的关联性,因此具有比孤立数据更加丰富的信息。由于图数据和有序数据的组织形式的特殊性,通常称对图数据进行的数据挖掘为图挖掘(GraphMining),称对序列数据进行的数据挖掘为序列挖掘(SequenceMining)。

记录数据

记录数据是数据集由一条一条记录组成数据,每条记录具有相同的属性集合。记录数 据是SQL数据库所使用的数据类型。 数据矩阵是记录数据的一种特例。当每个属性都是数值型属性的时候,这些数据对象就可以被看成空间中的点,每一个维度对应一个属性。这样的数据集可以用m*n的矩阵来表示,其中矩阵的行数m为记录的条数,矩阵的列数n为记录的属性个数。 文档数据是文档集合构成的数据集。在自然语言处理中,在“词袋模型”的假设下将一个文档中词出现的次数作为文档的属性是常见的做法。

交易数据是记录数据的一种特例,在交易数据中,每一条记录(交易)中包含若千个物品。例如超市的销售纪录。

超市销售记录

图数据

图数据由点与点之间的连线构成,通常用来表示具有某种关系的数据,如家谱图、分类体系图和互联网链接关系等。在万维网中,网页通常表示为HTML(超文本标记语言)格式,其中包含可以指向其他网页或站点的链接,如果把这些网页视为点,将链接视为有向边,则万维网数据可以看作一个有向图,也有无向图。

有序数据

有序数据是一种数据记录之间存在序关系的数据集,这种序关系体现在前后、时间或者空间上。交易序列数据是一种特殊的有序数据,其中每一个数据都是一个交易序列。

表2.4所示的超市销售记录序列数据中,每一行为一位顾客的购买记录序列,括号内是一次购买的物品清单,不同括号的先后顺序表示时间上的先后顺序。交易序列数据有助于挖掘在时间上具有先后的一些交易的性质,如重复购买,或关联商品。

2.为什么要进行数据预处理

最主要的原因是数据质量无法满足数据挖掘的要求,如数据可能具有某些不良特性,或者不符合后续挖掘的需要。一般来说,高质量的数据应该满足准确性、完整性和一致性的原则。数据质量的低劣甚至有着来自现实的原因。还有其他一些数据质量问题.如时效性、可信性、有价值、可解释性和可访问性等。

3.数据预处理的任务

数据预处理的主要任务包括数据清洗、数据集成、数据转换、数据归约和数据离散化等。 (1)数据清洗。是对脏数据进行处理并去除这些不良特性的过程。脏数据是指包含噪声,存在缺失值.存在错误和不一致性的数据。 (2)数据集成。是将不同来源的数据集成到一起的过程,这些数据可能来自不同的数据库、数据报表和数据文件。数据集成需要解决数据在不同数据源中的格式和表示的不同,并整理为形式统一的数据。 (3)数据转换。是对数据的值进行转换的过程。在使用某些数据处理方法之前,如k均值聚类和贝叶斯分类,对数值进行转换非常必要。因为当数据的不同维度之间的数量级.差别很大的时候,分类和聚类的结果会变得非常不稳定,这时通常会对数据进行规范化,对数据值进行统- -的放缩。 (4)数据归约。是对数据的表示进行简化的技术。数据归约使得表示非常复杂的数据可以以更加简化的方式来表示。数据归约可以使得数据处理在计算效率、存储效率上获得.较大的提升,而不至于在挖掘分析性能上做出大的牺牲。 (5) 数据离散化。是对连续数据值进行离散化的过程。数据离散化有时也称为量化,数据在离散化过程中可能会损失部分信息,信息论中的率失真理论给出了量化过程中的信息损失与量化的位数的关系。

本文链接地址:https://www.jiuchutong.com/zhishi/299539.html 转载请保留说明!

上一篇:层层剖析,让你彻底搞懂Self-Attention、MultiHead-Attention和Masked-Attention的机制和原理(层层剖析的近义词)

下一篇:五、CNN-LSTM数据驱动模型(cnn数据集)

  • 华为手机如何切换微信听筒模式(华为手机如何切换卡1卡2打电话)

    华为手机如何切换微信听筒模式(华为手机如何切换卡1卡2打电话)

  • airpods的麦克风在哪(airpods的麦克风在哪里)

    airpods的麦克风在哪(airpods的麦克风在哪里)

  • 一体机不亮屏有风扇声音(一体机不亮屏有辐射吗)

    一体机不亮屏有风扇声音(一体机不亮屏有辐射吗)

  • prt sc是什么键(prscm是什么键)

    prt sc是什么键(prscm是什么键)

  • 两个显卡可以同时用吗(两个显卡能不能串联)

    两个显卡可以同时用吗(两个显卡能不能串联)

  • 微信好友加入黑名单后,他还可以加你吗(微信好友加入黑名单后如何恢复)

    微信好友加入黑名单后,他还可以加你吗(微信好友加入黑名单后如何恢复)

  • qq情侣空间为什么邀请不了人(qq情侣空间为什么是空白的)

    qq情侣空间为什么邀请不了人(qq情侣空间为什么是空白的)

  • 电脑没有信号输出给显示器(电脑没有信号输入怎么解决)

    电脑没有信号输出给显示器(电脑没有信号输入怎么解决)

  • 云闪付乘地铁有优惠吗(云闪付坐地铁)

    云闪付乘地铁有优惠吗(云闪付坐地铁)

  • 华为mate30杀进程怎么处理(华为mate30如何结束进程)

    华为mate30杀进程怎么处理(华为mate30如何结束进程)

  • 为什么显示屏灯亮却是黑屏(显示屏灯会亮显示屏不亮)

    为什么显示屏灯亮却是黑屏(显示屏灯会亮显示屏不亮)

  • 朋友圈陌生人能看见吗(朋友圈陌生人能看见吗怎么设置)

    朋友圈陌生人能看见吗(朋友圈陌生人能看见吗怎么设置)

  • q9650相当于什么cpu(q9650相当于i5多少)

    q9650相当于什么cpu(q9650相当于i5多少)

  • 域名未绑定是什么意思(未绑定域名是什么意思)

    域名未绑定是什么意思(未绑定域名是什么意思)

  • 苹果7p有红外线功能吗(苹果14有没有红外线功能)

    苹果7p有红外线功能吗(苹果14有没有红外线功能)

  • 苹果11控制中心怎么滑出来(苹果11控制中心怎么没有自定义控制)

    苹果11控制中心怎么滑出来(苹果11控制中心怎么没有自定义控制)

  • 手机qq资料怎样不显示性别(怎样把手机qq的资料转到电脑qq上)

    手机qq资料怎样不显示性别(怎样把手机qq的资料转到电脑qq上)

  • 苹果8plus是啥基带(iphone8plus是什么基带)

    苹果8plus是啥基带(iphone8plus是什么基带)

  • vivo手机个人中心在哪(vivo手机个人中心怎么换手机号)

    vivo手机个人中心在哪(vivo手机个人中心怎么换手机号)

  • fell什么意思(fellow什么意思)

    fell什么意思(fellow什么意思)

  • 我的苹果11怎么不是双卡(我的苹果11怎么没有录屏)

    我的苹果11怎么不是双卡(我的苹果11怎么没有录屏)

  • 新买的电脑win10很卡(新买的电脑win10激活不了)

    新买的电脑win10很卡(新买的电脑win10激活不了)

  • 微信收款的声音在哪里设置(微信收款的声音在哪里打开)

    微信收款的声音在哪里设置(微信收款的声音在哪里打开)

  • 手机怎么传歌到随身听(手机怎么传歌到索尼mp3)

    手机怎么传歌到随身听(手机怎么传歌到索尼mp3)

  • p20pro是曲面屏吗(p20pro是不是曲屏)

    p20pro是曲面屏吗(p20pro是不是曲屏)

  • x27面部识别怎么打开(x27 面部识别)

    x27面部识别怎么打开(x27 面部识别)

  • 1699是苹果什么型号(苹果1699是什么意思)

    1699是苹果什么型号(苹果1699是什么意思)

  • 手机新版本要不要更新(手机新版本需要更新吗)

    手机新版本要不要更新(手机新版本需要更新吗)

  • 美图t9怎么强制重启(美图t9怎么强制关不了机)

    美图t9怎么强制重启(美图t9怎么强制关不了机)

  • Ubuntu系统 不使用snap安装firefox,使用firefox官网下载的安装包安装firefox(ubuntu busier)

    Ubuntu系统 不使用snap安装firefox,使用firefox官网下载的安装包安装firefox(ubuntu busier)

  • 计提维保费
  • 递延收益所得税负债
  • 员工出差车费如何报销
  • 软件研发阶段和开发阶段如何区分
  • 企业购买银行理财的条件
  • 受托代销商品款和受托代销商品的区别
  • 如何根据资产负债表填写现金流量表
  • 国家对工资发放的规定
  • 投标函中的其他是指什么
  • 手工账写错字怎么改呢
  • 公司成立时代垫资合法吗
  • 电梯安装费支付方式
  • 未确认收入可以开发票吗
  • 以前多计提了应付职工薪酬怎么平账?
  • 进口缴纳关税
  • 增值税普通发票税率
  • 小微企业增值税减免账务处理
  • 分公司独立核算和非独立核算有什么区别
  • 小规模纳税人能抵扣进项发票吗
  • 医院职工福利费使用范围和标准是多少
  • 四川中级会计报名需要上传哪些资料
  • 非税收入票据如何打印
  • 无形资产摊销算头不算尾
  • w11怎么更新
  • 企业旅行社名字怎么取
  • 收到投资款怎么做记账凭证
  • PHP:mb_strrpos()的用法_mbstring函数
  • win10兼容性在哪里调整
  • 去年未计提费用,今年付怎么做账
  • 入固定资产含税吗
  • 留抵税额进项构成比例
  • 超过500万需要补税吗
  • vite 配置
  • php控制结构
  • 缴纳社保的时候工资填写多少
  • 推荐最好用的
  • 毫米波雷达的硬件构成
  • git主干
  • 招待费住宿费专票
  • 织梦内容页模板修改
  • 交易性金融资产的入账价值
  • 卷票要盖发票专用章吗?
  • 个人向企业借贷违法吗
  • 企业取得财产转让收入
  • 信用减值损失在利润表怎么填列
  • 应付票据是
  • 补缴的以前年度的税费怎么记账
  • 高新企业研发费用会计分录
  • 预付账款转营业外支出
  • 按季度报税怎么处理
  • 购入啤酒会计分录
  • 过期食品返厂会重新打日期吗
  • 应交税费借方余额填列资产负债表
  • 公司购买的打印机附赠给客户进项税可以抵扣吗
  • 资产负债表期初余额和期末余额
  • 小规模如何申报1个点
  • 报销需要发票吗?
  • sqlserver获取uuid
  • sqlserver中delete、update中使用表别名和oracle的区别
  • sqlserver CONVERT()函数用法小结
  • myeclipse中连接数据库的地方在哪
  • win8怎么打开光驱
  • macbook存东西一般存在哪
  • asmproserver.exe是什么进程 asmproserver进程信息查询
  • 如何安装windowsxp
  • linux源于
  • linux设置服务器ip地址
  • 批处理 /b
  • [置顶]公主大人接下来是拷问时间31
  • 安卓机的返回键
  • html:xt
  • elementui基于vue
  • python3 mongodb
  • 税务登记注销证明是什么样的
  • 湖北省地税局稽查局
  • 海关退税是什么意思啊
  • 为什么消费税是价内税
  • 2022年广州社保基数
  • 2022年太原医保缴费时间
  • 宁波购房契税退税条件
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设