位置: IT常识 - 正文

数据挖掘(4.1)--分类和预测(数据挖掘的四种基本方法)

编辑:rootadmin
数据挖掘(4.1)--分类和预测

目录

前言

一、分类和预测

分类

预测

二、关于分类和预测的问题

准备分类和预测的数据

评价分类和预测方法

混淆矩阵

评估准确率

参考资料


前言

推荐整理分享数据挖掘(4.1)--分类和预测(数据挖掘的四种基本方法),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:数据挖掘期末考试大纲,数据挖掘期末考试大纲,数据挖掘是做什么的,数据挖掘工程师,数据挖掘名词解释,数据挖掘是做什么的,数据挖掘的四种基本方法,数据挖掘的四种基本方法,内容如对您有帮助,希望把文章链接给更多的朋友!

分类:离散型、分类新数据

预测:连续型、预测未知值

描述属性:连续、离散

类别属性:离散

有监督学习:

分类

训练样本有标签

对未知数据分类

无监督学习:

聚类

无标签

划分存在的聚类

一、分类和预测分类

分类过程是一个两步的过程。第一步是模型建立阶段,或者称为训练阶段,这一步的目的是描述预先定义的数据类或概念集的分类器。在这一步会使用分类算法分析已有数据(训练集)来构造分类器。训练数据集由一组数据元组构成,每个数据元组假定已经属于一个事先指定的类别(由类别标记属性确定)。

在分类的第二步,需要使用第一步得到的分类器进行分类,从而评估分类器的预测准确率。具体来说,由一组检验元组和相关联的类别标记所组成的测试数据集。

在机器学习中,分类也往往称为有监督学习,“有监督”指的是用于训练的数据元组的类别标记是已知的,新的数据基于训练数据集进行分类。与之对应的是聚类,在机器学习中称为无监督学习,“无监督"指的是用于训练的数据元组的类别标记是未知的,这种学习旨在识别隐含在数据中的类或簇。

预测

数据预测也是一个两步过程。与数据分类不同的是,对于所需要预测的属性值是连续值,而且是有序的;分类所需要预测的属性值是离散的、无序的。预测器与分类器类似,也可以看作一个映射或者函数y= f(x),其中x是输人元组,输出y是连续的或有序的值。与分类相同,测试数据集与训练数据集在预测任务中也应该是独立的。预测的准确率通过对每个检验元组r,利用y的预测值与实际已知值的差来评估。

二、关于分类和预测的问题准备分类和预测的数据

对分类和预测所使用的数据进行预处理,预处理一般可以分为以下三个步骤: (1)数据清理。主要目的是减少数据噪声和处理缺失值。

尽管大部分分类算法都有某种处理噪声和缺失值的机制,但是该步骤有助于减少学习时的混乱。 (2)相关分析。目的是移除数据中不相关或冗余的属性。

数据挖掘(4.1)--分类和预测(数据挖掘的四种基本方法)

这样可以加快分类器训练速度,提高分类器准确率。 (3)数据转换。目的是泛化或规范化数据。

这种距离度量方法可以避免受不同属性不同初始值范围对度量结果的影响。

评价分类和预测方法

(1)准确率。

分类准确率指分类器预测新的或先前未出现过的数据元组的类别标记的能力。预测器的准确率指预测器猜测新的或先前未出现过的数据元组的预测属性值的准确程度。 (2)速度。

指建立模型(训练)和使用模型(分类/预测)的时间开销。 (3)鲁棒性。

指分类器或预测器处理噪声值或缺失值数据的能力。 (4)可伸缩性。

指针对大规模数据、分类器或预测器的处理能力。 (5)可解释性。

指分类器或预测器所提供的可理解和洞察的程度。

分类器或预测器在检测集上的准确率和错误率是两个常用的度量准则。检测集上的准确率指的是检测集中被正确分类或预测的元组所占的比例。相反,检测集上的错误率指的是检测集中被错误分类或预测的元组所占的比例。

混淆矩阵

 一个分析分类器识别不同元组情况的有用工具。

真正(TruePositives)指分类器正确标记的正元组.TP

真负(TrueNegatives)是指分类器正确标记的负元组。TN

假正(FalsePositives)是错误标记的负元组,FP

假负(FalseNegatives)是错误标记的正元组。FN

正确率:

准确率:

评估准确率

保持、随机子抽样、交叉验证是常用的基于给定数据的随机抽样划分,评估准确率的常用技术。这些技术的使用会增加总体计算开销,但是会有利于模型选择。

保持方法是一般讨论准确率默认的方法。这种方法将给定数据分为两个独立的集合:训练数据集和测试数据集。一般2/3的数据作为训练数据集,1/3的数据作为测试数据集。训练数据集用来建立模型,而准确率通过测试数据集来评估。

随机子抽样方法是保持方法的简单变形,它将保持方法重复k次,总的准确率估计取每次迭代准确率的平均值。

在k-交叉检验中,初始数据随机划分为k个互不相交的子集S1,S2,..Sk,每个子集的大小大致相等。训练和测试进行k次。在第i次迭代,子集Si用作测试集,其余的子集用来训练模型。

参考资料

《数据挖掘:方法与应用》徐华著

本文链接地址:https://www.jiuchutong.com/zhishi/299936.html 转载请保留说明!

上一篇:Vue经典面试题:Vue2和Vue3的区别(vue的一些面试题)

下一篇:【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation(论文精读分析报告)

  • 华为mate30pro屏幕防蓝光吗(华为mate30pro屏幕多大)

    华为mate30pro屏幕防蓝光吗(华为mate30pro屏幕多大)

  • 戴尔电源灯橙色闪烁(戴尔电源灯橙色闪烁两下,然后七下)

    戴尔电源灯橙色闪烁(戴尔电源灯橙色闪烁两下,然后七下)

  • 快手怎么发语音消息(快手怎么发语音作品字幕)

    快手怎么发语音消息(快手怎么发语音作品字幕)

  • 苹果xr来电屏幕壁纸怎么换(苹果xr来电只显示顶部不全屏)

    苹果xr来电屏幕壁纸怎么换(苹果xr来电只显示顶部不全屏)

  • 40w快充可以充一般手机吗(40w快充可以充33w的吗)

    40w快充可以充一般手机吗(40w快充可以充33w的吗)

  • 手机大光圈拍照在什么时候使用(手机大光圈拍照照片比例为什么不能选全屏)

    手机大光圈拍照在什么时候使用(手机大光圈拍照照片比例为什么不能选全屏)

  • 抖音视频审核不通过的原因(抖音在线刷视频网页)

    抖音视频审核不通过的原因(抖音在线刷视频网页)

  • iphone出到第几代了(苹果出到第几代)

    iphone出到第几代了(苹果出到第几代)

  • 后面四个摄像头的手机是哪一款(后面四个摄像头正方形的手机是哪一款)

    后面四个摄像头的手机是哪一款(后面四个摄像头正方形的手机是哪一款)

  • 天猫精灵可以录音吗(天猫精灵可以录音远程吗)

    天猫精灵可以录音吗(天猫精灵可以录音远程吗)

  • 苹果8plus怎么关闭横屏(苹果8plus怎么关静音模式)

    苹果8plus怎么关闭横屏(苹果8plus怎么关静音模式)

  • app开发需要哪些技术(app开发需要哪些知识)

    app开发需要哪些技术(app开发需要哪些知识)

  • rohs手环怎么连接手机(rohs智能手环怎么调时间)

    rohs手环怎么连接手机(rohs智能手环怎么调时间)

  • 快手仅作者关注的人评论怎么设置(快手仅作者关注什么意思)

    快手仅作者关注的人评论怎么设置(快手仅作者关注什么意思)

  • qq音乐铭牌怎么显示(qq音乐铭牌怎么抢到靓号名牌)

    qq音乐铭牌怎么显示(qq音乐铭牌怎么抢到靓号名牌)

  • 安全教育平台密码忘记了怎么办(安全教育平台密码怎么重置)

    安全教育平台密码忘记了怎么办(安全教育平台密码怎么重置)

  • siri只能识别自己的声音吗(siri只能识别一种声音吗)

    siri只能识别自己的声音吗(siri只能识别一种声音吗)

  • led显示屏 p3(led显示屏p3价格多少钱一平方)

    led显示屏 p3(led显示屏p3价格多少钱一平方)

  • 微信没有绑定手机号怎么解封(微信没有绑定手机号登不上去怎么办)

    微信没有绑定手机号怎么解封(微信没有绑定手机号登不上去怎么办)

  • 微信电话怎么录音(微信电话怎么录屏才有声音)

    微信电话怎么录音(微信电话怎么录屏才有声音)

  • 100ansi等于多少流明(100s/a)

    100ansi等于多少流明(100s/a)

  • 华为p30怎么关机重启(华为p30怎么关机开机)

    华为p30怎么关机重启(华为p30怎么关机开机)

  • 【申请加入New Bing遇到的问题:当前无法使用此页面,cn.bing.com 重定向次数过多】(加入申请理由怎么写)

    【申请加入New Bing遇到的问题:当前无法使用此页面,cn.bing.com 重定向次数过多】(加入申请理由怎么写)

  • 自查补报以前年度收入可以补在当前属期吗
  • 核定征收的个体户可以开专票吗
  • 典当行借款合同需交印花税吗
  • 福利费是计提还是结转
  • 在哪里报个税
  • 按年征收的基金有哪些
  • 机械设备增值税税率
  • 如何少交点税
  • 小规模纳税人申报表2023年怎么填写
  • 电子承兑汇票怎么打印出来
  • 信息服务业税收优惠政策
  • 个人承包公司的经营所得怎么算
  • 公司帐上欠了股东很多钱有何税务风险?
  • 百旺开票系统升级后如何恢复
  • 印花税查账征收和核定征收计算
  • 补发上月工资如何计税
  • 银行定期存款转存
  • 趣谈linux系统
  • 公司法人名下的车辆算公司的车辆吗
  • 瓶盖再来一瓶
  • 出租房屋收取的水电费的税率
  • 小米路由器开启ssh后怎么安装插件
  • Symfony2 session用法实例分析
  • 政府会计制度固定资产折旧方法
  • u-net优点
  • 建筑业预缴的个人所得税怎么在申报表体现
  • nerf代码
  • 注意力机制 q k v
  • ps闪退是什么原因win11
  • 收到合同预付款怎么处理
  • 金蝶软件利润表公式怎么设置
  • 完税证明可以作废吗
  • 刘亦菲生日当天发素颜照
  • 长期股权投资核算的成本法与权益法的主要差别有哪些
  • python如何实现事务机制
  • 以前年度未处理的业务
  • sqlserver2012安装后找不到
  • 一般纳税人销售旧货
  • 法人可以是办税人员吗
  • 哪些凭证可以作为原始凭证
  • 期末需要结账的账户
  • 应税服务零税率是什么
  • 以前年度买的固定资产一直未入账,现在还能入账吗?
  • 如何处理固定资产报废
  • 政府专项基金属于什么类
  • 公司注销后会计档案可以销毁吗
  • 公司账户转账给个人要交税吗
  • 工厂用的工具放计入哪个科目
  • 电话费可以自动扣银行钱吗
  • 一次性收取一年的租金如何做分录
  • 公司名义送花篮属于什么费用
  • 补缴以前年度企业年金可以税前扣除吗
  • 目前哪些费用不能抵扣
  • 过路费属于差旅费还是办公费
  • 报销程序是什么
  • u8委外怎么核销
  • 分批法成本核算对象
  • 登记生产成本和制造费用的明细账
  • sql server高级编程
  • windows9怎么截图
  • win10 怎么设置
  • bash是什么意思中文翻译
  • 昂达主板插线安装图解
  • windows累积更新
  • win10快速启动怎么进入bios
  • Windows虚拟内存不足
  • win7系统关闭自动休眠
  • javascript中的eval函数
  • Android游戏开发实践指南
  • 简述python语言
  • vue-cli lib
  • jquery input checked
  • js 在线调试
  • js判断是否是ie浏览器
  • 地税电子税务局漏报要去大厅吗
  • 担保机构和银行的区别
  • 河南机构改革人员名单
  • 浙江国税网上报税
  • 行政事业单位自办食堂规定
  • 应交税金包含企业所得税吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设