位置: IT常识 - 正文

数据挖掘(4.1)--分类和预测(数据挖掘的四种基本方法)

编辑：rootadmin

数据挖掘(4.1)--分类和预测

前言

一、分类和预测

分类

预测

二、关于分类和预测的问题

准备分类和预测的数据

评价分类和预测方法

混淆矩阵

评估准确率

参考资料

前言

推荐整理分享数据挖掘(4.1)--分类和预测(数据挖掘的四种基本方法)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:数据挖掘期末考试大纲,数据挖掘期末考试大纲,数据挖掘是做什么的,数据挖掘工程师,数据挖掘名词解释,数据挖掘是做什么的,数据挖掘的四种基本方法,数据挖掘的四种基本方法,内容如对您有帮助，希望把文章链接给更多的朋友！

分类：离散型、分类新数据

预测：连续型、预测未知值

描述属性：连续、离散

类别属性：离散

有监督学习：

分类

训练样本有标签

对未知数据分类

无监督学习：

聚类

无标签

划分存在的聚类

一、分类和预测分类

分类过程是一个两步的过程。第一步是模型建立阶段,或者称为训练阶段，这一步的目的是描述预先定义的数据类或概念集的分类器。在这一步会使用分类算法分析已有数据(训练集)来构造分类器。训练数据集由一组数据元组构成,每个数据元组假定已经属于一个事先指定的类别(由类别标记属性确定)。

在分类的第二步,需要使用第一步得到的分类器进行分类,从而评估分类器的预测准确率。具体来说，由一组检验元组和相关联的类别标记所组成的测试数据集。

在机器学习中，分类也往往称为有监督学习，“有监督”指的是用于训练的数据元组的类别标记是已知的，新的数据基于训练数据集进行分类。与之对应的是聚类,在机器学习中称为无监督学习，“无监督"指的是用于训练的数据元组的类别标记是未知的，这种学习旨在识别隐含在数据中的类或簇。

预测

数据预测也是一个两步过程。与数据分类不同的是，对于所需要预测的属性值是连续值，而且是有序的;分类所需要预测的属性值是离散的、无序的。预测器与分类器类似，也可以看作一个映射或者函数y= f(x)，其中x是输人元组，输出y是连续的或有序的值。与分类相同，测试数据集与训练数据集在预测任务中也应该是独立的。预测的准确率通过对每个检验元组r，利用y的预测值与实际已知值的差来评估。

二、关于分类和预测的问题准备分类和预测的数据

对分类和预测所使用的数据进行预处理,预处理一般可以分为以下三个步骤: (1)数据清理。主要目的是减少数据噪声和处理缺失值。

尽管大部分分类算法都有某种处理噪声和缺失值的机制,但是该步骤有助于减少学习时的混乱。 (2)相关分析。目的是移除数据中不相关或冗余的属性。