位置: IT常识 - 正文

基于随机森林的特征选择-降维-回归预测——附代码(基于随机森林的气温预测)

编辑:rootadmin
基于随机森林的特征选择-降维-回归预测——附代码

目录

摘要:

1.随机森林:

2.随机森林的特征选取:

3.基于Matlab自带的随机森林函数进行特征选取具体步骤

(1)加载数据

(2)首先建立随机森林并使用全部特征进行车辆经济性预测

(3)使用随机森林进行特征选择

(4)评价各个特征之间的相关性

(5)使用筛选后的特征进行测试

4.本文Matlab代码


摘要:

推荐整理分享基于随机森林的特征选择-降维-回归预测——附代码(基于随机森林的气温预测),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于随机森林的气温预测论文,基于随机森林的气温预测论文,基于随机森林的收入预论文,基于随机森林的欺诈检测,基于随机森林的气温预测论文,基于随机森林的电影评分预测,基于随机森林的特征选择,基于随机森林的电影评分预测,内容如对您有帮助,希望把文章链接给更多的朋友!

演示如何通过Matlab自带的随机森林函数进行特征选择,筛选出大量特征数据中对于回归预测最重要的特征,并对各特征进行重要性排序,充分反应不同特征的重要性。演示如何在种植随机树林时为数据集选择适当的拆分预测变量选择技术。随机森林特征筛选一种特征选择技术,特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。

已写好输入输出结构,方便使用者通过替换自己的数据实现不同的功能,注释详细

适合数学建模等直接应用

1.随机森林:

随机森林算法(Random Forest,RF)是一种 新型机器学习算法,是利用多棵决策树对样本进行训练并集成预测的一种分类器,它采用Boot‐ strap重抽样技术从原始样本中随机抽取数据构 造多个样本,然后对每个重抽样样本采用节点的 随机分裂技术构造多棵决策树,最后将多棵决策树组合,并通过投票得出最终预测结果。

根据下列算法而建造每棵树 :

1.用N来表示训练用例(样本)的个数,M表示特征数目。

2.输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。

3.从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。

4.对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。

5.每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用)。

2.随机森林的特征选取:

随机森林算法利用 OOB 误差计算特征变量相对重要性,并对特征变量进行排序和筛选,这一特点对于大量特征参与分类时非常适用,因为众多特征之间的高相关性会产生高维问题,会显著降低提取的精度。现阶段机器学习模型的特征空间往往庞大且复杂,呈现出高维性、非线性等复杂特点,面对这样的海量高维数据,剔除冗余特征进行特征筛选,已成为当今信息与科学技术面临的重要问题之一。实际上,特征选择正是从输入特征中优选了重要性高、信息量丰富的特征来提高地物信息提取的精度,在遥感应用中有着重要的应用潜力。

在特征重要性的基础上,特征选择的步骤如下:

基于随机森林的特征选择-降维-回归预测——附代码(基于随机森林的气温预测)

1.计算每个特征的重要性,并按降序排序

2.确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集

3.用新的特征集重复上述过程,直到剩下m个特征(m为提前设定的值

4.根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集

3.基于Matlab自带的随机森林函数进行特征选取具体步骤(1)加载数据

加载Matlab自带的数据集。建立一个随机森林预测模型,该模型根据汽车的气缸数、发动机排量、马力、重量、加速度、车型年份和原产国来预测汽车的燃油经济性。使用Load函数进行数据的加载。

各单词解释:

【Cylinders,Displacement,Horsepower,Weight,Acceleration,Model_Year,Origin】

【气缸数目,排量,马力,重量,加速度,车辆年份,原产地】

(2)首先建立随机森林并使用全部特征进行车辆经济性预测

使用templateTree和fitrensemble这两个函数建立随机森林,并先使用全部的特征进行车辆经济性进行预测。输入为【气缸数目,排量,马力,重量,加速度,车辆年份,原产地】,输出为【车辆经济性】,随机森林中的决策树数量设置为100。训练模型并进行预测分析,具体结果如下,使用全部特征进行预测的准确度为87.1417.

(3)使用随机森林进行特征选择

根据第二点所述,利用 OOB 误差计算特征变量相对重要性,并对特征变量进行排序和筛选,编写相关程序进行随机森林特征筛选,具体结果与各个特征变量的重要性情况如下所示:

(4)评价各个特征之间的相关性

当随机森林评价完成特征的重要性后,还需要对各个特征变量之间的相关性进行评估,以更加明显的看出何种特征最能影响预测结果,使用皮尔逊系数作为各个特征变量之间的相关性评价指标,从下图可以看出,越接近黄色表示相关性越强。

(5)使用筛选后的特征进行测试

综合之前所有特征的重要性与相关性的重要性评价情况,使用【重量,车辆年份】这两个特征进行回归预测,也就是从7个特征降维到2个特征。建立随机森林进行回归预测,其设置与之前的相同,同样使用100棵树。具体结果如下

可以看到,使用两个特征进行预测的准确度为85.2077,与使用所有特征进行预测的准确度相差不大,这表明随机森林特征选择方法有效的选择出了最重要的特征,实现了从大量特征到少数重要特征的特征降维筛选,极大的降低了特征的冗余性。

4.本文Matlab代码
本文链接地址:https://www.jiuchutong.com/zhishi/296057.html 转载请保留说明!

上一篇:vue-treeselect 的基本使用(vue treegrid)

下一篇:import在vue中使用(import vue from vue报错)

  • 华为Mate X2支持哪些5g

    华为Mate X2支持哪些5g

  • 苹果11是双卡手机吗(苹果11双卡手机发短信如何切换)

    苹果11是双卡手机吗(苹果11双卡手机发短信如何切换)

  • 键盘prtscsysrq是什么意思

    键盘prtscsysrq是什么意思

  • 苹果11掉电快正常吗(苹果11掉电量快)

    苹果11掉电快正常吗(苹果11掉电量快)

  • 路由器的wps功能是什么(路由器的wps功能关闭有什么用)

    路由器的wps功能是什么(路由器的wps功能关闭有什么用)

  • 联想笔记本关不了机,一直在显示正在关机(联想笔记本关不了机也开不了机怎么办)

    联想笔记本关不了机,一直在显示正在关机(联想笔记本关不了机也开不了机怎么办)

  • 微信收藏的语音怎么听(微信收藏的语音怎么转发给别人听)

    微信收藏的语音怎么听(微信收藏的语音怎么转发给别人听)

  • 抖音创作收益怎么来的(抖音创作收益是什么意思)

    抖音创作收益怎么来的(抖音创作收益是什么意思)

  • 淘宝不能代付怎么回事(淘宝没办法代付怎么办)

    淘宝不能代付怎么回事(淘宝没办法代付怎么办)

  • soul自闭中是什么意思(soul自闭模式别人会看到我吗)

    soul自闭中是什么意思(soul自闭模式别人会看到我吗)

  • qq勋章在哪里看(qq勋章怎么看的)

    qq勋章在哪里看(qq勋章怎么看的)

  • 腾讯视频会员用微信登录最多可以几个人用(腾讯视频会员用户数量)

    腾讯视频会员用微信登录最多可以几个人用(腾讯视频会员用户数量)

  • 华为mate30怎么打开后台锁定(华为mate30怎么打开5g网络)

    华为mate30怎么打开后台锁定(华为mate30怎么打开5g网络)

  • 黑鲨2pro有语音助手吗(黑鲨2手机有没有语音控制功能?)

    黑鲨2pro有语音助手吗(黑鲨2手机有没有语音控制功能?)

  • 苹果x分辨率是几k(苹果x分辨率是多少像素)

    苹果x分辨率是几k(苹果x分辨率是多少像素)

  • vrv空调和中央空调的区别(vrv空调和中央空调的成本)

    vrv空调和中央空调的区别(vrv空调和中央空调的成本)

  • 苹果下载过的app记录怎么删除(苹果下载过的app怎么再次使用密码)

    苹果下载过的app记录怎么删除(苹果下载过的app怎么再次使用密码)

  • 快手直播怎么屏蔽一个人(快手直播怎么屏蔽认识的人)

    快手直播怎么屏蔽一个人(快手直播怎么屏蔽认识的人)

  • 苹果手机怎么滚动截屏聊天记录(苹果手机怎么录屏)

    苹果手机怎么滚动截屏聊天记录(苹果手机怎么录屏)

  • 天翼网关2.0无法上网(天翼网关2.0无法安装)

    天翼网关2.0无法上网(天翼网关2.0无法安装)

  • 苹果商店扣费可以退吗(苹果商店扣费能退吗)

    苹果商店扣费可以退吗(苹果商店扣费能退吗)

  • 华为手机屏幕变成黑色恢复方法(华为手机屏幕变成黑白色怎么恢复)

    华为手机屏幕变成黑色恢复方法(华为手机屏幕变成黑白色怎么恢复)

  • win10多任务切换怎么切(切换到多任务界面)

    win10多任务切换怎么切(切换到多任务界面)

  • 协同过滤算法(基于用户的协同过滤算法)

    协同过滤算法(基于用户的协同过滤算法)

  • 🎉使用JSONP解决跨域(jsoncpp使用)

    🎉使用JSONP解决跨域(jsoncpp使用)

  • 自有住房出租
  • 财务软件按什么排序
  • 核定征收企业所得税应税所得率
  • 啥叫总分类账
  • 增值税普通发票和电子普通发票的区别
  • 纳税申报表保留几年
  • 普通发票的税费额度高吗
  • 预缴税款可以抵税吗
  • 应付账款转营业外收入进项税转出
  • 劳务公司拿什么来做成本
  • 关联企业房产转让
  • 2019年小型微利企业优惠政策
  • 邀请境外机构提出申请
  • 自然灾害造成库存商品毁损
  • 即征即退和一般项目进项税比例怎样算出进项税额
  • 外地派人来出差怎么报备
  • 租赁厂房水电费怎么算
  • 将自产产品用于职工福利的账务处理
  • 建筑企业跨地区
  • 征地过程中会产生哪些费用
  • 收到场地租赁费入什么科目
  • 普通发票可以部份红冲吗?
  • 公司付款给个人,怎么处理
  • 冲减预付账款会计分录
  • php字符串型数据的定义方式
  • 购销合同违约罚款属什么科目
  • PHP:oci_fetch_array()的用法_Oracle函数
  • 财务部门产生的费用入什么?
  • laslajas大教堂
  • multipartfile 多文件上传
  • yii2.0框架
  • 材料成本差异属于流动资产吗
  • 小狐狸吧
  • 未开票收入申报对企业有什么影响
  • php中类静态成员描述不正确的是
  • 基于网络创新形成的大数据的最突出特征是什么?( )
  • opencv几何变换
  • bind函数错误
  • 代发工资如何计算
  • 融资租入固定资产的改建支出
  • 营业外收支的账户是什么
  • 公司向银行贷款利息是多少
  • 发票未报销可以退税吗
  • php发邮件系统源码
  • 获取sqlsession
  • 什么是ad域服务
  • sh sqlplus
  • 国家税务总局金税四期
  • 关于固定资产的说法
  • 网上缴税app叫什么
  • 对外支付3万美元怎么算
  • 收取的承包费交什么税
  • 年终奖财务是以工资形势发放,个税怎么单独计税
  • 社保补贴生育津贴
  • 买车能不交税吗
  • 公司员工还款会计分录
  • Centos下Mysql安装图文教程
  • xtrabackup备份原理
  • centos7基本环境选哪个
  • 电脑开机显示xp后无反应
  • xp系统无法重装系统
  • windows xp系
  • linux常用命令修改
  • smsvchost.exe是什么文件 电脑中Svchost.exe病毒解决办法
  • win7系统磁盘分区必须分区为什么才能安装
  • 微软商店更新错误
  • windows 8开机
  • window10自动维护功能有什么用
  • python怎么用
  • 怎么做小地图
  • python的理解
  • js字符串去掉最后两位
  • jquery遍历数组的方法
  • 技术开发类工作有哪些
  • python 备份文件夹
  • python语言解析
  • 广西发票查询平台
  • 空置房物业收费标准
  • 个人转让住宅需要缴纳什么税
  • 浙江欧派和广东欧派哪个好
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设