位置: IT常识 - 正文

基于随机森林的特征选择-降维-回归预测——附代码(基于随机森林的气温预测)

编辑:rootadmin
基于随机森林的特征选择-降维-回归预测——附代码

目录

摘要:

1.随机森林:

2.随机森林的特征选取:

3.基于Matlab自带的随机森林函数进行特征选取具体步骤

(1)加载数据

(2)首先建立随机森林并使用全部特征进行车辆经济性预测

(3)使用随机森林进行特征选择

(4)评价各个特征之间的相关性

(5)使用筛选后的特征进行测试

4.本文Matlab代码


摘要:

推荐整理分享基于随机森林的特征选择-降维-回归预测——附代码(基于随机森林的气温预测),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于随机森林的气温预测论文,基于随机森林的气温预测论文,基于随机森林的收入预论文,基于随机森林的欺诈检测,基于随机森林的气温预测论文,基于随机森林的电影评分预测,基于随机森林的特征选择,基于随机森林的电影评分预测,内容如对您有帮助,希望把文章链接给更多的朋友!

演示如何通过Matlab自带的随机森林函数进行特征选择,筛选出大量特征数据中对于回归预测最重要的特征,并对各特征进行重要性排序,充分反应不同特征的重要性。演示如何在种植随机树林时为数据集选择适当的拆分预测变量选择技术。随机森林特征筛选一种特征选择技术,特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。

已写好输入输出结构,方便使用者通过替换自己的数据实现不同的功能,注释详细

适合数学建模等直接应用

1.随机森林:

随机森林算法(Random Forest,RF)是一种 新型机器学习算法,是利用多棵决策树对样本进行训练并集成预测的一种分类器,它采用Boot‐ strap重抽样技术从原始样本中随机抽取数据构 造多个样本,然后对每个重抽样样本采用节点的 随机分裂技术构造多棵决策树,最后将多棵决策树组合,并通过投票得出最终预测结果。

根据下列算法而建造每棵树 :

1.用N来表示训练用例(样本)的个数,M表示特征数目。

2.输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。

3.从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。

4.对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。

5.每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用)。

2.随机森林的特征选取:

随机森林算法利用 OOB 误差计算特征变量相对重要性,并对特征变量进行排序和筛选,这一特点对于大量特征参与分类时非常适用,因为众多特征之间的高相关性会产生高维问题,会显著降低提取的精度。现阶段机器学习模型的特征空间往往庞大且复杂,呈现出高维性、非线性等复杂特点,面对这样的海量高维数据,剔除冗余特征进行特征筛选,已成为当今信息与科学技术面临的重要问题之一。实际上,特征选择正是从输入特征中优选了重要性高、信息量丰富的特征来提高地物信息提取的精度,在遥感应用中有着重要的应用潜力。

在特征重要性的基础上,特征选择的步骤如下:

基于随机森林的特征选择-降维-回归预测——附代码(基于随机森林的气温预测)

1.计算每个特征的重要性,并按降序排序

2.确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集

3.用新的特征集重复上述过程,直到剩下m个特征(m为提前设定的值

4.根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集

3.基于Matlab自带的随机森林函数进行特征选取具体步骤(1)加载数据

加载Matlab自带的数据集。建立一个随机森林预测模型,该模型根据汽车的气缸数、发动机排量、马力、重量、加速度、车型年份和原产国来预测汽车的燃油经济性。使用Load函数进行数据的加载。

各单词解释:

【Cylinders,Displacement,Horsepower,Weight,Acceleration,Model_Year,Origin】

【气缸数目,排量,马力,重量,加速度,车辆年份,原产地】

(2)首先建立随机森林并使用全部特征进行车辆经济性预测

使用templateTree和fitrensemble这两个函数建立随机森林,并先使用全部的特征进行车辆经济性进行预测。输入为【气缸数目,排量,马力,重量,加速度,车辆年份,原产地】,输出为【车辆经济性】,随机森林中的决策树数量设置为100。训练模型并进行预测分析,具体结果如下,使用全部特征进行预测的准确度为87.1417.

(3)使用随机森林进行特征选择

根据第二点所述,利用 OOB 误差计算特征变量相对重要性,并对特征变量进行排序和筛选,编写相关程序进行随机森林特征筛选,具体结果与各个特征变量的重要性情况如下所示:

(4)评价各个特征之间的相关性

当随机森林评价完成特征的重要性后,还需要对各个特征变量之间的相关性进行评估,以更加明显的看出何种特征最能影响预测结果,使用皮尔逊系数作为各个特征变量之间的相关性评价指标,从下图可以看出,越接近黄色表示相关性越强。

(5)使用筛选后的特征进行测试

综合之前所有特征的重要性与相关性的重要性评价情况,使用【重量,车辆年份】这两个特征进行回归预测,也就是从7个特征降维到2个特征。建立随机森林进行回归预测,其设置与之前的相同,同样使用100棵树。具体结果如下

可以看到,使用两个特征进行预测的准确度为85.2077,与使用所有特征进行预测的准确度相差不大,这表明随机森林特征选择方法有效的选择出了最重要的特征,实现了从大量特征到少数重要特征的特征降维筛选,极大的降低了特征的冗余性。

4.本文Matlab代码
本文链接地址:https://www.jiuchutong.com/zhishi/296057.html 转载请保留说明!

上一篇:vue-treeselect 的基本使用(vue treegrid)

下一篇:import在vue中使用(import vue from vue报错)

  • 荣耀magic3怎么开5g(荣耀magic3怎么开热点)

    荣耀magic3怎么开5g(荣耀magic3怎么开热点)

  • 淘宝如何隐藏订单(淘宝如何隐藏订单不被别人看见)

    淘宝如何隐藏订单(淘宝如何隐藏订单不被别人看见)

  • 华为nova5pro有红外遥控吗(华为Nova5Pro有红外线吗)

    华为nova5pro有红外遥控吗(华为Nova5Pro有红外线吗)

  • qq消息怎么不显示内容(QQ消息怎么不显示了)

    qq消息怎么不显示内容(QQ消息怎么不显示了)

  • 腾讯课堂切屏会不会被老师发现(腾讯课堂切屏会有记录吗)

    腾讯课堂切屏会不会被老师发现(腾讯课堂切屏会有记录吗)

  • 华为微信聊天如何到顶置(华为微信聊天如何开启美颜)

    华为微信聊天如何到顶置(华为微信聊天如何开启美颜)

  • 华为p40在哪插卡(华为p40在哪插卡视频)

    华为p40在哪插卡(华为p40在哪插卡视频)

  • va和ips差距大吗(va 和 ips)

    va和ips差距大吗(va 和 ips)

  • pdf是电子版的意思吗(pdf是电子版是什么意思)

    pdf是电子版的意思吗(pdf是电子版是什么意思)

  • 泰捷盒子支持airplay吗(泰捷盒子支持开机自启吗)

    泰捷盒子支持airplay吗(泰捷盒子支持开机自启吗)

  • oppoa11手机支持闪充吗(oppoa11手机支持多少瓦快充)

    oppoa11手机支持闪充吗(oppoa11手机支持多少瓦快充)

  • 华为手机能插两张电信卡吗(华为手机插两个卡只显示一个)

    华为手机能插两张电信卡吗(华为手机插两个卡只显示一个)

  • 物联网表号是什么意思(什么是物联网表表号)

    物联网表号是什么意思(什么是物联网表表号)

  • airpodspro港版和国行的区别(airpodspro港版和国行能看出区别吗)

    airpodspro港版和国行的区别(airpodspro港版和国行能看出区别吗)

  • nex3 5g是单模还是双模(nex 3 5g)

    nex3 5g是单模还是双模(nex 3 5g)

  • 双4g什么意思(双4g是指双卡走流量吗)

    双4g什么意思(双4g是指双卡走流量吗)

  • 心若芷萱是什么意思(心若芷兰网名好不好)

    心若芷萱是什么意思(心若芷兰网名好不好)

  • 申请微信二维码收款牌(申请微信二维码收款牌几天能到)

    申请微信二维码收款牌(申请微信二维码收款牌几天能到)

  • 为什么qq叫qicq(qq被称为什么)

    为什么qq叫qicq(qq被称为什么)

  • 华为手环为何接不了电话(华为手环连接上为啥不能收到微信电话呢)

    华为手环为何接不了电话(华为手环连接上为啥不能收到微信电话呢)

  • 苏宁易购818是什么(苏宁易购818活动时间)

    苏宁易购818是什么(苏宁易购818活动时间)

  • 荣耀手机如何恢复出厂设置(荣耀手机如何恢复桌面天气和时间)

    荣耀手机如何恢复出厂设置(荣耀手机如何恢复桌面天气和时间)

  • 威客怎么接单(威客怎么找兼职)

    威客怎么接单(威客怎么找兼职)

  • 【移动端网页布局】Flex 弹性布局案例 ② ( 顶部固定定位搜索栏 | 固定定位盒子居中对齐 | 二倍精灵图设置 | CSS3 中的垂直居中对齐 )(移动端页设计)

    【移动端网页布局】Flex 弹性布局案例 ② ( 顶部固定定位搜索栏 | 固定定位盒子居中对齐 | 二倍精灵图设置 | CSS3 中的垂直居中对齐 )(移动端页设计)

  • 个人所得税年度汇算清缴怎么操作
  • 银行电子回单有没有法律效应
  • 减少实收资本需要缴纳什么税
  • 疫情期间生活服务业免征增值税截止时间
  • 下列不属于流动资产的
  • 商业用房出租税率是多少
  • 哪些行业增值税率1%
  • 开票时间超限怎么办
  • 小规模销售免税农产品的分录
  • 信用减值损失在利润表怎么填列
  • 工业企业成本会计核算的对象是什么
  • 交易性金融资产公允价值变动计入
  • 创业就业带动补贴
  • 去年已支付的费用怎么查
  • 融资协议如何缴纳印花税
  • 公司注销清算时房租到期怎么办
  • 新会计准则税金及附加
  • 关联企业股份
  • 技术转让所得减去成本吗
  • 税务机关未采集开票信息是什么意思
  • 公司购买茶叶应计入哪里
  • 四级主任科员是什么级别待遇
  • 清产核资的步骤
  • 出口退税需要什么单据
  • 公允出资税务处理怎么做?
  • 亏损计提递延
  • 登陆对话框不能输入
  • 应收账款的差额计入哪里
  • 银行拒付汇票金额的救济方法
  • macos big sur怎么运行ios软件
  • php中字符串函数
  • 应交营业税计算公式
  • php接口验证
  • 工作被取代
  • 企业持有待售的固定资产,应当对其预计
  • 常用激活函数及其导数
  • 搭建小技巧
  • “php”
  • 建行对账单回签平啥意思
  • 研发人员餐费
  • dir命令参数
  • 异地项目需要预缴增值税吗
  • 培训机构账务处理
  • 上年度的企业所得税汇算清缴怎么查询
  • 土地作为无形资产入账依据
  • wordpress怎么安装插件
  • 汽车4s店售后业绩看板
  • 企业所得税的营业收入怎么填
  • 小规模纳税人可以抵扣进项税吗
  • 信用减值损失属于公允价值变动收益吗
  • 退货开增值税专票可以用负数吗
  • 利润分配明细科目有哪些
  • 受托方受托代销商品会计分录
  • 清理固定资产是什么意思
  • 留抵进项税抵扣预缴怎么做账
  • 从事小额零星经营业务的个人,其支出
  • 饭店现金账怎么记账
  • 装修材料增值税发票明细表
  • 自产产品与视同自产产品
  • 国家医疗保障机构
  • 会计准则 职工福利
  • 整理房间日记200
  • win7电脑开机声音怎么改
  • linux怎么用root运行命令
  • diskgenius分区linux
  • csrsyncmlserver.exe是什么文件
  • windows10周年更新
  • win10正式版激活码
  • cocos2d::DrawPrimitives和DrawNode分别实现画板功能
  • 用jQuery实现可输入多选下拉组合框实例代码
  • html框架frameset代码
  • cmd 字符集
  • js 运算符
  • ViewGroup onInterceptTouchEvent,ViewGroup onTouchEvent,View onTouchEvent执行顺序说明
  • python写一个复制文件的程序
  • jquery实现下拉菜单
  • 晋税通注册
  • 国家税务总局内蒙古分局
  • 出口退税出现预缴怎么办
  • 教师资格证认定流程
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设