位置: IT常识 - 正文

机器学习中的数学原理——模型评估与交叉验证

编辑:rootadmin
机器学习中的数学原理——模型评估与交叉验证

推荐整理分享机器学习中的数学原理——模型评估与交叉验证,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

惭愧惭愧!机器学习中的数学原理这个专栏已经很久没有更新了!前段时间一直在学习深度学习,paddlepaddle,刷题专栏跟新了,这个专栏就被打入冷宫了。这个专栏名为白话机器学习中数学学习笔记,主要是用来分享一下我在 机器学习中的学习笔记及一些感悟,也希望对你的学习有帮助哦!感兴趣的小伙伴欢迎私信或者评论区留言!这一篇就更新一下《 白话机器学习中的数学——模型评估与交叉验证》!

文章目录一、什么是模型评估二、交叉验证2.1回归问题的交叉验证2.2分类问题的验证一、什么是模型评估

简单的讲,模型评估就是评估训练好的模型的好坏。

在进行回归和分类时,为了进行预测,我们定义了函数 fθ(x),然后根据训练数据求出了函数的参数 θ。也就是对目标函数进行微分,然后求出参数更新表达式的操作,当时我们求出参数更新表达式之后就结束了。 但是,其实我们真正想要的是通过预测函数得到预测值。以回归的那个例子来说,就是关于投入的广告费能带来多少点击量的预测值。所以我们希望 fθ(x)对未知数据 x 输出的预测值尽可能正确。那我们如何测量预测函数 fθ(x)的正确性,也就是精度呢?对于一个变量的问题,我可以用图直观的表示出来:

像多重回归这样的问题,变量增加后就不能在图上展示了,而且特意去画图也很麻烦。所以我们需要能够定量地表示机器学习模型的精度。接下来我们就要考虑评估模型的方法。

二、交叉验证

验证是指的在机器学习模型训练时对模型好坏程度的衡量。交叉验证就是一种常用的模型选择方法,使用部分数据集进行验证模型的有效性。

2.1回归问题的交叉验证

把获取的全部训练数据分成两份:一份用于测试,一份用于训练。然后用前者来评估模型。也就是说假如有 10 个训练数据,那么实际上会按照 5 个测试数据、5 个训练数据来分配它们,但是比起 5 : 5,大多数情况会采用 3 : 7 或者 2 : 8 这种训练数据更多的比例。 我们接下来用3 个用于测试、7 个用于训练。也就是说,关于点击量预测的回归问题,我们现在有 10 个数据,其中测试数据和训练数据是这样分配的:

机器学习中的数学原理——模型评估与交叉验证

右侧的 3 个是测试数据、左侧的 7 个是训练数据。首先,我们来考虑使用左侧这 7 个数据来训练参数的情况。用一次函数

fθ(x)=θ+θ1x∗f_{\boldsymbol{\theta}}(\boldsymbol{x})=\theta_0+\theta_1 x^*fθ​(x)=θ0​+θ1​x∗表示即可。先从一次函数开始考虑比较好。先不去管测试数据,只看那7个训练数据。一次拟合函数大概如下:

再考虑二次函数:

如果 fθ(x)是二次函数,那它基本上就是这个形状。但是这个函数“只有对训练数据才是正确的”,对于测试集的预测效果很差。也就是说如果只看训练数据,那么二次函数比一次函数拟合得更好。

但是,如果将测试数据也考虑进来,那么二次函数就完全不行了。要把测试数据当作未知数据来考虑。即使模型相同,如果训练数据过少,这种现象也会发生。那么在训练结束之后,我们还得像这样检查一下测试数据是否也拟合,但是如果变量增加,就不能画图了。就算能画图,也会很麻烦。 对于回归的情况,只要在训练好的模型上计算测试数据的误差的平方,再取其平均值就可以了。假设测试数据有 n 个,那么可以这样计算。

1n∑i=1n(y(i)−fθ(x(i)))2\frac{1}{n} \sum_{i=1}^n\left(y^{(i)}-f_{\boldsymbol{\theta}}\left(\boldsymbol{x}^{(i)}\right)\right)^2n1​∑i=1n​(y(i)−fθ​(x(i)))2 对于预测点击量的回归问题来说,y(i) 就是点击量,而 x(i) 是广告费或广告版面的大小,这个值被称为均方误差或者 MSE,全称 Mean Square Error。这个误差越小,精度就越高,模型也就越好。

回归的目标函数也是误差函数,这与为了让误差函数的值变小而更新参数时所做的事情是一样的!

2.2分类问题的验证

与回归的时候一样,我们先考虑数据的分配。 数据的分配方法不要太极端其实会更好”这一点与回归的时候也是一样的。假设在逻辑回归的情况下,θTx 是简单的一次函数,那么只根据训练数据进行训练后,决策边界应该是这样的: 但是假如θTx 更加复杂,可能就会像这样紧贴着训练数据进行分类: 可以看到可以对训练数据完美地进行分类,却完全忽视了测试数据。对于分类有别的指标。由于回归是连续值,所以可以从误差入手,但是在分类中我们必须要考虑分类的类别是否正确。在回归中要考虑的是答案不完全一致时的误差,而分类中要考虑的是答案是否正确。 我们对图像是横向的还是纵向的进行了分类,我们是根据图像为横向的概率来分类的。关于分类是否成功就会有下面 4 种情况:

图像是横向的,被正确分类了图像被分类为横向,但实际上不是横向的图像不是横向的,被正确分类了图像被分类为非横向,但实际上是横向的

把它整理到这样的表里: 设横向的情况为正、非横向的情况为负,那么一般来说,二分类的结果可以用这张表来表示: 分类结果为正的情况是 Positive、为负的情况是 Negative。分类成功为 True、分类失败为 False。我们可以使用表里的 4 个记号来计算分类的精度。精度的英文是 Accuracy,它的计算表达式是这样的: 它表示的是在整个数据集中,被正确分类的数据 TP 和 TN 所占的比例。假如 100 个数据中 80 个被正确地分类了,那么精度就是这样的: 用测试数据来计算这个值,值越高精度越高,也就意味着模型越好!

本文链接地址:https://www.jiuchutong.com/zhishi/299735.html 转载请保留说明!

上一篇:毕业设计-基于深度学习的交通标识识别-opencv(毕业设计基于Linux系统的NFS服务器搭建)

下一篇:【自动驾驶】模型预测控制(MPC)实现轨迹跟踪(自动驾驶 模块)

  • iqoo8pro支持hifi吗(iqoo8有没有hifi)

    iqoo8pro支持hifi吗(iqoo8有没有hifi)

  • realme怎么解除禁止安装(realme怎么解锁)

    realme怎么解除禁止安装(realme怎么解锁)

  • 华为平板怎么设置合盖关屏(华为平板怎么设置动态壁纸)

    华为平板怎么设置合盖关屏(华为平板怎么设置动态壁纸)

  • 计算机控制器的功能是(计算机控制器的特点)

    计算机控制器的功能是(计算机控制器的特点)

  • 拼多多钱付了没人拼单怎么办(拼多多钱付了没人拼单商家怎么办)

    拼多多钱付了没人拼单怎么办(拼多多钱付了没人拼单商家怎么办)

  • 照片编辑无法存储更改(照片编辑器无法保存)

    照片编辑无法存储更改(照片编辑器无法保存)

  • 信息发出去了删除对方对方能看到吗(信息发出去删掉对方看得到吗)

    信息发出去了删除对方对方能看到吗(信息发出去删掉对方看得到吗)

  • 虚拟机对电脑有坏处(虚拟机电脑有哪些)

    虚拟机对电脑有坏处(虚拟机电脑有哪些)

  • 苹果换电池有什么弊端(苹果换电池有什么风险)

    苹果换电池有什么弊端(苹果换电池有什么风险)

  • 华为nfc无法识别卡(华为nfc读不了卡)

    华为nfc无法识别卡(华为nfc读不了卡)

  • vivou1手机壳和什么型号通用(vivo手机壳和哪个通用)

    vivou1手机壳和什么型号通用(vivo手机壳和哪个通用)

  • 手机卡一直是2g状态(手机卡一直是2g网怎么办)

    手机卡一直是2g状态(手机卡一直是2g网怎么办)

  • 快手小店备案编号是什么(快手小店的备案编号是什么意思)

    快手小店备案编号是什么(快手小店的备案编号是什么意思)

  • 快手关注不更新怎么回事(快手关注不更新怎么设置)

    快手关注不更新怎么回事(快手关注不更新怎么设置)

  • 华为p30pro为什么那么费电(华为p30pro为什么指纹解锁老是要自动消失)

    华为p30pro为什么那么费电(华为p30pro为什么指纹解锁老是要自动消失)

  • testflight是干什么的(testflight叫什么)

    testflight是干什么的(testflight叫什么)

  • 计算机三类总线是什么(计算机三类总线是哪三线)

    计算机三类总线是什么(计算机三类总线是哪三线)

  • 内存卡可以当导航卡吗(内存卡可以当导出吗)

    内存卡可以当导航卡吗(内存卡可以当导出吗)

  • 怎样取消支付宝刷脸功能(怎样取消支付宝双V会员1.99)

    怎样取消支付宝刷脸功能(怎样取消支付宝双V会员1.99)

  • flv文件用什么播放器打开(flv文件用什么播放器打开 手机)

    flv文件用什么播放器打开(flv文件用什么播放器打开 手机)

  • 让oppo手机强制关机(如何让oppo手机强制关机?)

    让oppo手机强制关机(如何让oppo手机强制关机?)

  • 手机滑动解锁忘了怎么办(手机滑动解锁忘记了)

    手机滑动解锁忘了怎么办(手机滑动解锁忘记了)

  • 对讲机上ptt什么意思(对讲机ptt键在哪里)

    对讲机上ptt什么意思(对讲机ptt键在哪里)

  • 华为手机悬浮窗怎么关闭(华为手机悬浮窗怎么调整大小)

    华为手机悬浮窗怎么关闭(华为手机悬浮窗怎么调整大小)

  • 12306的用户名可以修改吗(12306用户名可以是汉字吗)

    12306的用户名可以修改吗(12306用户名可以是汉字吗)

  • 手机上显示hd怎么关闭(手机上显示hd怎么关掉oppo)

    手机上显示hd怎么关闭(手机上显示hd怎么关掉oppo)

  • 黑凤梨闲置美妆真的假的(黑凤梨家具)

    黑凤梨闲置美妆真的假的(黑凤梨家具)

  • 微信收款违规行为是怎么回事(微信收款涉及违规)

    微信收款违规行为是怎么回事(微信收款涉及违规)

  • 滴滴钻石会员有什么用(滴滴钻石会员有什么好处)

    滴滴钻石会员有什么用(滴滴钻石会员有什么好处)

  • 怎么解决Win11系统收到拒绝访问错误(怎么解决win11系统不兼容问题)

    怎么解决Win11系统收到拒绝访问错误(怎么解决win11系统不兼容问题)

  • U盘PE启动安装WIM镜像图文教程(u盘安装pe系统)

    U盘PE启动安装WIM镜像图文教程(u盘安装pe系统)

  • 学AutoSAR,敢不知道.arxml?(auto learn)

    学AutoSAR,敢不知道.arxml?(auto learn)

  • 小型微利企业所得税率
  • 基于法律行为的物权变动三要件
  • 新个税年终奖计算公式
  • 结转本月完工入库产品制造成本,甲产品800台全部完工
  • 投资性房地产出售的会计处理
  • 股权转让所得如何申报个税
  • 上月有留抵税额本月怎么申报
  • 管道安装固定方式
  • 空调安装发票税率
  • 缴纳销项税额要交税吗
  • 税务机关对企业实施特别纳税调整,涉及企业向境外
  • 外商投资企业清算报告
  • 酒店怎么付钱
  • 房租转租怎么处理合法
  • 给客户赔偿如何入账
  • 无形资产要入账吗
  • 企业录用失业人员有税收优惠吗
  • 收到厂家返利如何做账
  • 破产企业公司还要交税吗
  • 专票可以当费用票吗
  • 虚开发票可以做进项税额转出分录吗?
  • 工会经费由谁审批
  • 建安企业结转成本如何计算
  • 建材销售公司需要交哪些税
  • 购入设备超过多少才允许一次性扣除
  • 购买的无形资产入账价值
  • 关闭同步中心 win10
  • 网络命令netstat
  • 十天学会php教程
  • 贷款损失准备科目为负债类科目
  • lnmgr.exe是什么
  • apache是什么文件
  • Vue3+element-plus 后台管理系统(含登陆注册功能页面)
  • PHP:json_last_error()的用法_JSON函数
  • 增值税红字专用发票什么意思
  • 库存现金要设置明细科目吗
  • 已计提完的固定资产怎么弄
  • php采集源码
  • java幂等性是什么
  • 购入固定资产应该怎么做账
  • 税前扣除 发票
  • 租赁发票的租赁日期怎么写
  • 个人工程款结算了对方不付怎么办
  • 未认证的进项税额会计分录
  • 政府会计财务报表有哪些
  • 增值税无票收入税率变了
  • PostgreSQL管理工具phpPgAdmin入门指南
  • mysql中数据类型主要分为哪四种
  • 什么叫做有限循环小数
  • 无票利息支出可抵税吗
  • 发票开错作废如何处理?
  • 供货商少开发票如何记账?
  • 长期待摊费用装修费分摊分录
  • 其他应收款核算什么
  • 营改增后众筹融资业务的会计处理分析?
  • 提取银行存款利息分录
  • 原材料运费如何入账
  • 本年利润到年末还有余额吗
  • 企业向个人借款利息如何缴纳增值税
  • 申报高新技术企业专利有什么要求
  • 加大固定资产投资
  • sqlserver数据库和mysql区别
  • mysql5.7.29安装
  • java调用so库文件
  • u盘装系统win8
  • linux命令关机命令
  • 内存运行linux
  • windows10 不能启动
  • linux网络设备有哪些
  • win8怎么开机不用密码
  • OpenCV-2.4.3+VS2010+Win7(32位)安装与配置
  • Unity3D游戏开发标准教程
  • 一起学写字的宣传文案
  • nodejs requirejs
  • python中requests小技巧
  • javascript异步编程
  • unity3d物体旋转
  • prototype模型
  • 烟叶处理
  • 分红太多
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设