位置: IT常识 - 正文

yolov5优化器及超参数设置(yolov5网络优化)

编辑:rootadmin
yolov5优化器及超参数设置 文章目录前言一 优化器二 超参数参考前言一 优化器

推荐整理分享yolov5优化器及超参数设置(yolov5网络优化),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:yolov5参数优化,yolov5 优化,yolov4优化,yolov5 改进,优化器参数,yolov5 优化,yolo算法优化,yolov5 优化,内容如对您有帮助,希望把文章链接给更多的朋友!

机器学习的五个步骤: 数据 -> 模型 -> 损失 -> 优化器 -> 迭代训练。 我们通过前向传播的过程,得到了模型输出与真实标签的差异,我们称之为损失, 有了损失,我们会进入反向传播过程得到参数的梯度,那么接下来就是优化器干活了,优化器要根据我们的这个梯度去更新参数,使得损失不断的降低。 那么优化器是怎么做到的呢? 该博主从三部分进行展开,首先是优化器的概念,然后是优化器的属性和方法,最后是常用的优化器。

深度学习优化算法经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 这样的发展历程。该博主详细告诉你这些算法是如何一步一步演变而来的。

optim.SGD: 随机梯度下降法 optim.Adagrad: 自适应学习率梯度下降法 optim.RMSprop: Adagrad的改进 optim.Adadelta: Adagrad的改进 optim.Adam: RMSprop结合Momentum optim.Adamax: Adam增加学习率上限 optim.SparseAdam: 稀疏版的Adam optim.ASGD: 随机平均梯度下降 optim.Rprop: 弹性反向传播 optim.LBFGS: BFGS的改进

SGD:选择合适的learning rate比较困难 - 对所有的参数更新使用同样的learning rate.我们常用的mini-batch SGD训练算法,然而虽然这种算法能够带来很好的训练速度,但是在到达最优点的时候并不能够总是真正到达最优点,而是在最优点附近徘徊。另一个缺点就是这种算法需要我们挑选一个合适的学习率,当我们采用小的学习率的时候,会导致网络在训练的时候收敛太慢;当我们采用大的学习率的时候,会导致在训练过程中优化的幅度跳过函数的范围,也就是可能跳过最优点

yolov5优化器及超参数设置(yolov5网络优化)

SGD+Momentum:基于梯度的移动指数加权平均解决mini-batch SGD优化算法更新幅度摆动大的问题,同时可以使得网络的收敛速度更快(注意:使用Momentum时偏差修正可用可不用–吴恩达深度学习)

Momentum原理:积累之前的动量来替代真正的梯度,计算梯度的指数加权平均数,并利用该梯度更新权重,相关方向加速SGD,抑制振荡,从而加快收敛。

RMSprop:积累之前的动量来替代真正的梯度对梯度计算微分平方加权平均数,进一步优化损失函数在更新中存在摆动幅度过大的问题,并且进一步加快函数的收敛速度.(对学习率加了一定的约束,但事实上仍依赖于人工设置的一个全局学习率)

Adam:将Momentum算法和RMSProp算法结合起来使用的一种算法,表现比前两种更好,所以它也是解决摆动幅度过大,加快函数的收敛速度;同时利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,实现学习率自适应。(注意:在Adam中Momentum的偏差修正是必须使用的!)

parser.add_argument('--optimizer', type=str, choices=['SGD', 'Adam', 'AdamW'], default='SGD', help='optimizer')

实际上学术界上对于SGD和Adam哪个更好,一直没有统一的定论,取决于实际项目情况。

YOLO V5的作者建议是,如果需要训练较小的自定义数据集,Adam是更合适的选择,并且可以在较大的数据集上提供良好的初始结果,尽管Adam的学习率通常比SGD低(一般Adam为SGD的0.1倍)。但是 SGD 从长远来看往往会表现出色,尤其是训练大型数据集,并且似乎可以更好地推广到现实世界的结果。对于YOLOV5框架在VOC数据集的训练结果来说,效果:SGD > AdamW > Adam 。结果来自该issue。

SGD最大的缺点是下降速度慢,而且可能会在沟壑的两边持续震荡,停留在一个局部最优点。

所以,谈到现在,到底Adam好还是SGD好?这可能是很难一句话说清楚的事情。去看学术会议中的各种paper,用SGD的很多,Adam的也不少,还有很多偏爱AdaGrad或者AdaDelta。可能研究员把每个算法都试了一遍,哪个出来的效果好就用哪个了。毕竟paper的重点是突出自己某方面的贡献,其他方面当然是无所不用其极,怎么能输在细节上呢? 而从这几篇怒怼Adam的paper来看,多数都构造了一些比较极端的例子来演示了Adam失效的可能性。这些例子一般过于极端,实际情况中可能未必会这样,但这提醒了我们,理解数据对于设计算法的必要性。优化算法的演变历史,都是基于对数据的某种假设而进行的优化,那么某种算法是否有效,就要看你的数据是否符合该算法的胃口了。算法固然美好,数据才是根本。另一方面,Adam之流虽然说已经简化了调参,但是并没有一劳永逸地解决问题,默认的参数虽然好,但也不是放之四海而皆准。因此,在充分理解数据的基础上,依然需要根据数据特性、算法特性进行充分的调参。

二 超参数parser.add_argument('--hyp', type=str, default=ROOT / 'data/hyps/hyp.scratch.yaml', help='hyperparameters path')

超参数data/hyps/下有以下五个: 关于选择哪种,作者的解释是:

参考 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 发展历程YOLOv5-优化器和学习率调整策略https://pypi.org/project/torch-optimizer/
本文链接地址:https://www.jiuchutong.com/zhishi/284056.html 转载请保留说明!

上一篇:育空怀特霍斯附近的北极光,加拿大 (© Design Pics/Danita Delimont)

下一篇:bass.exe是什么进程 bass进程信息查询(bass boost system)

  • 威客实例微信分销的8个基础(威客平台的盈利模式)

    威客实例微信分销的8个基础(威客平台的盈利模式)

  • 世人对袁隆平的评价句子(名人对袁隆平评价的句子)(世人对袁隆平的评价语)

    世人对袁隆平的评价句子(名人对袁隆平评价的句子)(世人对袁隆平的评价语)

  • 华为hry-al00t是华为什么型号的手机

    华为hry-al00t是华为什么型号的手机

  • 苹果xs max自拍怎么是反的(苹果xs max自拍怎么是反的怎么调整)

    苹果xs max自拍怎么是反的(苹果xs max自拍怎么是反的怎么调整)

  • 微信怎么设置自己收款别人也能收到信息(微信怎么设置自动抢红包功能)

    微信怎么设置自己收款别人也能收到信息(微信怎么设置自动抢红包功能)

  • 终端设备是什么(车载终端设备是什么)

    终端设备是什么(车载终端设备是什么)

  • 微信怎么关闭朋友圈(微信怎么关闭朋友圈不让所有人看)

    微信怎么关闭朋友圈(微信怎么关闭朋友圈不让所有人看)

  • qq空间已注销什么意思(qq空间注销什么时候生效)

    qq空间已注销什么意思(qq空间注销什么时候生效)

  • 微信好友能转移到另一个微信号吗(微信怎么查看删除的好友)

    微信好友能转移到另一个微信号吗(微信怎么查看删除的好友)

  • 表格截图快捷键ctrl加什么(wps表格截图快捷键)

    表格截图快捷键ctrl加什么(wps表格截图快捷键)

  • 数字音频输出pcm是什么意思(数字音频输出pcm和raw)

    数字音频输出pcm是什么意思(数字音频输出pcm和raw)

  • 腾讯会议怎么开麦(腾讯会议怎么开小窗口)

    腾讯会议怎么开麦(腾讯会议怎么开小窗口)

  • 华为nova6是屏下指纹吗(华为nova6 5g什么屏幕)

    华为nova6是屏下指纹吗(华为nova6 5g什么屏幕)

  • 苹果ios13照片怎么编辑(ip13照片)

    苹果ios13照片怎么编辑(ip13照片)

  • 手机怎么查询征信(手机怎么查询征兵报名结果)

    手机怎么查询征信(手机怎么查询征兵报名结果)

  • pd快充什么接口(pd快充什么接口最好)

    pd快充什么接口(pd快充什么接口最好)

  • 10代cpu什么时候发布(10代cpu什么时候降价)

    10代cpu什么时候发布(10代cpu什么时候降价)

  • 华为9x有红外线功能吗(华为9x有红外线功能吗?)

    华为9x有红外线功能吗(华为9x有红外线功能吗?)

  • 怎么查银行预留手机号(怎么查银行预留信息)

    怎么查银行预留手机号(怎么查银行预留信息)

  • 暴风影音如何转换视频格式(暴风影音如何转屏)

    暴风影音如何转换视频格式(暴风影音如何转屏)

  • 抖音完整长视频怎么保存(抖音长短视频)

    抖音完整长视频怎么保存(抖音长短视频)

  • 苹果x和xs一样大吗(苹果x和苹果xs有什么区别)

    苹果x和xs一样大吗(苹果x和苹果xs有什么区别)

  • 10寸屏幕长宽多少厘米(10寸屏幕是多少)

    10寸屏幕长宽多少厘米(10寸屏幕是多少)

  • 打印测试页在哪里(打印测试页在哪里打)

    打印测试页在哪里(打印测试页在哪里打)

  • 批量获取某文件夹内多个文件的文件名(批量获取文件信息)

    批量获取某文件夹内多个文件的文件名(批量获取文件信息)

  • 如何增强无线网络信号?(如何增强无线网卡的接收能力)

    如何增强无线网络信号?(如何增强无线网卡的接收能力)

  • 增值税专票税率1%
  • 交车险代收的车船费怎么做的科目呀?
  • 工资的计提与结转怎么算
  • 个人所得税数据已失效,请重新填写
  • 个人所得税应补税额怎么办
  • 技术服务出口免关税政策
  • 小企业固定资产折旧的账务处理
  • 新税法下广告费和业务宣传费的扣除是怎样?
  • 公司代扣代缴个人所得税如何退税
  • 托收承付怎么理解
  • 免费的企业
  • 资产减值损失在贷方表示什么意思
  • 工厂新增项目需要立项、环境评价
  • 预提费用怎么理解
  • 租入的生产设备改良支出计入什么费用
  • 购买的无形资产入账价值
  • 购买工程资质文件怎么写
  • 如何在没有开瓶器的情况下开红酒
  • 股权和投票权的关系是什么关系
  • 一次性收取一年租金
  • 产权登记在开发商名下怎么过户
  • 微软商店 低价区
  • 网线插上还是显示红叉
  • php后端开发流程教程
  • 收款凭证和付款凭证区别
  • 最贵的苹果平板
  • 投资性房地产转为存货
  • 计算机视觉未来发展方向
  • 驱动开发函数详解
  • tomcat服务器在哪个位置
  • 你应该知道的数学常识纪录片
  • 企业销售固定资产房屋都要交什么税
  • 增票的纳税人识别号是啥
  • 将本月发生的制造费用在甲、乙产品之间
  • 微信小程序实现支付功能
  • 持有至到期投资属于流动资产吗
  • php显示当前时间
  • 公司员工私车公用协议
  • 资产损失税前扣除最新政策2021
  • 金蝶软件如何建立新账套
  • 投资者控股性质
  • linux 自启
  • 小规模纳税人工资要每月申报
  • 合理损耗应计入成本吗
  • 发票开错一个字还能报销吗?
  • 多提税金的具体分录
  • 装修费摊销年限规定会计分录
  • 税金及附加核算哪些税费
  • 劳务所得税税率表2023年1月
  • 用人单位劳务派遣人员工资怎么做账
  • 连锁药店成本会计
  • 暂估材料发票长期不到
  • 关联交易定价方法包括
  • 发现以前的账做错了
  • 红字发票怎样记账
  • Linux下MySQL 5.6.27 安装教程
  • 为什么ibooks无法使用
  • window系统大全
  • xp系统怎么新建桌面
  • ubuntu 18.04网络连接
  • linux怎么调整屏幕大小
  • windows 8.1 with update (multiple editions)
  • shell脚本中的数组
  • javascript事件模型介绍
  • cocos2d schedule
  • bat 批处理文件
  • nodejs数据加密
  • json jquery
  • django admin form
  • javascript学习指南
  • 安卓app活动
  • 税务局24小时人工服务电话
  • 1+x职业技能等级证书
  • 邮储银行优势及特长简介
  • 竣工交付的资产有哪几种
  • 做好绩效管理工作税务局
  • 烟台税务局举报电话号码
  • 单位首次交社保医疗要多久才能享受
  • 税务局文化建设实施方案
  • ca如何办理退休手续办理流程
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设