位置: IT常识 - 正文

权重衰减/权重衰退——weight_decay(权重下降是什么原因)

编辑:rootadmin
权重衰减/权重衰退——weight_decay 目录权重衰减/权重衰退——weight_decay一、什么是权重衰减/权重衰退——weight_decay?二、weight decay 的作用三、设置weight decay的值为多少?权重衰减/权重衰退——weight_decayimport torch.optim as optimfrom torch.optim.lr_scheduler import CosineAnnealingLR opt = optim.Adam(parameters, lr=args.lr, weight_decay=1e-4) # CosineAnnealingLR 余弦退火调整学习率 lr_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(opt, T_max=args.epochs, eta_min=0, last_epoch=-1)weight_decay = 1e-4weight_decay = 1e-6一、什么是权重衰减/权重衰退——weight_decay?

推荐整理分享权重衰减/权重衰退——weight_decay(权重下降是什么原因),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:权重br1,权重说明什么,权重br,权重br,权重br,什么是权重衰减,权重下降是什么原因,什么是权重衰减,内容如对您有帮助,希望把文章链接给更多的朋友!

weight_decay(权重衰退):

L2正则化主要作用是:解决过拟合,在损失函数中加入L2正则化项

weight _decay本质上是一个 L2正则化系数 L=Ein+λ∑jwj2L=E_{i n}+\lambda \sum_j w_j^2L=Ein​+λj∑​wj2​ 可以理解为:

加上这个 L2正则化,会限制模型的权重都会趋近于0理解就是当 w 趋近 0 时, w平方和 会小, 模型损失也会变小而weight_decay的大小就是公式中的λ,可以理解为λ越大,优化器就越限制权重变得趋近 0权重衰减/权重衰退——weight_decay(权重下降是什么原因)

权重衰减( Weight Decay)

一种有效的正则化方法 [Hanson et al.,1989]在每次参数更新时,引入一个衰减系数 θt←(1−β)θt−1−αgt\theta_t \leftarrow(1-\beta) \theta_{t-1}-\alpha g_tθt​←(1−β)θt−1​−αgt​ 其中:gt 为第t步更新时的梯度α为学习率β为权重减系数一般取值比较小,比如0.0005 在标准的随机梯度下降中,权重衰减正则化和正则化的效果相同因此,权重衰减在一些深度学习框架中通过 L2 正则化来实现但是,在较为复杂的优化方法( 比如Adam ) 中,权重衰减正则化和正则化并不等价 [Loshchilov et al, 2017b]二、weight decay 的作用

使用 weight decay 可以:

防止过拟合保持权重在一个较小在的值,避免梯度爆炸。因为在原本的 loss 函数上加上了权重值的 L2 范数,在每次迭代时,模不仅会去优化/最小化 loss,还会使模型权重最小化。让权重值保持尽可能小,有利于控制权重值的变化幅度(如果梯度很大,说明模型本身在变化很大,去过拟合样本),从而避免梯度爆炸。三、设置weight decay的值为多少?

weight_decay即权重衰退。

为了防止过拟合,在原本损失函数的基础上,加上L2正则化而weight_decay就是这个正则化的lambda参数一般设置为1e-8,所以调参的时候调整是否使用权重衰退即可

在深度学习模型中,一般将衰减系数设置为 0.0001 到 0.001 之 间的值

这是一个比较常用的范围经验值也表明,这个范围是最佳的

论文里是验证了1e-4比较好

当你不确定模型复杂度和数据集大小的时候,最保守就是从1e-4周围开始尝试

在看其他量化训练的一些代码、论文等,不经意间注意到有人建议要关注weight decay值的设置

建议设置为1e-4, 不要设置为1e-5这么小当然,这个值最好还是在当下的训练任务上调一调。

因为weight-decay 可以使参数尽可能地小,尽可能地紧凑

那这样权重的数值就不太可能出现若干个极端数值(偏离权重均值过大或过小)导致数值区间过大这样求得的 scale=(b-a)/255 会偏大,导致的结果就是大量数值较为接近的浮点数被量化到同一个数,严重损失了精度
本文链接地址:https://www.jiuchutong.com/zhishi/298334.html 转载请保留说明!

上一篇:TS中的泛型(泛型 static)

下一篇:前端开发调式必备技能F12开发者工具之Elements(元素)面板,详细图解带流程【第一部分】(前端开发配置)

  • 交通费中的高速费怎么算
  • 以前年度出口退税申报
  • 拿工资要开发票,发票去哪儿开?
  • 工会经费余额在借方怎么办
  • 个人捐款合法吗
  • 是否独立核算取决于什么
  • 必胜客发票提取码在小票哪里
  • 销售软件怎么做账
  • 小公司可以不交五险一金吗
  • 新车车牌照
  • 发放工资比计提工资少了
  • 企业应纳税所得额计算例题
  • 开了增值税专用发票对方不付款可以申请冻结对方公帐嘛
  • 工业企业小规模纳税人的认定标准
  • 公司账户境外汇款
  • 注销一个公司需要多久
  • 增值税发票开票有误怎么办?
  • 企业可以采用在产品按固定成本计算法的有
  • 三证合一之后的税务登记
  • 研发部门的办公费属于研发费的哪个类别
  • 个体工商户变更法人
  • 标准误和标准差的区别和联系
  • 发票认证信息怎么填
  • 所得税季报营业外收入怎么填
  • 企业收到政府补贴100000元业务题
  • 存货跌价准备的分录
  • 房地产开发资质查询
  • 工商年报的纳税总额怎么查询
  • linux aptx
  • 捷波主板141m
  • php 守护进程
  • 抖音自动抢福袋挂机软件哪个好
  • mstore.exe - mstore是什么进程 有什么用
  • php如何运行脚本
  • 2017年8月21日是什么日子
  • 银边翠的栽培历史
  • 在php中,什么函数能将数组转化为字符串
  • 纳税调整项目有一个其他调增金额是怎么组成的
  • php中imagestring
  • win10iis安装配置
  • 存货的核算方法一次可以选用几个
  • php curl cookie
  • redis php实例
  • 【Pytorch深度学习实战】(11)变分自动编码器(VAE)
  • php使用for循环实现乘法口诀表
  • php定义方法
  • 应征增值税不含税销售额(5%征收率)是什么意思
  • 预提费用的会计分录2018
  • 商标属于无形资产怎么入账
  • 法人为什么不能领取失业金
  • 金税盘开票如何增加商品编码
  • python中map和filter有啥区别
  • 公司逾期交税,后期补上有何后果
  • dedecms51
  • mongodb索引使用正则表达式
  • 建筑企业预缴
  • 丢失增值税发票已报税证明单取消
  • 坏账准备在资产负债表哪里体现
  • mysql删除表中某个字段
  • 开票内容不在经营范围内
  • 金融企业应当按照交易或事项的实质和经济现实
  • 在建工程科目核算只针对固定资产吗
  • 银行贴现手续费可以税前扣除吗
  • 出口退税贷方余额是什么意思
  • 防伪税控服务费全额抵扣政策
  • 资产损失扣除
  • Win10预览版更新弹窗如何关闭
  • spools.exe - spools是什么进程 有何作用
  • ubuntu配置vsftpd
  • windows alt r
  • 安卓icon图标
  • 修改cmdline
  • js indexof undefined
  • unity shader视频教程
  • 请问在javascript程序中
  • javascript XMLHttpRequest对象全面剖析
  • 环保税按次申报需要交滞纳金吗
  • 企微宝破解
  • 长春市朝阳区公安局电话
  • 个人工资所得税缴纳标准2023年
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设