位置: IT常识 - 正文

权重衰减/权重衰退——weight_decay(权重下降是什么原因)

编辑:rootadmin
权重衰减/权重衰退——weight_decay 目录权重衰减/权重衰退——weight_decay一、什么是权重衰减/权重衰退——weight_decay?二、weight decay 的作用三、设置weight decay的值为多少?权重衰减/权重衰退——weight_decayimport torch.optim as optimfrom torch.optim.lr_scheduler import CosineAnnealingLR opt = optim.Adam(parameters, lr=args.lr, weight_decay=1e-4) # CosineAnnealingLR 余弦退火调整学习率 lr_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(opt, T_max=args.epochs, eta_min=0, last_epoch=-1)weight_decay = 1e-4weight_decay = 1e-6一、什么是权重衰减/权重衰退——weight_decay?

推荐整理分享权重衰减/权重衰退——weight_decay(权重下降是什么原因),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:权重br1,权重说明什么,权重br,权重br,权重br,什么是权重衰减,权重下降是什么原因,什么是权重衰减,内容如对您有帮助,希望把文章链接给更多的朋友!

weight_decay(权重衰退):

L2正则化主要作用是:解决过拟合,在损失函数中加入L2正则化项

weight _decay本质上是一个 L2正则化系数 L=Ein+λ∑jwj2L=E_{i n}+\lambda \sum_j w_j^2L=Ein​+λj∑​wj2​ 可以理解为:

加上这个 L2正则化,会限制模型的权重都会趋近于0理解就是当 w 趋近 0 时, w平方和 会小, 模型损失也会变小而weight_decay的大小就是公式中的λ,可以理解为λ越大,优化器就越限制权重变得趋近 0权重衰减/权重衰退——weight_decay(权重下降是什么原因)

权重衰减( Weight Decay)

一种有效的正则化方法 [Hanson et al.,1989]在每次参数更新时,引入一个衰减系数 θt←(1−β)θt−1−αgt\theta_t \leftarrow(1-\beta) \theta_{t-1}-\alpha g_tθt​←(1−β)θt−1​−αgt​ 其中:gt 为第t步更新时的梯度α为学习率β为权重减系数一般取值比较小,比如0.0005 在标准的随机梯度下降中,权重衰减正则化和正则化的效果相同因此,权重衰减在一些深度学习框架中通过 L2 正则化来实现但是,在较为复杂的优化方法( 比如Adam ) 中,权重衰减正则化和正则化并不等价 [Loshchilov et al, 2017b]二、weight decay 的作用

使用 weight decay 可以:

防止过拟合保持权重在一个较小在的值,避免梯度爆炸。因为在原本的 loss 函数上加上了权重值的 L2 范数,在每次迭代时,模不仅会去优化/最小化 loss,还会使模型权重最小化。让权重值保持尽可能小,有利于控制权重值的变化幅度(如果梯度很大,说明模型本身在变化很大,去过拟合样本),从而避免梯度爆炸。三、设置weight decay的值为多少?

weight_decay即权重衰退。

为了防止过拟合,在原本损失函数的基础上,加上L2正则化而weight_decay就是这个正则化的lambda参数一般设置为1e-8,所以调参的时候调整是否使用权重衰退即可

在深度学习模型中,一般将衰减系数设置为 0.0001 到 0.001 之 间的值

这是一个比较常用的范围经验值也表明,这个范围是最佳的

论文里是验证了1e-4比较好

当你不确定模型复杂度和数据集大小的时候,最保守就是从1e-4周围开始尝试

在看其他量化训练的一些代码、论文等,不经意间注意到有人建议要关注weight decay值的设置

建议设置为1e-4, 不要设置为1e-5这么小当然,这个值最好还是在当下的训练任务上调一调。

因为weight-decay 可以使参数尽可能地小,尽可能地紧凑

那这样权重的数值就不太可能出现若干个极端数值(偏离权重均值过大或过小)导致数值区间过大这样求得的 scale=(b-a)/255 会偏大,导致的结果就是大量数值较为接近的浮点数被量化到同一个数,严重损失了精度
本文链接地址:https://www.jiuchutong.com/zhishi/298334.html 转载请保留说明!

上一篇:TS中的泛型(泛型 static)

下一篇:前端开发调式必备技能F12开发者工具之Elements(元素)面板,详细图解带流程【第一部分】(前端开发配置)

  • 微信相册里的视频怎么删除(微信相册里的视频怎么隐藏)

    微信相册里的视频怎么删除(微信相册里的视频怎么隐藏)

  • 情侣空间可以查访客记录吗(情侣空间可以查看历史记录吗)

    情侣空间可以查访客记录吗(情侣空间可以查看历史记录吗)

  • 红米note7听筒声音小怎么解决(redmi note7听筒声音小)

    红米note7听筒声音小怎么解决(redmi note7听筒声音小)

  • 打印机与复印机的区别(打印机与复印机怎么切换)

    打印机与复印机的区别(打印机与复印机怎么切换)

  • 电脑下载钉钉后无法打开(电脑下载钉钉后打不开)

    电脑下载钉钉后无法打开(电脑下载钉钉后打不开)

  • 一个4g基站承载用户数(一个4g基站承载多少兆)

    一个4g基站承载用户数(一个4g基站承载多少兆)

  • 二代pencil支持机型(pencil2代支持)

    二代pencil支持机型(pencil2代支持)

  • 存储载体通常包括什么(存储载体通常包括a计算机硬盘b光盘cu盘d移动硬盘)

    存储载体通常包括什么(存储载体通常包括a计算机硬盘b光盘cu盘d移动硬盘)

  • oled屏幕会漏液吗(oled屏幕漏液是怎么回事)

    oled屏幕会漏液吗(oled屏幕漏液是怎么回事)

  • 抖音什么时候在线怎么关(抖音什么时候在线人数最多)

    抖音什么时候在线怎么关(抖音什么时候在线人数最多)

  • ufs闪存是什么意思(ufs闪存影响手机流畅度吗)

    ufs闪存是什么意思(ufs闪存影响手机流畅度吗)

  • 淘宝买家可以申请几次退款(淘宝买家可以申请几次售后)

    淘宝买家可以申请几次退款(淘宝买家可以申请几次售后)

  • ios11能不能刷回ios10(苹果能刷回到出厂时候的版本吗)

    ios11能不能刷回ios10(苹果能刷回到出厂时候的版本吗)

  • vue视频的总时长能变长吗(vue视频时间怎么设置)

    vue视频的总时长能变长吗(vue视频时间怎么设置)

  • 苹果低数据模式有什么用(苹果低数据模式在哪)

    苹果低数据模式有什么用(苹果低数据模式在哪)

  • 计算机中ac代表什么(计算机中ac表示什么)

    计算机中ac代表什么(计算机中ac表示什么)

  • 打印机的驱动程序在哪(打印机的驱动程序无法使用如何解决)

    打印机的驱动程序在哪(打印机的驱动程序无法使用如何解决)

  • iphone授权在哪里打开(iphone授权app在哪里)

    iphone授权在哪里打开(iphone授权app在哪里)

  • QQ扫一扫怎样提取文字(qq扫一扫快速)

    QQ扫一扫怎样提取文字(qq扫一扫快速)

  • 苹果手机相册视频加载不出来(苹果手机相册视频播放不了怎么回事)

    苹果手机相册视频加载不出来(苹果手机相册视频播放不了怎么回事)

  • 如何取消耳机自动播放(如何取消耳机自动播放音乐)

    如何取消耳机自动播放(如何取消耳机自动播放音乐)

  • 手机补电有什么用(手机充不上电了教你一招在家修复)

    手机补电有什么用(手机充不上电了教你一招在家修复)

  • oppo照片水印怎么加(oppo照片水印怎么修改时间)

    oppo照片水印怎么加(oppo照片水印怎么修改时间)

  • 华为手表gt各个表盘说明(华为watch gt运动手表)

    华为手表gt各个表盘说明(华为watch gt运动手表)

  • 抖音怎么隐藏我喜欢(抖音怎么隐藏我的评论)

    抖音怎么隐藏我喜欢(抖音怎么隐藏我的评论)

  • 管理微软帐户中的各项隐私项(微软系统管理员账号)

    管理微软帐户中的各项隐私项(微软系统管理员账号)

  • 个人出租房屋的个人所得税税率
  • 公司办理税务注销的相关规定
  • 什么是红字增值服务
  • 分期付款发票开具
  • 银行对账单放前面还是放后面
  • 车船税和保险在一起怎么报销
  • 专利没有资本化成本如何入账
  • 资产负债表里的固定资产是原值还是净值
  • 特定资产收益权融资业务
  • 买一赠一视同销售征收增值税吗
  • 关税的增值税计算公式
  • 核销贷款收回会计分录
  • 员工因为过错给公司造成损失
  • 生产车间的房屋要交税吗
  • 境外企业提供软件使用权给境内企业
  • 税务分析最常用的分析方法
  • 车辆一次性入费用会计分录
  • 办税人员需要会计证吗
  • 小规模纳税人代收水电费
  • 企业取得被投资单位的长期股权可以享有
  • 借款的印花税入哪个账户
  • 小规模纳税人如何开专票
  • 企业房租收入如何申报
  • harmonyos2.0缺点
  • safedownloader是什么
  • 净资产收益率是什么指标
  • window10设置wifi热点
  • 建筑工程增值税税率是多少
  • 外币债券汇兑损益怎么算
  • 传媒改革
  • 金融工具减值会影响什么
  • php 首字母大写
  • vue 查询
  • vue框架基础知识
  • 职工福利费入账依据
  • 编写一个php程序,展示双引号和单引号的区别
  • wx-java
  • openresty php
  • 刚成立的新公司怎么报税
  • 合伙 利润分配
  • 待处理财产损溢在资产负债表中填哪里
  • 一般纳税人无票收入怎么报增值税
  • python函数如何返回列表
  • 汉诺塔问题动画演示
  • 卷票要盖发票专用章吗?
  • 购买增值税发票属于什么科目?
  • 中标服务费需要签合同吗
  • 专项附加可以随便填吗
  • 报销金额大于发票怎么办
  • 出口佣金账务处理
  • 应付账款的主要成本包括
  • 增值税进项税额抵扣期限最新
  • 异地施工怎么交税
  • 收到成本发票如何记账
  • 无形资产如何摊销公式
  • 销售返利怎么做税务处理
  • 企业会计制度对固定资产无入账价值怎么入账
  • 建安企业无收入证明模板
  • 商场代收款合法吗
  • 销售费用变动率是看本期还是本年累计
  • 审核通过的红字信息表可以删除吗
  • 个人承担的社保算公司的费用吗
  • 利税总额怎么算?
  • 怎么将windowsxp换成windows7
  • apt-get update错误
  • centos7手册
  • linux系统怎么安装
  • 神墓凌云
  • Win10 Build 10586.494稳定版更新修复内容以及KB3172985补丁下载地址
  • win7的打开方式在哪里
  • 安卓开发解析xml
  • 禁止指定qq号登录怎么弄
  • python3安装pygame
  • javascript教程chm
  • 使用筷子就餐会不会传染乙肝病毒
  • 安卓开发者有多少
  • unity-chan
  • javascript中继承
  • 预征率为2%预征税额怎么算
  • 招投标文件未规定怎么办
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设