位置: IT常识 - 正文

Gumbel-Softmax完全解析

编辑:rootadmin
Gumbel-Softmax完全解析 写在前面

推荐整理分享Gumbel-Softmax完全解析,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

本文对大部分人来说可能仅仅起到科普的作用,因为Gumbel-Max仅在部分领域会用到,例如GAN、VAE等。笔者是在研究EMNLP上的一篇论文时,看到其中有用Gumbel-Softmax公式解决对一个概率分布进行采样无法求导的问题,故想到对Gumbel-Softmax做一个总结,由此写下本文

为什么我们需要Gumbel-Softmax ?

假设现在我们有一个离散随机变量ZZZ的分布 p1=p(Z=1)=π1p2=p(Z=2)=π2p3=p(Z=3)=π3...px=p(Z=x)=πxp_1 = p(Z=1)=\pi_1\\ p_2 = p(Z=2) = \pi_2\\ p_3 = p(Z=3) = \pi_3\\ ...\\ p_x = p(Z=x) = \pi_x\\p1​=p(Z=1)=π1​p2​=p(Z=2)=π2​p3​=p(Z=3)=π3​...px​=p(Z=x)=πx​ 其中,∑iπi=1\sum_i \pi_i=1∑i​πi​=1。我们想根据p1,p2,...,pxp_1,p_2,...,p_xp1​,p2​,...,px​的概率采样得到一系列离散zzz的值。但是这么做有一个问题,我们采样出来的zzz只有值,没有生成zzz的式子。例如我们要求ZZZ的期望,那么就有公式 E(Z)=p1+2p2+⋯+xpx\mathbb{E}(Z) = p_1 + 2p_2 + \cdots +xp_xE(Z)=p1​+2p2​+⋯+xpx​ ZZZ对p1,p2,...,pxp_1,p_2,...,p_xp1​,p2​,...,px​的导数都很清楚。但是现在我们的需求是采样一些具体的zzz值,采样这个操作没有任何公式,因此也就无法求导。于是一个很自然的想法就产生了,我们能不能给一个以p1,p2,...,pzp_1,p_2,...,p_zp1​,p2​,...,pz​为参数的公式,让这个公式返回的结果是zzz采样的结果呢?

Gumbel-SoftmaxGumbel-Softmax完全解析

一般来说πi\pi_iπi​是通过神经网络预测对于类别iii的概率,这在分类问题中非常常见,假设我们将一个样本送入模型,最后输出的概率分布为[0.2,0.4,0.1,0.2,0.1][0.2, 0.4,0.1,0.2,0.1][0.2,0.4,0.1,0.2,0.1],表明这是一个5分类问题,其中概率最大的是第2类,到这一步,我们直接通过argmax就能获得结果了,但现在我们不是预测问题,而是一个采样问题。对于模型来说,直接取出概率最大的就可以了,但对我们来说,每个类别都是有一定概率的,我们想根据这个概率来进行采样,而不是直接简单无脑的输出概率最大的值

最常见的采样z\mathbf{z}z的onehot公式为 z=onehot(max⁡{i∣π1+π2+⋯+πi−1≤u})(1)\mathbf{z} = \text{onehot}(\max \{i\mid \pi_1 + \pi_2+\cdots +\pi_{i-1} \leq u\})\tag{1}z=onehot(max{i∣π1​+π2​+⋯+πi−1​≤u})(1) 其中i=1,2,..,xi=1,2,..,xi=1,2,..,x是类别的下标,随机变量uuu服从均匀分布U(,1)U(0,1)U(0,1)

上面这个过程实际上是很巧妙的,我们将概率分布从前往后不断加起来,当加到πi\pi_iπi​时超过了某个随机值$ 0\leq u \leq 1,那么这一次随机采样过程,,那么这一次随机采样过程,,那么这一次随机采样过程,z就被随机采样为第就被随机采样为第就被随机采样为第i$类,最后通过一个onehot变换

但是上述公式存在一个致命的问题:max函数是不可导的

Gumbel-Max Trick

Gumbel-Max技巧就是解决max函数不可导问题的,我们可以用argmax替换max,即 z=onehot(argmaxi{gi+log⁡πi})(2)\mathbf{z} = \text{onehot}(\mathop{\text{argmax}}\limits_{i} \{g_i + \log \pi_i\})\tag{2}z=onehot(iargmax​{gi​+logπi​})(2) 其中,gi=−log⁡(−log⁡(ui)),ui∼U(,1)g_i=-\log(-\log(u_i)), u_i \sim U(0,1)gi​=−log(−log(ui​)),ui​∼U(0,1),这一项名为Gumbel噪声,或者叫Gumbel分布,目的是使得z\mathbf{z}z的返回结果不固定

可以看到式(2)(2)(2)的整个过程中,不可导的部分只有argmax,实际上我们可以用可导的softmax函数,在参数τ\tauτ的控制下逼近argmax,最终ziz_izi​的公式为 zi=exp⁡(gi+log⁡πiτ)∑jxexp⁡(gj+log⁡πjτ)(3)z_i = \frac{\exp(\frac{g_i + \log \pi_i}{\tau})}{\sum_{j}^x\exp(\frac{g_j + \log \pi_j}{\tau})}\tag{3}zi​=∑jx​exp(τgj​+logπj​​)exp(τgi​+logπi​​)​(3) 其中,τ\tauτ越小(τ→)(\tau \to 0)(τ→0),整个softmax越光滑逼近argmax,并且z={zi∣i=1,2,...,x}\mathbf{z} = \{z_i\mid i=1,2,...,x\}z={zi​∣i=1,2,...,x}也越接近onehot向量;τ\tauτ越大(τ→∞)(\tau \to \infty)(τ→∞),z\mathbf{z}z向量越接近于均匀分布

总结

整个过程相当于我们把不可导的取样过程,从z\mathbf{z}z本身转移到了求z\mathbf{z}z的公式中的一项gig_igi​中,而gig_igi​本身不依赖p1,..,pxp_1,..,p_xp1​,..,px​,所以zzz对p1,...,pxp_1,...,p_xp1​,...,px​就可以到了,而且我们得到的z\mathbf{z}z仍然是离散概率分布的采样。这种采样过程转嫁的技巧有一个专有名词,叫重参数化技巧(Reparameterization Trick)

ReferencesWhat is Gumbel-SoftmaxGumbel-Softmax Trick和Gumbel分布
本文链接地址:https://www.jiuchutong.com/zhishi/294559.html 转载请保留说明!

上一篇:swapoff命令 关闭SWAP交换分区(关停所有swap分区的命令)

下一篇:uniapp封装axios?大可不必那么麻烦。(uniapp封装组件,多了一层)

  • 红米note11pro怎么分屏(红米note11pro怎么样)

    红米note11pro怎么分屏(红米note11pro怎么样)

  • 美团兑换的店铺红包能换回来吗(美团兑换的店铺红包怎么用)

    美团兑换的店铺红包能换回来吗(美团兑换的店铺红包怎么用)

  • 第四代计算机的标志是(第四代计算机的逻辑器件是)

    第四代计算机的标志是(第四代计算机的逻辑器件是)

  • 键盘无法输入(键盘无法输入任何东西)

    键盘无法输入(键盘无法输入任何东西)

  • 微信账单删了怎么找回来(微信账单删了怎么导出明细)

    微信账单删了怎么找回来(微信账单删了怎么导出明细)

  • 4.7寸手机有哪几款(4.7寸手机有哪几款r,苹果5.0,苹果手机5.0的)

    4.7寸手机有哪几款(4.7寸手机有哪几款r,苹果5.0,苹果手机5.0的)

  • 笔记本外接开机键教程?(笔记本外接开机键改造方案教程)

    笔记本外接开机键教程?(笔记本外接开机键改造方案教程)

  • 手机三个月不交话费会自动注销吗(手机三个月不交话费会影响征信吗)

    手机三个月不交话费会自动注销吗(手机三个月不交话费会影响征信吗)

  • 拼多多月卡暂不支持开通是怎么回事(拼多多月卡不能用了)

    拼多多月卡暂不支持开通是怎么回事(拼多多月卡不能用了)

  • 照片精度300dpi是什么意思(图片精度300)

    照片精度300dpi是什么意思(图片精度300)

  • 得物闪电发货和普通有什么区别(得物闪电发货和品牌专供哪个好)

    得物闪电发货和普通有什么区别(得物闪电发货和品牌专供哪个好)

  • 淘宝月销量怎么变少了(淘宝月销量怎么变少了2个)

    淘宝月销量怎么变少了(淘宝月销量怎么变少了2个)

  • 剪映可以视频抠图吗(剪映视频抠成透明背景怎么弄)

    剪映可以视频抠图吗(剪映视频抠成透明背景怎么弄)

  • 为啥抖音号搜不出来(为啥抖音号搜不到别人发的视频)

    为啥抖音号搜不出来(为啥抖音号搜不到别人发的视频)

  • 限速128kbps能看视频么(限速到128kbps是什么概念)

    限速128kbps能看视频么(限速到128kbps是什么概念)

  • dps文件怎么用ppt打开(dps文件怎么转换成word格式)

    dps文件怎么用ppt打开(dps文件怎么转换成word格式)

  • 华为哪款手机带屏下指纹(华为哪款手机带智能遥控)

    华为哪款手机带屏下指纹(华为哪款手机带智能遥控)

  • 填充主题颜色怎么设置(主题填充彩色轮廓)

    填充主题颜色怎么设置(主题填充彩色轮廓)

  • 爱奇艺怎么设置屏幕(爱奇艺怎么设置时间限制)

    爱奇艺怎么设置屏幕(爱奇艺怎么设置时间限制)

  • 不登微信能有步数吗(不登微信可以看到步数吗)

    不登微信能有步数吗(不登微信可以看到步数吗)

  • 酷狗音乐酷币怎么充值(酷狗音乐酷币怎么退款)

    酷狗音乐酷币怎么充值(酷狗音乐酷币怎么退款)

  • 哔哩哔哩弹幕网产品介绍(哔哩哔哩弹幕网是什么网站)

    哔哩哔哩弹幕网产品介绍(哔哩哔哩弹幕网是什么网站)

  • 云闪付红包怎么用(云闪付红包怎么提现到银行卡)

    云闪付红包怎么用(云闪付红包怎么提现到银行卡)

  • 小米9运行内存多少(小米9运行内存8G能变大吗)

    小米9运行内存多少(小米9运行内存8G能变大吗)

  • usart和uart区别(uart和com)

    usart和uart区别(uart和com)

  • 手机无线投屏到电脑(手机无线投屏到Win11电脑)

    手机无线投屏到电脑(手机无线投屏到Win11电脑)

  • 国有划拨土地给个人住宅违法吗
  • 出租房怎么算平方多少
  • 未按规定缴纳保险
  • 老板的报销分录怎么写
  • 预收账款可以开票吗
  • 小规模费用发票多有什么用途
  • 建设部门罚款会计分录
  • 水果店个体户怎么交税 广州
  • 个人所得税申报退税多久到账
  • 进项税额转出有什么影响
  • 计提 增值税
  • 建筑服务预征缴纳税款本期实际抵减税额怎么填
  • 土地结转会计分录是什么
  • 按季度报税怎么处理
  • 对债务人取得债权是什么意思
  • 旧设备变现损失抵减所得税怎么算
  • 小规模纳税人月超15万季度不超45万
  • 国税代开普通发票现需作废需要哪些资料?
  • 业务招待费中的营业收入包括哪些
  • 车辆保险属于金融机构吗
  • 代购本无罪,逃避关税须处罚
  • 生物性资产是什么
  • 发票已认证对方起诉有效吗
  • 进口税退税
  • 如何在excel中链接图片对方能显示
  • 股东个人财产转让流程
  • phpstorm ftp
  • 存货损失的会计分录
  • uniapp+uview
  • php的运算符主要包括哪些?
  • 联营企业和合营企业长期股权投资的方式
  • 购货款先到支付后付款
  • php面向对象的三大特征
  • 如何开启framework 3.5
  • 工伤报销入账
  • php是面向过程还是面向对象
  • 其他应收账款属于
  • vue3.0项目创建
  • c罗my eyes never lie
  • 二元运算例子
  • 关联公司代缴社保会计处理
  • 农产品核定扣除增值税进项税额计算表
  • 直播服务费的开票大类
  • 律师事务所的日记怎么写
  • 什么是完税证明?完税证明丢了怎么办公司
  • 个税申报需要什么资料
  • 发票金额大于付款金额怎么做分录
  • sql server rollup函数
  • sqlserver 15247
  • 半成品结转成品会计分录
  • 钢管扣件租赁公司账务处理
  • 服务行业人工费一般控制在多少合适
  • 公司债券分为
  • 企业自有房产的认定标准
  • 申报无票收入后怎么回冲
  • 预收账款的借贷方向增减
  • 递延所得税转回税率不一致
  • 母子公司之间内部交易形成的坏账可以所得税税前扣除吗
  • 补缴企业所得税
  • 利息收入核算什么科目
  • 施工企业应收账款周转率多少合适
  • 乌班图系统切换root
  • 如何创建虚拟硬盘
  • centos禁止ip访问
  • win8如何使用网页版的onedrive
  • win8浏览器打不开网页但能上网
  • win8.1怎么关闭更新
  • 第一次接触怎么形容
  • 深入了解求助者时,首先要进行工作是
  • 支持向量机
  • vue@cli
  • javascript例题
  • python多进程多线程协程
  • 医院体检怎么拿发票
  • 工会经费计提比例0.8%
  • 广东省电子税务局官网登录入口
  • 新车购置税最低多少钱
  • 青海国税局官网
  • 国家税务总局176号公告
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设