位置: IT常识 - 正文

Gumbel-Softmax完全解析

编辑:rootadmin
Gumbel-Softmax完全解析 写在前面

推荐整理分享Gumbel-Softmax完全解析,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

本文对大部分人来说可能仅仅起到科普的作用,因为Gumbel-Max仅在部分领域会用到,例如GAN、VAE等。笔者是在研究EMNLP上的一篇论文时,看到其中有用Gumbel-Softmax公式解决对一个概率分布进行采样无法求导的问题,故想到对Gumbel-Softmax做一个总结,由此写下本文

为什么我们需要Gumbel-Softmax ?

假设现在我们有一个离散随机变量ZZZ的分布 p1=p(Z=1)=π1p2=p(Z=2)=π2p3=p(Z=3)=π3...px=p(Z=x)=πxp_1 = p(Z=1)=\pi_1\\ p_2 = p(Z=2) = \pi_2\\ p_3 = p(Z=3) = \pi_3\\ ...\\ p_x = p(Z=x) = \pi_x\\p1​=p(Z=1)=π1​p2​=p(Z=2)=π2​p3​=p(Z=3)=π3​...px​=p(Z=x)=πx​ 其中,∑iπi=1\sum_i \pi_i=1∑i​πi​=1。我们想根据p1,p2,...,pxp_1,p_2,...,p_xp1​,p2​,...,px​的概率采样得到一系列离散zzz的值。但是这么做有一个问题,我们采样出来的zzz只有值,没有生成zzz的式子。例如我们要求ZZZ的期望,那么就有公式 E(Z)=p1+2p2+⋯+xpx\mathbb{E}(Z) = p_1 + 2p_2 + \cdots +xp_xE(Z)=p1​+2p2​+⋯+xpx​ ZZZ对p1,p2,...,pxp_1,p_2,...,p_xp1​,p2​,...,px​的导数都很清楚。但是现在我们的需求是采样一些具体的zzz值,采样这个操作没有任何公式,因此也就无法求导。于是一个很自然的想法就产生了,我们能不能给一个以p1,p2,...,pzp_1,p_2,...,p_zp1​,p2​,...,pz​为参数的公式,让这个公式返回的结果是zzz采样的结果呢?

Gumbel-SoftmaxGumbel-Softmax完全解析

一般来说πi\pi_iπi​是通过神经网络预测对于类别iii的概率,这在分类问题中非常常见,假设我们将一个样本送入模型,最后输出的概率分布为[0.2,0.4,0.1,0.2,0.1][0.2, 0.4,0.1,0.2,0.1][0.2,0.4,0.1,0.2,0.1],表明这是一个5分类问题,其中概率最大的是第2类,到这一步,我们直接通过argmax就能获得结果了,但现在我们不是预测问题,而是一个采样问题。对于模型来说,直接取出概率最大的就可以了,但对我们来说,每个类别都是有一定概率的,我们想根据这个概率来进行采样,而不是直接简单无脑的输出概率最大的值

最常见的采样z\mathbf{z}z的onehot公式为 z=onehot(max⁡{i∣π1+π2+⋯+πi−1≤u})(1)\mathbf{z} = \text{onehot}(\max \{i\mid \pi_1 + \pi_2+\cdots +\pi_{i-1} \leq u\})\tag{1}z=onehot(max{i∣π1​+π2​+⋯+πi−1​≤u})(1) 其中i=1,2,..,xi=1,2,..,xi=1,2,..,x是类别的下标,随机变量uuu服从均匀分布U(,1)U(0,1)U(0,1)

上面这个过程实际上是很巧妙的,我们将概率分布从前往后不断加起来,当加到πi\pi_iπi​时超过了某个随机值$ 0\leq u \leq 1,那么这一次随机采样过程,,那么这一次随机采样过程,,那么这一次随机采样过程,z就被随机采样为第就被随机采样为第就被随机采样为第i$类,最后通过一个onehot变换

但是上述公式存在一个致命的问题:max函数是不可导的

Gumbel-Max Trick

Gumbel-Max技巧就是解决max函数不可导问题的,我们可以用argmax替换max,即 z=onehot(argmaxi{gi+log⁡πi})(2)\mathbf{z} = \text{onehot}(\mathop{\text{argmax}}\limits_{i} \{g_i + \log \pi_i\})\tag{2}z=onehot(iargmax​{gi​+logπi​})(2) 其中,gi=−log⁡(−log⁡(ui)),ui∼U(,1)g_i=-\log(-\log(u_i)), u_i \sim U(0,1)gi​=−log(−log(ui​)),ui​∼U(0,1),这一项名为Gumbel噪声,或者叫Gumbel分布,目的是使得z\mathbf{z}z的返回结果不固定

可以看到式(2)(2)(2)的整个过程中,不可导的部分只有argmax,实际上我们可以用可导的softmax函数,在参数τ\tauτ的控制下逼近argmax,最终ziz_izi​的公式为 zi=exp⁡(gi+log⁡πiτ)∑jxexp⁡(gj+log⁡πjτ)(3)z_i = \frac{\exp(\frac{g_i + \log \pi_i}{\tau})}{\sum_{j}^x\exp(\frac{g_j + \log \pi_j}{\tau})}\tag{3}zi​=∑jx​exp(τgj​+logπj​​)exp(τgi​+logπi​​)​(3) 其中,τ\tauτ越小(τ→)(\tau \to 0)(τ→0),整个softmax越光滑逼近argmax,并且z={zi∣i=1,2,...,x}\mathbf{z} = \{z_i\mid i=1,2,...,x\}z={zi​∣i=1,2,...,x}也越接近onehot向量;τ\tauτ越大(τ→∞)(\tau \to \infty)(τ→∞),z\mathbf{z}z向量越接近于均匀分布

总结

整个过程相当于我们把不可导的取样过程,从z\mathbf{z}z本身转移到了求z\mathbf{z}z的公式中的一项gig_igi​中,而gig_igi​本身不依赖p1,..,pxp_1,..,p_xp1​,..,px​,所以zzz对p1,...,pxp_1,...,p_xp1​,...,px​就可以到了,而且我们得到的z\mathbf{z}z仍然是离散概率分布的采样。这种采样过程转嫁的技巧有一个专有名词,叫重参数化技巧(Reparameterization Trick)

ReferencesWhat is Gumbel-SoftmaxGumbel-Softmax Trick和Gumbel分布
本文链接地址:https://www.jiuchutong.com/zhishi/294559.html 转载请保留说明!

上一篇:swapoff命令 关闭SWAP交换分区(关停所有swap分区的命令)

下一篇:uniapp封装axios?大可不必那么麻烦。(uniapp封装组件,多了一层)

  • 小米输入法声音怎么关闭声音(小米输入法声音设置在哪里)

    小米输入法声音怎么关闭声音(小米输入法声音设置在哪里)

  • 微软商店下载路径更改(微软商店下载路径更改后还是在c盘)

    微软商店下载路径更改(微软商店下载路径更改后还是在c盘)

  • OPPO Ace2手机屏幕像素密度是多少呢(oppoace2手机屏幕护眼吗)

    OPPO Ace2手机屏幕像素密度是多少呢(oppoace2手机屏幕护眼吗)

  • 苹果6gps在哪里打开(苹果6gps定位在哪里设置)

    苹果6gps在哪里打开(苹果6gps定位在哪里设置)

  • 快手精选专区是从哪里设置(快手精选专区是真的吗)

    快手精选专区是从哪里设置(快手精选专区是真的吗)

  • 充电宝充电口坏了怎么修理(充电宝充电口坏了修要多少钱)

    充电宝充电口坏了怎么修理(充电宝充电口坏了修要多少钱)

  • 苹果还原所有设置是什么意思(苹果还原所有设置)

    苹果还原所有设置是什么意思(苹果还原所有设置)

  • 小米运动计步一直是0(小米运动用手机计步)

    小米运动计步一直是0(小米运动用手机计步)

  • 表格的除号怎么输入(表格的除号怎么输入自动计算)

    表格的除号怎么输入(表格的除号怎么输入自动计算)

  • excel选项在哪(excel的excel选项在哪里)

    excel选项在哪(excel的excel选项在哪里)

  • 常见互联网接入方式(常见互联网接入技术)

    常见互联网接入方式(常见互联网接入技术)

  • 苏宁退款审核要多久(苏宁退货审核)

    苏宁退款审核要多久(苏宁退货审核)

  • ipad输入法在哪(ipad输入法符号在哪)

    ipad输入法在哪(ipad输入法符号在哪)

  • 麦克风出错了什么原因(麦克风出错怎么办)

    麦克风出错了什么原因(麦克风出错怎么办)

  • 华为视频可以卸载吗(华为视频卸载了图标还在)

    华为视频可以卸载吗(华为视频卸载了图标还在)

  • 酷我音乐k歌在哪(酷我音乐ktv)

    酷我音乐k歌在哪(酷我音乐ktv)

  • 美团账单怎么删除(美团怎么删除账单)

    美团账单怎么删除(美团怎么删除账单)

  • 苹果库乐队在哪里(苹果库乐队哪款电脑可以用)

    苹果库乐队在哪里(苹果库乐队哪款电脑可以用)

  • win10怎么重装声卡驱动(win10重装后声音没了)

    win10怎么重装声卡驱动(win10重装后声音没了)

  • mp1718是什么处理器(mp174)

    mp1718是什么处理器(mp174)

  • 苹果无线耳机要关机吗(苹果无线耳机要充多久)

    苹果无线耳机要关机吗(苹果无线耳机要充多久)

  • PS怎样处理食物照片(ps处理食物图片)

    PS怎样处理食物照片(ps处理食物图片)

  • 5g对个人带来什么机遇(5g对人们的影响利弊)

    5g对个人带来什么机遇(5g对人们的影响利弊)

  • 照片时间怎么改(照片时间怎么改变)

    照片时间怎么改(照片时间怎么改变)

  • 苹果8p什么时候出的(苹果8p什么时候停产的)

    苹果8p什么时候出的(苹果8p什么时候停产的)

  • 苹果怎么设置不提示更新系统(苹果怎么设置不同步)

    苹果怎么设置不提示更新系统(苹果怎么设置不同步)

  • 关闭开机自动启动的软件教程(关闭开机自动启动)

    关闭开机自动启动的软件教程(关闭开机自动启动)

  • 事业单位交所得税是否可以报国高新
  • 减免的企业所得税计入什么科目
  • 消费税是指什么税
  • 新成立的销售公司有哪些
  • 财务人员培训费怎么入账
  • 营业费用和营业收入的关系
  • 物料耗用
  • 仓储费和仓储服务费的区别
  • 减免税款的会计处理
  • 公司 捐赠
  • 购税控盘账务处理
  • 公司账户没有钱怎么办
  • 未结清全额是逾期吗
  • 融资租赁开始日最低租赁付款额
  • 公司在外地
  • 税务局代增值税普通发票流程
  • 7月1日发票新规定
  • 异地业务操作
  • 商品税目是什么意思4001
  • 进口设备的重置成本包括什么
  • 股东以个人名义签订租赁合同
  • 酒店住宿收入确认原则的条件
  • 全年平均职工人数按季度平均公式
  • 一般纳税人专票和普票有什么区别
  • 加工贸易企业如何财务管理账务流程
  • 工会收到单位拨款怎么办
  • 权益法核算的投资收益要做递延所得税吗
  • 红魔3和一加7pro哪个好
  • bios设置启动顺序(图解说明)
  • 姑娘果的功效与作用百度百科
  • 安装额外语言
  • 网页打不开是什么
  • php数组可以使用哪些键名
  • PHP:session_cache_expire()的用法_Session函数
  • 现金被盗计入什么科目
  • php保存数据
  • excel js宏
  • 报销没有发票如何处理做凭证
  • spring boot 接受参数
  • php将数据导出到excel
  • 公司制作横幅计入什么科目?
  • 动销率怎么看
  • easyposer怎么导出
  • 织梦怎么导入数据库
  • apache druid使用
  • 成本核算的会计处理
  • 小型微利企业符合条件的有
  • c语言的共用体
  • 帝国cms破解授权
  • 帝国cms使用手册
  • 服务费发票需要交印花税吗
  • 哪些合同必须签订书面合同
  • 财务会计的主要目标和工作内容包括
  • 股东以无形资产入股是否需要缴纳个税
  • 出差期间招待费用怎样报销
  • 吊装费是属于什么报销项目
  • 营改增后工程项目计价规则也随之发生了改变对错
  • 会计基本前提包括会计主体货币计量资料完整和经济效益
  • 企业建账选择什么会计准则
  • win7旗舰版系统激活码
  • 组策略 guest
  • win10防火墙打不开错误代码
  • ubuntu 12.04使用QQ截图安装教程
  • win10 win7兼容模式
  • 安装centos6.10
  • win7声音方案存在哪里
  • win10安装autocad2016错误
  • linux如何查看用户的信息
  • win7设备管理器里面没有网络适配器
  • cocos2dx菜鸟教程
  • 将list转换为json字符串
  • 修改安卓app权限教程
  • python函数菜鸟教程
  • 弹簧设计软件手机版
  • Android通过HttpURLConnection获取JSON并进行UI更新
  • jquery遍历表单元素
  • javascript面向对象精要pdf下载
  • 工会经费计税依据工资总额包括什么
  • 亦庄税务局电话号码
  • 西安市个税证明去哪里打印
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设