位置: IT常识 - 正文

去噪扩散概率模型(DDPM)的简单理解(去噪扩散概率模型)

编辑:rootadmin
去噪扩散概率模型(DDPM)的简单理解

推荐整理分享去噪扩散概率模型(DDPM)的简单理解(去噪扩散概率模型),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:去噪扩散概率模型应用,去噪扩散概率模型作用是什么,噪音扩散角度,扩散和噪点,去噪 算法,扩散和噪点,去噪扩散概率模型下载,去噪扩散概率模型,内容如对您有帮助,希望把文章链接给更多的朋友!

图1 DDPM 无条件控制生成的图像。 这些不是真实的人、地方、动物或物体。

前言

扩散模型最近在图像生成领域取得了巨大的成功,类似 OpenAI 的 DALL-E 2,Google 的 Imagen,以及 Stability AI 最近发行的能够达到商业级绘画目的的 Stable Diffusion 等,都是基于扩散模型来进行图像生成的。本文对知乎上各位大佬对于扩散模型(特别是 DDPM)的讲解进行了融合,带领大家深入浅出理解扩散和逆扩散过程。

数学基础先验概率和后验概率

先验概率:根据以往经验和分析得到的概率。它往往作为由因求果问题中的因出现,如q(Xt∣Xt−1)q(X_{t}|X_{t-1})q(Xt​∣Xt−1​)

后验概率:是指在得到结果的信息后重新修正的概率。是执果寻因问题中的因,如p(Xt−1∣Xt)p(X_{t-1}|X_{t})p(Xt−1​∣Xt​)

KL 散度

对于两个单一变量的高斯分布的 ppp 和 qqq 而言,它们的 KL 散度为:

KL(p,q)=logσ2σ1+σ12+(μ1−μ2)22σ22−12KL(p, q)=log\frac{\sigma_{2}}{\sigma_{1}}+\frac{\sigma_{1}^{2}+(\mu_{1}-\mu_{2})^{2}}{2\sigma_{2}^{2}}-\frac{1}{2}KL(p,q)=logσ1​σ2​​+2σ22​σ12​+(μ1​−μ2​)2​−21​

参数重整化

若希望从高斯分布 N(μ,σ2)N(\mu, \sigma^{2})N(μ,σ2) 中采样,可以先从标准分布 N(,1)N(0, 1)N(0,1) 采样出 zzz,再得到 σ∗z+μ\sigma*z+\muσ∗z+μ,这就是我们想要的采样结果。这样做的好处是将随机性转移到了 zzz 这个常量上,而 σ\sigmaσ 和 μ\muμ 则当作仿射变换网络的一部分。

模型介绍模型总览

图2 DDPM 是经过训练以逐渐去除噪声数据的参数化马尔可夫链。我们估计生成过程的参数。

去噪扩散概率模型(DDPM)的简单理解(去噪扩散概率模型)

DDPM 主要分为两个过程:

forward 加噪过程(从右往左)reverse 去噪过程(从左往右)

加噪过程是指向数据集中的真实图像逐步加入高斯噪声,而去噪过程是指对加了噪声的图片逐步去噪,从而还原出真实图像。加噪过程满足一定的数学规律,不需要学习,而去噪过程则采用神经网络模型来学习。这样一来,神经网络模型就可以从一堆杂乱无章的噪声图片中生成真实图片了。

扩散过程逐步加噪

给定初始数据分布 x∼q(x)x_{0} \sim q(x)x0​∼q(x),我们定义一个前向扩散过程(forward diffusion process):我们向数据分布中逐步添加高斯噪声,加噪过程持续 TTT 次,产生一系列带噪声的图片 x1,...,xTx_{1},...,x_{T}x1​,...,xT​。在由 xt−1x_{t-1}xt−1​ 加噪至 xtx_{t}xt​ 的过程中,噪声的标准差/方差是以一个在区间 (,1)(0, 1)(0,1) 内的固定值 βT\beta_{T}βT​ 来确定的,均值是以固定值 βT\beta_{T}βT​ 和当前时刻的图片数据 xt−1x_{t-1}xt−1​ 来确定的。以上描述的加噪过程可以写成公式:

q(x1:T∣x):=∏t=1Tq(xt∣xt−1),q(xt∣xt−1):=N(xt;1−βtxt−1,βtI)q(x_{1:T|x_{0}}):=\prod_{t=1}^{T}q(x_{t}|x_{t-1}), \quad q(x_{t}|x_{t-1}) := \mathcal N(x_{t};\sqrt{1-\beta_{t}}x_{t-1},\beta_{t}\mathbf{I})q(x1:T∣x0​​):=t=1∏T​q(xt​∣xt−1​),q(xt​∣xt−1​):=N(xt​;1−βt​​xt−1​,βt​I)

上式的意思是:由xt−1x_{t-1}xt−1​得到xtx_{t}xt​的过程,满足分布 N(xt;1−βtxt−1,βtI)\mathcal N(x_{t};\sqrt{1-\beta_{t}}x_{t-1}, \beta_{t}\mathbf{I})N(xt​;1−βt​​xt−1​,βt​I),因此噪声只由 βT\beta_{T}βT​和xt−1x_{t-1}xt−1​来确定,是一个固定值而不是一个可学习的过程。因此,只要有了 xx_{0}x0​,并且提前确定每一步的固定值β1,...,βT\beta_{1},...,\beta_{T}β1​,...,βT​,我们就可以推出任意一部的加噪数据 x1,...,xTx_{1},...,x_{T}x1​,...,xT​。值得注意的是,这里的加噪过程是一个马尔科夫链过程,即当前状态的概率只与上一时刻有关。

加噪结果

随着 ttt 的不断增大,最终原始数据 xx_{0}x0​ 会逐步失去它的特征。最终当 T→∞T\rightarrow\inftyT→∞时,xTx_{T}xT​趋近于一个各向同性的高斯分布。从视觉上看,就是将原本一张完好的照片加噪很多步后,图片几乎变成了一张完全时噪声的图片。

任意时刻 xtx_{t}xt​的计算

逐步加噪过程中,我们其实并不需要一步步地从 x,x1,...x_{0},x_{1},...x0​,x1​,... 去迭代得到 xtx_{t}xt​。事实上,我们可以直接从 xx_{0}x0​ 和固定值序列 {βT∈(,1)}t=1T\{ \beta_{T}∈(0, 1)\}_{t=1}^{T}{βT​∈(0,1)}t=1T​直接计算得到:

q(xt∣x)=N(xt;αt‾x,(1−αt‾)I)q(x_{t}|x_{0}) = \mathcal N(x_{t};\sqrt{\overline{\alpha_{t}}}x_{0}, (1-\overline{\alpha_{t}})\mathbf{I}) \\q(xt​∣x0​)=N(xt​;αt​​​x0​,(1−αt​​)I)

上式中,αt=1−βt\alpha_{t}=1-\beta_{t}αt​=1−βt​,αt‾=∏i=1Tαi\overline{\alpha_{t}}=\prod_{i=1}^T\alpha_{i}αt​​=∏i=1T​αi​,中间推导过程不再罗列。

逆扩散过程

如果我们能够将上述过程转换方法,即从q(xt−1∣xt)q(x_{t-1}|x_{t})q(xt−1​∣xt​)中采样,那么我们就可以从一个随机的高斯分布N(,I)\mathcal N(0, \mathbf{I})N(0,I)中重建出一个真实的原始样本,也就是从一个完全杂乱无章的噪声图片中得到一张真实图片。但是,由于需要从完整数据集中找到数据分布,我们没办法简单地预测q(xt−1∣xt)q(x_{t-1}|x_{t})q(xt−1​∣xt​),因此需要学习一个模型pθp_{\theta}pθ​来近似模拟这个条件概率,从而运行逆扩散过程。

pθ(x:T):=p(xT)∏t=1Tpθ(xt−1∣xt),pθ(xt−1∣xt):=N(xt−1;μθ(xt,t),∑θ(xt,t))p_{\theta}(x_{0:T}):=p(x_{T})\prod_{t=1}^{T}p_{\theta}(x_{t-1}|x_{t}), \quad p_{\theta}(x_{t-1}|x_{t}):=\mathcal N(x_{t-1};\mu_{\theta(x_{t},t),\sum_{\theta}(x_{t},t)})pθ​(x0:T​):=p(xT​)t=1∏T​pθ​(xt−1​∣xt​),pθ​(xt−1​∣xt​):=N(xt−1​;μθ(xt​,t),∑θ​(xt​,t)​)

要点分析

正向的扩散过程:

扩散过程时逐步加噪的过程扩散过程符合马尔科夫假设每一步的噪声都是高斯噪声加噪是用方差参数来控制的(预定义的超参数)正向扩散过程属于无参模型(不需要进行学习)该过程支持在任意步长采样(方便后续的训练)

逆向的扩散过程:

从高斯噪声中采样,学习一个模型估计真实的条件概率分布(从上一状态到下一状态的条件概率模型)也可以直接计算任意状态的分布,因此可以直接采样,然后和真实图像计算均方误差用一个 U-Net 结构来对 ttt 时刻的噪声进行预测逆过程的均值需要模型预测(有参),但方差采用了常数项(无参,当然有工作将其改进成有参也同样 work)伪代码

相关论文标题简称出版评语Denoising Diffusion Probabilistic ModelsDDPMNIPS 2020开山之作Denoising Diffusion Implicit ModelsDDIMICLR 2021采样提速Improved denoising diffusion probabilistic models\ICML 2021在保证高图像质量的同时提升对数似然Diffusion Models Beat GANs on Image Synthesis\NIPS 2021Diffusion Models VS. GANs(提出了带条件的扩散模型)Classifier-Free Diffusion Guidance\NIPS 2021引入等价结构替换分类器引导Hierarchical Text-Conditional Image Generation with CLIP LatentsDALL-E 2NIPS 2022OpenAI 文本生成图像Photorealistic Text-to-Image Diffusion Models with Deep Language UnderstandingImagenNIPS 2022Google 文本生成图像High-Resolution Image Synthesis with Latent Diffusion ModelsLDMCVPR 2022采样提速参考DDPM解读(一)| 数学基础,扩散与逆扩散过程和训练推理方法diffusion model最近在图像生成领域大红大紫,如何看待它的风头开始超过GAN?基于扩散模型的文本引导图像生成算法生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼生成扩散模型漫谈(二):DDPM = 自回归式VAEDiffusion Model一发力,GAN就过时了?
本文链接地址:https://www.jiuchutong.com/zhishi/289631.html 转载请保留说明!

上一篇:黑沙滩上Reynisdrangar的玄武岩,冰岛 (© Cavan Images/Getty Images)(黑沙滩是什么意思)

下一篇:Linux查看SSH服务是否开启(linux查看ssh服务开启)

  • iphone13有红外遥控功能吗(苹果13带红外)

    iphone13有红外遥控功能吗(苹果13带红外)

  • 华为畅享10s是5g版本的手机吗(华为畅享20pro是5g手机吗)

    华为畅享10s是5g版本的手机吗(华为畅享20pro是5g手机吗)

  • 荣耀30pro如何安装双卡(荣耀30pro怎么下载软件)

    荣耀30pro如何安装双卡(荣耀30pro怎么下载软件)

  • airpods硬壳取不下来(airpods硬壳拆不下来怎么办)

    airpods硬壳取不下来(airpods硬壳拆不下来怎么办)

  • oppo语音唤醒口令(oppo手机的语音唤醒)

    oppo语音唤醒口令(oppo手机的语音唤醒)

  • 微卡口是什么意思(微型卡口)

    微卡口是什么意思(微型卡口)

  • 华为免费换膜跟出厂膜一样吗(华为免费换的膜好吗)

    华为免费换膜跟出厂膜一样吗(华为免费换的膜好吗)

  • ipad的粘贴复制不灵(ipad复制黏贴快捷键)

    ipad的粘贴复制不灵(ipad复制黏贴快捷键)

  • 红米手机有反应但屏幕不亮(红米手机有反应但屏幕黑屏舞)

    红米手机有反应但屏幕不亮(红米手机有反应但屏幕黑屏舞)

  • 华为820处理器手机有哪些(华为820处理器相当于高通什么处理器)

    华为820处理器手机有哪些(华为820处理器相当于高通什么处理器)

  • 淘宝不小心确认收货了还会送过来吗(淘宝不小心确认收货了)

    淘宝不小心确认收货了还会送过来吗(淘宝不小心确认收货了)

  • 苹果se2支持动态壁纸吗(苹果se2支持动态屏幕吗)

    苹果se2支持动态壁纸吗(苹果se2支持动态屏幕吗)

  • 罗技g402有配重块吗(罗技g403配重)

    罗技g402有配重块吗(罗技g403配重)

  • 抖音私信封禁是怎么回事(抖音账号解除封禁)

    抖音私信封禁是怎么回事(抖音账号解除封禁)

  • 微信安全辅助对自己有影响吗(微信安全辅助验证会连累自己呢)

    微信安全辅助对自己有影响吗(微信安全辅助验证会连累自己呢)

  • qq怎样发动态和空间(qq里咋发动态)

    qq怎样发动态和空间(qq里咋发动态)

  • 小米的双4g是什么意思(小米 双4g)

    小米的双4g是什么意思(小米 双4g)

  • 抖音每天关注量是多少(抖音每天关注量多少正常)

    抖音每天关注量是多少(抖音每天关注量多少正常)

  • 阿里云ecs是什么(阿里云ecs底层用的什么技术)

    阿里云ecs是什么(阿里云ecs底层用的什么技术)

  • 苹果xs怎么广角镜头(苹果xs的广角)

    苹果xs怎么广角镜头(苹果xs的广角)

  • 手机跳屏怎么解决(手机跳屏怎么修复)

    手机跳屏怎么解决(手机跳屏怎么修复)

  • surface1724是啥型号(微软surface1724是几代)

    surface1724是啥型号(微软surface1724是几代)

  • 三星手机反向充电怎么关闭(三星手机反向充电可以给苹果充电吗)

    三星手机反向充电怎么关闭(三星手机反向充电可以给苹果充电吗)

  • 富士胶片模拟怎么设置(富士胶片模拟怎么关闭)

    富士胶片模拟怎么设置(富士胶片模拟怎么关闭)

  • 苹果xs max面部识别不了(苹果xs max面部识别)

    苹果xs max面部识别不了(苹果xs max面部识别)

  • qq画画功能在哪里(qq画画图片大全)

    qq画画功能在哪里(qq画画图片大全)

  • 三星手机卡怎么装(三星手机卡怎么弄出来)

    三星手机卡怎么装(三星手机卡怎么弄出来)

  • vue3.0中setup使用(两种用法)(vue set up)

    vue3.0中setup使用(两种用法)(vue set up)

  • Chrome 浏览器获取网址映射 IP 地址 DNS 解析过程详细介绍(获取谷歌浏览器cookie)

    Chrome 浏览器获取网址映射 IP 地址 DNS 解析过程详细介绍(获取谷歌浏览器cookie)

  • 金银首饰销售需求分析
  • 企业前期开办费怎么入账
  • 投资性房地产发生减值迹象均要计提减值准备
  • 个人经营所得税减免税优惠政策
  • 增值税属于会计科目的什么
  • 代理记账公司收费项目
  • 建筑工程管理费包括哪些内容
  • 科目期初余额的录入需要从上级科目开始
  • 因保管不善,不慎遗失
  • 微信支付工资怎么做账
  • 发票复印件能报账吗
  • 土地使用权出让和划拨有什么区别
  • 个人所得税变动率计算公式为多少
  • 人工服务费发票
  • 关于非上市公司的法律
  • 设立独立核算的销售机构的筹划
  • 银行承兑 贷款
  • 借壳上市是什么意思?融资
  • 火车票飞机票进项税额怎么抵扣
  • 公司的投资额和实际不符
  • 实际出资和名义出资
  • 营改增项目
  • 解除劳动关系补偿标准
  • win10如何禁用administrator用户
  • 以前年度应收账款无法收回
  • 发工资扣的个人社保计入哪个科目
  • bios相关概念
  • 当前页面的脚本发生错误代码0没有注册类
  • 外地的社保在本地个税扣除
  • 挂账多年的往来账怎么处理
  • 公司收到预付款怎么用处去
  • php中file
  • 企业退货产生的损失谁承担
  • 视同销售收入税法处理
  • 以前年度收入如何确认收入
  • 本单位生产的水泥属于
  • yolov5输出result
  • 二手车销售发票的开具怎么处理?
  • 没有实收资本可以投资吗
  • 第一季度季初资产总额和第一季度季末同一个数吗
  • 谷歌colab免费额度
  • json_server
  • 【GoF 23】23种设计模式与OOP七大原则概述
  • 用盈余公积弥补亏损会影响所有者权益吗
  • python初学笔记
  • 或有对价的确认条件
  • 一直暂估原材料有什么风险
  • 财务报表中的净资产在哪里
  • 企业月末在产品数量变化不大时,最适宜
  • 小企业长期债券投资交易费用
  • 企业银行基本户和一般户的区别
  • 季度所得税申报表营业收入怎么填
  • 企业的项目有哪些
  • 发行股份的原则
  • 简易计税是否要计增值税
  • 银行转账费用多少钱
  • 银行支付结算管理办法
  • 资产负债表中的存货怎么算
  • 交增值税会计凭证怎么做
  • 没计提的税费怎么处理
  • 返利开红字发票怎么做账
  • 公账直接转给个人,对公司有什么影响吗
  • 代垫运杂费计入销售收入吗
  • 可以抵扣进项税的项目包括
  • 建筑公司租赁费会计分录
  • mysql5.7安装版下载
  • centos7怎么关闭端口
  • win7设置宽带拨号
  • opencvsharp读取图片
  • js中sort排序
  • ExtJS PropertyGrid中使用Combobox选择值问题
  • python numpy矩阵
  • 基于node.js的跳蚤市场网站主要内容
  • 计算天数的excel公式
  • unity如何导入资源文件
  • Android boot.img制作
  • 人脸识别身份验证
  • 贵州网上税务局官网登录
  • 出口退税申报时间是每月15号吗
  • 徐州市哪些区域有疫情
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设