位置: IT常识 - 正文

high-resolution image synthesis with latent diffusion models

编辑:rootadmin
high-resolution image synthesis with latent diffusion models

推荐整理分享high-resolution image synthesis with latent diffusion models,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

如何通俗理解扩散模型? - 知乎泻药。实验室最近人人都在做扩散,从连续到离散,从CV到NLP,基本上都被diffusion洗了一遍。但是观察发现,里面的数学基础并不是模型应用的必须。其实大部分的研究者都不需要理解扩散模型的数学本质,更需要的是对…https://zhuanlan.zhihu.com/p/563543020Stable Diffusion原理解读 - 知乎引言最近大火的AI作画吸引了很多人的目光,AI作画近期取得如此巨大进展的原因个人认为有很大的功劳归属于Stable Diffusion的开源。Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文…https://zhuanlan.zhihu.com/p/583124756

 ​​​​​Jay Alammar 再发新作:超高质量图解 Stable Diffusion ,看完彻底搞懂「图像生成」原理 - IT之家还记得火爆全网的图解 Transformer 吗?最近这位大佬博主 Jay Alammar 在博客上对大火的 Stable Diffusion 模型也撰写了一篇图解,让你从零开始彻底搞懂图像生成模型的原理,还配有超详细的视频讲解!https://www.ithome.com/0/668/981.htm

【生成模型】Stable Diffusion原理+代码_杀生丸学AI的博客-CSDN博客Stable diffusion是一个基于(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。具体来说,得益于的计算资源支持和在LAION-5B的一个子集数据支持训练,用于文图生成。通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10秒级别时间生成图片。目前,Stable Diffusion发布了v2版本。https://blog.csdn.net/qq_45752541/article/details/129082742 stable diffusion的出现极大的推动了文生图,图生图等领域的进展,我之前也解析过dalle2,文生图领域目前的论文还是非常多的,stable diffusion整体上最大的贡献还是极大的加速了diffusion的落地,扩散模型,是vae的延续,ae中的v其实就是通过kl散度来向ae中添加噪声,扩散则是就这个加噪的过程和马尔科夫过程关联起来,将加噪分步了。stable diffusion基于latent diffusion model,首先需要训练一个自编码器,包括一个编码器和一个解码器,利用编码器对图片进行压缩,然后在潜在表示空间上做diffusion操作,最后利用解码器恢复到原始像素空间即可。称之为感知压缩perceptual compression。在潜在表示空间上做diffusion操作其主要过程和标准的扩散模型没有太大的区别,所用到的扩散模型具体实现为time-conditional unet。论文为diffusion操作引入了条件机制,通过cross-attention的方式来实现多模态训练,使条件图片生成也可以实现。

结合上面的材料稍微解析一些diffusion。

上面这个是vae,vae的最大问题是变分后验,在vae中,我们先定义了右边蓝色的生成器,再学一个变分后验来适配这个生成器,先验分布是标准高斯分布。vae的生成器,是将标准高斯映射到数据样本,vae的后验是将数据样本映射到标准高斯(学出来的)。我现在想要设计一种方法A,使得A用一种简单的变分后验将数据样本映射到标准高斯,并且使得A的生成器,将标准高斯映射到数据样本,注意,因为生成器的搜索空间大于变分后验,vae的效率远不及A方法,因为A是学一个生成器(搜索空间大),所以可以直接模仿这个后验分布的一小步,A方法就是括但模型核心思路:定义一个类似于变分后验的从数据样本到高斯分布的映射,然后学一个生成器,这个生成器模仿我们定义的这个映射的每一小步。vae是数据样本->高斯->数据样本,扩散是数据样本->一小步一小步的扩散->高斯->去噪->数据样本。

abstract:通过将图片合成过程分解为顺序去噪自编码器(a sequential application of denosing autoencoders),diffusion models实现了广泛的应用。此外,dms允许一种引导机制来控制图像生成过程无须训练。但是在像素空间中运行对算力要求过高。

high-resolution image synthesis with latent diffusion models

1.introduction

        高分辨率,复杂自然场景下的图像合成目前是被scaling up likelihood-based models所主导,这些模型可能在自回归transformer中有上亿参数量。对比Gans已被证明主要局限于具有相对有限可变性的数据,他们的对抗学习过程不容易扩展到建模复杂的多模态分布。dms属于基于似然的模型类别。训练一个dms通常需要数百个gpu days,150-1000 V100 days。

        任何一个基于似然的模型,学习大致可以分为两个阶段。1.是感知压缩阶段,它会去除高频细节,但仍然学习很少的语义变化,2.实际生成模型学习数据的语义和概念组成(语义压缩)。我们将训练分为两个阶段,首先训练一个自动编码器,它提供一个低维的表示空间,在感知上等同于数据空间,其次在学习的潜在空间上训练dm,将生成模型成为潜在扩散模型ldm。这种方式的优点在于我们只需要训练通用的自动编码器一次,就可以重复用于多次dm训练。

2.methods

2.1 perceptual image compression

        由此可知,基于感知压缩的扩散模型的训练本质上是一个两阶段训练的过程,第一阶段需要训练一个自编码器,第二阶段才需要训练扩散模型本身。在第一阶段训练自编码器时,为了避免潜在表示空间出现高度的异化,作者使用了两种正则化方法,一种是KL-reg,另一种是VQ-reg,因此在官方发布的一阶段预训练模型中,会看到KL和VQ两种实现。在Stable Diffusion中主要采用AutoencoderKL这种实现。

2.2 latent diffusion models

扩散模型是一个时序去噪自编码器,其目标是根据输入xt去预测一个对应去噪后的变体,xt是输入x的噪声版本。而潜在扩散模型中引入了预训练的感知压缩模型,它包括一个编码器和一个解码器,这样在训练时就可以用编码器得到zt,从而让模型在潜在表示空间中学习。与高维空间比,降维空间更适合基于似然的生成模型,因为1.可以专注于数据的重要语义,低维空间中高频的细节被抽象掉了,2.在低维空间中可以进行更有效的计算。

2.3 条件机制

后续就是作者的一系列实验了,整体来说作者基于latent的先验自编码器,训练一个dm,发现这样做的效果也非常好。

3.图示

本文链接地址:https://www.jiuchutong.com/zhishi/299459.html 转载请保留说明!

上一篇:Vue框架背后的故事(vue框架是什么样子的)

下一篇:vue 基于el-table实现多页多选、翻页回显过程(vue el-tabs)

  • 苹果13promax怎么设置返回键(苹果13promax怎么显示电池电量百分比)

    苹果13promax怎么设置返回键(苹果13promax怎么显示电池电量百分比)

  • 实名认证有效期是什么意思(实名认证有效期多久)

    实名认证有效期是什么意思(实名认证有效期多久)

  • 微信下载不上是怎么回事(微信下载不是最新版本)

    微信下载不上是怎么回事(微信下载不是最新版本)

  • 相机大光圈什么意思(相机大光圈什么时候用)

    相机大光圈什么意思(相机大光圈什么时候用)

  • 支持pcie4.0的主板(支持pcie4.0的主板可以上pcie3.0)

    支持pcie4.0的主板(支持pcie4.0的主板可以上pcie3.0)

  • nova7pro可以无线充电吗(nova7pro可以无线充电不)

    nova7pro可以无线充电吗(nova7pro可以无线充电不)

  • word安全检查未通过怎么办(文档安全检测不通过)

    word安全检查未通过怎么办(文档安全检测不通过)

  • k歌等级的划分标准(k歌里面的等级是怎么晋级的)

    k歌等级的划分标准(k歌里面的等级是怎么晋级的)

  • 钉钉给老师点赞老师能看到吗(钉钉给老师点赞老师视角怎么看)

    钉钉给老师点赞老师能看到吗(钉钉给老师点赞老师视角怎么看)

  • 微信我的位置在哪里找(微信里面我的位置怎么找)

    微信我的位置在哪里找(微信里面我的位置怎么找)

  • 微信智慧商圈是腾讯的吗(微信智慧商圈是什么)

    微信智慧商圈是腾讯的吗(微信智慧商圈是什么)

  • 爆屏修复是什么意思(爆屏修复有用吗)

    爆屏修复是什么意思(爆屏修复有用吗)

  • 恢复出厂设置系统是新版还是旧版(恢复出厂设置系统会还原吗)

    恢复出厂设置系统是新版还是旧版(恢复出厂设置系统会还原吗)

  • 怎么增加ipad内存(如何增加ipad存储空间)

    怎么增加ipad内存(如何增加ipad存储空间)

  • 手机版优酷怎么录视频(手机版优酷怎么扫码登录的二维码在哪)

    手机版优酷怎么录视频(手机版优酷怎么扫码登录的二维码在哪)

  • 怎么找淘宝小二介入(闲鱼纠纷怎么找淘宝小二)

    怎么找淘宝小二介入(闲鱼纠纷怎么找淘宝小二)

  • 为啥抖音直播是黑屏(为啥抖音直播是开的,别人看不到)

    为啥抖音直播是黑屏(为啥抖音直播是开的,别人看不到)

  • 三线式表格怎么做(三线式表格怎么调节)

    三线式表格怎么做(三线式表格怎么调节)

  • 抖音直播怎么关礼物特效(抖音直播怎么关闭同城不让同城看见)

    抖音直播怎么关礼物特效(抖音直播怎么关闭同城不让同城看见)

  • 全文数据库英文缩写(全文数据库英文名称)

    全文数据库英文缩写(全文数据库英文名称)

  • iphone面容坏了能修吗(iphone面容坏了能买吗)

    iphone面容坏了能修吗(iphone面容坏了能买吗)

  • adsb是什么(ads是什么意思?)

    adsb是什么(ads是什么意思?)

  • 抖音dou速推技巧(抖音dou速推太坑)

    抖音dou速推技巧(抖音dou速推太坑)

  • 苹果x省电技巧(苹果x省电设置教程)

    苹果x省电技巧(苹果x省电设置教程)

  • notability如何分屏(notability如何分级列表)

    notability如何分屏(notability如何分级列表)

  • hisiri是什么意思(hisin什么意思)

    hisiri是什么意思(hisin什么意思)

  • 怎样熟悉电脑键盘(怎样熟悉电脑键盘的位置)

    怎样熟悉电脑键盘(怎样熟悉电脑键盘的位置)

  • 微软正式宣布 Windows11:全新居中“开始”菜单,动态磁贴没了(微软正式宣布收购动视暴雪)

    微软正式宣布 Windows11:全新居中“开始”菜单,动态磁贴没了(微软正式宣布收购动视暴雪)

  • 苹果14pro真实图片(苹果14pro真实图片发朋圈)

    苹果14pro真实图片(苹果14pro真实图片发朋圈)

  • python中断言的使用注意(python 断言)

    python中断言的使用注意(python 断言)

  • 税控盘开票软件访问数据库错误
  • 2023年印花税税率口诀
  • 车船税退税办理时限
  • 提供劳务代扣的发票
  • 缴个人所得税分录怎么写
  • 财务软件增值税
  • 存货报废进项是否要转出
  • 平台收取的佣金开具什么发票
  • 税款必须要15号之前交吗
  • 固定资产装修费用计入房产税吗
  • 一般纳税人利润100万要交多少税
  • 金税盘发票打印不全
  • 想要自己开厂应该怎么做
  • 车辆购置税如何查询
  • 股息红利所得如何缴纳个人所得税
  • 2021留美学生签证
  • 向投资者借款做在什么科目
  • 事业单位库存现金
  • 幼儿园开学费发票内容
  • 免交的增值税计入什么科目
  • 公司技术服务部是干嘛的
  • 总额法和净额法哪个合理
  • 房屋出租何时缴纳房产税?
  • 工商注销债务承担
  • 备抵法计提坏账准备的公式
  • Win10怎么显示文件类型
  • 财务费用利息收入怎么结转
  • 台式机用win7
  • php7 数组
  • 事业单位结息会降薪吗
  • 基于Selenium的自动化测试平台设计与实现
  • yolov5 output
  • PyTorch深度学习实战 | 基于ResNet的人脸关键点检测
  • php递归函数详解
  • 罚款是否需要开证明
  • 公司与公司往来账表格怎么制作
  • 营改增后不得抵扣的进项税额
  • 手机话费怎么打发票
  • 汽车进项税什么时候抵扣
  • 长期股权投资的交易费用计入哪里
  • 保险车辆理赔入账流程
  • 固定资产办理竣工结算之后的处理方式
  • sql共享
  • 小规模纳税人税率1%政策到什么时候
  • 什么叫做增值税的新增价值呢
  • 为什么小规模不可以收专票
  • 支出记账凭证单手写
  • 机动车临时号牌怎么贴
  • 农产品投入产出法怎么计算
  • 固定资产融资租出对应入账科目
  • 哪些费用可以入开办费
  • 普通发票的开具是怎样?
  • 应税销售行为如何处理
  • 软件租赁费入什么账户
  • 进项税额允许抵扣分录
  • 怎样破解bios密码
  • 怎么操作win10系统
  • windows vista秘钥
  • window10玩英雄联盟卡顿怎么办
  • ghost 硬盘对考
  • win10预览版bug
  • windows10 upnp
  • 怎样取消进windows 密码
  • ubuntu 18.04怎么用
  • win8商店还能用吗
  • xp启用telnet
  • centos chrony
  • Windows7如何查看电脑配置
  • win10系统无法启动
  • 电脑win10显卡驱动
  • es6 commonjs
  • material design admin
  • android用eclipse
  • unity2d的小游戏
  • 重庆电子税务局官网登录入口
  • 税务稽查总队
  • 上海增值税怎么报税流程
  • 湖北省地税局稽查局
  • 利润表研发费用项目应根据管理费用
  • 注册海外公司如何注册
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设