位置: IT常识 - 正文

理解DALL·E 2, Stable Diffusion和 Midjourney工作原理

编辑:rootadmin
理解DALL·E 2, Stable Diffusion和 Midjourney工作原理

推荐整理分享理解DALL·E 2, Stable Diffusion和 Midjourney工作原理,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

编者按:随着AIGC的兴起,各位小伙伴们对文生图工具DALL-E 2、Stable Diffusion和Midjourney一定并不陌生。

本期IDP Inspiration,小白将和大家一同走进这三者背后的技术原理,一探究竟。

以下是译文,Enjoy!

作者 | Arham Islam

编译 | 岳扬

在过去的几年里,人工智能(AI)取得了极大的进展,而AI的新产品中有AI图像生成器。这是一种能够将输入的语句转换为图像的工具。文本转图像的AI工具有许多,但最突出的就属DALL-E 2、Stable Diffusion和Midjourney了。

DALL·E 2及其背后的技术

DALL-E 2由OpenAI开发,它通过一段文本描述生成图像。其使用超过100亿个参数训练的GPT-3转化器模型,能够解释自然语言输入并生成相应的图像。

一幅描述篮球运动员灌篮的油画,具有星云爆炸的效果 - 图片由DALLE 2创作

DALL-E 2主要由两部分组成——将用户输入转换为图像的表示(称为Prior),然后是将这种表示转换为实际的照片(称为Decoder)。

Source: https://www.youtube.com/watch?v=F1X4fHzF4mQ

其中使用到的文本和图像嵌入来自另一个叫做CLIP(对比语言-图像预训练)的网络,这也是由OpenAI研发的。CLIP是一种神经网络,为输入的图像返回最佳的标题。它所做的事情与DALL-E 2所做的相反——它是将图像转换为文本,而DALL-E 2是将文本转换为图像。引入CLIP的目的是为了学习物体的视觉和文字表示之间的联系。

CLIP - 为图像返回最佳的文本

DALL-E 2的工作是训练两个模型。第一个是Prior,接受文本标签并创建CLIP图像嵌入。第二个是Decoder,其接受CLIP图像嵌入并生成图像。模型训练完成之后,推理的流程如下:

输入的文本被转化为使用神经网络的CLIP文本嵌入。

使用主成分分析(Principal Component Analysis)降低文本嵌入的维度。

使用文本嵌入创建图像嵌入。

进入Decoder步骤后,扩散模型被用来将图像嵌入转化为图像。

图像被从64×64放大到256×256,最后使用卷积神经网络放大到1024×1024。

Stable Diffusion及其技术

Stable Diffusion是一个文转图的模型,其使用了CLIP ViT-L/14文本编码器,能够通过文本提示调整模型。它在运行时将成像过程分离成“扩散 (diffusion)”的过程——从有噪声的情况开始,逐渐改善图像,直到完全没有噪声,逐步接近所提供的文本描述。

一个可以看到埃菲尔铁塔的皮卡丘高级餐厅 - 图片由Stable Diffusion生成

Stable Diffusion是基于Latent Diffusion Model(LDM)的,LDM是一款顶尖的文转图合成技术。在了解LDM的工作原理之前,让我们先看看什么是扩散模型以及为什么我们需要LDM。

扩散模型(Diffusion Models, DM)是基于Transformer的生成模型,它采样一段数据(例如图像)并随着时间的推移逐渐增加噪声,直到数据无法被识别。该模型尝试将图像回退到原始形式,在此过程中学习如何生成图片或其他数据。

DM存在的问题是强大的DM往往要消耗大量GPU资源,而且由于序列化评估(Sequential Evaluations),推理的成本相当高。为了使DM在有限的计算资源上进行训练而不影响其质量以及灵活性,Stable Diffusion将DM应用于强大的预训练自动编码器(Pre-trained Autoencoders)。

在这样的前提下训练扩散模型,使其有可能在降低复杂性和保留数据细节之间达到一个最佳平衡点,显著提高视觉真实程度。在模型结构中引入交叉注意力层(cross attention layer),使扩散模型成为一个强大而灵活的生成器,实现基于卷积的高分辨率图像生成

Midjourney及其是如何工作的理解DALL·E 2, Stable Diffusion和 Midjourney工作原理

Midjourney也是一款由人工智能驱动的工具,其能够根据用户的提示生成图像。MidJourney善于适应实际的艺术风格,创造出用户想要的任何效果组合的图像。它擅长环境效果,特别是幻想和科幻场景,看起来就像游戏的艺术效果。

夜晚的云端城堡,电影般的画面 - 图片由Midjourney生成

Midjourney也是一个人工智能图像生成工具,它通过输入文本和参数,并使用在大量图像数据上训练出的机器学习(ML)算法来生成独一无二的图像。

Midjourney目前只能通过其官方Discord上的Discord机器人使用。用户使用“/imagine”命令生成图像,并像其他AI图像生成工具一样输入命令提示。然后机器人会返回一张图片。

DALL·E 2, Stable Diffusion 和 Midjourney之间的比较

DALL-E 2使用数以百万计的图片数据进行训练,其输出结果更加成熟,非常适合企业使用。当有两个以上的人物出现时,DALL-E 2产生的图像要比Midjourney或Stable Diffusion好得多。

而Midjourney则是一个以其艺术风格闻名的工具。Midjourney使用其Discord机器人来发送以及接收对AI服务器的请求,几乎所有的事情都发生在Discord上。由此产生的图像很少看起来像照片,它似乎更像一幅画。

Stable Diffusion 是一个开源的模型,人人都可以使用。它对当代艺术图像有比较好的理解,可以产生充满细节的艺术作品。然而它需要对复杂的prompt进行解释。Stable Diffusion比较适合生成复杂的、有创意的插图。但在创作一般的图像时就显得存在些许不足。

下面的prompt有助于了解每种模型的相似性和差异。

参考资料

https://medium.com/mlearning-ai/dall-e2-vs-stable-diffusion-same-prompt-different-results-e795c84adc56

https://medium.com/geekculture/what-is-dalle-2-what-to-know-before-trying-the-groundbreaking-ai-e7a585f2edf0

https://stability.ai/blog/stable-diffusion-public-release

https://www.dexerto.com/entertainment/what-is-midjourney-new-ai-image-generator-rivals-dall-e-1864522/

https://medium.com/nightcafe-creator/stable-diffusion-tutorial-how-to-use-stable-diffusion-157785632eb3

https://interestingengineering.com/innovation/stability-ai-uses-latent-diffusion-models-to-allow-users-to-create-art-in-stable-diffusion

https://medium.com/augmented-startups/how-does-dall-e-2-work-e6d492a2667f

https://medium.com/codex/a-quick-look-under-the-hood-of-stable-diffusion-open-source-architecture-2f07fc1e729

https://stepico.com/blog/midjourney-as-an-artificial-intelligence-system/

https://www.dexerto.com/entertainment/what-is-midjourney-new-ai-image-generator-rivals-dall-e-1864522/

https://petapixel.com/2022/08/22/ai-image-generators-compared-side-by-side-reveals-stark-differences/

https://analyticsindiamag.com/stable-diffusion-vs-midjourney-vs-dall-e2/

https://medium.com/mlearning-ai/dall-e-2-vs-midjourney-vs-stable-diffusion-8eb9eb7d20be

IDP-Inspiration是IDP常设专栏。在这里,我们会分享国内外数据科学家和算法工程师在实战中总结的宝贵经验,为想要从事数据科学和AI开发生产相关工作的小伙伴提供借鉴!

AI相关技术投稿,请联系Alex@baihai.ai

本文链接地址:https://www.jiuchutong.com/zhishi/300262.html 转载请保留说明!

上一篇:Vue路由守卫(通俗易懂)(vue路由守卫用法)

下一篇:AIGC之GPT-4:GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议)、使用方法、案例应用(计算能力/代码能力/看图能力等)之详细攻略

  • 微信在哪设置语音通话铃声(微信在哪设置语言)

    微信在哪设置语音通话铃声(微信在哪设置语言)

  • 共享文档多人编辑如何设置权限(共享文档多人编辑)

    共享文档多人编辑如何设置权限(共享文档多人编辑)

  • 手机屏幕怕压吗(手机屏幕怕压吗?)

    手机屏幕怕压吗(手机屏幕怕压吗?)

  • 淘宝新开店铺怎么增加流量(淘宝新开店铺怎么破零)

    淘宝新开店铺怎么增加流量(淘宝新开店铺怎么破零)

  • 小米体脂称2和1的区别(小米体脂称2和云麦好轻mini2哪个好)

    小米体脂称2和1的区别(小米体脂称2和云麦好轻mini2哪个好)

  • 华为p30pro怎么连接自拍杆(华为p30pro怎么连接蓝牙耳机)

    华为p30pro怎么连接自拍杆(华为p30pro怎么连接蓝牙耳机)

  • 苹果imac死机怎么办(mac苹果电脑死机)

    苹果imac死机怎么办(mac苹果电脑死机)

  • 相机ios是什么意思(手机相机ios0是什么功能)

    相机ios是什么意思(手机相机ios0是什么功能)

  • 华为mate20pro充电发烫(华为mate20pro充电器多少w)

    华为mate20pro充电发烫(华为mate20pro充电器多少w)

  • 微信插件怎么打开(微信插件怎么打开附近的人)

    微信插件怎么打开(微信插件怎么打开附近的人)

  • wps单倍行距是多少(wps2019单倍行距怎么设置)

    wps单倍行距是多少(wps2019单倍行距怎么设置)

  • 电脑连不了wi-fi是什么原因(怎么电脑连不了wifi)

    电脑连不了wi-fi是什么原因(怎么电脑连不了wifi)

  • 华为p40的隐藏空间怎么打开(华为p40隐藏挖空)

    华为p40的隐藏空间怎么打开(华为p40隐藏挖空)

  • 手机没信号可以打通110吗(手机没信号可以收到短信吗)

    手机没信号可以打通110吗(手机没信号可以收到短信吗)

  • 剪映能做多长的视频(剪映能做多长的视频放微信)

    剪映能做多长的视频(剪映能做多长的视频放微信)

  • 小工具在哪里找(荣耀50窗口小工具在哪里找)

    小工具在哪里找(荣耀50窗口小工具在哪里找)

  • 为什么加不了群(为什么我加不了微信群)

    为什么加不了群(为什么我加不了微信群)

  • windows版本有哪些(windows的所有版本)

    windows版本有哪些(windows的所有版本)

  • 网速1mbps能看视频吗(上网速率1mbps能正常看电视剧吗)

    网速1mbps能看视频吗(上网速率1mbps能正常看电视剧吗)

  • 华为手机激活后能退吗(华为手机激活后还能退吗)

    华为手机激活后能退吗(华为手机激活后还能退吗)

  • 为什么b站下载的视频没有声音(为什么b站下载的视频在手机上找不到)

    为什么b站下载的视频没有声音(为什么b站下载的视频在手机上找不到)

  • 好友热播榜如何取消(好友热播是什么)

    好友热播榜如何取消(好友热播是什么)

  • 钉钉怎么看加班总数(钉钉怎么看加班调休)

    钉钉怎么看加班总数(钉钉怎么看加班调休)

  • 蓝牙耳机和无线耳机的区别(蓝牙耳机和无线耳机哪个好)

    蓝牙耳机和无线耳机的区别(蓝牙耳机和无线耳机哪个好)

  • 手机录屏有声音吗(怎么让手机录屏有声音)

    手机录屏有声音吗(怎么让手机录屏有声音)

  • 拼多多会员名怎么查(拼多多会员名是昵称吗)

    拼多多会员名怎么查(拼多多会员名是昵称吗)

  • 医院微信退款多久到账(医院微信退款多久到账户)

    医院微信退款多久到账(医院微信退款多久到账户)

  • 快手推广作品别人知道吗(快手推广作品别人能看到推广两字吗)

    快手推广作品别人知道吗(快手推广作品别人能看到推广两字吗)

  • 扫描件打印出来和原件一样吗(扫描件打印出来和复印件有区别吗)

    扫描件打印出来和原件一样吗(扫描件打印出来和复印件有区别吗)

  • 把手机卡取出打电话会提示什么(把手机卡取出打不通电话)

    把手机卡取出打电话会提示什么(把手机卡取出打不通电话)

  • 新网的云主机和云虚机的区别(新网的云主机和什么连接)

    新网的云主机和云虚机的区别(新网的云主机和什么连接)

  • gracl00是华为的那款(华为gra-cl00是什么型号多少钱)

    gracl00是华为的那款(华为gra-cl00是什么型号多少钱)

  • DedeCms织梦使用关键词关连文章的方法(织梦cms要钱吗)

    DedeCms织梦使用关键词关连文章的方法(织梦cms要钱吗)

  • 外购产品视同自产产品办理免抵退税的条件?
  • 什么是增值税的混合销售行为
  • 个税申报本期收入指的是
  • 个税退税需要交税吗
  • 成本票和进项票怎么区分
  • 农产品抵扣计算题
  • 税控盘怎么注销需要带什么东西
  • 不动产租赁发票怎么开
  • 土地使用权评估原则
  • 企业前期开办费没有发票怎么入账
  • 企业基本医疗保险和综合医疗保险
  • 现金支付用什么科目
  • 应付职工薪酬如何填列
  • 签订设备维修合同会计分录
  • 营业外收入个税手续费返还
  • 过渡期申报什么意思
  • 纳税人登记为一般纳税人后一律不得转为小规模纳税
  • 雇佣临时工发生意外能追房东赔偿吗
  • 个人转让住房要交哪些税费?
  • 个体户收入总额是含税还是不含税
  • abs应付债券
  • 土地出让金抵减增值税账务处理
  • 冲销坏账怎么做分录
  • 非营利组织企业所得税政策
  • 出口0税率是免抵退还是免税
  • 融资性售后回租承租方为什么不交税
  • 企业公示啥意思
  • linux的安装和使用
  • 前端字符长度限制
  • “网络爬虫”
  • 业务招待费超出部分纳税调增分录
  • 小企业会计准则
  • zendstudio怎么创建php项目
  • thinkphp框架入门
  • vue知识点汇总
  • php date()
  • 在php中,字符串有哪些表示形式
  • 代理业务怎么记账
  • 行政事业单位其他应收款核销分录
  • 制造费用的主要内容
  • 理财产品的分红和收益是分开的吗
  • 股东分红的会计分录怎么做
  • 营改增方案
  • 个人对企业的例子
  • 工程外经证预缴税款计税方法
  • 品种法分批法分步法的区别
  • 印花税记入哪个费用
  • 交易性金融资产入账价值怎么计算
  • 疫情防控重点保障物资生产企业可以按月
  • 融资租入固定资产的入账价值
  • 取得与收益相关的政府补助计入什么科目
  • 防伪标内容
  • 研发费用辅助账模板 税务局
  • 电子发票怎么会失效
  • 邮件远程控制
  • 安装软件报错1606
  • win10系统运行速度慢
  • LINUX系统下MySQL 压力测试工具super smack
  • win8开始菜单在右边
  • win8.1使用技巧大全
  • win7如何获取管理员密码
  • unity加密解决方案
  • VS2013 OpenGL MFC 编程问题
  • 帝国cms列表页隐藏部分文章
  • js两个函数互相调用
  • android adbd
  • html超链接打开本地文件
  • javascript添加元素
  • js 入门
  • python获取数据的方法
  • android实现底部菜单
  • 浏览器判断手机品牌
  • js判断设备
  • 北京地税税务总局官网
  • 注销一般户需要基本户的开户许可证吗
  • 单位医保账号怎么注销掉
  • 进口完税价格包括哪些部分
  • 什么叫发票信息对比
  • 厂房房产税2021年税率
  • 无锡国税电子发票怎么开
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设