位置: IT常识 - 正文
推荐整理分享当下最强的 AI art 生成模型 Stable Diffusion 最全面介绍(最强alpha什么意思),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:最强大的ai,2021最强apu,最强大的ai,最强大的ai,最强的archer,目前最强的ai,目前最强apu,目前最强apu,内容如对您有帮助,希望把文章链接给更多的朋友!
目录
模型生成效果展示(prompt 全公开)
如何注册 Stable Diffusion 使用
SD(dreamstudio.ai )的收费标注如何
SD 提供哪些参数可以设置
如何使用种子来改进一张作品
我用 SD 创作的图片著作权如何归属,可以拿来商用吗?
Stable Diffusion 背后的研发团队
SD 是如何训练出来的?
SD 是开源的吗?
SD 未来有哪些可期待的亮点
附录:一些有用的资源
从本月初开始拿到 Stable Diffusion 的内测资格,我就再也没有打开过沉迷许久的 Disco Diffusion。
五天前,被视为当下最强的 AI 图像生成器的 Stable Diffusion 正式对公众开放,通过网站注册即可使用,提供了简洁、友好的 UI 交互,相比 DD 大大降低了 AI 图像创作工具的使用门槛和难度。而且生成速度快,生成的图形各方面表现都非常优秀。除了要花钱,简直没缺点啦。
不想花钱?还有好消息:SD 同时正式开源了代码、模型和权重参数库,部署到自己本地的 GPU上就等于免费啦。
先看效果。以下图像都是 Stable Diffusion 直出,无任何后期。Prompt 在图的下方。其中 7 张作品由某不愿意透露姓名的高手提供,感谢他授权并愿意分享宝贵的 prompt。
PS. 如所有的 AI 生成模型的效果演示,下列图像都经过了 cheery pick,从同一个 prompt 的 4~10 次生成结果中挑选出了最令我满意的一张。
先来看几种常见的艺术媒介:
黑白版画,无论是主题的准确性、氛围感、生物体和建筑体结构,还是构图、笔触肌理、光影对比,都接近完美。
black and white illustration of bloodborne, close-up street view of a victorian town at night, horrible, moon rising, by bernie wrightson, by dan mumford, by aaron horkey, cross hatching, high contrast, super detailed, minimalist composition, 4k
illustration print of horse head sculpture, super detailed, by dan mumford, by aaron horkey, high contrast, low poly style
a bear stealing food from a cooler beside camping fire, black and white engraving printmaking, cross hatching
水彩,cold pressed 水彩纸的纹理也还原得很清楚。
fine watercolor painting portrait of beautiful girl holding a lazy cat, neat, elegant, by ilya kuvshinov, by ben quilty, by hikari shimoda
厚涂油画
thick coated oil painting close-up portrait of sad boy, by ben quilty, by hikari shimoda
艺术家,用 SD 创作的《席勒的自画像》,prompt 只用了 5 个词,第一次就跑出了颇为惊人的成果。跟年轻时的席勒颇为相像,也继承了其油画作品中标志性的笔触和用色,除了缺失一些表现主义的扭曲与癫狂感。
Self-Portrait by Egon Schiele
席勒及其原作
艺术风格
Stable Diffusion 生成荷兰黄金时代的静物油画——公牛头骨。
a bull skull, Dutch Age, oil on canvas, super detailed, high saturation, Golden ratio, centered and symmetrical composition
1628 年荷兰黄金时代的静物画,大都会博物馆馆藏 Pieter Claesz, Still Life with a Skull and a Writing Quill
风光摄影类作品的生成,(低分辨率)糖水片随便出啦。
a beautiful landscape photography of snow covered Rocky mountains, a dead intricate tree in the foreground, sunset, dramatic lighting, by Marc Adamus
建筑和风景画题材,无论是哥特小镇的夜景,还是中国古建筑的雪景,都能驾驭。
illustration of close-up street view of gothic town, night, by peter mohrbacher, by alex andreev, by jacek yerka, large depth of field, super detailed, digital art, trending on artstation, minimalism
winter winter winter winter a chinese temple building on hill and cliff with many peach trees blossoms, on himalayas, fantasy scene, fairy particle, illustration comic manga painting of road environment : 6 fantasy environment, digital painting, volumetric lighting by feng zhu, 3d alejandro alvarez alena aenami artworks in 4 k beeple, by thomas kinkade hearstone league of legends dofus overwatch(匿名高手作品)
宏大场景的渲染
military base,cybernetic baroque centipede cyborg urban epic scene + wall is berlin iron, inside organic robotic tubes and parts + translucent surface, German Third Reich army cyberpunk 2077+ Intricate Details, Hyperrealism, Wet, unreal engine, 3d, reflections + by Arsen Asyrankulov and Liudmila Kirdiashkina (匿名高手作品)
Hyper detailed painting of a cyberpunk cyberpunk cyberpunk TRAIN STATION, epic angle , ribcage skeleton symmetrical artwork, Hell of fire,3d with depth of field, blurred background, translucent, nautilus, energy flows of water and fire. a highly detailed epic cinematic concept art CG render. made in Maya, Blender and Photoshop, octane render, excellent composition, cinematic dystopian brutalist atmosphere, dynamic dramatic cinematic lighting, aesthetic, very inspirational, arthouse. y Greg Rutkowski, Ilya Kuvshinov, by James Jean and dan mumford (匿名高手作品)
3D 渲染类,浮雕徽章,皇冠,珠宝,水中的烟雾状蓝色墨水
fine silver badge, baroque pattern, relief angry cat, medieval, merchandise display, photorealistic, hyper realistic, octane render
fine golden crown, baroque pattern, merchandise display, photorealistic, hyper realistic, dramatic and epic, octane render
close-up maximalist rendering of lizard shape jewelry, rubies, gold, diamonds, obsidian, sapphires, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed, fluid dark metal
full display of baroque style jewelry design, a pair of earrings, blue gemstones with different saturation winged butterflies and pear shaped diamonds, roses sharp, highly detailed vray render, flash (匿名高手作品)
rendering of blue ink in clear transparent water, smoke
数字插画类
the last spaceship passing through the dark wormhole, dark and deathful, by kilian eng
the last supergigantic spaceship floating across the gate of wormhole, dark and deathful, by kilian eng
close-up maximalist illustration of panther, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed, hd wallpaper, digital art
close-up maximalist illustration of black panther, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed
maximalist close-up illustration cat portrait like nobility, royal cat queen portrait, aristocratic dress, by makoto shinkai, by akihiko yoshida, by james jean, super detailed, fluid dark metal
close-up maximalist illustration of lion, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed
close-up maximalist illustration of lion, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed
被视为 AI 图像生成之皇冠明珠的肖像画,Stable Diffusion 也充分胜任。无论侧视,¾ 视图还是正面肖像,无论插画、动漫、水彩等手绘抽象风格,还是照片类高仿真度的光影渲染,无论男女老幼,无不游刃有余,且在艺术感和风格多样性上远超 DALL·E。
maximalist close-up illustration side - view portrait of a beautiful elegant graceful girl, nautilus, long curls hairstyle, dressing with blue sea wave, art by james jean, bexquisite details, undersea background, golden ratio composition
maximalist close-up portrait illustration of a beautiful elegant cool siren, long curly hairstyle, dressing with blue sea wave and golden fish, art by james jean, by makoto shinkai, by agnes lawrence pelton, golden ratio composition,super detailed
maximalist close-up watercolor of a cool youth queen portrait with vintage golden crown, long curly hairstyles, with death rose and sea wave background, by makoto shinkai, art by james jean, by agnes lawrence pelton, exquisite details,golden ratio composition
close-up side view portrait of cyborg geisha, super intricate ornaments artwork by tooth wu and wlop, by alena aenami, by alphonse mucha, by brian froud, by pablo amaringo, super detailed, large depth of field
portrait of anime feminine long hair silver hair young man in suit, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)
portrait of anime feminine long silver hair young man in suit, epic pose, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)
portrait of anime muscular young man in armor, epic pose, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)
名人肖像生成是颇有争议的功能,DALL·E 等大厂都对人名设置了输入过滤器。但 stability.ai 对此秉承一个开放的态度。在 prompt 里输入名人,如神奇女侠 Gal Gadot,SD 能够准确生成对应的脸部。
portrait painting of beautiful Gal Gadot as a Mermaid, undersea, super real, highly detailed face, realistic face, beautiful detailed eyes, fantasy art, sharp focus, front light
如何注册 Stable Diffusion 使用从 7 月 30 日开始,Stability.ai 通过 waitlist 申请名单,共分 4 波邀请了 15000 名用户参与了内测。内测持续了约三周时间,在一个 Discord 群组中进行,跟 Midjournet 的服务模式一样。群组中共有 50 个创建通道。所有人只要输入 !dream + prompt + 参数 就发起了一次图片生成请求(免费的),几秒钟内 discord bot 就会将结果图片呈现给你。没有跟 bot 的私有对话通道,这意味着所有人的 prompt 及对应结果都是公开的。你可以看到所有参与测试用户进行的创作实验。
8 月 9 日,内测用户达到一万人时,SD 发布了discord 内的活跃数据:每秒钟有 20 张图片生成,每天一千七百万张,平均每人每天生成了 170 张图片,相当疯狂。
8 月 13 日,第一阶段内测 (使用 discord bot 功能)关闭,不再接受新的申请。
8 月 20 日,Stability.ai 宣布第一阶段内测正式结束,discord bot 服务关闭。Stable Diffusion 的服务转移到网页,正式对公众开放。当然,免费午餐也结束了。
现在,所有人注册账号就可以在网页上使用。既然是网页服务,在手机、平板、任何操作系统都可以使用哦
https://beta.dreamstudio.ai/
Stable Diffusion (dreamstudio.ai )的收费标注如何所有新注册的用户都能免费获赠价值两英镑的 200 个点数。每次标准生成耗费 1 个点数。
1 次标准生成指的是生成单张 尺寸为 512*512,Steps 为 50 的图片。如果你想要提高步数和尺寸,所消耗的点数将成倍增加。
参考官网给出的下表可见,最小尺寸 512*512 的图像,如把 steps 设为 150,消耗的点数为 3,价值 0.03 英镑。而最大尺寸最高步数的单张图片生成将消耗 28.2 点数,价值为 0.28 英镑。
相比同类服务的收费:
DALL·E 的定价是 美元 15 刀,115 次生成。每次生成请求会返回 3~4 张 1024*1204 尺寸的结果图片,每次耗费 0.13 美元,约等于 0.11 英镑。
Midjournet 则为按月订阅收费,个人用户有每月 10 美元和 30 美元两档,分别对应 200 和 900 次标准生成或放大请求(1 次标准生成请求对应 1 GPU minute,在 fast 模式下。每次生成会获得四张 256*256 的初始结果,你可以选择放大,每次放大也耗费 1 GPU min)。超过限额后,每 60 GPU min 售价 4 美元。但使用这两档订阅服务,你的 prompt 和结果图片都将暴露在十分混乱的公共频道中,除非你每月再画上个 20 美元才能享有私密的服务通道。
有人可能会认为生成大尺寸图片,Stable Diffusion 的定价看起来太贵。但这三种生成模型的结果图片尺寸并不能简单换算,也并不完全等同于画质。
我的实验经验表明,对于 Stable Diffusion,想要生成大尺寸图片,将图片高度和宽度的设置拉到最高 1024px 并非一个好的选择。如 512*768 的尺寸生成的人像,很可能出现上下两张脸。768*512 的横幅尺寸生成的景观画,也一定概率会在地平线上横排出两个主题对象。目前我大部分较好构图的结果都是使用默认尺寸 512*512 生成的,这跟模型的算法相关。
beautiful portrait by Karol Bak, sci-fi, digital art
a beautiful landscape photography of mountains, a dead intricate tree in the foreground, sunset, dramatic lighting, by Marc Adamu
从画质和细节丰富程度上比较,Stable Diffusion 的 512*512 毫不逊色于 DALL·E 2 的 1024*1024。而 Midjournet 的画质和噪点问题则一直是社区诟病的 (新算法版本中已有很大改善)。
Stable Diffusion 提供哪些参数可以设置
不像 Disco Diffusion 需要掌握对 20~30 个参数的学习和实践运用,SD 只提供了 7 个可设置的参数,非常简单。
长宽尺寸:并不是数值越大效果越好,长宽的理想范围都是在 512~768 px 之间,除非你想要的生成效果不在乎主题对象的重复出现。希望获得更高分辨率的图片,最好还是先用 SD 生成以后,再寻找合适的模型进行 upscale。
CFG scale,类似 DD 里的 CGS 参数。越高的数值会让生成结果跟 prompt 匹配度更高,同时也会让结果图片的饱和度和对比度更高,颜色更平滑,纹理更少。但高于 20 后会出现不良效果。
Steps:diffusion model 生成图片的迭代步数,每多一次迭代都会给 AI 更多的机会去比对 prompt 和 当前结果,去调整图片。更高的步数需要花费更多的计算时间,也相对更贵。但不一定意味着更好的结果。当然迭代步数不足(少于 50)肯定会降低结果的图像质量。
Number of images: 每次 prompt 指令生成多少张图片结果供选择。4 张是一个比较理想的选择,因为 stable diffsuion 的种子随机性很强,同一批返回结果里可能有好有坏,差距很大。当然选择生成的数量越多,计算时间就越长,每多一张就要多花一张的 credit。
black and white pen illustration a running cat, super detailed, by dan mumford, by aaron horkey, high contrast
Sampler:扩散去噪算法的采样模式。两个带 _ancestral 的,可能会带来不一样的效果,ddim 和 plms 的结果差异会很大,其它留给你们自己去实验咯。
共有如下几种可供选择:ddim, plms, k_euler, k_euler_ancestral, k_heun, k_dpm_2, k_dpm_2_ancestral, k_lms
推友 @Erblicken 给出了他的实验结果
Seed:生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。所以同样的 prompt + 同样的参数设置 + 同样的种子,每次生成都会得到几乎一模一样的结果图像。如何运用种子,对于当前可玩参数较少的 SD 而言,成了最有意思的部分。
如何使用种子来改进一张作品@bartman081523 使用同一个种子 14586 生成的一组图片,每张轻微替换了 prompt 中的一两个关键字。实验结果很明显,锁定一个种子后再调整 prompt,可以保持构图、布局大致相同,在细节和色调上带来变化。
prompt: countryside in japan, sunrise, foggy | midday | evening, cloudy | night,trees, mountains, watercolor-wash
胖手AI艺术家和菜头使用同一个种子,每次更换 prompt 中的年龄,得到了一个女人从半岁到 200 岁,各个年龄段的照片,合成的 gif(最后一张 3934… 岁,一个非常大的数字,和菜头表示 “SD 证明了人类有轮回”……)。
@WeirdStableAI 用同一个种子做了 47 次生成,每次更换了 prompt 艺术风格/流派 修饰词,得到了有趣的结果对照。
https://pbs.twimg.com/media/FZrVDVaXEAwnTYG?format=jpg&name=4096x4096 高清原图
所以如果你从一次 prompt 里得到了一个布局、构图和主题都很满意的结果,可以把种子 copy 下来,用于下一次生成。
关闭 Random Seed 随机种子按钮,在输入框里粘贴种子,再根据需要调整 prompt 或参数,这样就能对结果图片进行持续的调整或优化。
经过测试,可以对结果有影响的 prompt 调整,除了替换部分关键字,还包括:更改关键词的排序,修改分隔逗号,改变修饰词(例如,把 by xx艺术家 改为 in the style of 或 art by) 等,都是值得尝试的技巧。
还有一个比较 hack 的技巧,是在你想强调的关键词上加多组小括号,括号越多,对这个关键词的强调越重。不一定对所有 prompt 都有效。下面是我做的一个实验:锁定种子后,使用同一个 prompt :
Close-up side view portrait of Cyborg Geisha, rotobic, Machina, super intricate ornaments artwork, by Tooth Wu and wlop, by Alena Aenami, by Alphonse Mucha, by Brian Froud, by Pablo Amaringo, super detailed, large depth of field
从上到下,图 1~4,我分别给 Geisha (艺妓) 这个关键字添加了 0、2、4、7 组小括号,像这样写:
Close-up side view portrait of Cyborg (((((((Geisha)))))))) , rotobic, Machina, super intricate ornaments artwork ……
明显可见,图4 呈现了更多的人脸,更多更准确的五官细节,而 Cyborg, rotobic, Machina 这些修饰词的比重下降了。
除了小括号之外,你还可以试试对关键词添加多组单引号或双引号。
在使用锁定种子这一技巧时需要注意,种子确定噪音的初始状态,所以对尺寸设置做任何改变后,同一个种子就无法重复了。
如果 SD 运行的版本有所不同,种子也可能失效。
我用 Stable Diffusion 创作的图片著作权如何归属,我可以拿来商用吗?取决于你运行 Stable Diffusion 时是通过哪种服务:
1,自己部署已经开源的 Stable Diffusion,也就是说用的是自己的 GPU 资源,所生成图片(Output)的著作权,Licensor(Stability.ai)claims no rights。
我理解得没错的话,就是结果图片著作权和如何对外授权都归你自行定义,Stability.ai 不做约束,也不会共享你的著作权和收益。
开源模型的授权协议全文请访问下面链接, 对 Output 的
上一篇:微信小程序对上传的图片进行裁剪(微信小程序上面有个音乐怎么关闭)
下一篇:Vue项目中如何使用computed计算属性(vue中key)
友情链接: 武汉网站建设