位置: IT常识 - 正文

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先(开源ei)

编辑:rootadmin
又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

推荐整理分享又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先(开源ei),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:开源介绍,开源gu,开源cim,第一个开源软件,开源??,开源cim,开源cim,开源??,内容如对您有帮助,希望把文章链接给更多的朋友!

AIGC(AI Generated Content),即通过人工智能方法生成内容,是当前深度学习最热门的方向之一。其在绘画、写作等场景的应用也一直层出不穷,其中,AI绘画是大家关注和体验较多的方向。

Diffusion系列文生图模型可以实现AI绘画应用,其一经推出就受到广泛关注,开启了一波“全民调教AI作画”的潮流,激起了大量的应用需求。与此同时,百度推出的知识增强跨模态大模型——文心ERNIE-ViLG 2.0在 AI 作画领域取得新突破。该模型在文本生成图像公开权威评测集MS-COCO和人工盲评上均超越了Stable Diffusion、DALL-E 2等模型,当前在该领域取得了最好的效果,在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著的优势。

开发者和科技爱好者可以将文心 ERNIE-ViLG 2.0 API (wenxin.baidu.com/ernie-vilg)灵活方便地集成到产品中。同时,基于文心ERNIE-ViLG 2.0大模型,百度也推出AI艺术与创意辅助平台——文心一格(yige.baidu.com),以满足更多的人在AI作画方面的需求。

 文心一格模型效果图~

AI绘画模型推理算力及显存需求随图像分辨率增大而指数级增加,同时图像生成需要循环采样数十次,产业落地动辄需要高昂成本的部署集群,严重阻碍了AIGC模型大规模商业化落地。为此,百度飞桨一直致力于大模型的训练、压缩、推理端到端优化,实现低成本的模型部署上线,助力AIGC模型快速产业落地。

飞桨深度优化的Stable Diffusion模型,在单卡NVIDIA A100(80G) 上推理速度和显存利用率全面超越同类产品,取得业界第一的领先优势。百度自研中文AI绘画ERNIE-ViLG模型,在昆仑芯 R200(32GB) 卡上推理,全面超越同系列主流推理卡,并已成功批量部署于文心一格创意平台。

GPU推理性能数据

下图展示了分别使用PaddlePaddle、TensorRT、AITemplate和Diffusers(PyTorch)4种深度学习框架或推理引擎对Stable Diffusion进行推理时的性能表现。可以看出,基于PaddlePaddle对Stable Diffusion进行推理时,512*512图像生成速度68.2 iters/s,实现 0.76s 出图。其推理速度是 Diffusers(PyTorch)的4倍,比TensorRT最优速度快7.9%,同时显存占用仅为TensorRT的43%。

昆仑芯 R200 性能数据

昆仑芯 R200 性能数据在dpm-25steps算法下,生成1024*1024图像时的推理速度相比同能力的主流推理卡快20%。同时,R200拥有32G显存,能够生成更高分辨率的图片,可以推理更大的模型,为用户带了高性价比的选择。

不同硬件跑ERNIE-ViLG的推理速度及显存占用对比

向左滑动查看飞桨Stable Diffusion 模型效果图~ 

快速体验

Stable Diffusion训练推理全流程已在飞桨扩散模型工具箱中开源

参考链接

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先(开源ei)

同时,对于飞桨Stable Diffusion在GPU和 昆仑芯上的高性能部署,FastDeploy部署工具已经提供了开箱即用的部署体验

参考链接

https://github.com/PaddlePaddle/FastDeploy/tree/develop/examples/multimodal/stable_diffusion

与此同时,随着大模型应用的不断出圈,AIGC相关的应用落地需求也不断激增,因此,百度百舸联合飞桨团队将飞桨训推大模型的能力优势与AI加速组件AIAK(AI Accelerate Kit)完美融合,形成全新产品“飞桨云原生大模型开发工具”,显著提升了云用户大模型任务的开发和部署效率,并加速了生成式AI的工程化落地。作为业界首个经过全流程验证的大模型开发工具,飞桨云原生大模型开发工具不仅拥有更极致的性能,还可以让开发者体验到千亿大模型的的分布式训练和推理功能。

备注说明

百度百舸

AI异构计算平台,包含AI计算、AI存储、AI加速、AI容器四大核心套件,具有高性能、高弹性、高速互联、高性价比等特性。充分汲取了百度异构计算平台多年的技术积累,深度融合推荐、无人驾驶、生命科学、NLP等场景的实践经验,能为AI场景提供软硬一体解决方案,加速AI工程化落地。

AIAK

结合飞桨与百度云百舸整体方案优势联合推出的AI加速套件,用来加速基于飞桨等深度学习框架开发的AI应用,能极大提升分布式训练和推理的性能,大幅增加异构资源使用效率。

飞桨云原生大模型开发工具

业界首个经过全流程完整验证的大模型开发工具,支撑GPT-3、Bloom、Stable Diffusion等多个大模型训练、微调、压缩、推理的流畅开发体验。

01 性能优化核心解读

飞桨原生推理库Paddle Inference的领先效果、基于飞桨框架领先的架构设计和针对Stable Diffsuion模型的深度优化,主要体现在如下几个方面:

Flash Attention

飞桨一直致力于大模型推理优化,支持多种通用Transformer类结构的高性能推理优化。在Stable Diffusion模型推理中,飞桨集成的高性能的Flash Attention kernel,通过将attention中的softmax计算进行拆解、分片计算,大量减少推理过程中self-attention和cross-attention计算对显存的访问次数,同时实现了推理加速和显存优化。

Norm融合

Norm是Stable Diffusion中U-Net常用算子,主要分为LayerNorm和GroupNorm。LayerNorm和GroupNorm算子作为批规约运算,能够很好地和前后的elementwise类型、激活类型算子进行融合,消除算子间的显存访问。飞桨对LayerNorm和GroupNorm与前后算子的4种不同pattern进行了融合,共融合了93个Norm结构,提升了3%的推理性能。

混合Layout计算

通过对模型张量排布匹配优化,支持不同的Layout消除和合并U-Net中的转置操作,提高了推理速度同时也能降低了运行显存占用,共减少了32次转置操作,带来了3~4%的推理性能提升。

Scheduler优化

对PPDiffusers库中的scheduler运算逻辑进行了重新整合梳理,将scheduler.step中的GPU算子发射数量由约12个减小至7个,同时通过参数预计算的方法,消除了采样循环中scheduler运算的CPU计算以及GPU同步开销。

推理显存优化

经过飞桨框架的算子融合引擎处理,Stable Diffusion模型中U-Net模型的独立算子数量减少60%,显存占用下降27%。针对U-Net模型的Layout优化消除了转置变换带来的额外显存消耗,能够使整体显存占用降低约19%。同时,针对ERNIE-ViLG 2.0文心AI作画大模型,飞桨框架提供了推理workspace复用技术,使ERNIE-ViLG 2.0模型显存占用下降37%,极大降低了ERNIE-ViLG 2.0文心AI作画大模型的部署成本。

基于飞桨原生推理库Paddle Inference的高性能架构设计,结合上述优化点,飞桨Stable Diffusion模型能实现在单卡80G A100(SXM4)上,512*512分辨率生成图像(50 iters)推理时延0.76s,推理速度达到68.2 iters/s,显存占用4.6G,显存占用方面和速度方面均为当前业界最优效果。

02 后续工作

飞桨在持续推进AIGC模型、AI对话模型等大模型的优化,结合飞桨框架训推一体的核心能力,发布更多训练、压缩、推理端到端优化的高性能产业级大模型,并持续打磨部署端到端方案,助力大模型更全面产业化,欢迎各位开发者持续关注或反馈需求和建议。

本文链接地址:https://www.jiuchutong.com/zhishi/299786.html 转载请保留说明!

上一篇:【Leetcode】移除链表元素 链表的中间节点 链表中倒数第k个节点(iterator用法 移除对象)

下一篇:【学Vue就跟玩一样】组件-单文件组件(vue该怎么学)

  • 2021酷狗教师节活动入口在哪儿(教师节 酷狗)

    2021酷狗教师节活动入口在哪儿(教师节 酷狗)

  • 铁路12306退票扣钱吗(铁路12306退票扣钱吗学生)

    铁路12306退票扣钱吗(铁路12306退票扣钱吗学生)

  • 抖音几分钟前在线可以进行设置吗(抖音几分钟在线和今天在线什么区别)

    抖音几分钟前在线可以进行设置吗(抖音几分钟在线和今天在线什么区别)

  • 电脑闲置太久开不了机(电脑闲置太久开机屏幕出现很多英文)

    电脑闲置太久开不了机(电脑闲置太久开机屏幕出现很多英文)

  • 在下划线上输入文字怎么让下划线不会变长(在下划线上输入文字怎么让下划线不消失)

    在下划线上输入文字怎么让下划线不会变长(在下划线上输入文字怎么让下划线不消失)

  • 联想小新无法连接网络(联想小新无法连接校园网)

    联想小新无法连接网络(联想小新无法连接校园网)

  • 并暂缓充电至80%以上什么意思(并暂缓充电至80%以上,直至您有需要)

    并暂缓充电至80%以上什么意思(并暂缓充电至80%以上,直至您有需要)

  • 华为微信悬浮窗怎么关闭(华为微信悬浮窗开启,但是仍然不能用)

    华为微信悬浮窗怎么关闭(华为微信悬浮窗开启,但是仍然不能用)

  • 付款后45天内发货是什么意思(付款后45天内发货)

    付款后45天内发货是什么意思(付款后45天内发货)

  • 8p怎么截屏的(8p怎么样截图)

    8p怎么截屏的(8p怎么样截图)

  • iphone11无线充电充不进(iphone11无线充电怎么开启)

    iphone11无线充电充不进(iphone11无线充电怎么开启)

  • 显卡怎么用(笔记本独立显卡怎么用)

    显卡怎么用(笔记本独立显卡怎么用)

  • 为什么苹果x弄不了动态壁纸(为什么苹果x还那么贵)

    为什么苹果x弄不了动态壁纸(为什么苹果x还那么贵)

  • 微信朋友圈可以迁移吗(微信朋友圈可以看访客记录吗)

    微信朋友圈可以迁移吗(微信朋友圈可以看访客记录吗)

  • 快手亲密值怎么涨(快手亲密值怎么上得快)

    快手亲密值怎么涨(快手亲密值怎么上得快)

  • oppo官网电话号码多少(oppo官网联系电话)

    oppo官网电话号码多少(oppo官网联系电话)

  • 微信如何发30张图片(微信怎么发30张图片)

    微信如何发30张图片(微信怎么发30张图片)

  • 台式电脑u盘插哪个地方(台式电脑u盘插在哪里带什么图标)

    台式电脑u盘插哪个地方(台式电脑u盘插在哪里带什么图标)

  • 苹果手机怎么倒计时天数(苹果手机怎么倒计时拍照)

    苹果手机怎么倒计时天数(苹果手机怎么倒计时拍照)

  • 苹果鼠标2充电多久充满(苹果鼠标2充电很慢)

    苹果鼠标2充电多久充满(苹果鼠标2充电很慢)

  • 为什么微信语音通话没有铃声(为什么微信语音声音很小)

    为什么微信语音通话没有铃声(为什么微信语音声音很小)

  • 华为p30pr0卡槽在哪里(华为p30pro手机卡槽位置)

    华为p30pr0卡槽在哪里(华为p30pro手机卡槽位置)

  • ios12竖条信号改成圆点(插件ios14信号竖条改圆点)

    ios12竖条信号改成圆点(插件ios14信号竖条改圆点)

  • 新电脑风扇响正常吗(新电脑风扇狂转)

    新电脑风扇响正常吗(新电脑风扇狂转)

  • 什么是5g网络时代(什么是5g网络时延)

    什么是5g网络时代(什么是5g网络时延)

  • kb4499164安装失败怎么办

    kb4499164安装失败怎么办

  • 马塔马塔附近的霍比特人村,新西兰北岛 (© 500px Asia/Getty Images)(马塔饰件怎么样)

    马塔马塔附近的霍比特人村,新西兰北岛 (© 500px Asia/Getty Images)(马塔饰件怎么样)

  • 2020年小微企业所得税税率
  • 小规模附加税减半征收什么时候开始
  • 怎么做税种
  • 小规模企业收入怎么做账
  • 公司财务外包费怎么入账
  • 企业购进软件系统后如何做账
  • 计提贷款利息是什么意思
  • 劳务成本科目
  • 纳税人出租不动产预缴税款
  • 营改增后11
  • 教育协会发的证有用吗
  • 房产税城镇土地使用税申报流程
  • 小规模纳税人的税率是多少(含国、地税)
  • 一般纳税人收小规模普票可以算成本吗
  • 通用机打发票税率在哪改
  • 国税申报填错了怎么办
  • 所得税需要结转嘛
  • 矿产资源补偿费征收管理规定
  • 银行承兑汇票企业账户没钱
  • 资产评估合同属于什么合同
  • 事业单位财政拨款是什么意思
  • 为什么我的win10
  • 汇算清缴时研发费用加计扣除怎么做账
  • 定向增发利好还是利空股票
  • 其他货币资金期末处理
  • backupnotify.exe是什么文件的进程 backupnotify进程安全吗
  • php如何实现伪静态
  • 在php中,字符串有哪些表示形式
  • 子公司接受母公司捐赠的会计处理
  • win10记事本怎么改字体颜色
  • 所有者权益的确认主要依赖于什么
  • php简单实例
  • phpsql查询
  • IIS 7.5 asp Session超时时间设置方法
  • 结转以前年度本年利润会计分录
  • php和mysql的联合使用
  • 政府补助 不征税
  • winform开发技术有哪些
  • 工程物资的税率怎么算
  • 帝国cms建站实例教程
  • 注解@entity
  • 差旅费必须填写差旅费报销单吗
  • mysql常见操作
  • 向投资者分配现金股利为什么会导致所有者权益减少?
  • 小微企业增值税减免政策
  • MySQL读写分离企业方案
  • mysql主从复制实现原理
  • 车船税不开发票怎么做账?
  • 委托代销安排的迹象有哪些
  • 未发生账务类交易
  • 强化劳务输出
  • 单位缴纳的社保计入什么科目
  • 应收账款怎样记账
  • 制造费用怎么结算
  • php连接mysql的步骤代码
  • docker安装使用
  • windows server特点
  • 卡巴斯基反病毒软件
  • 高效管理者的三大技能 罗伯特卡茨
  • vmware虚拟机不能用桥接模式
  • solaris ip配置
  • win8系统一直重启
  • win8系统可以装win7系统吗
  • musirc4.71.exe - musirc4是什么进程文件 有什么作用
  • win8纯净版32位
  • 博通网卡驱动win7
  • shell命令windows
  • node.js http服务器
  • git 登陆用户
  • Css属性中表示字体的是
  • javascript的判断语句
  • 完美解决怠速抖动加油就平稳
  • 将一个目录复制到另一个目录下
  • ndk dose not contain any platform
  • jquery给td设置内容
  • 基于javascript的毕业设计
  • 河南省国税电子普通发票发票真伪查询系统
  • 电子税务局怎么添加银行账户信息
  • 税务稽查局什么时候独立出来
  • 江苏电子税务局电话
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设