位置: IT常识 - 正文

tune a video:one-shot tuning of image diffusion models for text-to-video generation

编辑:rootadmin
tune a video:one-shot tuning of image diffusion models for text-to-video generation

推荐整理分享tune a video:one-shot tuning of image diffusion models for text-to-video generation,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!_哔哩哔哩_bilibili【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!共计2条视频,包括:[论文代码阅读]Tune-A-Video_ One-Shot微调图像扩散模型用于文本到图像的生成新加坡国立大学、腾讯、3连等,UP主更多精彩视频,请关注UP账号。https://www.bilibili.com/video/BV1q24y1V79k/?spm_id_from=333.337.search-card.all.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22视频生成和图像生成最大的不同在于要保证视频的连续性,运动主体不能变且运动主体的状态背景等不能产生突变,因此视频生成是一定要添加约束信息的,本文是在图像生成的基础上(T2I)通过特定设计的finetune来完成视频生成(T2V),作者说人类可以通过一个视频就能学习到新的试卷概念,因此设计了one shot video generation。怎么做呢?首先作者升级了stable diffusion的架构将2d卷积换成了3d卷积,并且将self-attention扩展到时空域,但转换之后的计算量会飙升,作者提出了sparse-causal attention,每一帧只和第一帧以及前一阵计算attention,可以极大减少计算量,在训练时,通过一段视频和相应的text进行微调,在推理时,要保证动词的一致性,可以更换背景和主题,依然能产生很好的连续性,one shot的视频实际上就是让T2I模型去学动作的。

如上图所示,第一行为原始的训练视频,训练完成之后,第二、三、四行均为推理视频,可见tune a video产生了主体一致性和动作一致性。

abstract:在现实中没有足够的视频文本对来训练T2V,人类可以从一个样本中学习新的视觉概念,因此本文研究一个新的方向,one shot视频生成,仅使用一个文本-视频对来训练一个T2V,基于已有的T2I的扩散的能力。有两个关键点,1.T2I模型能够生成很好的与动词相对齐的图像,2.扩展T2I模型同时产生多个图像有良好的一致性。为了进一步学习连续运动,采用定制的sparse-causal attention来微调模型。

1.introduction

视频生成的关键是保持一致主体的连续运动,motion and consistent object,如上图所示,第一行,给定text,例如一个男人正在沙滩上跑步,T2I能够很好的对齐动词信息,但是背景不同且不是一致的。但证明T2I可以通过cross-model attention来注意到动词。第二行作者采用了扩展的T2I模型,将T2I模型的中self-attention从一张图扩展到多张图保持跨帧时的内容一致性,并行的生成帧时都和第一帧做attention,可以看到尽管动作还不是连续的,但是主体背景等信息是一致的。可推论self-attention层仅由spatial similarities驱动而不是pixel positions(这块的解释可以从框架角度理解,因为最终推理时是无法改变one shot时学习的动作的,也就是说模型最终学习到的还是一致的空间相似度)。

tune a video:one-shot tuning of image diffusion models for text-to-video generation

        tune a video对T2I在时间维度的简单膨胀,1.将3x3 conv换成1x3x3(unet中resnet卷积),2.将spatial self-attention 换成spatio-temporal cross-frame attention。提出了一个简单的tune策略,只更新attention block中的投影矩阵,从one-shot视频中捕获连续的运动状态,其余参数均被冻结。但是spatio-temporal cross-frame attention参数量很大,提出了一个新的变体,sparse-causal attention(SC-Attn),它只计算第一帧和前一帧,自回归生成视频。

2.method

上图是本文的框架, 在fine-tune之前,现将T2I模型膨胀成T2V,其中T2V中的部分参数是从T2I中初始化的,然后采用一个视频去fine-tune,推理时,给定一个text即可生成视频,但是视频中动作是不能变的,one shot的视频就是一个动作。

上图是pipeline,首先输入视频和文本,在unet中有三attention,第一个是SC-Attn,第二个是cross-Attn(不同模态之间的attn),第三个是新增的Temp-Attn,黄色表示不断更新的,灰色表示不更新的其中Q,query是不断更新的,KV是不更新。右侧是sparse-causal attention,计算第i帧,要取到第1帧和i-1帧,之后分别投影得到KV,再计算softmax。

上式可以看到Q是第i帧通过投影矩阵产生,但是K和V就不是了,常规操作,ldm中text conditional都是加在KV上的。这里,第一帧做attention能够保证在生成内容上的全局一致性,与前一帧计算attention能够保持运动的一致性,连续性。

network inflation

普通的unet是由多层2d convolution residual blocks构成,后续是attention,每一个attention是由一个self-attention、一个cross-attention和一个feed-forward network构成,spatial self-attention利用特征图上pixel locations来实现similar correlations,cross-attention则考虑pixel和conditional input(text)之间的相关性。

        首先对输入视频使用1x3x3的卷积,可以将frame的1转到batch处理,所以2d还是可以的。

sparse-casual attention

如上图所示,v表示帧,第一个是spatial attention,在单帧之间做attention,第二张图是spatio-temporal attention,每一帧和所有帧之间计算attention,计算量是第一张图的平方,第三张图是causal attention,第i帧只会和所有的i-1帧计算attention,第四张图就是本文使用的sparse-causal attention,第四帧只与第一帧和第三帧计算attention,是前一张图的稀疏版本。

本文链接地址:https://www.jiuchutong.com/zhishi/299430.html 转载请保留说明!

上一篇:Vue+element ui实现好看的个人中心(vue-element)

下一篇:overflow:auto的用法和实现弹性盒横向滚动(overflow常见释义)

  • 支付宝蚂蚁森林梭梭树怎么获得(支付宝蚂蚁森林怎么获得绿色能量)

    支付宝蚂蚁森林梭梭树怎么获得(支付宝蚂蚁森林怎么获得绿色能量)

  • excel中行高怎么设置(excel中行高怎么设置成厘米)

    excel中行高怎么设置(excel中行高怎么设置成厘米)

  • 皖事通怎么修改手机号码

    皖事通怎么修改手机号码

  • soul怎么搜索别人的id的(soul怎么搜索别人的名字)

    soul怎么搜索别人的id的(soul怎么搜索别人的名字)

  • 联通自动充值怎么关闭(联通自动充值怎么无法关闭)

    联通自动充值怎么关闭(联通自动充值怎么无法关闭)

  • 华为手机recyclebinhw是什么(华为手机recyclebinhw能删吗)

    华为手机recyclebinhw是什么(华为手机recyclebinhw能删吗)

  • 西门子和法兰克编程的区别(西门子和法兰克哪个好用)

    西门子和法兰克编程的区别(西门子和法兰克哪个好用)

  • 电脑直装版什么意思(直装版系统)

    电脑直装版什么意思(直装版系统)

  • iphone7plus充电功率(iphone7plus充电是1a还是2a)

    iphone7plus充电功率(iphone7plus充电是1a还是2a)

  • 14寸笔记本长宽(14寸笔记本长宽是多少厘米四大才女)

    14寸笔记本长宽(14寸笔记本长宽是多少厘米四大才女)

  • 手机号码变空号了还可以恢复吗(手机号码变空号是什么原因)

    手机号码变空号了还可以恢复吗(手机号码变空号是什么原因)

  • 华为彩信该服务未激活(华为彩信锁定什么意思)

    华为彩信该服务未激活(华为彩信锁定什么意思)

  • nex是什么手机(NEX是什么手机)

    nex是什么手机(NEX是什么手机)

  • 三星exynos980相当于麒麟多少(三星EXynos980相当于骁龙多少)

    三星exynos980相当于麒麟多少(三星EXynos980相当于骁龙多少)

  • 手机卡托是什么(手机卡托是什么金属材质)

    手机卡托是什么(手机卡托是什么金属材质)

  • 电脑1000g机械是什么意思(1000g的机械硬盘价格)

    电脑1000g机械是什么意思(1000g的机械硬盘价格)

  • 域名后缀都有什么(域名后缀都有什么字母)

    域名后缀都有什么(域名后缀都有什么字母)

  • 手机上word存储在哪里(手机word存储路径)

    手机上word存储在哪里(手机word存储路径)

  • word中纸张大小怎么调(word中纸张大小怎么设置)

    word中纸张大小怎么调(word中纸张大小怎么设置)

  • 魅族16支持多少w的快充(魅族16th最高支持多少w快充)

    魅族16支持多少w的快充(魅族16th最高支持多少w快充)

  • vivo怎么下载到内存卡(vivo怎么下载到mp4)

    vivo怎么下载到内存卡(vivo怎么下载到mp4)

  • web安全从哪几个方面考虑(web安全主要分为几个方面)

    web安全从哪几个方面考虑(web安全主要分为几个方面)

  • word一个页面显示两页(word文档在一页显示)

    word一个页面显示两页(word文档在一页显示)

  • 微信群怎么转让群主(微信群怎么转让给别人)

    微信群怎么转让群主(微信群怎么转让给别人)

  • 淘宝未读是肯定没读吗(淘宝显示未读就是真的没看吗)

    淘宝未读是肯定没读吗(淘宝显示未读就是真的没看吗)

  • vivo相册锁在哪里设置(vivo相册锁在哪里设置密码)

    vivo相册锁在哪里设置(vivo相册锁在哪里设置密码)

  • 苹果max怎么关机(苹果max关机在哪里)

    苹果max怎么关机(苹果max关机在哪里)

  • 直播浮现权限是什么(直播浮现权限是什么意思)

    直播浮现权限是什么(直播浮现权限是什么意思)

  • ChatGPT等大模型的模型量化:平滑量化法

    ChatGPT等大模型的模型量化:平滑量化法

  • 以旧换新销售商品
  • 长租公寓 税费
  • 增值税存量和增量留抵退税
  • 公司现金账户归谁管
  • 暂估入库收到发票后怎么做分录
  • 一般纳税人每月开票不超10万
  • 增值税发票遗失怎么操作
  • 应付股东现金股利通过什么核算
  • 股东借款转实收资本需要什么原始凭证
  • 已开发票查询不到怎么回事
  • 股东个人将钱打入公司对公账户,能否算作投资款
  • 长期股权投资范围比例
  • 产品销售员
  • 公司成立初期费用入账
  • 营改增后小规模ktv怎么纳税
  • 苏州工会经费减半政策
  • 2017年7月1日通用机打发票能不能作为税收凭证?
  • 企业所得税预缴政策
  • 自产产品公益性捐赠可以免征增值税吗
  • 金蝶采购发票怎么红冲
  • 固定资产出售后净残值怎么处理
  • 公司原因领不了失业保险要赔偿吗
  • 什么是应收
  • 给员工小孩买礼物合适吗
  • 封装windows10
  • 应届生能参考注册公司吗
  • 电脑系统权限管理在哪里
  • u盘无法格式化为NTFS
  • 开机自动连接宽带怎么设置w11
  • 太超过了
  • PHP:pg_fetch_result()的用法_PostgreSQL函数
  • 债务重组法律服务方案
  • 安代驾给我发短信
  • 土建基础是什么意思
  • 360路由器怎么连接网络
  • php缓存文件并自动清理
  • 代购货物的缴税情况
  • 只有收据没有发票怎么报销
  • 客户端调用axis1.4的方式
  • 报税营业成本可以乱填吗
  • ChatGPT全面升级,GPT4支持多模态数据。
  • 立体匹配原理
  • vue知识点汇总
  • python怎么设置字符串宽度
  • 收到银行承兑汇票
  • 代扣代缴境外增值税税率是多少
  • 试运行收入会计分录
  • 资产处置损益怎么结转到本年利润
  • 资产减值损失和资产减值准备
  • 企业能否自行填开发票入账
  • 学电脑网站
  • 预付卡做账吗
  • 城建税减免性质代码是什么意思
  • 净营业周期为负数
  • 个人缴纳社保部分怎么算
  • MySQL服务器系统支持哪些存储引擎
  • 增值税扣税公式
  • 未担保余值举例
  • 固定资产出售账面价值计入什么科目
  • 公司广告制作费用申请报告
  • 一般纳税人购买汽车会计分录
  • 外贸企业面对人民币升值应该采取什么的避险措施
  • 什么是长期的
  • 未开票收入账上税率按多少
  • 定期存款怎么做
  • 哪些人必须办理纳税登记
  • 安装双系统ubuntu和win
  • 查看linux的命令
  • win8.1系统升级
  • url是什么文件怎么打开
  • win7系统中怎么查看隐藏文件
  • 贴吧热门评论
  • Linux 中的 lo:0
  • unity教程完整版
  • 轻松实现的英文
  • 深入理解新发展理念心得体会3篇
  • 使用androidx
  • 党建引领结对共建生态
  • 小规模税控盘全额抵扣怎么做分录
  • 税收超额负担图解
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设