位置: IT常识 - 正文

tune a video:one-shot tuning of image diffusion models for text-to-video generation

编辑:rootadmin
tune a video:one-shot tuning of image diffusion models for text-to-video generation

推荐整理分享tune a video:one-shot tuning of image diffusion models for text-to-video generation,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!_哔哩哔哩_bilibili【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!共计2条视频,包括:[论文代码阅读]Tune-A-Video_ One-Shot微调图像扩散模型用于文本到图像的生成新加坡国立大学、腾讯、3连等,UP主更多精彩视频,请关注UP账号。https://www.bilibili.com/video/BV1q24y1V79k/?spm_id_from=333.337.search-card.all.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22视频生成和图像生成最大的不同在于要保证视频的连续性,运动主体不能变且运动主体的状态背景等不能产生突变,因此视频生成是一定要添加约束信息的,本文是在图像生成的基础上(T2I)通过特定设计的finetune来完成视频生成(T2V),作者说人类可以通过一个视频就能学习到新的试卷概念,因此设计了one shot video generation。怎么做呢?首先作者升级了stable diffusion的架构将2d卷积换成了3d卷积,并且将self-attention扩展到时空域,但转换之后的计算量会飙升,作者提出了sparse-causal attention,每一帧只和第一帧以及前一阵计算attention,可以极大减少计算量,在训练时,通过一段视频和相应的text进行微调,在推理时,要保证动词的一致性,可以更换背景和主题,依然能产生很好的连续性,one shot的视频实际上就是让T2I模型去学动作的。

如上图所示,第一行为原始的训练视频,训练完成之后,第二、三、四行均为推理视频,可见tune a video产生了主体一致性和动作一致性。

abstract:在现实中没有足够的视频文本对来训练T2V,人类可以从一个样本中学习新的视觉概念,因此本文研究一个新的方向,one shot视频生成,仅使用一个文本-视频对来训练一个T2V,基于已有的T2I的扩散的能力。有两个关键点,1.T2I模型能够生成很好的与动词相对齐的图像,2.扩展T2I模型同时产生多个图像有良好的一致性。为了进一步学习连续运动,采用定制的sparse-causal attention来微调模型。

1.introduction

视频生成的关键是保持一致主体的连续运动,motion and consistent object,如上图所示,第一行,给定text,例如一个男人正在沙滩上跑步,T2I能够很好的对齐动词信息,但是背景不同且不是一致的。但证明T2I可以通过cross-model attention来注意到动词。第二行作者采用了扩展的T2I模型,将T2I模型的中self-attention从一张图扩展到多张图保持跨帧时的内容一致性,并行的生成帧时都和第一帧做attention,可以看到尽管动作还不是连续的,但是主体背景等信息是一致的。可推论self-attention层仅由spatial similarities驱动而不是pixel positions(这块的解释可以从框架角度理解,因为最终推理时是无法改变one shot时学习的动作的,也就是说模型最终学习到的还是一致的空间相似度)。

tune a video:one-shot tuning of image diffusion models for text-to-video generation

        tune a video对T2I在时间维度的简单膨胀,1.将3x3 conv换成1x3x3(unet中resnet卷积),2.将spatial self-attention 换成spatio-temporal cross-frame attention。提出了一个简单的tune策略,只更新attention block中的投影矩阵,从one-shot视频中捕获连续的运动状态,其余参数均被冻结。但是spatio-temporal cross-frame attention参数量很大,提出了一个新的变体,sparse-causal attention(SC-Attn),它只计算第一帧和前一帧,自回归生成视频。

2.method

上图是本文的框架, 在fine-tune之前,现将T2I模型膨胀成T2V,其中T2V中的部分参数是从T2I中初始化的,然后采用一个视频去fine-tune,推理时,给定一个text即可生成视频,但是视频中动作是不能变的,one shot的视频就是一个动作。

上图是pipeline,首先输入视频和文本,在unet中有三attention,第一个是SC-Attn,第二个是cross-Attn(不同模态之间的attn),第三个是新增的Temp-Attn,黄色表示不断更新的,灰色表示不更新的其中Q,query是不断更新的,KV是不更新。右侧是sparse-causal attention,计算第i帧,要取到第1帧和i-1帧,之后分别投影得到KV,再计算softmax。

上式可以看到Q是第i帧通过投影矩阵产生,但是K和V就不是了,常规操作,ldm中text conditional都是加在KV上的。这里,第一帧做attention能够保证在生成内容上的全局一致性,与前一帧计算attention能够保持运动的一致性,连续性。

network inflation

普通的unet是由多层2d convolution residual blocks构成,后续是attention,每一个attention是由一个self-attention、一个cross-attention和一个feed-forward network构成,spatial self-attention利用特征图上pixel locations来实现similar correlations,cross-attention则考虑pixel和conditional input(text)之间的相关性。

        首先对输入视频使用1x3x3的卷积,可以将frame的1转到batch处理,所以2d还是可以的。

sparse-casual attention

如上图所示,v表示帧,第一个是spatial attention,在单帧之间做attention,第二张图是spatio-temporal attention,每一帧和所有帧之间计算attention,计算量是第一张图的平方,第三张图是causal attention,第i帧只会和所有的i-1帧计算attention,第四张图就是本文使用的sparse-causal attention,第四帧只与第一帧和第三帧计算attention,是前一张图的稀疏版本。

本文链接地址:https://www.jiuchutong.com/zhishi/299430.html 转载请保留说明!

上一篇:Vue+element ui实现好看的个人中心(vue-element)

下一篇:overflow:auto的用法和实现弹性盒横向滚动(overflow常见释义)

  • 网站推广人员有哪些禁忌(网站推广人员有什么要求)

    网站推广人员有哪些禁忌(网站推广人员有什么要求)

  • 小米手环4nfc版充完电可以用多久(小米手环4nfc版使用说明)

    小米手环4nfc版充完电可以用多久(小米手环4nfc版使用说明)

  • 手机进水屏幕有水印会慢慢消失吗(手机进水屏幕有黑色阴影)

    手机进水屏幕有水印会慢慢消失吗(手机进水屏幕有黑色阴影)

  • 浏览别人的微信朋友圈会有记录吗(浏览别人的微信视频号别人知道吗)

    浏览别人的微信朋友圈会有记录吗(浏览别人的微信视频号别人知道吗)

  • opporeno有红外线遥控功能吗(oppo reno有红外)

    opporeno有红外线遥控功能吗(oppo reno有红外)

  • 华为媒体声音自动关闭(华为手机媒体声音自动变小怎么办)

    华为媒体声音自动关闭(华为手机媒体声音自动变小怎么办)

  • 朋友圈说闪现是什么意思(朋友圈说闪现是啥意思啊)

    朋友圈说闪现是什么意思(朋友圈说闪现是啥意思啊)

  • 微信表情达到上线为什么里面看不到(微信表情达到上限怎么在添加)

    微信表情达到上线为什么里面看不到(微信表情达到上限怎么在添加)

  • 为什么联了网上不了(为什么已经联网但是不能上网)

    为什么联了网上不了(为什么已经联网但是不能上网)

  • 手机如何充电才能保证电池使用最长久(手机如何充电才耐用)

    手机如何充电才能保证电池使用最长久(手机如何充电才耐用)

  • 苹果手机下拉半屏有什么用(苹果手机下拉半屏怎么拉)

    苹果手机下拉半屏有什么用(苹果手机下拉半屏怎么拉)

  • 空气净化器能开一夜吗(空气净化器能开多久)

    空气净化器能开一夜吗(空气净化器能开多久)

  • 怎么退出淘宝人生官方群(怎么退出淘宝人生)

    怎么退出淘宝人生官方群(怎么退出淘宝人生)

  • vivoz3能隐藏水滴镜头吗(vivoy93水滴屏)

    vivoz3能隐藏水滴镜头吗(vivoy93水滴屏)

  • 手机卡坏了换卡能不能在异地换(手机卡坏了换卡要钱吗)

    手机卡坏了换卡能不能在异地换(手机卡坏了换卡要钱吗)

  • 华为荣耀20有红外线吗(华为荣耀20红外线功能怎么开)

    华为荣耀20有红外线吗(华为荣耀20红外线功能怎么开)

  • 华为方舟编译器怎么用(华为方舟编译器概念股)

    华为方舟编译器怎么用(华为方舟编译器概念股)

  • vivo23有红外线功能吗(vivo有红外线功能)

    vivo23有红外线功能吗(vivo有红外线功能)

  • 华为怎么关闭云空间(华为怎么关闭云服务通知)

    华为怎么关闭云空间(华为怎么关闭云服务通知)

  • 远程软件点击错位怎么办(软件远程调用失败是什么意思)

    远程软件点击错位怎么办(软件远程调用失败是什么意思)

  • Linux下设置权限让用户只删除自己的文件的方法(linux设置权限规则)

    Linux下设置权限让用户只删除自己的文件的方法(linux设置权限规则)

  • ps抠图教程之使用魔棒工具抠图(ps抠图怎样)

    ps抠图教程之使用魔棒工具抠图(ps抠图怎样)

  • 小微企业所得税税率2023年最新税率表
  • 交印花税合同上每个月价格要一样吗
  • 国际快递货运
  • 本月无销售额,但是有进项,需要认证吗
  • 定期定额户申报表怎么填
  • 外来原始凭证包括哪些入库单
  • 每个月结转损益都有什么科目
  • 小微企业所得税税率2.5% 10% 25%
  • 营改增后甲供材如何扣除
  • 固定资产报废的账务处理例题
  • 国家高新补助款多久到账
  • 收到个税返还计入成本吗
  • 春节汽车租赁
  • 支付证明单打印版
  • 无形资产的初始计量和后续计量
  • 税率与征收率有关系吗
  • 没有运输经营范围能不能开运输发票
  • 公司注销房产如何转给个人
  • 增值税税率和征收率有什么区别
  • 航天金税财务软件使用说明
  • 境外代扣代缴的税最后归谁所有
  • 补缴以前年度个税会计处理
  • 异地交纳的五险一金可以在个人所得税扣除吗?
  • 发票一直报送中,开不了发票
  • 劳务报酬所得的收入额
  • 收回代扣社保怎么处理
  • 附加税零申报怎么申报
  • 收回代付费用用什么科目
  • 保险公司赔偿的存货自然灾害损失
  • 企业所得税的工资薪金包括社保
  • 企业所得税内部辅助机构说明怎么写
  • 自建厂房转固定资产如何办理手续
  • 废品损失账户借方反映
  • 发工资和扣社保的区别
  • 查补以前年度房产税的账务处理
  • 还款本息和本金哪个划算
  • pps影音怎么看电视直播
  • 什么公司可以开专票
  • 购销合同印花税计算方法
  • 详解php实现执行任务
  • 政府会计制度应付职工薪酬账务处理
  • thinkphp5框架介绍
  • 转让技术所有权计入什么科目
  • php fgetcsv
  • 小企业会计准则适用于哪些企业
  • 悬崖徒步
  • vue父子组件如何传递数据
  • 表单验证方法一般有哪几种
  • ping命令详解步骤
  • 固定资产报废会计科目处理
  • 公司变卖汽车按什么税率
  • 进口设备增值税计算
  • 独资子公司与母公司
  • 广播影视服务税率2023
  • 核定征收企业所得税应税所得率
  • 货物搬运费会计科目
  • 其他应付款转实收资本股东会决议
  • 增值税扣缴义务发生时间为扣缴义务人扣缴税款的当天
  • 三包适用范围
  • 价税合计怎么求税额
  • 房地产开发企业销售自行开发的房地产项目
  • 增值税科目设置成多栏式还是三栏式好
  • samba开启
  • 搜索不到WiFi信号是怎么回事
  • wordpress怎么安装插件
  • linux doc
  • win7系统如何清理c盘空间
  • win7右下角无线网络连接图标不见了
  • jquery 瀑布流
  • ubuntu 编译ffmpeg
  • script_tool_for_linux.bash: Linux 环境下的 hosts 一键部署脚本
  • python爬虫全套教程
  • ipc漏洞入侵的基本步骤
  • Linux 中的通配符详解及实例
  • js展示
  • javascript入门基础
  • python 二分查找函数
  • unity中assets文件夹的作用
  • 开发日记3雷火剑
  • 考察后多久公示公务员
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设