位置: IT常识 - 正文

tune a video:one-shot tuning of image diffusion models for text-to-video generation

编辑:rootadmin
tune a video:one-shot tuning of image diffusion models for text-to-video generation

推荐整理分享tune a video:one-shot tuning of image diffusion models for text-to-video generation,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!_哔哩哔哩_bilibili【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!共计2条视频,包括:[论文代码阅读]Tune-A-Video_ One-Shot微调图像扩散模型用于文本到图像的生成新加坡国立大学、腾讯、3连等,UP主更多精彩视频,请关注UP账号。https://www.bilibili.com/video/BV1q24y1V79k/?spm_id_from=333.337.search-card.all.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22视频生成和图像生成最大的不同在于要保证视频的连续性,运动主体不能变且运动主体的状态背景等不能产生突变,因此视频生成是一定要添加约束信息的,本文是在图像生成的基础上(T2I)通过特定设计的finetune来完成视频生成(T2V),作者说人类可以通过一个视频就能学习到新的试卷概念,因此设计了one shot video generation。怎么做呢?首先作者升级了stable diffusion的架构将2d卷积换成了3d卷积,并且将self-attention扩展到时空域,但转换之后的计算量会飙升,作者提出了sparse-causal attention,每一帧只和第一帧以及前一阵计算attention,可以极大减少计算量,在训练时,通过一段视频和相应的text进行微调,在推理时,要保证动词的一致性,可以更换背景和主题,依然能产生很好的连续性,one shot的视频实际上就是让T2I模型去学动作的。

如上图所示,第一行为原始的训练视频,训练完成之后,第二、三、四行均为推理视频,可见tune a video产生了主体一致性和动作一致性。

abstract:在现实中没有足够的视频文本对来训练T2V,人类可以从一个样本中学习新的视觉概念,因此本文研究一个新的方向,one shot视频生成,仅使用一个文本-视频对来训练一个T2V,基于已有的T2I的扩散的能力。有两个关键点,1.T2I模型能够生成很好的与动词相对齐的图像,2.扩展T2I模型同时产生多个图像有良好的一致性。为了进一步学习连续运动,采用定制的sparse-causal attention来微调模型。

1.introduction

视频生成的关键是保持一致主体的连续运动,motion and consistent object,如上图所示,第一行,给定text,例如一个男人正在沙滩上跑步,T2I能够很好的对齐动词信息,但是背景不同且不是一致的。但证明T2I可以通过cross-model attention来注意到动词。第二行作者采用了扩展的T2I模型,将T2I模型的中self-attention从一张图扩展到多张图保持跨帧时的内容一致性,并行的生成帧时都和第一帧做attention,可以看到尽管动作还不是连续的,但是主体背景等信息是一致的。可推论self-attention层仅由spatial similarities驱动而不是pixel positions(这块的解释可以从框架角度理解,因为最终推理时是无法改变one shot时学习的动作的,也就是说模型最终学习到的还是一致的空间相似度)。

tune a video:one-shot tuning of image diffusion models for text-to-video generation

        tune a video对T2I在时间维度的简单膨胀,1.将3x3 conv换成1x3x3(unet中resnet卷积),2.将spatial self-attention 换成spatio-temporal cross-frame attention。提出了一个简单的tune策略,只更新attention block中的投影矩阵,从one-shot视频中捕获连续的运动状态,其余参数均被冻结。但是spatio-temporal cross-frame attention参数量很大,提出了一个新的变体,sparse-causal attention(SC-Attn),它只计算第一帧和前一帧,自回归生成视频。

2.method

上图是本文的框架, 在fine-tune之前,现将T2I模型膨胀成T2V,其中T2V中的部分参数是从T2I中初始化的,然后采用一个视频去fine-tune,推理时,给定一个text即可生成视频,但是视频中动作是不能变的,one shot的视频就是一个动作。

上图是pipeline,首先输入视频和文本,在unet中有三attention,第一个是SC-Attn,第二个是cross-Attn(不同模态之间的attn),第三个是新增的Temp-Attn,黄色表示不断更新的,灰色表示不更新的其中Q,query是不断更新的,KV是不更新。右侧是sparse-causal attention,计算第i帧,要取到第1帧和i-1帧,之后分别投影得到KV,再计算softmax。

上式可以看到Q是第i帧通过投影矩阵产生,但是K和V就不是了,常规操作,ldm中text conditional都是加在KV上的。这里,第一帧做attention能够保证在生成内容上的全局一致性,与前一帧计算attention能够保持运动的一致性,连续性。

network inflation

普通的unet是由多层2d convolution residual blocks构成,后续是attention,每一个attention是由一个self-attention、一个cross-attention和一个feed-forward network构成,spatial self-attention利用特征图上pixel locations来实现similar correlations,cross-attention则考虑pixel和conditional input(text)之间的相关性。

        首先对输入视频使用1x3x3的卷积,可以将frame的1转到batch处理,所以2d还是可以的。

sparse-casual attention

如上图所示,v表示帧,第一个是spatial attention,在单帧之间做attention,第二张图是spatio-temporal attention,每一帧和所有帧之间计算attention,计算量是第一张图的平方,第三张图是causal attention,第i帧只会和所有的i-1帧计算attention,第四张图就是本文使用的sparse-causal attention,第四帧只与第一帧和第三帧计算attention,是前一张图的稀疏版本。

本文链接地址:https://www.jiuchutong.com/zhishi/299430.html 转载请保留说明!

上一篇:Vue+element ui实现好看的个人中心(vue-element)

下一篇:overflow:auto的用法和实现弹性盒横向滚动(overflow常见释义)

  • k30pro出厂会自带贴膜吗(k30pro新机是不是有带膜)

    k30pro出厂会自带贴膜吗(k30pro新机是不是有带膜)

  • 腾讯vip设置几个人用(腾讯视频会员可以几个人用怎么设置)

    腾讯vip设置几个人用(腾讯视频会员可以几个人用怎么设置)

  • WPS艺术字的环绕设置在哪(word2016艺术字环绕方式怎么设置)

    WPS艺术字的环绕设置在哪(word2016艺术字环绕方式怎么设置)

  • 喷墨打印机加墨后为何打印不出来(喷墨打印机加墨后还是显示没墨)

    喷墨打印机加墨后为何打印不出来(喷墨打印机加墨后还是显示没墨)

  • z4小天才电话手表有什么隐藏功能(z4小天才电话手表怎么发文字)

    z4小天才电话手表有什么隐藏功能(z4小天才电话手表怎么发文字)

  • plc软件有哪些(plc软件有哪几种)

    plc软件有哪些(plc软件有哪几种)

  • 如何关闭qq签名展示(如何取消qq签名框)

    如何关闭qq签名展示(如何取消qq签名框)

  • 在喜马拉雅上读别人的书可以吗(喜马拉雅在哪读书)

    在喜马拉雅上读别人的书可以吗(喜马拉雅在哪读书)

  • 苹果怎么曝光(苹果怎么曝光自拍)

    苹果怎么曝光(苹果怎么曝光自拍)

  • 目前最常用的计算机机箱类型为(目前最常用的计算机信息检索技术是)

    目前最常用的计算机机箱类型为(目前最常用的计算机信息检索技术是)

  • qq关联怎么看不到对方的聊天记录(qq关联怎么看不到对方的消息提醒)

    qq关联怎么看不到对方的聊天记录(qq关联怎么看不到对方的消息提醒)

  • 苹果手机facetime通话是什么意思(苹果手机facetime通话收费吗)

    苹果手机facetime通话是什么意思(苹果手机facetime通话收费吗)

  • 抖音个人认证能解除嘛(抖音个人认证能卖货吗)

    抖音个人认证能解除嘛(抖音个人认证能卖货吗)

  • 头盔显示器主要组成是什么(头盔显示器的作用)

    头盔显示器主要组成是什么(头盔显示器的作用)

  • 苹果平板怎么隐藏游戏(苹果平板怎么隐藏相册照片)

    苹果平板怎么隐藏游戏(苹果平板怎么隐藏相册照片)

  • 怎么撤回微信信息(撤回微信信息超出2分钟怎么撤回)

    怎么撤回微信信息(撤回微信信息超出2分钟怎么撤回)

  • 手机死机黑屏怎么办(手机死机屏幕黑屏)

    手机死机黑屏怎么办(手机死机屏幕黑屏)

  • 华为p30pro超级夜景在哪里(华为p30pro夜景如何使用)

    华为p30pro超级夜景在哪里(华为p30pro夜景如何使用)

  • ios13如何隐藏应用(ios13.5怎么隐藏软件)

    ios13如何隐藏应用(ios13.5怎么隐藏软件)

  • 新版抖音好友列表怎么没有了(抖音好友在列表中消失看不见了??)

    新版抖音好友列表怎么没有了(抖音好友在列表中消失看不见了??)

  • 微信国旗图标怎么打出(微信国旗图标怎么去掉)

    微信国旗图标怎么打出(微信国旗图标怎么去掉)

  • 苏明玉用的是什么手机(苏明玉用的是什么武器)

    苏明玉用的是什么手机(苏明玉用的是什么武器)

  • 如何取消筛选状态(如何取消筛选标志)

    如何取消筛选状态(如何取消筛选标志)

  • Win10系统txt文件打不开怎么办?(win10打开txt)

    Win10系统txt文件打不开怎么办?(win10打开txt)

  • Win11怎么设置圆角窗口?Win11设置圆角窗口教程(win11怎么用win10界面)

    Win11怎么设置圆角窗口?Win11设置圆角窗口教程(win11怎么用win10界面)

  • 账面价值大于计税基础
  • 企业避税和逃税的关系
  • 增值税发票系统怎么读入发票
  • 风险纳税人是指个人还是单位
  • 公司账户转私人账户要多久时间
  • 付钱给对方会计分录
  • 成品油发票怎么查询
  • 个税申报数据有误,如何快速更正
  • 年报现金流量表可以不填吗
  • 卷烟消费税纳税环节有几个
  • 债转股资金
  • 收到进项专用发票怎么做
  • 红字发票科目入进项税额还是进项税额转出
  • 财务人员的大忌
  • 小规模增值税多少个点
  • 怎么用手撕胶带图解
  • 租车服务的税率
  • 逃避的概念
  • 展会门票入什么科目
  • 通用日记账核算方法
  • 促销费属于现代服务类吗
  • 折旧率通俗理解
  • windows 发布时间
  • mac电脑因问题而重新启动
  • 电脑怎么设置色盲模式
  • 两个公司的资金怎么合并
  • 联想一体机如何调节屏幕亮度
  • ahc软件进不去
  • 政策性搬迁补偿收入如何财税处理
  • php批量修改
  • 工伤索赔的赔偿金额
  • PHP:mcrypt_module_self_test()的用法_Mcrypt函数
  • 商品流通企业会计分录
  • 固定资产减少的账务处理
  • 公司法人往公司账户转钱会计分录
  • rgb to hex
  • zero-shot, one-shot和few-shot
  • python调用cuda执行加法
  • 来料加工企业的税率是多少
  • 预收物业费纳税义务发生时间
  • 一般纳税人只有进项怎么报税
  • 收据的种类有哪些
  • 新开公司怎么办理税务登记
  • 增值税是指哪些税种
  • 土地使用权转让法律规定
  • 小规模纳税人每月不超过10万
  • 应收账款和应付账款属于什么科目
  • 出口货物退免税的管理规定
  • 小规模纳税人出租不动产优惠政策
  • 冲减应收账款该怎么处理
  • 发行债券支付的发行费用计入哪里
  • 固定资产不折旧直接进费用
  • 增值税普通发票有什么用
  • 外包加工如何做账
  • 售后回租的实际利率怎么计算
  • 应税劳务会计分录
  • 深入理解中国式现代化论文
  • mysql5.6解压版安装教程
  • windows update client
  • 联想e430安装win10
  • linux如何安装rz和sz
  • executing c1.exe
  • win10网络共享失败
  • 粒子冲突
  • javascript 高级
  • 检查网络资料
  • 安卓录制音频
  • python网络爬虫的流程图
  • 【mclin】手把手叫你在Eclipse里添加Android开发功能(附:完整离线版Android_SDK和Android_ADT下载)
  • javascript常用函数大全
  • input限制数字大小
  • javascript页面布局
  • python语言及应用
  • android实战项目
  • 租房减免税收
  • 境内银行境外贷款
  • 广东省电子税务局电话
  • 怎么查税务是否实名认证
  • 城镇土地使用税的计算公式
  • 退契税的时间是什么时候
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设