位置: IT常识 - 正文

tune a video:one-shot tuning of image diffusion models for text-to-video generation

编辑:rootadmin
tune a video:one-shot tuning of image diffusion models for text-to-video generation

推荐整理分享tune a video:one-shot tuning of image diffusion models for text-to-video generation,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!_哔哩哔哩_bilibili【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!共计2条视频,包括:[论文代码阅读]Tune-A-Video_ One-Shot微调图像扩散模型用于文本到图像的生成新加坡国立大学、腾讯、3连等,UP主更多精彩视频,请关注UP账号。https://www.bilibili.com/video/BV1q24y1V79k/?spm_id_from=333.337.search-card.all.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22视频生成和图像生成最大的不同在于要保证视频的连续性,运动主体不能变且运动主体的状态背景等不能产生突变,因此视频生成是一定要添加约束信息的,本文是在图像生成的基础上(T2I)通过特定设计的finetune来完成视频生成(T2V),作者说人类可以通过一个视频就能学习到新的试卷概念,因此设计了one shot video generation。怎么做呢?首先作者升级了stable diffusion的架构将2d卷积换成了3d卷积,并且将self-attention扩展到时空域,但转换之后的计算量会飙升,作者提出了sparse-causal attention,每一帧只和第一帧以及前一阵计算attention,可以极大减少计算量,在训练时,通过一段视频和相应的text进行微调,在推理时,要保证动词的一致性,可以更换背景和主题,依然能产生很好的连续性,one shot的视频实际上就是让T2I模型去学动作的。

如上图所示,第一行为原始的训练视频,训练完成之后,第二、三、四行均为推理视频,可见tune a video产生了主体一致性和动作一致性。

abstract:在现实中没有足够的视频文本对来训练T2V,人类可以从一个样本中学习新的视觉概念,因此本文研究一个新的方向,one shot视频生成,仅使用一个文本-视频对来训练一个T2V,基于已有的T2I的扩散的能力。有两个关键点,1.T2I模型能够生成很好的与动词相对齐的图像,2.扩展T2I模型同时产生多个图像有良好的一致性。为了进一步学习连续运动,采用定制的sparse-causal attention来微调模型。

1.introduction

视频生成的关键是保持一致主体的连续运动,motion and consistent object,如上图所示,第一行,给定text,例如一个男人正在沙滩上跑步,T2I能够很好的对齐动词信息,但是背景不同且不是一致的。但证明T2I可以通过cross-model attention来注意到动词。第二行作者采用了扩展的T2I模型,将T2I模型的中self-attention从一张图扩展到多张图保持跨帧时的内容一致性,并行的生成帧时都和第一帧做attention,可以看到尽管动作还不是连续的,但是主体背景等信息是一致的。可推论self-attention层仅由spatial similarities驱动而不是pixel positions(这块的解释可以从框架角度理解,因为最终推理时是无法改变one shot时学习的动作的,也就是说模型最终学习到的还是一致的空间相似度)。

tune a video:one-shot tuning of image diffusion models for text-to-video generation

        tune a video对T2I在时间维度的简单膨胀,1.将3x3 conv换成1x3x3(unet中resnet卷积),2.将spatial self-attention 换成spatio-temporal cross-frame attention。提出了一个简单的tune策略,只更新attention block中的投影矩阵,从one-shot视频中捕获连续的运动状态,其余参数均被冻结。但是spatio-temporal cross-frame attention参数量很大,提出了一个新的变体,sparse-causal attention(SC-Attn),它只计算第一帧和前一帧,自回归生成视频。

2.method

上图是本文的框架, 在fine-tune之前,现将T2I模型膨胀成T2V,其中T2V中的部分参数是从T2I中初始化的,然后采用一个视频去fine-tune,推理时,给定一个text即可生成视频,但是视频中动作是不能变的,one shot的视频就是一个动作。

上图是pipeline,首先输入视频和文本,在unet中有三attention,第一个是SC-Attn,第二个是cross-Attn(不同模态之间的attn),第三个是新增的Temp-Attn,黄色表示不断更新的,灰色表示不更新的其中Q,query是不断更新的,KV是不更新。右侧是sparse-causal attention,计算第i帧,要取到第1帧和i-1帧,之后分别投影得到KV,再计算softmax。

上式可以看到Q是第i帧通过投影矩阵产生,但是K和V就不是了,常规操作,ldm中text conditional都是加在KV上的。这里,第一帧做attention能够保证在生成内容上的全局一致性,与前一帧计算attention能够保持运动的一致性,连续性。

network inflation

普通的unet是由多层2d convolution residual blocks构成,后续是attention,每一个attention是由一个self-attention、一个cross-attention和一个feed-forward network构成,spatial self-attention利用特征图上pixel locations来实现similar correlations,cross-attention则考虑pixel和conditional input(text)之间的相关性。

        首先对输入视频使用1x3x3的卷积,可以将frame的1转到batch处理,所以2d还是可以的。

sparse-casual attention

如上图所示,v表示帧,第一个是spatial attention,在单帧之间做attention,第二张图是spatio-temporal attention,每一帧和所有帧之间计算attention,计算量是第一张图的平方,第三张图是causal attention,第i帧只会和所有的i-1帧计算attention,第四张图就是本文使用的sparse-causal attention,第四帧只与第一帧和第三帧计算attention,是前一张图的稀疏版本。

本文链接地址:https://www.jiuchutong.com/zhishi/299430.html 转载请保留说明!

上一篇:Vue+element ui实现好看的个人中心(vue-element)

下一篇:overflow:auto的用法和实现弹性盒横向滚动(overflow常见释义)

  • 不完美才是真实的(不完美才是真实的生活)

    不完美才是真实的(不完美才是真实的生活)

  • 空调变频和定频的区别怎样看出来(空调变频和定频的区别)(空调变频和定频怎么看得出来)

    空调变频和定频的区别怎样看出来(空调变频和定频的区别)(空调变频和定频怎么看得出来)

  • 高德地图怎么设置车牌号避开限行(高德地图怎么设置多个目的地)

    高德地图怎么设置车牌号避开限行(高德地图怎么设置多个目的地)

  • b站的视频怎么下载到手机(b站的视频怎么弄到PPT上)

    b站的视频怎么下载到手机(b站的视频怎么弄到PPT上)

  • 安卓禁止软件自动更新(安卓禁止软件自动运行)

    安卓禁止软件自动更新(安卓禁止软件自动运行)

  • 小米9保修多久(小米9保修多久免费)

    小米9保修多久(小米9保修多久免费)

  • 装宽带和装wifi是一样的吗(装宽带和装wifi和网络电视有什么区别)

    装宽带和装wifi是一样的吗(装宽带和装wifi和网络电视有什么区别)

  • 安卓手机微信视频没有声音怎么回事(安卓手机微信视频来电没有声音)

    安卓手机微信视频没有声音怎么回事(安卓手机微信视频来电没有声音)

  • 2.3ghz八核处理器是骁龙多少(苹果2.3ghz八核处理器)

    2.3ghz八核处理器是骁龙多少(苹果2.3ghz八核处理器)

  • 2个8g内存条和一个16g的有区别么(内存条两个8g)

    2个8g内存条和一个16g的有区别么(内存条两个8g)

  • 用手机怎么控制魔百盒(用手机怎么控制电视)

    用手机怎么控制魔百盒(用手机怎么控制电视)

  • 华为watch2pro和gt2区别(华为watch2pro和gt2ecg)

    华为watch2pro和gt2区别(华为watch2pro和gt2ecg)

  • 星光级摄像机什么意思(星光级摄像机什么牌子好)

    星光级摄像机什么意思(星光级摄像机什么牌子好)

  • 苹果官网发货几天能到(苹果官网发货几天到货)

    苹果官网发货几天能到(苹果官网发货几天到货)

  • 系统桌面无响应怎么办(系统桌面无响应 红米)

    系统桌面无响应怎么办(系统桌面无响应 红米)

  • 数据库管理系统有哪些功能(数据库管理系统的主要功能)

    数据库管理系统有哪些功能(数据库管理系统的主要功能)

  • 家用200m宽带用什么网线(200m宽带家用够吗)

    家用200m宽带用什么网线(200m宽带家用够吗)

  • iphonex保修期是多久(iphonex保修期多少)

    iphonex保修期是多久(iphonex保修期多少)

  • 手机电充不满就拔掉会有什么影响(手机电充不满就拔了对手机电池有影响吗?)

    手机电充不满就拔掉会有什么影响(手机电充不满就拔了对手机电池有影响吗?)

  • 微信怎么调自动收款(微信怎么调自动收款功能)

    微信怎么调自动收款(微信怎么调自动收款功能)

  • 苹果手机怎么解压zip(苹果手机怎么解锁屏幕)

    苹果手机怎么解压zip(苹果手机怎么解锁屏幕)

  • iPhone Xs Max的手机尺寸(iphonexsmax的手机壳跟哪个一样尺寸)

    iPhone Xs Max的手机尺寸(iphonexsmax的手机壳跟哪个一样尺寸)

  • 小翼管家怎么绑定网关(小翼管家怎么绑定路由器)

    小翼管家怎么绑定网关(小翼管家怎么绑定路由器)

  • ps怎么污点修复(ps怎么污点修复gif)

    ps怎么污点修复(ps怎么污点修复gif)

  • 苹果手机诊断在哪里(苹果手机诊断是什么意思)

    苹果手机诊断在哪里(苹果手机诊断是什么意思)

  • linux服务器下phpcms提示hash数据验证失败的解决方法(linux开启php服务)

    linux服务器下phpcms提示hash数据验证失败的解决方法(linux开启php服务)

  • 安徽省增值税发票开票截止日期
  • 纳税等级是指什么意思
  • 什么叫汇总征税
  • 与企业日常无关的政府补服属于利得吗
  • 季度不超过30万是含税还是不含税
  • 年终奖12月份计提少了
  • 财务软件无形资产摊销几年
  • 个体户城市维护建设税减免性质
  • 增值税发票税号0和O
  • 职工教育经费税收金额怎么算
  • 外购自用需要缴纳增值税吗
  • 经销商注册什么公司
  • 发票退回原因
  • 转让五年以上住房免征个人所得税吗?
  • 事业单位退休人员独生子女费如何发放
  • 商品房买卖合同预售和商品房买卖合同有什么区别
  • 增值税专用发票怎么开
  • 差额纳税的会计处理
  • 增值税申报未达标怎么办
  • 工程预缴税款几个点
  • 2019年水利部
  • 销售货物运费的增值税率
  • 私募投资基金投资者风险问卷调查
  • 公司不给发公司
  • 单位定期存款支取
  • 增加采购发票的方法
  • 存货抵偿债务账务处理
  • 房地产企业收到房款账务处理
  • 东芝t351笔记本
  • 财务报表未分配利润为负数
  • php上传进度条
  • 企业补充养老保险
  • 污水处理增值税税率
  • 预提借款税费会减少吗
  • 住宿费电子发票没有章
  • vue 响应式自适应布局
  • vue基础知识
  • php 弱类型变量是怎么实现的
  • 城建税减半吗
  • 折扣方式销售有哪些类型
  • 应付账款会计分录大全
  • 财务没有及时缴费怎么办
  • 年报和汇算清缴不一致怎么处理
  • 织梦商城
  • 织梦怎么用模板建站
  • 房地产企业土地使用税纳税义务终止
  • 企业会计制度固定资产折旧年限
  • 资产减值准备的举例
  • 其他综合收益转到留存收益
  • 暂估商品入库 后收到发票怎么做分录
  • 筹资费用和财务费用一样吗
  • 收房租的收据怎么写
  • 母子公司无偿划转土地
  • 房地产成本核算对象
  • 公司改名后发票怎么开
  • 发票入账是借还是贷
  • 农行公户怎么给公户转账
  • 本单位职工可以在本单位兼职吗
  • 企业在销售过程中支付的消费税应通过什么账户进行核算
  • win2003控制面板在哪里打开
  • win10怎么设置开机自启软件
  • linux系统的电脑如何共享
  • u盘如何安装win7系统
  • centos 网卡顺序
  • win8的系统
  • win7电脑全屏
  • linux网络设备有哪些
  • 批处理命令是什么语言
  • javascript中cookie
  • shell数值比较
  • python算法简单编程题
  • 广度优先搜索输出路径
  • unity操作教程
  • javascript要怎么学
  • js函数关键字
  • unity相关问题
  • 移动应用界面设计形考1答案
  • 河南省发票查询真伪
  • 广西地方税务局2018年1号公告
  • 在深圳,企业房贷怎么办
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设