位置: IT常识 - 正文

tune a video:one-shot tuning of image diffusion models for text-to-video generation

编辑:rootadmin
tune a video:one-shot tuning of image diffusion models for text-to-video generation

推荐整理分享tune a video:one-shot tuning of image diffusion models for text-to-video generation,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!_哔哩哔哩_bilibili【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!共计2条视频,包括:[论文代码阅读]Tune-A-Video_ One-Shot微调图像扩散模型用于文本到图像的生成新加坡国立大学、腾讯、3连等,UP主更多精彩视频,请关注UP账号。https://www.bilibili.com/video/BV1q24y1V79k/?spm_id_from=333.337.search-card.all.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22视频生成和图像生成最大的不同在于要保证视频的连续性,运动主体不能变且运动主体的状态背景等不能产生突变,因此视频生成是一定要添加约束信息的,本文是在图像生成的基础上(T2I)通过特定设计的finetune来完成视频生成(T2V),作者说人类可以通过一个视频就能学习到新的试卷概念,因此设计了one shot video generation。怎么做呢?首先作者升级了stable diffusion的架构将2d卷积换成了3d卷积,并且将self-attention扩展到时空域,但转换之后的计算量会飙升,作者提出了sparse-causal attention,每一帧只和第一帧以及前一阵计算attention,可以极大减少计算量,在训练时,通过一段视频和相应的text进行微调,在推理时,要保证动词的一致性,可以更换背景和主题,依然能产生很好的连续性,one shot的视频实际上就是让T2I模型去学动作的。

如上图所示,第一行为原始的训练视频,训练完成之后,第二、三、四行均为推理视频,可见tune a video产生了主体一致性和动作一致性。

abstract:在现实中没有足够的视频文本对来训练T2V,人类可以从一个样本中学习新的视觉概念,因此本文研究一个新的方向,one shot视频生成,仅使用一个文本-视频对来训练一个T2V,基于已有的T2I的扩散的能力。有两个关键点,1.T2I模型能够生成很好的与动词相对齐的图像,2.扩展T2I模型同时产生多个图像有良好的一致性。为了进一步学习连续运动,采用定制的sparse-causal attention来微调模型。

1.introduction

视频生成的关键是保持一致主体的连续运动,motion and consistent object,如上图所示,第一行,给定text,例如一个男人正在沙滩上跑步,T2I能够很好的对齐动词信息,但是背景不同且不是一致的。但证明T2I可以通过cross-model attention来注意到动词。第二行作者采用了扩展的T2I模型,将T2I模型的中self-attention从一张图扩展到多张图保持跨帧时的内容一致性,并行的生成帧时都和第一帧做attention,可以看到尽管动作还不是连续的,但是主体背景等信息是一致的。可推论self-attention层仅由spatial similarities驱动而不是pixel positions(这块的解释可以从框架角度理解,因为最终推理时是无法改变one shot时学习的动作的,也就是说模型最终学习到的还是一致的空间相似度)。

tune a video:one-shot tuning of image diffusion models for text-to-video generation

        tune a video对T2I在时间维度的简单膨胀,1.将3x3 conv换成1x3x3(unet中resnet卷积),2.将spatial self-attention 换成spatio-temporal cross-frame attention。提出了一个简单的tune策略,只更新attention block中的投影矩阵,从one-shot视频中捕获连续的运动状态,其余参数均被冻结。但是spatio-temporal cross-frame attention参数量很大,提出了一个新的变体,sparse-causal attention(SC-Attn),它只计算第一帧和前一帧,自回归生成视频。

2.method

上图是本文的框架, 在fine-tune之前,现将T2I模型膨胀成T2V,其中T2V中的部分参数是从T2I中初始化的,然后采用一个视频去fine-tune,推理时,给定一个text即可生成视频,但是视频中动作是不能变的,one shot的视频就是一个动作。

上图是pipeline,首先输入视频和文本,在unet中有三attention,第一个是SC-Attn,第二个是cross-Attn(不同模态之间的attn),第三个是新增的Temp-Attn,黄色表示不断更新的,灰色表示不更新的其中Q,query是不断更新的,KV是不更新。右侧是sparse-causal attention,计算第i帧,要取到第1帧和i-1帧,之后分别投影得到KV,再计算softmax。

上式可以看到Q是第i帧通过投影矩阵产生,但是K和V就不是了,常规操作,ldm中text conditional都是加在KV上的。这里,第一帧做attention能够保证在生成内容上的全局一致性,与前一帧计算attention能够保持运动的一致性,连续性。

network inflation

普通的unet是由多层2d convolution residual blocks构成,后续是attention,每一个attention是由一个self-attention、一个cross-attention和一个feed-forward network构成,spatial self-attention利用特征图上pixel locations来实现similar correlations,cross-attention则考虑pixel和conditional input(text)之间的相关性。

        首先对输入视频使用1x3x3的卷积,可以将frame的1转到batch处理,所以2d还是可以的。

sparse-casual attention

如上图所示,v表示帧,第一个是spatial attention,在单帧之间做attention,第二张图是spatio-temporal attention,每一帧和所有帧之间计算attention,计算量是第一张图的平方,第三张图是causal attention,第i帧只会和所有的i-1帧计算attention,第四张图就是本文使用的sparse-causal attention,第四帧只与第一帧和第三帧计算attention,是前一张图的稀疏版本。

本文链接地址:https://www.jiuchutong.com/zhishi/299430.html 转载请保留说明!

上一篇:Vue+element ui实现好看的个人中心(vue-element)

下一篇:overflow:auto的用法和实现弹性盒横向滚动(overflow常见释义)

  • 支付宝数据如何移到新手机(支付宝数据能删除吗)

    支付宝数据如何移到新手机(支付宝数据能删除吗)

  • 微信挂圈容易封号吗(微信挂圈对微信有风险吗)

    微信挂圈容易封号吗(微信挂圈对微信有风险吗)

  • 华为折叠手机上市时间(华为折叠手机上下折叠)

    华为折叠手机上市时间(华为折叠手机上下折叠)

  • 无法进入windows系统(无法进入windows桌面)

    无法进入windows系统(无法进入windows桌面)

  • 5g最早什么时候能预商用(5g最早什么时候能遇上用)

    5g最早什么时候能预商用(5g最早什么时候能遇上用)

  • 安装包未包含任何证书怎么解决(安装包未包含任何证书无法安装)

    安装包未包含任何证书怎么解决(安装包未包含任何证书无法安装)

  • 相机宽容度是什么(数码相机宽容度什么意思)

    相机宽容度是什么(数码相机宽容度什么意思)

  • nova7是曲屏的吗(华为nova7屏幕是曲面屏吗)

    nova7是曲屏的吗(华为nova7屏幕是曲面屏吗)

  • 你关注的用户数已达上限是什么意思(你关注的用户数已达上限是怎么回事)

    你关注的用户数已达上限是什么意思(你关注的用户数已达上限是怎么回事)

  • 钉钉可以在电视上下载吗(钉钉可以在电视上上网课吗)

    钉钉可以在电视上下载吗(钉钉可以在电视上上网课吗)

  • 电脑桌面黑色是怎么回事(电脑桌面黑色是怎么回事,设置不了)

    电脑桌面黑色是怎么回事(电脑桌面黑色是怎么回事,设置不了)

  • 侧面指纹的缺陷(侧面指纹好吗)

    侧面指纹的缺陷(侧面指纹好吗)

  • cpu核心任务是什么(cpu核心80℃)

    cpu核心任务是什么(cpu核心80℃)

  • qq好友被对方删除 自己怎么知道(qq好友被对方删除 自己怎么恢复)

    qq好友被对方删除 自己怎么知道(qq好友被对方删除 自己怎么恢复)

  • 魅族怎样录制手机屏幕视频(魅族怎样录屏)

    魅族怎样录制手机屏幕视频(魅族怎样录屏)

  • 单反相机如何对焦(单反相机如何对焦拍照)

    单反相机如何对焦(单反相机如何对焦拍照)

  • 抖音里的喜欢怎么批量删除(抖音里的喜欢怎么没有了)

    抖音里的喜欢怎么批量删除(抖音里的喜欢怎么没有了)

  • 淘宝信誉评级在哪里看(淘宝信誉评级在哪查)

    淘宝信誉评级在哪里看(淘宝信誉评级在哪查)

  • 视频如何解除drm保护(视频怎么解)

    视频如何解除drm保护(视频怎么解)

  • 华为cnbg什么意思(华为c什么意思)

    华为cnbg什么意思(华为c什么意思)

  • vivo红外线怎么开启(vivo红外线怎么开)

    vivo红外线怎么开启(vivo红外线怎么开)

  • 腾讯视频怎么设置青少年模式(腾讯视频怎么设置手机号登录)

    腾讯视频怎么设置青少年模式(腾讯视频怎么设置手机号登录)

  • 苹果手机基带坏了有什么症状(苹果手机基带坏了怎么修)

    苹果手机基带坏了有什么症状(苹果手机基带坏了怎么修)

  • 口袋直播怎么下载(口袋直播下载安卓版)

    口袋直播怎么下载(口袋直播下载安卓版)

  • p30pro有无线充电吗(x90能无线充电吗)

    p30pro有无线充电吗(x90能无线充电吗)

  • 最贵的U盘是什么(贵的u盘和便宜的有什么区别)

    最贵的U盘是什么(贵的u盘和便宜的有什么区别)

  • 应纳税所得额为负数是什么意思
  • 结转所得税的会计分录是什么
  • 以前年度损益调整账务处理分录
  • 专项扣除三险一金为0
  • 借方应付账款 贷方银行存款
  • 设备售后回租需交税吗
  • 应付利息借贷
  • 可交换债券与可转换债券的区别在于
  • 结转当月材料采购成本的会计分录怎么做?
  • 公司为职工在异地买医保
  • 收到政府划拨的固定资产会计处理
  • 投标保证金支付时间
  • 促销服务费能抵增值税吗
  • 买烟酒开专票可以抵税吗
  • 通用机打发票上没有税率
  • 会议费税前扣除标准2021
  • 企业法人信息变更
  • 过路过桥费电子票验证
  • 新个税申报身份怎么填
  • 融资租赁与经营租赁的相同点
  • 房产评估增值部门有哪些
  • 医院职工福利费使用范围和标准是多少
  • 高新技术研发人员比例
  • 社保稽查补社保按什么基数来
  • 长期待摊费用2021
  • PHP:oci_set_client_identifier()的用法_Oracle函数
  • 赡养人 被赡养人
  • php file_get_contents 读取图片
  • msoobe.exe是什么
  • 发生额怎么算
  • PHP:ob_iconv_handler()的用法_iconv函数
  • 银行支付的存款怎么做账
  • 年终双薪是底薪吗
  • 鹤望兰的养殖方法和注意事项浇水
  • 美丽的大中华
  • 没有以前年度损益调整属于哪类科目
  • java前后端加密解密请求
  • 基于matlab的随机森林回归和交叉验证
  • html代码form
  • d2loader does not recognize
  • php比较大小的函数
  • 保险公司的应收账款有哪些
  • 增值税专用发票和普通发票的区别
  • 个人能去税务局开劳务费发票吗
  • three.js gui
  • 税务查账后如何结转
  • 生产部门使用的无形资产摊销
  • etc发票写着不征税怎么办
  • 金融商品转让一半增值税
  • 固定资产计入管理费用就不用折旧了吗
  • 费用计入什么表
  • 企业经营的利润目标长期化
  • 上月计提多了怎么办
  • 电子发票已开出客户退款会计处理是怎样的?
  • 应收账款管理制度
  • 实物出资没有发票怎么办
  • 资产负债表的资产按流动性大小排列
  • 工程不交税
  • 员工餐补是放入福利费吗?
  • 员工提前预支工资合法吗
  • 低值易耗品五五摊销法报废
  • 对会计人员继续教育的目的包括了保障
  • 约当产量法下的加权平均法怎么算
  • 设置ubuntu
  • 如何限制网速不让孩子玩游戏
  • centos无法挂载位置
  • win7怎么禁止网络连接
  • 查看电脑是否可以装两个固态
  • 使用自带DISM工具修复Windows8.1映像
  • unity2d ui
  • js判断pc还是移动
  • 详解python时间模块中的datetime模块
  • jquery弹窗弹出一个页面
  • python编程基础语法
  • 电梯维护保养费按什么缴纳增值税
  • 台资企业有什么
  • 福建省电子税务局操作指南
  • 缴纳了车辆购置税能退吗
  • sp海淘3档到国内什么快递
  • 广东省外经贸厅官网
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设