【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation(论文精读分析报告)

编辑：rootadmin

【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generationvideo-to-videoAbstractIntroductionMethodDiffusion ModelsLatent Diffusion ModelOne-shot Video GenerationOur Tune-A-Videoattention blockOne-Shot TurningExperimentvideo-to-video

推荐整理分享【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation(论文精读分析报告)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:精读一篇论文要多久,论文精粹,论文精读报告怎么写,论文精读分享,精读论文题目,论文精读分享,论文精读分享,论文精读分享,内容如对您有帮助，希望把文章链接给更多的朋友！

修改文本内容，生成新的视频。

Abstract

由于T2I的成功，近日T2V的方法在大量的T2I的数据集中加入fine-turning.我们试图给出一个One-Shot Video Generation。 1、产生图像与动词对齐。 2、扩展文本到图像的模型，同时生产多张图片。作者提出Turn a video的方法，高效的fine-turn翻译成2D的扩散模型，通过文本生成视频。改变元素、背景或者风格的转换。

Introduction

让模型具有One-Shot的能力。原模型：缺乏连贯性，动作、背景不连贯。不符合对视频生成的要求。新模型：增加了Self-Attention（由空间相似性驱动，而不是像素的位置），增加了连贯性，主体一致性

预训练文本-视频，由3×3扩展到1×3×3 具有结构相似性。

寄存量呈平方式增加（过大），提出Sparse-Causal Attention（SC-Attn）对于因果Attentiion的变形，稀疏版本。该方法可以回归生成任意长度的视频帧。 Sparse-Causal是Causal的稀疏版

上：膨胀成文本到视频下：新的文本，生成对应视频（动作不变） pipeline diffusion U-NET模型，下方attention模型，修改为Sparse-Causal Attention。