视频生成模型调研 – 人像视频/基础模型/可控编辑/DiT

2024-7-21

经常看见有一些视频生成的模型出来，类型还不太一样，简单学习和调研下这个领域和相关技术的情况。在我所看到的有限的范围里，可以把近期出现的视频生成能力分成两类：

一类是专门精细化控制人物表情动作的模型，驱动一张人像照片动起来。这类模型存在已久，老技术也能实现，近期不断有新模型出现，效果也越来越好，业界好像没针对这一类命个名，姑且叫它人像视频。
另一类是通用的视频生成基础模型，包括基于扩散模型的，以及 sora 出现后的 DiT 架构模型。另外跟 Stable Diffusion 图片生成的生态类似，也会有一些为视频生成基础模型配套的可控编辑扩展模型。

人像视频

先来看看人像视频，常见有两类：

表情控制：输入人物表情视频，让图片的人脸跟着做同样的表情。变种是输入音频，让图片人脸跟着音频的口型动，talking photo。
姿态控制：输入人物动作的视频，让图片的人跟着视频的动作动。火过的 case 是通义千问的全民舞王科目三。


表情控制(Vimi)	姿态控制(Animate Anyone)

这里的技术都不是这波大模型后才有的，上个时代已经有很多做得不错，上一波爆火的蚂蚁呀嘿已经是 2021 年的事了，相关论文也是 2019 年就有了：《First Order Motion Model for Image Animation》。后面不断有新的方案，包括基于和不基于扩散模型的方案。下面列几个近期出现，看起来还行的方案。

表情控制

基于扩散模型

基于扩散模型的方案，大体思路看起来是在原网络插入 pose/人脸点位控制，跟 ControlNet 原理差不多，扩散模型本身除了 SD Unet 那套外，基本都会加入视频生成常见的 spatial-attention 和 temporal-attention。

AniPortrait(华为)：24年3月发布。支持从语音生成对应每一帧的口型和人脸位置图，再基于 SD1.5 扩散模型 + motion module 从参考图生成视频结果。开源可用。
megActor(旷世科技)：24年5月发布。没有把视频解析成中间关键点去驱动图片，而是原视频画面直接驱动，以预期得到更生动的效果，2个UNet网络，推理成本看起来会高一些，效果稳定性一般。只支持视频面部特征，不支持音频对口型，开源可用。
EchoMimic(蚂蚁)：24年7月发布。同时使用音频和面部特征进行训练，可单独用音频生成，也可以结合输入视频的面部特征生成，结果更自然，开源可用，comfyUI module可用。

还有几个不开源的：微软的VASA-1，阿里的EMO，都是语音对口型，朝着数字人方向做的。

非扩散模型

非扩散模型的方案，看起来基本也是先把人脸节点生成完，再用其他的网络结构去应用到图上生成视频。

LivePortrait(快手)：24年7月刚出的模型，模型很小，主干网络是 ConvNeXt-V2-Tiny，28M参数量，各部分加起来就500M，号称速度很快，单帧推理时间在 RTX 4090 GPU 是 12.8ms，都能稳定实时输出 60 帧视频了，很适合端上部署，这也是非扩散模型的优势，还有个特点是能快速精确控制眼睛和嘴巴的开闭程度，动画稳定。comfyUI module 也有了。

VividTalk(阿里)：跟 AniPortrait 有点像，同样是训练音频→表情嘴型关键点，音频→头部运动关键点，再经与图片一起进入另一个网络生成最终视频，只是这网络不是基于扩散模型。未开源，真实效果未知。

姿态控制

AnimateAnyone(阿里)，23年底发布。效果比较稳定，官方没开源，但摩尔线程基于论文做了开源实现 Moore-AnimateAnyone ，后续腾讯 MusePose 基于这个开源实现继续优化和封装，comfyUI可用。

magic-animate(字节)，23年底发布。Pose 序列不是 OpenPose 人体骨骼，而是丰富的整个人的动作 densePose，视频转 densePose 还比较麻烦，densePose 序列用 ControlNet 的方式去做生成的控制，另外有一个网络去编码人物形象做IP保持。试用下来，参考图跟 pose 的形象姿态差异大的场景也能支持，比如让蒙娜丽莎跳舞，但这种场景下效果不太好，人脸基本不保持，只保持了人物衣着的IP形象。已开源。

还有其他很多，MimicMotion，MuseV，Follow Your Pose，DreaMoving 等，大同小异。

视频生成

视频生成模型业界除了最出名的 runway、pika、sora，也陆续有不少开源的方案出来，当前已有的开源方案基本都是基于 Latent Diffusion Model，核心是 UNet 降噪网络，基于这种网络还有不少做视频可控编辑扩展模型，DiT 架构还在路上。

基础模型

I2VGen-XL(阿里)，23年11月发布。比较常规，基于 3D-UNet 扩散模型生成，分成基础生成和高清细化两个阶段，细化阶段不是单纯提高分辨率，会改善时间连续性、引入文本输入控制内容。开源可用。
SVD(Stable Video Diffusion)，23年12月发布。模型结构复用 Video LDM，主要是在 U-Net 和 VAE 解码器中分别加入时序层（temporal attention layer），SVD 论文本身在讲模型怎么训练的，包括高质量视频的微调。
PixelDance(字节)，23年11月发布。特点是首尾帧机制，首帧图作为强引导，与噪点图拼接一起作为输入，严格遵守首帧图，同时尾帧图作为弱引导，训练中会随机抛弃尾帧，推理降噪过程中在步数大于τ值时也会抛弃尾帧，避免完全对齐，让生成的结果有多样性。在 DiT 架构的模型出现之前，效果基本是最好的，生成的视频运动幅度大，稳定性不错。未开源。
ConsistI2V(零一万物) ，24年2月发布。跟 PixelDance 有点像，也是首帧与噪点图拼接一起作为输入（类似 SD 的垫图），同时会把首帧也作为降噪过程条件作用在 spatial-attention 和 temporal-attention 上，较大地强调首帧图片的重要性，这样生成的视频不容易崩，一致性比较好。已开源，可在线试用。

可控编辑

视频生成的可控编辑是指通过各种方式控制视频生成方向，例如运动方向、内容替换、风格迁移等，原理上跟图片生成的 ControlNet / IPAdatper 等机制差不多，基于上述视频生成基础模型，训练扩展模型插入原网络，控制生成方向。

图生视频控制

大部分视频生成是图生视频，在图片上圈选运动范围和运动轨迹是很自然的诉求，一代目 Runway 上的 Motion Brush 就是做这个，基本应该应该是后续正经视频生成模型的标配，也有开源模型基于 SVD 等基模做了这个能力。

mofa-video(腾讯)，24年7月发布，基于 SVD。可以训练多种 adapter，控制图片生成，包括手势控制、人脸关键点控制、姿势关键点等，每种控制 adapter 独立训练，可以独立使用或组合使用，比较灵活通用。开源可用。

视频内容编辑/风格化

这一类指 Video to Video，修改原视频上的元素，替换衣服、人物等，部分也包含了视频风格迁移能力。

ReVideo(腾讯)，24年7月发布，基于SVD。通过修改第一帧和绘制轨迹线，对视频中特定区域内容和运动进行定制化编辑。使用分阶段训练的策略，简单理解为，A阶段重点训练运动轨迹，B阶段重点训练内容替换，再进行结合。开源可用。
I2VEdit(商汤)，基于SVD，利用成熟的图像工具编辑第一帧，再将第一帧的修改应用到整个视频，实现局部替换和风格化。
AnyV2V(华为)：比较通用的视频编辑框架，可以灵活用于多个视频生成模型，包括I2VGen-XL、ConsistI2V、SEINE，同样是先通过各种方式改造编辑视频首帧，再插入视频生成模型，将风格和替换内容扩展到整个视频，实现视频编辑能力。通用于多个模型的原理，简单理解是提取了空间注意力/时间注意力特征注入了原生成模型的 spatical-attention/temporal-attention 模块，理论上差不多架构的模型都能通用。可试用。
animatediff：animatediff 比较特殊，不是基于 SVD，而是基于图生成 Stable Diffusion，在上面训练加上运动模块 Motion Module，学习了视频片段的运动知识，支持视频生成。很早发布，在 SD 生态配合 IPAdapter / ControlNet 等各种扩展和 LoRA 模型一起使用，组合出很多有趣的应用，看到的大部分视频风格转动漫风基本是基于这个方案。

DiT

DiT(Diffusion Transformer) 是视频生成基础模型的一个算法架构，应该放在基础模型部分的，但它太新了，想单独抽出来细看一下。

上面大部分模型，包括可控性的扩展模型，核心底层都是基于经典的 UNet 架构，但 Sora 出来后，业界公认 DiT 架构才是未来，毕竟效果太碾压了，最近可灵 / Luma 的出现也印证了这点。架构范式转移到 DiT 后，原先在 UNet 上做的各种可控雕花，看起来基本上是没法迁移到 DiT 架构的，一切得重来。

DiT 架构开源的只见到去年11月 sora 出来之前的 Latte，研究性比较多，效果一般。其他靠谱的开源模型还没见到，毕竟 Sora 还没见影，可灵和 luma 也刚出。（DiT架构的图片生成就有一些，比如腾讯混元）

DiT的架构图，与 LLM 的架构同源，核心是 transformer 模块，跟基于 UNet 的模型都不一样，我们尝试来看看在这个架构下视频生成的推理过程：

初始化一个噪声视频。
视频会先转换成潜空间的表示，后续的运算都在潜空间里运算，这点跟 Stable Diffusion 一类的扩展模型一致，视频应该是使用 VQ-VAE 进行编码到潜空间。
视频的表示会被分割成一个个 patch 块，每个 patch 块是一个 token，patch == token。
这些代表整个视频的 patch 块集合，一起进入 DiT Block。这个 DiT Block 就是个类 transformer 模块，与 LLM 一样核心也是多头注意力，在这里会计算每个 token 之间的注意力，加上引导词和步数条件，做相应计算。
按 LLM 模型的套路，这里 N 个 DiT Block 跑完，整个流程跑完，输出会是预测的下一个 token。但我理解这里的输出并不是下一个 token（一个 token 只是一个 patch），而是这里的 patch 合集经过这些 DiT Block 的注意力运算和条件引导，变换成离最终视频更近的一个表示，也就是对这里的噪声视频做了一次降噪。
如果是20次降噪，重复20次这个过程，一个纯噪声视频生成最终清晰的视频。
如果要垫图，首帧图尾帧图，只需要让图片跟输入的纯噪声视频做一些结合就可以。

可以看到跟其他的 UNet 为核心的架构有本质差别，像 ControlNet 各种可控性的研究没法迁移，需要另外找控制路径。从业界在这领域卷的程度看，预期发展还是会非常快，等下一个 DiT 架构的靠谱视频生成模型开源，也应该很快会有人在上面把相关可控能力不断研究补齐了。

感想

这个领域给我感受是模型超多，看不完跟不上，只能先了解个大概，在有具体应用场景时，再根据需求做相应深入的调研。

为什么这么多模型？看起来它训练的资源门槛没那么高（比 LLM 低），有公开训练数据集（WebVid 和 LAION），论文上都会把方法给出，width=甚至模型和代码也开源，各研究者很容易从中吸收学习做改进，再造一个模型，现在也没出现一个效果通用秒杀一切的模型，所以三天两头出个新模型是常态。

DiT 架构后，视频生成和视频编辑这些模型大概率要淘汰，而人像视频可能在较长一段时间内仍有应用空间，如果要做 AI 视频短片，人物表情动作精细控制挺重要，DiT 架构目前还没看到有能做到精细控制的技术，基于 Unet 的通用视频生成模型这么长时间也没法做好这块的可控性，可能一段时间内还得靠原有技术做这里的可控后编辑。

分类:技术文章 Tags:AI

上一篇：Transformer 里的 Q K V 是什么

下一篇：什么是多模态大模型