Meta最新大模型Movie Gen发布

最近Meta公司发布了最新大模型Movie Gen，这是一款能够生成带有声音的高清视频的创新工具，也标志着Meta正式进军文生视频领域。

Movie Gen

Movie Gen能够根据文本提示创造长达16秒、每秒16帧的1080P超高清视频，支持73K token上下文，为现有视频配上音频，或对现有视频进行编辑，甚至能够利用照片制作出以真实人物为主题的定制视频。

Movie Gen功能介绍

1、文生视频

Movie Gen的核心模块文生视频是基于Transformer架构开发而成的，专门优化了文本到图像和文本到视频的生成。通过理解文本提示，结合预训练时学习到的视觉知识，生成与文本描述相匹配的视频内容。这一模块的技术创新在于其能够推理对象运动、主体-对象交互和相机运动，从而生成各种概念的合理动作。

此外在训练过程中，Meta采用了大规模的互联网图像、视频和音频数据，通过复杂的数据策划和过滤流程，确保了模型训练数据的多样性和质量。

2、监督式微调

Movie Gen引入了监督式微调，使用人工策划的高质量视频数据对模型进行进一步的训练，想要进一步提高生成视频的质量和一致性。

3、个性化视频生成

Movie Gen在基础视频模型上进行了扩展，支持生成包含特定人物身份的视频内容。Meta还使用了一种全新的训练策略，通过在模型训练中加入人脸图像和文本提示的配对数据，使模型学会如何将特定的人物身份信息融入到视频生成过程中。

4、精确视频编辑

Movie Gen允许用户通过文本提示对视频进行精确编辑。通过创新的训练方法，使模型能够理解文本提示中的编辑指令，并将其应用于视频内容的修改中。包括添加、移除或替换视频中的元素，以及进行背景或风格等全局性的修改。

5、流匹配和DiT

流匹配是一种创新的生成式建模方法，通过构建一个最优传输路径来指导生成过程，从而确保生成的内容既连贯又富有创意。与传统的扩散模型相比，流匹配不仅提高了训练效率，还增强了推理阶段的表现力。

DiT一种经过调整的变压器架构，能够更好地处理音频数据。通过对归一化层输出进行缩放和偏移，并对自注意力及前馈网络层输出进行缩放，实现了对音频信号更精细的控制。同时，通过一个多层感知机来预测调制参数，进一步优化了模型性能。

为了适配不同的设备，针对视频中的位置信息编码问题，Movie Gen使用了一种因子化的可学习位置嵌入方式。这种方法可以灵活地适应不同尺寸、宽高比以及视频长度的输入，避免了传统固定长度位置编码带来的限制。Movie Gen通过将空间坐标以及时间坐标转化为独立的嵌入向量，再将它们相加得到最终的位置表示，从而有效减少了因位置编码不当导致的画面扭曲或变形现象，尤其是在时间维度上表现尤为明显。

为了降低性能消耗，Movie Gen引入了多维度并行化策略，包括数据并行、张量并行、序列并行以及上下文并行。这种三维并行化设计允许模型在参数数量、输入token数和数据集大小三个轴向上进行扩展，同时也能横向扩展至更多的GPU设备上。特别是在处理高分辨率视频时，由于自注意力机制本身的计算复杂度较高，因此高效的并行化策略对于减少所需的计算资源至关重要。