Meta最新大模型Movie Gen发布

最近Meta公司发布了最新大模型Movie Gen,这是一款能够生成带有声音的高清视频的创新工具,也标志着Meta正式进军文生视频领域。

Movie Gen

Movie Gen能够根据文本提示创造长达16秒、每秒16帧的1080P超高清视频,支持73K token上下文,为现有视频配上音频,或对现有视频进行编辑,甚至能够利用照片制作出以真实人物为主题的定制视频。

Movie Gen功能介绍

1、文生视频

Movie Gen的核心模块文生视频是基于Transformer架构开发而成的,专门优化了文本到图像和文本到视频的生成。通过理解文本提示,结合预训练时学习到的视觉知识,生成与文本描述相匹配的视频内容。这一模块的技术创新在于其能够推理对象运动、主体-对象交互和相机运动,从而生成各种概念的合理动作。

此外在训练过程中,Meta采用了大规模的互联网图像、视频和音频数据,通过复杂的数据策划和过滤流程,确保了模型训练数据的多样性和质量。

2、监督式微调

Movie Gen引入了监督式微调,使用人工策划的高质量视频数据对模型进行进一步的训练,想要进一步提高生成视频的质量和一致性。

3、个性化视频生成

Movie Gen在基础视频模型上进行了扩展,支持生成包含特定人物身份的视频内容。Meta还使用了一种全新的训练策略,通过在模型训练中加入人脸图像和文本提示的配对数据,使模型学会如何将特定的人物身份信息融入到视频生成过程中。

4、精确视频编辑

Movie Gen允许用户通过文本提示对视频进行精确编辑。通过创新的训练方法,使模型能够理解文本提示中的编辑指令,并将其应用于视频内容的修改中。包括添加、移除或替换视频中的元素,以及进行背景或风格等全局性的修改。

5、流匹配和DiT

流匹配是一种创新的生成式建模方法,通过构建一个最优传输路径来指导生成过程,从而确保生成的内容既连贯又富有创意。与传统的扩散模型相比,流匹配不仅提高了训练效率,还增强了推理阶段的表现力。

DiT一种经过调整的变压器架构,能够更好地处理音频数据。通过对归一化层输出进行缩放和偏移,并对自注意力及前馈网络层输出进行缩放,实现了对音频信号更精细的控制。同时,通过一个多层感知机来预测调制参数,进一步优化了模型性能。

为了适配不同的设备,针对视频中的位置信息编码问题,Movie Gen使用了一种因子化的可学习位置嵌入方式。这种方法可以灵活地适应不同尺寸、宽高比以及视频长度的输入,避免了传统固定长度位置编码带来的限制。Movie Gen通过将空间坐标以及时间坐标转化为独立的嵌入向量,再将它们相加得到最终的位置表示,从而有效减少了因位置编码不当导致的画面扭曲或变形现象,尤其是在时间维度上表现尤为明显。

为了降低性能消耗,Movie Gen引入了多维度并行化策略,包括数据并行、张量并行、序列并行以及上下文并行。这种三维并行化设计允许模型在参数数量、输入token数和数据集大小三个轴向上进行扩展,同时也能横向扩展至更多的GPU设备上。特别是在处理高分辨率视频时,由于自注意力机制本身的计算复杂度较高,因此高效的并行化策略对于减少所需的计算资源至关重要。

行业动态

ChatGPT全新功能Canvas上线

2024-10-4 9:43:34

行业动态

北大快手联合开源超高清视频模型Pyramid-Flow

2024-10-11 10:34:37

相关推荐