腾讯开源了最强的类Sora文生视频模型HunyuanVideo

最近,腾讯开源了目前最强的类Sora混元视频生成大模型(HunYuan-Video)。模型参数量130亿,具备物理模拟、一镜到底、文本语义还原度高、动作一致性强、色彩分明、对比度高等技术特性。

HunyuanVideo

腾讯混元视频生成模型HunYuan-Video是一款突破性的视频生成模型,提供超写实画质质感,能够在真实与虚拟之间自由切换。它打破了小幅度动态图的限制,实现完整大幅度动作的流畅演绎。

HunYuan-Video具备导演级的运镜效果,具备业界少有的多视角镜头切换主体保持能力,艺术镜头无缝衔接,一镜直出,展现出如梦似幻的视觉叙事。同时模型在光影反射上遵循物理定律,降低了观众的跳戏感,带来更具沉浸感的观影体验。模型还具备强大的语意遵从能力,用户只需简单的指令即可实现多主体准确的描绘和流畅的创作,激发无限的创意与灵感,充分展现AI超写实影像的独特魅力。特点如下:

  • 卓越画质:呈现超写实的视觉体验,轻松实现真实与虚拟风格的切换。
  • 动态流畅:突破动态图像的局限,完美展现每一个动作的流畅过程。
  • 语义遵从:业界首个以多模态大语言模型为文本编码器的视频生成模型,天然具备超高语义理解能力,在处理多主体及属性绑定等生成领域的难点挑战时表现出色。
  • 原生镜头转换:多视角镜头切换主体保持能力,艺术镜头无缝衔接,打破传统单一镜头生成形式,达到导演级的无缝镜头切换效果。

混元架构介绍:

混元在时空压缩的潜在空间上进行训练,并通过Causal 3D VAE进行压缩。文本提示则使用大语言模型进行编码,并用作条件。将高斯噪声和条件作为输入,生成模型生成潜在输出,通过3D VAE解码器将其解码为图像或视频。

Causal 3D VAE是一种特殊的变分自编码器,不仅能够学习数据的分布,还能够理解数据之间的因果关系。这种模型通过编码器将输入数据压缩成一个潜在的表示,然后通过解码器将这个潜在表示重构回原始数据。Causal 3D VAE特别设计用来处理具有时间依赖性的数据,通过引入因果机制,确保潜在空间中的每个点不仅反映了当前帧的信息,还包含了对未来帧变化趋势的预测。

混元还引入了Transformer架构,并采用Full Attention机制来统一图像和视频生成。使用“双流到单流”混合模型设计来生成视频。

在双流阶段,视频和文本数据被分别送入不同的Transformer块进行处理。这种设计允许模型独立地学习视频和文本数据的特征表示,而不受其他模态的干扰。视频流通过分析帧序列中的时空信息,学习到视频内容的运动和变化规律。文本流则通过处理文本标记,理解语言的语义和上下文信息。两个流并行处理,各自专注于捕捉和学习最适合自己模态的特征,这有助于模型更准确地理解和生成相应的内容。

在单流阶段,经过独立处理的视频和文本特征被合并,形成一种多模态的输入,然后一起输入到后续的Transformer块中。这一步骤是实现有效多模态信息融合的关键。在这一阶段,模型需要将视觉信息和语义信息结合起来,以生成与文本描述相匹配的视频内容。

通过双流到单流的设计,混元模型能够在不同的阶段分别处理和融合多模态信息,这提高了模型的整体性能。在双流阶段,模型能够独立地学习每种模态的特征,而在单流阶段,模型能够将这些特征结合起来,生成与文本描述相匹配的视频内容。

行业动态

谷歌发布双思维Talker-Reasoner AI框架

2024-12-3 9:47:51

行业动态

构建自定义ChatGPT 微软推出Copilot Studio

2023-11-20 15:29:20

相关推荐