字节跳动发布豆包视频生成大模型

最近字节跳动旗下火山引擎发布最新豆包视频生成大模型，分别是PixelDance和Seaweed，正式进军文生视频领域。

豆包视频生成大模型

豆包视频生成大模型能够轻松实现自然连贯的多拍动作以及多主体复杂交互，生成的视频更加精准、逼真。通过该大模型生成的视频可以精准地遵循复杂提示指令，让不同人物在视频中完成多个动作指令的互动，且互动过程流畅自然，毫无生硬之感。以下就是豆包视频生成大模型的特色之处：

1、细节处理方面

豆包视频生成大模型可以让人物样貌、服装细节甚至头饰在不同运镜下都能始终保持一致，这种高度的一致性使得生成的视频接近实拍效果。无论是特写镜头下人物面部的细微表情，还是全景镜头中人物服装的纹理和配饰的光泽，都能在各种运镜切换中保持稳定和清晰。

2、光影方面

经过在剪映、即梦AI等业务场景中的不断打磨和持续迭代，豆包视频生成模型在画面视觉效果方面具备了专业级的水准。其出色的光影布局能力，能够根据不同的场景和氛围，精准地模拟自然光和人造光的效果，营造出逼真的光影层次感。

3、架构方面

豆包视频生成大模型基于先进的DiT开发而成，这一架构为模型的高效运行和强大功能提供了坚实的基础。通过高效的DiT融合计算单元，模型能够实现视频在大动态与运镜中的自由切换。在视频制作中，运镜是非常重要的手段之一，可以通过不同的镜头运动方式来引导观众的视线，增强画面的节奏感和叙事性。

豆包视频生成大模型的DiT架构使得它能够自如地运用变焦、环绕、平摇、缩放、目标跟随等多种镜头语言。例如，在拍摄一个城市风光的视频时，通过变焦镜头可以突出城市的标志性建筑，让观众更加清晰地欣赏到建筑的细节和美感；环绕镜头则可以全方位地展示建筑的外观和周围环境，给观众带来一种身临其境的感觉；平摇镜头可以用来展现城市的街道和人群，展现城市的生活气息；缩放镜头可以在不同场景之间进行切换，营造出不同的视觉效果和情感氛围；目标跟随镜头可以跟踪运动的物体或人物，增强视频的动态感和吸引力。

4、风格方面

豆包视频生成大模型支持包括黑白、3D动画、2D动画、国画等不同风格视频，包含1:1、3:4、4:3、16:9、9:16、21:9六个比例，适配于各种终端，以及电影、手机竖屏等不同画幅。

目前，豆包视频生成大模型已面向企业市场开启邀测。