Stable Video 3D上线单个图片生成高质量3D视频

3月19日，Stability AI继推出文生图Stable Diffusion、文生视频Stable Video Diffusion之后，上线了图像直接生成3D视频模型——Stable Video 3D。

该模型基于Stable Video Diffusion打造，能够显著提升3D生成的质量和多视角一致性，效果要优于之前Stability AI推出的Stable Zero123以及丰田研究院和哥伦比亚大学联合开源的Zero123-XL。

Stable Video 3D一共有两个版本：SV3D_u和SV3D_p。

SV3D_u支持单个图像生成轨道视频，无需相机调节。
SV3D_p扩展了SVD3_u的功能，支持单个图像和轨道视图，从而可以生成沿特定的摄像机路径创建3D视频。

SV3D借助了视频扩散模型在时间连贯性、特征/轨迹识别的诸多优势，将其应用在物体的空间上3D一致性视图,进而快速获得3D物体信息，达到3D模型重建的卓越效果。

SV3D核心模块之一，基于其自研的Stable Video Diffusion（简称SVD）视频模型之上。

为了达到理想的3D模型重建，研究人员对SVD进行了性能改良：U-Net网络骨干保持不变,由多层3D卷积和Transformer注意力模块构成，同时将输入图像的CLIP嵌入作为附加条件输入到Transformer注意力模块中。移除了原SVD中控制帧率和动作的条件输入,因为这些对静态物体合成无任何帮助；在每个残差块中,将相机轨迹的仰角和方位角嵌入与噪声时间步长进行拼接后输入。这种巧妙的技术重构，使得模型不仅可利用条件图像进行像素级推理,还能结合显式的相机姿态来控制生成的视角。同时可通过视频模型在时序上学习到的一致性知识,来指导在空间上生成物体的一致多视图。

为了扩展模型的多种生成能力，SV3D设计了两种类型的相机轨迹作为条件输入，静态轨迹和动态轨迹。

静态轨迹:相机在物体水平面内环绕方位角均匀分布，仰角固定为条件图像的仰角。但这种设置的缺陷可能会遗漏物体的顶部或底部视图。
动态轨迹:从静态轨迹出发,对方位角加入少量噪声,对仰角加入平滑的随机正弦波,使相机在垂直方向也能环绕物体，可充分展现物体的全貌。

这种双轨迹生成设计，突破了传统的生成3D模型视角的局限性，并显著提高了多视图的一致性、细节还原和控制性。

为了提升模型生成内容的一致性、精细程度、质量等，SV3D采用了从“粗”到“细”的优化策略。

粗优化：首先利用多视图渲染结果对Instant NGP框架中的NeRF模型进行优化,得到物体的初始粗糙几何形状和体积密度场。
细优化：在得到粗糙的NeRF模型后,使用另一种神经表示DMTet来进行细节优化。DMTet兼有体数据结构和网格表面的优势,能高效表达细节丰富的几何结构和纹理，可以重新利用多视图渲染结果以及之前训练的NeRF预测作为精细优化目标。

阿里云重磅推出全新升级的轻量应用服务器

京东云主机提供哪些应用场景套餐呢

微软开源通用AI代理Magentic-One

英伟达发布全新产品NVIDIA AI Blueprint

OpenAI推出AI智能体Operator

OpenAI发布o1模型新方法

Runway开放全新文生图模型Frames

Adobe联合加州大学推出音乐模型DITTO-2

京东云主机提供哪些应用场景套餐呢

河北区人民政府关于印发河北区支持人工智能产业发展十条措施的通知

《国家人工智能产业综合标准化体系建设指南》（征求意见稿）发布

工业和信息化部等六部门印发《算力基础设施高质量发展行动计划》

Stable Video 3D上线单个图片生成高质量3D视频

达观大模型管理平台上线两大全新功能

谷歌通用型游戏AI代理SIMA上线

相关推荐

Meta开源Memory layers（记忆层）

2025全球计算大会

谷歌推出最新视频生成模型Veo 2

微软发布最新生成式AI模型Phi-4

免费企业云服务器有哪些免费企业云服务器怎么用

腾讯云服务器使用限制有哪些

京东云轻量云主机计费方式京东云轻量云主机便宜吗

为什么要选择Twenty

云存储有购买的必要吗

好用国内GPU云主机推荐