Stable Video 3D上线 单个图片生成高质量3D视频

3月19日,Stability AI继推出文生图Stable Diffusion、文生视频Stable Video Diffusion之后,上线了图像直接生成3D视频模型——Stable Video 3D。

该模型基于Stable Video Diffusion打造,能够显著提升3D生成的质量和多视角一致性,效果要优于之前Stability AI推出的Stable Zero123以及丰田研究院和哥伦比亚大学联合开源的Zero123-XL。

Stable Video 3D一共有两个版本:SV3D_u和SV3D_p。

  • SV3D_u支持单个图像生成轨道视频,无需相机调节。
  • SV3D_p扩展了SVD3_u的功能,支持单个图像和轨道视图,从而可以生成沿特定的摄像机路径创建3D视频。

SV3D借助了视频扩散模型在时间连贯性、特征/轨迹识别的诸多优势,将其应用在物体的空间上3D一致性视图,进而快速获得3D物体信息,达到3D模型重建的卓越效果。

SV3D核心模块之一,基于其自研的Stable Video Diffusion(简称SVD)视频模型之上。

为了达到理想的3D模型重建,研究人员对SVD进行了性能改良:U-Net网络骨干保持不变,由多层3D卷积和Transformer注意力模块构成,同时将输入图像的CLIP嵌入作为附加条件输入到Transformer注意力模块中。移除了原SVD中控制帧率和动作的条件输入,因为这些对静态物体合成无任何帮助;在每个残差块中,将相机轨迹的仰角和方位角嵌入与噪声时间步长进行拼接后输入。这种巧妙的技术重构,使得模型不仅可利用条件图像进行像素级推理,还能结合显式的相机姿态来控制生成的视角。同时可通过视频模型在时序上学习到的一致性知识,来指导在空间上生成物体的一致多视图。

为了扩展模型的多种生成能力,SV3D设计了两种类型的相机轨迹作为条件输入,静态轨迹和动态轨迹。

  • 静态轨迹:相机在物体水平面内环绕方位角均匀分布,仰角固定为条件图像的仰角。但这种设置的缺陷可能会遗漏物体的顶部或底部视图。
  • 动态轨迹:从静态轨迹出发,对方位角加入少量噪声,对仰角加入平滑的随机正弦波,使相机在垂直方向也能环绕物体,可充分展现物体的全貌。

这种双轨迹生成设计,突破了传统的生成3D模型视角的局限性,并显著提高了多视图的一致性、细节还原和控制性。

为了提升模型生成内容的一致性、精细程度、质量等,SV3D采用了从“粗”到“细”的优化策略。

  • 粗优化:首先利用多视图渲染结果对Instant NGP框架中的NeRF模型进行优化,得到物体的初始粗糙几何形状和体积密度场。
  • 细优化:在得到粗糙的NeRF模型后,使用另一种神经表示DMTet来进行细节优化。DMTet兼有体数据结构和网格表面的优势,能高效表达细节丰富的几何结构和纹理,可以重新利用多视图渲染结果以及之前训练的NeRF预测作为精细优化目标。
行业动态

达观大模型管理平台上线两大全新功能

2024-3-15 9:34:57

行业动态

谷歌通用型游戏AI代理SIMA上线

2024-3-22 9:39:34

相关推荐