英伟达开源全新世界大模型NVIDIA Cosmos

近日,在2025年CES展会上,全球AI领导者NVIDIA(英伟达)开源了全新世界大模型NVIDIA Cosmos。该模型由生成式世界基础模型、高级tokenizer、护栏和加速视频处理管线组成,服务于自动驾驶汽车(AV)和机器人等物理AI系统的发展。

NVIDIA Cosmos

NVIDIA Cosmos能从数据整合、训练再到定制各个开发阶段的,大规模模拟、构建物理世界的基础模型,同时支持自定义微调。

1、自动驾驶领域

NVIDIA Cosmos可以轻松模拟汽车在大雨、暴雪、地震等超恶劣环境中的表现,帮助开发者深度优化智能汽车的开发流程。

2、机器人

NVIDIA Cosmos能轻松创建一个模拟的物理仓储环境,为机器人提供货物搬运、拣选、分拣等训练环境,来训练、观察、优化机器人各种动作。

NVIDIA创始人表示,与大语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车的发展至关重要,但并非所有开发者都具备训练自己模型的专业知识和资源。所以,NVIDIA开发了NVIDIA Cosmos,让物理AI大众化,帮助每个开发者都能轻松开发通用实体机器人技术。

NVIDIA Cosmos架构介绍:

NVIDIA Cosmos使用了基于Transformer的自回归和扩散双架构模型。

1、自回归模型

自回归模型专为视频生成设计,基于输入文本和过去的视频帧预测下一个token。使用了Transformer解码器架并进行了关键修改用于世界模型开发。

3D RoPE(旋转位置嵌入)分别对空间和时间维度进行编码,确保精确的视频序列表示。交叉注意力层使文本输入为世界生成提供了更好的控制。QK归一化增强了训练稳定性。该模型的预训练是逐步进行的,从单个输入帧预测多达17个未来帧开始,然后扩展到34帧,最终达到121帧(或50000个token)。

2、扩散模型

扩散模型因其能够解构训练数据并根据用户输入重建它,从而产生高质量、逼真的输出而广受欢迎,用于生成图像、视频和音频。分为正向扩散和反向扩散两个阶段:在正向扩散过程中,训练数据通过逐步添加高斯噪声而逐渐被破坏,有效地将其转化为纯噪声;在反向扩散过程中,模型学习逐步逆转这种噪声,通过去噪被破坏的输入来恢复原始数据。一旦训练完成,扩散模型通过采样随机高斯噪声并将其通过学习到的去噪过程来生成新数据。

NVIDIA Cosmos共有Nano、Super和Ultra三种型号:Nano针对实时、低延迟推理和边缘部署进行了优化;Super作为性能基线模型设计;Ultra专注于最大质量和保真度,是蒸馏定制模型的理想选择。

为了提升Cosmos的安全性,提供了预防护和后防护两种安全机制。

预防护主要基于文本提示的安全措施,使用两层:关键词屏蔽,一个屏蔽列表检查器扫描提示中的不安全关键词,使用词形还原来检测变体,并屏蔽非英语术语或拼写错误。Aegis安全防护,NVIDIA微调的Aegis AI内容安全模型检测并屏蔽语义上不安全的提示,包括暴力、骚扰和粗俗等类别。

后防护阶段通过以下方式确保生成视频的安全性:视频内容安全分类器,一个多类分类器评估每个视频帧的安全性。如果任何帧被标记为不安全,则整个视频将被拒绝。面部模糊过滤器,使用RetinaFace模型模糊生成视频中的所有人脸,以保护隐私并减少基于年龄、性别或种族的偏见。

根据NVIDIA在官网的展示,目前很多世界知名的实体机器人、智能汽车开发商已经在使用Cosmos加速物理开发效率。

行业动态

Meta开源多模式模型SPIRIT–LM

2025-1-7 9:28:10

学堂

Jitsi是什么 Jitsi怎么下载

2024-10-14 11:36:25

相关推荐