微软发布专用于游戏领域创新大模型Muse

近日，微软发布了一款名为Muse的生成式人工智能模型，宣称将彻底革新视频游戏场景的制作方式。

Muse

Muse是基于Transformer架构的，但创建游戏场景的方式却非常独特，并不依赖传统的文本提示，而是通过游戏画面和控制器操作的序列化数据作为输入提示，从而生成连贯的游戏场景和玩法，同时更符合游戏机制和物理规则的游戏内容。

游戏开发是一个高度复杂的过程，涉及创意构思、角色设计、场景搭建、玩法策划等多个环节，需要众多专业人员协同合作。现在通过Muse可以轻松完成这些复杂的开发流程。

Muse架构介绍

Muse与ChatGPT一样使用了著名的Transformer作为核心架构。为了将游戏画面和玩家操作转化为模型能够处理的序列化数据，还引入了VQGAN图像编码器。VQGAN的作用是将游戏画面中的每一帧图像编码为一系列离散的tokens，不仅保留了原始图像的关键信息，还能够被Transformer模型高效处理。每个游戏画面被编码为540个离散tokens，这些标记构成了模型输入的一部分，帮助模型能够在生成过程中灵活地处理图像数据，同时保持对游戏画面细节的高保真度。

玩家的操作也被离散化处理，以适配模型的输入格式。玩家控制器的按钮操作被直接编码为离散值，而摇杆的连续操作则被划分为11个离散区间。

在训练过程中，Muse还利用了大规模的计算资源和优化策略。此外，为了进一步提升模型的性能，微软还在训练过程中采用了AdamW优化器，并结合了余弦退火学习率策略，在训练过程中动态调整学习率，从而提高模型的收敛速度和最终性能。模型还采用了批量归一化和权重衰减等技术，以防止过拟合并提高模型的泛化能力。

为了提升Muse模型的生成性能，微软与Ninja Theory工作室合作获取了《Bleeding Edge》的大量真实玩家游戏数据。为了收集训练数据，微软从游戏中提取了超过50万场玩家的游戏会话，涵盖了各种游戏场景、角色行为和玩家操作。同时对这些数据经过清洗和匿名化处理，以确保玩家隐私和数据安全。

游戏画面的图像帧被提取为300×180像素的分辨率，以确保模型能够捕捉到足够的细节；控制器操作则被离散化处理，包括按钮操作和摇杆的移动方向。这些数据被整合为时间序列，每个序列包含10帧图像和对应的控制器操作，形成了模型的输入和输出对。

最终，从这些数据中提炼出了两个数据集：7 Maps和Skygarden数据集。7 Maps数据集包含60,986场比赛，约500,000个玩家轨迹，数据总量达到27T，相当于7年多的游戏时间。

经过下采样到10Hz后，约有14亿帧数据，并按照80:10:10的比例划分为训练集、验证集和测试集。Skygarden数据集则聚焦于单个地图，包含66,709个玩家轨迹，约3.1亿帧数据，同样进行了80:10:10的划分和10Hz下采样处理。