近日,微软发布了一款名为Muse的生成式人工智能模型,宣称将彻底革新视频游戏场景的制作方式。
Muse是基于Transformer架构的,但创建游戏场景的方式却非常独特,并不依赖传统的文本提示,而是通过游戏画面和控制器操作的序列化数据作为输入提示,从而生成连贯的游戏场景和玩法,同时更符合游戏机制和物理规则的游戏内容。
游戏开发是一个高度复杂的过程,涉及创意构思、角色设计、场景搭建、玩法策划等多个环节,需要众多专业人员协同合作。现在通过Muse可以轻松完成这些复杂的开发流程。
Muse架构介绍
Muse与ChatGPT一样使用了著名的Transformer作为核心架构。为了将游戏画面和玩家操作转化为模型能够处理的序列化数据,还引入了VQGAN图像编码器。VQGAN的作用是将游戏画面中的每一帧图像编码为一系列离散的tokens,不仅保留了原始图像的关键信息,还能够被Transformer模型高效处理。每个游戏画面被编码为540个离散tokens,这些标记构成了模型输入的一部分,帮助模型能够在生成过程中灵活地处理图像数据,同时保持对游戏画面细节的高保真度。
玩家的操作也被离散化处理,以适配模型的输入格式。玩家控制器的按钮操作被直接编码为离散值,而摇杆的连续操作则被划分为11个离散区间。
在训练过程中,Muse还利用了大规模的计算资源和优化策略。此外,为了进一步提升模型的性能,微软还在训练过程中采用了AdamW优化器,并结合了余弦退火学习率策略,在训练过程中动态调整学习率,从而提高模型的收敛速度和最终性能。模型还采用了批量归一化和权重衰减等技术,以防止过拟合并提高模型的泛化能力。
为了提升Muse模型的生成性能,微软与Ninja Theory工作室合作获取了《Bleeding Edge》的大量真实玩家游戏数据。为了收集训练数据,微软从游戏中提取了超过50万场玩家的游戏会话,涵盖了各种游戏场景、角色行为和玩家操作。同时对这些数据经过清洗和匿名化处理,以确保玩家隐私和数据安全。
游戏画面的图像帧被提取为300×180像素的分辨率,以确保模型能够捕捉到足够的细节;控制器操作则被离散化处理,包括按钮操作和摇杆的移动方向。这些数据被整合为时间序列,每个序列包含10帧图像和对应的控制器操作,形成了模型的输入和输出对。
最终,从这些数据中提炼出了两个数据集:7 Maps和Skygarden数据集。7 Maps数据集包含60,986场比赛,约500,000个玩家轨迹,数据总量达到27T,相当于7年多的游戏时间。
经过下采样到10Hz后,约有14亿帧数据,并按照80:10:10的比例划分为训练集、验证集和测试集。Skygarden数据集则聚焦于单个地图,包含66,709个玩家轨迹,约3.1亿帧数据,同样进行了80:10:10的划分和10Hz下采样处理。