近日,谷歌DeepMind发布了一款面向3D虚拟环境的通用AI代理——SIMA。这是一种训练学习游戏技能的人工智能代理,它能在多个3D虚拟环境中理解自然语言指令并执行任务,犹如人类玩家般灵活适应。
SIMA是“可扩展、可指导、多世界代理”(Scalable,Instructable,Multiworld Agent)的缩写,无需访问游戏的源代码,也不需要定制的API。只需要输入图像和用户提供的简单自然语言文本指令,SIMA就能像人类玩家一样执行走路、跑步、建造、打开地图等各种游戏中的操作。
在SIMA的研发过程中,DeepMind与八家游戏工作室紧密合作,将其在《无人深空》、《模拟山羊3》、《Teardown》、《挖矿模拟器》等多款知名3D游戏中进行了广泛测试。测试结果显示,用户只需要在游戏中提供简单的文本、图像提示,SIMA就能执行挖矿、开飞船、制作装备、打开外骨骼、搜集任务、爬楼梯等600多种基本操作,每个动作可以在大约10秒内完成。
SIMA的架构设计灵感来源于人类的身体构造,由多种大模型组合而成。其中,视觉感知模型相当于AI的“眼睛”,负责处理图像观察并提取关键信息;大语言模型则是“大脑”,解析和理解自然语言指令;建模规划模型扮演“思维”的角色,通过强化学习规划最佳行动策略;最后,控制和执行模型作为“四肢”,将动作序列转化为实际的游戏控制指令。
在数据收集和预处理方面,SIMA采用了先进的技术手段。研究人员从商业游戏中收集了大量数据,并通过数据清洗、转换和标准化等步骤,确保了数据的质量和一致性。这些工作为SIMA的学习和执行提供了坚实的基础。
研究人员表示,他们将会继续迭代和提升SIMA的通用代理能力,希望可以在实际生活中帮助用户做更多的事情。