7月6日, OpenAI在官网宣布,将组建一支由Ilya Sutskever(OpenAI联合创始人兼首席科学家)和Jan Leike领导的人工智能对齐团队,用来引导、控制超级智能,同时提升ChatGPT等产品的安全性。OpenAI表示,4年之内将解决这些难题,并将目前20%的算力用于该项目。
据悉,OpenAI组建的这支人工智能对齐团队名称为Superalignment。超级智能对齐从根本上来说是一个机器学习问题,所以,OpenAI寻求全球优秀的机器学习人才加入这个团队共同实现这一伟大目标。同时该团队也是对OpenAI现有工作的补充,可有效解决ChatGPT等产品的安全性问题,包括非法滥用、经济破坏、虚假信息、偏见和歧视、数据隐私和其他可能出现的问题。
OpenAI所采取的方法是建立一个大致达到人类水平的自动对齐系统。然后,可以使用大量算力来扩展工作,并调整超级智能。具体包括:
开发可扩展的训练方法:为了针对人类难以评估的任务提供训练方法,可以通过人工智能系统来协助评估,其他人工智能系统 (可扩展的监督)。此外,OpenAI希望了解和控制其模型,将监督应用到无法监督的任务(泛化)上。
验证生成的模型:为了验证系统的一致性,OpenAI将自动搜索有问题的行为 (稳定性)和有问题的内部结构(自动可解释性)。
对整个对齐管道进行压力测试:可以通过故意训练未对准的模型,来测试整个安全流程,并确认技术检测到最差的未对准类型(对抗性测试)。
超级智能将是人类发明的最具影响力的技术之一,可以帮助我们解决世界上许多难题。虽然超级智能还很遥远,但OpenAI认为,10年之内就很有可能实现。OpenAI预计,随着对超级智能对齐了解越来越多,研究重点将会发生重大变化,可能会增加全新的研究领域。未来,会分享更多有关技术研究路线图的信息。