OpenAI宣布开源SimpleQA新基准

最近,美国开放人工智能研究中心OpenAI宣布开源SimpleQA新基准,旨在为评估语言模型在回答简短事实问题时的有效性和真实性提供一个标准化的工具。

SimpleQA

当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。所以SimpleQA对于开发者来说,可以精准测试大模型能否输出正确的答案,并对大模型进行校准然后进行大幅度优化完善模型能力。

OpenAI表示他们的目标是想要使用SimpleQA创建一个具备以下特点的数据集:

1、高正确性:问题的参考答案由两名独立的AI训练师验证,以确保评分的公正性。

2、多样性:SimpleQA涵盖广泛主题,从科学技术到电视节目与电子游戏应有尽有。

3、前沿挑战性:与TriviaQA(2017年)或NQ(2019年)等早期基准相比,SimpleQA更具挑战性,尤其针对如GPT-4o等前沿模型(例如,GPT-4o的得分不足40%)。

4、高效用户体验:SimpleQA问题与答案简洁明了,使操作快速高效,并可通过OpenAI API等进行快速评分。此外,包含4326道问题的SimpleQA在评估中应具有较低的方差。

SimpleQA新基准介绍

1、评估问题和答案简短可靠

在数据收集阶段,SimpleQA的问题参考答案由两名独立的AI训练员确定,并且训练员在创建问题时被要求提供支持答案的网页链接,以确保答案有可靠的依据。同时问题的设计使得预测答案易于评估,只允许有一个明确且无可争议的答案,避免了模糊性和歧义性。

SimpleQA的评估问题和答案都非常简短,这使得运行速度快且操作简单。在评估模型回答时,通过OpenAI API进行评分也十分迅速。数据集中包含4326个问题,能够在一定程度上降低不同次运行之间的方差,使评估结果更加稳定可靠。

2、多元化的评估集

mpleQA的评估集涵盖历史、科学技术、艺术、地理、电视节目等多个领域。这种多样性使得评估结果更具普遍性和代表性,能够全面地检验模型在不同知识领域的事实性回答能力。

2、校准测量功能

通过询问模型对其答案的信心,研究者可以了解模型是否知道它们知道什么,这是一个很重要的校准现象。如果一个模型能够准确地评估自己的信心水平,那么它就是一个校准良好的模型。

OpenAI通过SimpleQA对GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型进行了综合测试。结果显示,较大模型通常具有更高的性能,但即使是前沿模型在SimpleQA上的表现也并非完美。

行业动态

OpenAI宣布ChatGPT新增聊天记录搜索功能

2024-10-30 9:33:06

行业动态

OpenAI正式发布ChatGPT网络搜索功能

2024-11-1 10:00:34

相关推荐