在第9天技术分享直播中,OpenAI正式发布o1模型的API,并对实时API进行大升级支持WebRTC。其中o1模型的API与之前的预览版本相比,思考成本降低了60%,并且附带高级视觉功能;GPT-4o的音频成本降低60%,而mini版本价格更是暴降了10倍。
除此之外,OpenAI还发布了全新的偏好微调技术(Preference Fine-Tuning),通过直接偏好优化算法,使大型模型可以更精准地适应用户的个性化风格。
o1模型API介绍
o1模型API集成了很多新功能,包括函数调用、结构化输出、开发者消息以及推理工作量。
1、函数调用:允许模型根据输入数据自动调用相应的后端服务或外部API,实现复杂任务处理能力。
2、结构化输出:支持JSON格式的数据返回,确保输出结果符合预期结构,方便后续解析与应用。
3、开发者消息:是一种新型系统消息形式,赋予开发者更大的控制权来指导模型行为。
4、推理工作量:参数用于调整模型思考时间,平衡性能与准确性之间的关系。
OpenAI在演示环节中展示了一款基于高级视觉功能的应用案例,检测错误表单。通过上传填写有误的文本表格图片,o1模型成功识别出了其中存在的计算错误,并提供了详细的修正建议。此外对于某些需要精确执行的任务,o1模型还可以借助内置函数库与后台服务器通信,获取最新税率等信息,确保最终结果的准确性和时效性。
实时API进行大升级支持WebRTC
WebRTC是一种为互联网构建的实时通信技术,主要应用于会议和低延迟视频流传输等领域。OpenAI在实时API中支持WebRTC,使开发的AI应用能够自动处理互联网变化,例如,调整比特率和回声消除,为实时语音应用带来更好的性能和稳定性。
WebRTC与之前的Websockets集成相比,支持显著简化了代码。使用Websockets时,开发者需要处理200-250行代码来解决反压等问题。而采用WebRTC,仅需12行代码即可实现相同功能。
在演示环节中,通过简单的HTML代码创建对等连接,实现了音频流的发送和接收,展示了WebRTC支持下实时语音应用开发的便捷性。开发者只需关注应用逻辑,无需处理复杂的网络通信细节,大大降低了开发难度。此外为了进一步方便开发者集成实时API,OpenAI推出了Python SDK支持,同时大幅度降低价格。
偏好微调
偏好微调与传统的监督式微调有很大的不同,采用成对样本比较学习的方式,使模型能够理解并适应特定应用场景中的细微差异。
偏好微调特别适合那些对回答格式、语气或者抽象特质(如友好度、创造力)有较高要求的应用场合。
另外,偏好微调不仅仅局限于文本生成任务,同样适用于其他类型的输出,如图像生成、代码补全等。通过对大量样例的学习,模型可以逐渐形成一套稳定的行为模式,以更好地满足用户需求。更重要的是,这种微调方式允许持续迭代和改进,随着更多高质量数据的积累,模型的表现也会随之提高。