OpenAI正式开放满血o1模型API

在第9天技术分享直播中，OpenAI正式发布o1模型的API，并对实时API进行大升级支持WebRTC。其中o1模型的API与之前的预览版本相比，思考成本降低了60%，并且附带高级视觉功能；GPT-4o的音频成本降低60%，而mini版本价格更是暴降了10倍。

o1模型API

除此之外，OpenAI还发布了全新的偏好微调技术（Preference Fine-Tuning），通过直接偏好优化算法，使大型模型可以更精准地适应用户的个性化风格。

o1模型API介绍

o1模型API集成了很多新功能，包括函数调用、结构化输出、开发者消息以及推理工作量。

1、函数调用：允许模型根据输入数据自动调用相应的后端服务或外部API，实现复杂任务处理能力。

2、结构化输出：支持JSON格式的数据返回，确保输出结果符合预期结构，方便后续解析与应用。

3、开发者消息：是一种新型系统消息形式，赋予开发者更大的控制权来指导模型行为。

4、推理工作量：参数用于调整模型思考时间，平衡性能与准确性之间的关系。

OpenAI在演示环节中展示了一款基于高级视觉功能的应用案例，检测错误表单。通过上传填写有误的文本表格图片，o1模型成功识别出了其中存在的计算错误，并提供了详细的修正建议。此外对于某些需要精确执行的任务，o1模型还可以借助内置函数库与后台服务器通信，获取最新税率等信息，确保最终结果的准确性和时效性。

实时API进行大升级支持WebRTC

WebRTC是一种为互联网构建的实时通信技术，主要应用于会议和低延迟视频流传输等领域。OpenAI在实时API中支持WebRTC，使开发的AI应用能够自动处理互联网变化，例如，调整比特率和回声消除，为实时语音应用带来更好的性能和稳定性。

WebRTC与之前的Websockets集成相比，支持显著简化了代码。使用Websockets时，开发者需要处理200-250行代码来解决反压等问题。而采用WebRTC，仅需12行代码即可实现相同功能。

在演示环节中，通过简单的HTML代码创建对等连接，实现了音频流的发送和接收，展示了WebRTC支持下实时语音应用开发的便捷性。开发者只需关注应用逻辑，无需处理复杂的网络通信细节，大大降低了开发难度。此外为了进一步方便开发者集成实时API，OpenAI推出了Python SDK支持，同时大幅度降低价格。

偏好微调

偏好微调与传统的监督式微调有很大的不同，采用成对样本比较学习的方式，使模型能够理解并适应特定应用场景中的细微差异。

偏好微调特别适合那些对回答格式、语气或者抽象特质（如友好度、创造力）有较高要求的应用场合。

另外，偏好微调不仅仅局限于文本生成任务，同样适用于其他类型的输出，如图像生成、代码补全等。通过对大量样例的学习，模型可以逐渐形成一套稳定的行为模式，以更好地满足用户需求。更重要的是，这种微调方式允许持续迭代和改进，随着更多高质量数据的积累，模型的表现也会随之提高。