OpenAI推出最新文生图模型

近日，OpenAI对GPT-4o和Sora进行了重大更新，推出了全新的文生图模型。该模型不仅能够生成图像，还支持自定义操作、连续发问、风格转换以及制作图像PPT等多种实用功能。

新文生图模型

它生成的图像非常逼真，肉眼几乎看不出任何破绽，在精细度、细节和文本遵循方面非常出色，可以媲美甚至在某些功能超过该领域的头部平台Midjourney。

OpenAI联合创始人兼首席执行官表示，新的文生图模型是一项令人难以置信的产品。“这代表着我们在给予创作自由方面达到了一个新的高度。人们将会创作出一些非常了不起的作品，也会有一些可能冒犯他人的内容；我们的目标是，除非用户有此需求，否则该工具不会生成冒犯性内容，即便有此需求，生成的内容也需在合理范围内。”

他认为，尊重社会最终为人工智能设定的广泛界限是正确的做法，而且随着我们离通用人工智能越来越近，这一点也变得越来越重要。

OpenAI新文生图模型介绍

OpenAI新文生图模型的核心之一就是非自回归生成，这是提升图片质量、生成效率的关键技术。与传统的图像生成方法自回归生成方法不同，非自回归生成模块采用了一种全新的思路。不再依赖于逐像素的生成过程，而是直接生成整个图像。这一过程的关键在于模型能够一次性地理解和处理图像的整体结构和细节。

非自回归生成模块通过一种特殊的编码器-解码器架构来实现这一目标。编码器负责将输入的文本描述或其他模态信息转化为一种中间表示，包含了生成图像所需的所有关键信息。然后解码器利用这种中间表示直接生成完整的图像，而无需逐像素地构建图像。这种直接生成完整图像的方式带来了很多优势：

1、非自回归生成模块的生成速度远远超过了传统的自回归方法。由于无需逐像素生成，模型能够在短时间内生成高质量的图像，这对于实时应用和大规模图像生成任务具有重要意义。

2、非自回归生成模块在生成图像的质量上也表现出色。由于模型能够一次性地理解和处理图像的整体结构，生成的图像在细节和一致性方面都得到了显著提升。

非自回归生成模块的另一个重要特点是其在多模态融合中的应用。在ChatGPT 4.0模型中，非自回归生成模块不仅能够根据文本描述生成图像，还能够结合其他模态的信息，如音频或已有的图像，生成更加丰富和多样化的图像内容。这种多模态融合的能力使得模型能够更好地理解和满足用户的需求。

目前，新的文生图模型已经在ChatGPT和Sora中面向所有Plus、Pro、Team和免费用户推出。