最近,OpenAI在官方社交媒体账号称,推出新的分类器,以帮助研究人员们识别由DALL·E 3所生成的内容。另推出一个媒体管理器,主要是面向媒体行业、内容创作者的产品,帮助控制自己的知识产权内容是否会被OpenAI搜集用于训练AI模型。
目前,OpenAI已经开放了DALL·E 3识别器的API,开发人员从今天开始至7月31日可申请试用。OpenAI会在8月31日之前公布获取使用权限的名单。
识别器
由于DALL·E 3等大模型生成的图片能达到以假乱真的效果。早在今年2月7日,OpenAI宣布在DALL·E 3生成的图片中嵌入了C2PA的元数据,以防止图片被非法乱用。即将发布的文生视频模型Sora,也会集成C2PA元数据。
C2PA是一种开放数据标准,允许出版商、企业、开发者等,通过元数据来跟踪和验证数字内容,例如,图片、视频、文档等,最初来源、真实性和完整性等。但这些还远远不够,因为可以通过技术手段去除这些元数据,使得人们在视觉上还是无法分辨。所以,OpenAI开发了这款内容识别器帮助开发人员、用户来识别内容真假。
OpenAI表示,即便对AI生成的图片进行压缩、裁剪、更改饱和度/颜色、去除水印、改变形状等各种常规操作,识别器的准确率仍高达98%。
媒体管理器
前不久,《纽约日报》、《芝加哥论坛报》、《奥兰多前哨报》、《水星报》等8家知名媒体联名状告OpenAI,在没有获取授权的情况下使用其文章训练AI模型。而谷歌也因为非法搜集数据,同样被起诉过。
目前,OpenAI用于训练AI模型的数据主要有两个渠道:
- 第一个,付费知识产权渠道。
- 第二个,公开渠道,这包括大量的开源数据集和通过爬虫获取到的数据。
因此,OpenAI正在开发一款“媒体管理器”,可以轻松管理知识产权内容,哪些可以被AI搜集,哪些不可以。预计该产品将在2025年之前发布。
OpenAI最近还对ChatGPT生成的内容加上了原始网站链接。一方面,可以保护知识产权增加内容的可信度;另一方面,正在为其推出的搜索引擎做铺垫,可以像谷歌搜索那样列出所有答案的原始链接。