IMagen是什么?IMagen是Google AI研发的一款文字到图像生成模型,可以生成非常逼真和细致的图像,甚至可以达到照片级别的质量。IMagen可以很好地理解输入文本的含义和细节,并且能够根据文本生成与之一致和对齐的图像,可以应用于创意设计、艺术创作、教育、娱乐、科学和工程等场景。
Imagen模型中包含一个frozen T5-XXL编码器和一个 64×64 的图像扩散模型中,并带有两个超分辨率扩散模型,用于生成 256×256 和 1024×1024 的图像。
其中,所有扩散模型都以文本嵌入序列为条件,并使用无分类器指导。借助新型采样技术,Imagen 允许使用较大的指导权重,而不会发生样本质量下降,使得生成的图像具有更高的保真度、图像与文本更加吻合。
虽然架构简单且易于训练,但 Imagen 产生了令人惊讶的强大结果。Imagen 在 COCO上的零样本 FID-30K分数为7.27,性能显著优于之前的方法(GLIDE、DALL-E 2 等),并超越了当前的SOTA模型 Make-A-Scene(7.27 VS 7.55)。从人工评估看,Imagen 生成的样本在图像文本对齐方面与COCO captions的参考图像相当。
在用户输入文本要求后,Imagen先是使用frozen T5-XXL编码器将输入文本编码为嵌入,然后条件扩散模型将文本嵌入映射到64×64的图像中。Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256,再从256×256升到1024×1024。结果表明,带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好。