最近,开源文生图模型霸主Stable Diffusion原班人马,宣布推出全新的图像生成模型FLUX.1。FLUX.1有120亿参数,本次一共发布了三个版本:Pro版(通过API使用)、dev版(非商用的指导蒸馏模型,继承了Pro版多数性能)、schnell版(可以商用的开源模型)。
FLUX.1性能大幅度超过了DALL·E-3、Midjourney V6闭源模型,开源SD3系列的Ultra、Medium、Turbo和SDXL被全线秒杀。
FLUX.1的基础架构是基于Vision Transformer,使用了流程匹配训练方法,同时使用了旋转位置嵌入和并行注意层来提高模型的性能和硬件利用效率。
FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越,其具有三大特点:文字生成、复杂构图、人手描绘。
1、文字的生成在图像、视频生成中非常重要,许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词。
2、在构图方面,FLUX.1擅长按照图像中事物应该位于哪里等复杂指示进行操作。
3、人手一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还不够完美,但实现了很大的进步。
FLUX.1表示,文生图只是一个开始,未来还会推出文生视频模型,希望可以为文生视频领域注入新的活力。