韩国首尔国立大学推出创新文生视频模型FIFO-Diffusion

最近，韩国首尔国立大学推出创新文生视频模型FIFO-Diffusion，这是一种基于预训练扩散模型的新颖推理技术，用于文本条件视频生成，其无需训练即可生成无限长的视频。

FIFO-Diffusion

FIFO-Diffusion模型使用了一种创新的“对角去噪”方法来克服生成长视频的难题，以队列的方式来处理视频帧的连续，该技术灵感来源于工厂的流水线作业。在每一步中，完全去噪的帧从前端出队，新的随机噪声帧在末端入队。这确保了每帧生成时都能参考到足够数量的前导帧，从而维持视频的整体流畅度、逻辑一致性，同时无需训练就能生成无限长的视频。

对角线去噪是FIFO-Diffusion模型的核心模块，通过一个队列来维护一系列具有不同噪声水平的视频帧。这个队列按照时间顺序排列，噪声水平随时间增加。在每一步迭代中，队列头部的帧会被完全去噪并从队列中移除，同时在队列尾部加入一个新的带有随机噪声的帧，类似于生产中的流水线作业。

然而，对角线去噪是一把双刃剑，因为靠近尾部的帧可以通过前向参考利用更干净的帧，但这种策略会导致训练和推理之间的差异。因此，他们引入了潜在分区来缩小训练与推理之间的差距，并通过前瞻性去噪来充分利用前向参照的优势。他们在现有的文本到视频生成基线上证明了所提出方法的良好效果和有效性。

潜在分割模块：为了解决在对角线去噪过程中，引入的训练推理差距问题。

潜在分割将连续的帧序列分成多个块，每个块中的帧具有相似的噪声水平。使得模型在处理每个块时，只需要关注一个较小的噪声范围内的帧，而不是在整个去噪过程中处理噪声水平差异很大的帧。潜在分割会定义一个队列，这个队列按照时间顺序包含了从高噪声水平到低噪声水平的所有帧。然后，这个队列被等分成多个块，每个块包含了一定数量的帧。

在去噪过程中，模型将对每个块分别进行处理，而不是像传统的对角线去噪那样一次性处理所有帧。每个块内的帧都可以被更细致地去噪，因为它们之间的噪声水平差异更小。

此外，潜在分割还能提升去噪过程中的并行计算效率。由于每个块可以独立于其他块进行处理，因此可以同时在多个GPU上进行去噪计算。这种并行化处理极大提高了视频生成的效率，使得生成长视频变得更加高效。

前瞻去噪：用来解决对角线去噪产生的，噪声级别差异可能导致的去噪不准确性问题。可帮助模型在去噪当前帧时，能够参考未来的帧。

该方法利用了对角线去噪的一个技术优势，在队列中，较晚的帧可以从前几步中更干净的帧中获益，即使是噪声水平较高的帧也能够获得更准确的去噪结果。

在前瞻去噪的过程中，模型需要对队列中的帧进行两次处理：首先，模型按照对角线去噪的方式对帧进行初步去噪；然后，在前瞻步骤中，模型再次处理这些帧会利用未来帧的信息来改进去噪结果。

此外，前瞻去噪在保持生成视频的质量、连贯性以及自然度方面也有很大的帮助。