近日北大联合快手开源超高清视频模型Pyramid Flow发布,仅通过文本就能生成最多10秒、1280x768分辨率和24帧视频。Pyramid Flow在光影效果、运动动作一致性、视频质量、文本语义还原、色彩搭配等多个方面表现非常出色。
Pyramid-Flow使用A100 GPU在开源数据集上仅训练了20,700小时,其能耗和生成效率比市面上同类开源视频模型好很多,对于没有大量算力的中小企业和个人开发者来说帮助很大。
如何有效地处理和生成高维度的视频数据,是目前文生视频领域的一个非常难的技术挑战。这些数据不仅包含大量的空间信息,还涉及复杂的时间动态。为了解决这个问题,Pyramid-Flow使用了一种名为“金字塔流匹配”的创新方法。
金字塔流匹配算法的核心思想是将传统的单一分辨率生成过程转变为一个多阶段的金字塔结构。视频的生成不是一次性在全分辨率下完成,而是在不同的分辨率层次上逐步进行。在金字塔流匹配算法中,视频生成过程被分解为多个阶段,每个阶段对应一个特定的分辨率。这些阶段从低分辨率开始,逐渐升级到高分辨率。在低分辨率阶段,算法首先生成一个粗糙的视频草图,然后逐步增加细节,直到在最高分辨率阶段生成最终的视频。
这种分阶段的方法极大减少了AI算力,因为它避免了在生成过程的早期阶段就处理大量的高分辨率数据,同时提高了生成流程的灵活性,可在不同的阶段对视频的不同方面进行精细控制。每个金字塔阶段的生成过程被建模为一个从噪声到数据的连续流。这个流通过插值的方式来生成视频数据,在每个阶段的开始时从一个像素化的、噪声较多的潜在表示开始,逐步演化为一个清晰、干净的潜在表示。
这种流的设计允许不同阶段之间的连续性和一致性。在从一个阶段过渡到下一个阶段时,算法会重新引入噪声,以确保概率路径的连续性。而重新噪声化的过程是通过一个校正高斯噪声来实现的,有助于维持不同金字塔阶段之间的连续性。
金字塔流匹配算法还引入了一个自回归的视频生成框架,通过时间金字塔来压缩全分辨率的历史信息。使得视频的每一帧都是基于之前生成的历史帧来预测的。这不仅提高了训练效率,因为它减少了训练过程中需要处理的数据量,而且还提高了生成视频的质量和一致性。
研究人员使用了一种块状因果注意力机制来进一步进一步优化性能。这种机制确保了在生成过程中,每一帧只能关注它之前的帧,而不能关注它之后的帧。有助于保持视频生成的连贯性和逻辑性,因为避免了在未来的帧中引入不相关或不一致的信息。