上海交大、腾讯联合发布新的微调方法SaRA

为了解决预训练模型微调及应用于实际业务场景中存在的一些问题,上海交大、腾讯联合发布了新的微调方法SaRA。这种微调方法主要是利用那些在预训练过程中由于训练不稳定性而变得看似无效,实则具有学习新知识的潜力的参数。

SaRA

SaRA微调方法的特点:

1、在图像生成任务方面,传统的微调方法可能无法充分利用模型中的所有参数,导致部分参数在训练过程中未被有效利用;而SaRA方法通过对这些暂时无效的参数进行重新训练,能够让模型学习到更多的任务特定知识。

2、在图像风格迁移任务方面,SaRA可以调整模型的参数,使得模型能够将一张普通的图像转换为具有特定艺术风格的图像。

3、在训练一个模型来识别动物图片时,如果模型过度拟合训练数据,它可能会对训练数据中的一些噪声或异常情况过于敏感,导致在面对新的、未见过的图片时出现错误的判断。SaRA技术通过采用核范数低秩约束和渐进参数调整策略,可以使模型更好地泛化到新的数据,提高其准确性和可靠性。

4、在方法实施流程方面,SaRA首要步骤是对预训练模型中的参数进行重要性分析。研究人员通过细致的分析,识别出那些在模型输出中影响不大的参数。这些参数在预训练过程中可能看似不起作用,但实际上它们并非完全无效。由于训练过程中的随机性,这些参数的值在训练结束时接近于零。SaRA的目标是重新激活这些参数,使它们能够在新任务的学习中发挥作用。在识别出这些潜在有效的参数后,SaRA采用了一种基于核范数的低秩稀疏训练方案,通过对参数矩阵施加低秩约束,来避免模型在微调过程中出现过拟合现象。

5、在学习特定任务的知识方面,SaRA通过优化一个稀疏权重矩阵,同时保持预训练模型中已有的知识。这种策略不仅提高了模型的适应性,而且由于其低秩特性,也显著减少了模型的参数数量,从而降低了计算成本。

6、为了进一步提升模型的微调效果,SaRA技术引入了一种渐进式参数调整策略。这种策略的核心在于,它不仅关注于最初识别出的无效参数,而且在整个微调过程中,不断地重新评估和选择参数。通过这种方式,SaRA能够确保所有潜在有效的参数都得到了充分利用,在处理新任务时能够更加灵活和高效。

行业动态

阿里国际发布首个大规模商用翻译大模型Marco

2024-10-17 9:56:46

行业动态

微软发布支持o1模型的10个AI Agent

2024-10-22 10:07:25

相关推荐