微软发布Phi-3.5系列模型 支持128K上下文 可在移动设备使用

近日微软发布了Phi-3.5系列模型,包括mini-instruct、MoE-instruct和vision-instruct三种模型,适合在内存和算力受限的环境中运行,均支持128k上下文长度。目前可以在手机、平板电脑等移动设备中使用。

Phi-3.5

Phi-3.5系列中的Phi-3.5-mini-instruct参数规模非常小,但性能却超过了Meta最新开源的Llama 3.1 8B和Mistral 7B等知名开源模型。

Phi-3.5模型介绍

Phi-3.5使用的是Transformer解码器,是2.0、3.0版本的延伸,有3072维隐藏层、32个注意力头以及32层架构。具有4K的默认上下文长度,并通过LongRope扩展至128K,使得模型能够处理更长的文本序列,支持中文、英文、法文等。同时还使用了组查询注意力机制,每个注意力头的KV缓存中使用4个查询共享1个键。为了进一步提高训练和推理速度,微软使用了块稀疏注意力模块,能根据不同的稀疏模式有效地划分上下文,减少KV缓存的使用量。

Phi-3.5之所以能够实现如此出色的性能,主要原因之一是其使用了超过3.3万亿token高质量训练数据集。这个数据集是phi-2使用的数据集的扩展版本,由经过严格筛选的公开网络数据以及合成数据组成,在模型的预训练过程中发挥了巨大作用。

另外Phi-3.5使用了监督微调、近端策略优化和直接偏好优化等方法,使其输出更符合人类预期,极大减少非法、错误的内容输出。

Phi-3.5的三款模型

1、Phi-3.5-mini-instruct

Phi-3.5-mini-instruct支持128K上下文,能生成文本/代码、数学推理、解读长文档、总结会议摘要等。在MMLU、MGSM、MEGA TyDi QA、MEGA XCOPA等测试基准中,整体性能超过Llama-3.1-8B、Mistral-7B。

2、Phi-3.5-MoE-instruct

Phi-3.5-MoE-instruct共有420亿参数,但在推理的过程中只有66亿参数处于激活状态,其性能大幅度超过了同类开闭源模型,但对资源的消耗却非常低。它可以根据不同场景的复杂任务,调动切换不同的专家模块来处理,进一步提升了对资源的合理分配。

Phi-3.5-MoE-instruct之所以能够实现这种效率和性能的平衡,源于其独特的技术原理。在Phi-3.5-MoE-instruct架构中,模型不是由单一的神经网络构成,而是由多个小型网络或专家组成。每个专家负责处理其擅长的特定类型的任务。当模型接收到输入数据时,会通过“门控网络”来决定哪些专家需要被激活,以及每个专家应该对最终的输出贡献多少。

Phi-3.5-MoE-instruct的另一个技术优势是其可扩展性。随着开发人员对模型进行进一步的训练和优化,可以轻松地增加更多的专家来提升模型在特定领域的表现,或者通过改进门控网络来优化模型的决策过程。

3、Phi-3.5-vision-instruct

Phi-3.5-vision-instruct除了文本生成之外,还支持图像识别、光学字符识别、图表/表格解读、图像比较、剪辑视频摘要等。在Art Style、Counting、Forensic Detection、Jigsaw、Relative Depth、Visual Correspondence等视觉基准测试中,其性能超过了InternVL-2-4B/8B、GPT-4o-mini、Claude-3.5-Sonnet、Gemini-1.5-Flash等知名开闭源模型,仅次于GPT-4o。

行业动态

OpenAI推出GPT-4o数据微调新功能

2024-8-21 10:26:34

行业动态

Anthropic全新功能Artifacts现已免费开放

2024-8-28 10:42:45

相关推荐