Meta发布首个超GPT-4o开源大模型Llama 3.1

最近,Meta宣布推出迄今为止最强大的开源模型——Llama 3.1。Llama 3.1共有8B、70B及405B三种版本,其中405B版本是目前最大的开源模型之一。

Llama 3.1

Llama 3.1 405B版本在多项测试中一举超越GPT-4o和Claude 3.5 Sonnet,支持128K上下文长度,英语、法语、德语等8种语言,能生成代码、文本、文本摘要等。

Llama 3.1 405B版本现在没有开放还在继续开发中。

Meta更改了开源许可证,这就意味着开发者是可以使用Llama 3.1系列模型的输出去优化其他模型的。这也使得大家对于最强的405B越发期待!

Llama 3.1 405B版本在部署成本和推理方面成本比较高,所以Meta开放的70B、8B小参数模型就显得尤为人性化。

Meta联合创始人兼首席执行官扎克伯格表示,在生成式AI时代,好的大模型不应该被少数公司掌握,应该与全人类共同分享,同时对Meta的帮助也有很大好处。

目前,Meta正在与亚马逊、Databricks和英伟达在内的多家领先科技公司合作,推出一系列服务,支持开发者微调和蒸馏自己的模型。开源模型将在所有主要云平台上提供,包括AWS、Azure、Google、Oracle等。其他公司如Scale.AI、Dell、Deloitte等也准备帮助企业应用最新开源的Llama 3.1模型,并用他们自己的数据训练定制大模型。

Llama 3.1 405B的改进之处:

1、Llama 3.1 405B采用了标准的密集Transformer架构,使用了分组查询注意力来提高推理效率,并对词汇表进行了调整,以更好地支持多语言处理。

2、在预训练过程中,Llama 3.1 405B使用了超过1.6万块H100。

3、在预训练阶段,采用了初始预训练和长上下文预训练相结合的方式。

4、在语言模型后训练阶段,Llama 3.1 405B通过监督微调和直接偏好优化等,进一步提升了模型的性能和适应性。

5、Llama 3.1 405B还具备多模态推理能力,通过与视觉和语音等模态的结合,能够实现更自然和智能的交互方式。

6、在视觉交互中,Llama 3.1 405B与预训练的图像编码器和适配器相结合,提升了对视觉信息的理解和处理能力。

7、在图像识别任务中,Llama 3.1 405B能够准确地识别出图像中的物体类别和属性,为图像标注和分类提供了有力的支持。

行业动态

美国空军部发布生成式AI产品NIPRGPT

2024-6-12 13:52:04

行业动态

OpenAI推出SearchGPT 进军AI搜索领域

2024-7-26 14:58:06

相关推荐