Cohere推出支持中文、开放权重的最新开源大模型Aya 23

行业动态
2024年5月27日
0
编辑

知名开源大模型厂商Cohere于近日开源了新一代大模型——Aya 23。Aya 23有80亿和350亿两种版本，支持23种语言，可生成文本、代码、总结内容等。目前，Cohere已经全面开放了Aya 23的权重，在遵守CC-BY-NC、C4AI的策略下可以商业化。

Aya 23

在预训练方面，Aya 23基于Cohere Command系列模型，使用包括23种语言文本的数据混合进行预训练。

Aya-23-35B是Cohere Command R的进一步微调版本。预训练模型采用了标准的仅解码器Transformer架构，并行注意力和FFN层、SwiGLU激活、无偏置、RoPE（旋转位置嵌入）、BPE分词器以及分组查询注意力（GQA）。

据实验数据显示：

1、在鉴别性任务上，Aya 23模型在所有未见过的任务上都表现出色，这些任务包括XWinograd、XCOPA和XStoryCloze，使用零样本评估。

2、在多语言MMLU评估中，Aya 23模型在14种语言上的表现也优于其他模型。在多语言数学推理方面，Aya 23模型在MGSM基准测试中的表现超越了所有同类基线模型。

3、在生成任务方面，Aya 23模型在机器翻译和摘要生成上的表现也显著高于其他具有相似参数的模型。

微软推出基于GPT-4o模型的Copilot+ PC

2024-5-21 14:17:41

Mistral.ai发布首个专业代码模型Codestral

2024-5-30 11:27:37

相关推荐

TOP1

2025年热门Mac平台软件推荐
10小时前
TOP2

阿里云服务器基于xFasterTransformer部署Llama2-7B模型教程
18小时前
TOP3

谷歌首推开源标准智能体交互协议A2A
19小时前
在华为云服务器实例上手动安装宝塔Windows面板教程
2025年4月9日
好用的思维导图软件推荐
2025年4月9日
Together AI联合Agentica开源最新模型DeepCoder
2025年4月9日