知名开源大模型厂商Cohere于近日开源了新一代大模型——Aya 23。Aya 23有80亿和350亿两种版本,支持23种语言,可生成文本、代码、总结内容等。目前,Cohere已经全面开放了Aya 23的权重,在遵守CC-BY-NC、C4AI的策略下可以商业化。
在预训练方面,Aya 23基于Cohere Command系列模型,使用包括23种语言文本的数据混合进行预训练。
Aya-23-35B是Cohere Command R的进一步微调版本。预训练模型采用了标准的仅解码器Transformer架构,并行注意力和FFN层、SwiGLU激活、无偏置、RoPE(旋转位置嵌入)、BPE分词器以及分组查询注意力(GQA)。
据实验数据显示:
1、在鉴别性任务上,Aya 23模型在所有未见过的任务上都表现出色,这些任务包括XWinograd、XCOPA和XStoryCloze,使用零样本评估。
2、在多语言MMLU评估中,Aya 23模型在14种语言上的表现也优于其他模型。在多语言数学推理方面,Aya 23模型在MGSM基准测试中的表现超越了所有同类基线模型。
3、在生成任务方面,Aya 23模型在机器翻译和摘要生成上的表现也显著高于其他具有相似参数的模型。