12月22日,国内首个官方“大模型标准符合性评测”结果公布。阿里云通义千问成为首批通过评测的四款国产大模型之一,在通用性、智能性等维度均达到国家相关标准要求。
“大模型标准符合性评测”由中国电子技术标准化研究院发起,旨在建立中国大模型标准符合性名录,引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见,覆盖评估语言大模型通用性、智能性的38项具体评测维度,是基于官方大模型测试基准的权威评测。
本次通过评测的首批大模型中,通义千问是唯一的开源模型,在全球拥有广泛的开发者用户和企业客户,其性能表现及安全性得到了大范围的公开检验。12月1日开源后,通义千问72B在10个权威基准评测中创下开源模型最优成绩,并力压Llama2登顶海外最具权威性的HuggingFace排行榜,此后又登上国内上海人工智能实验室OpenCompass榜首,成为业界公认的性能超强开源大模型。