近日,阿联酋阿布扎比技术创新研究所(TII)在官网发布了,目前性能最强的开源大语言模型之一Falcon 180B。
TII表示,Falcon 180B拥有1800亿参数,使用4096个GPU在3.5万亿token 数据集上进行训练,这也是目前开源模型里规模最大的预训练数据集之一。Falcon 180B有基础和聊天两个模型,允许商业化。
今年5月,TII曾经发布过另一款类ChatGPT开源大语言模型Falcon-40B。该产品刚推出便成为Huggingface的开源大语言模型排行第一名,击败了LLaMa 65b、GPT4-X-Alpasta-30b、LLaMa 30b等众多著名开源项目成为一匹黑马。
Falcon 180B便是在Falcon-40B基础之上研发而成,并将模型参数扩大了4.5倍,训练集从1万亿提升至3.5万亿token,并在算法、推理、硬件部署方面进行了大幅度优化。其中,最大的亮点就是Falcon 180B- chat版本支持中文,并进行了数据微调。
预训练方面,Falcon 180通过使用 Amazon SageMaker 在多达4096个GPU上同时对3.5万亿个token数据集进行训练,总共花费了约 7,000,000个小时。TII表示,Falcon 180B的规模是Llama 2的2.5 倍,而训练所需的算力资源是Llama 2的4倍。
Falcon 180B的训练数据集主要来自RefinedWeb的网络数据(大约占85%)。还在对话、技术论文和一小部分代码 (约占 3%) 等,经过整理的混合数据的基础上进行了训练。
Falcon 180B-chat模型在聊天和指令数据集上进行了微调,并混合了多个大规模对话数据集,使其能够更好地理解用户的文本提示意图,生成丝滑、流畅、拟人化的各种文本内容。
Falcon 180B在MMLU上的测试结果,优于Llama 2 70B 和 OpenAI 的 GPT-3.5;在 HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC等测试中,可媲美谷歌的PaLM 2-Large,仅次于GPT-4。
目前,Falcon 180B在Hugging Face排行榜上得分为68.74,是得分最高的公开发布的预训练大语言模型,超越了Meta的 LLaMA 2、LLaMA等。
AI俱乐部,致力于打造最专业的AI交流社群。
星球将分享:
1、ChatGPT的使用方法,最新资讯,商业价。
2、邀请顶尖行业大佬,每周给大家发现一个商业落地案例。
3、组织星球小伙伴一起参与实战项目,亲身感受AI浪潮。
4、系列课程和训练营,手把手带着大家去实操ChatGPT。
5、一些副业思考、创业案例、落地案例分享。
6、最早期、专业的AI交流社群。探讨未来关于ChatGPT的机遇,帮助大家解决遇到的问题。
如果有小伙伴感兴趣的话,可以一起加入星球哦!