5月19日,在第七届世界智能大会上由国家超级计算天津中心“天河E级智能计算开放创新平台”训练研发的“天河天元大模型”正式发布。该模型是立足国产天河超级算力和智能算力,汇集构建中文大数据集,由平台自主训练研发的大型模型。
超级计算可以说是算力中的战斗机,单体最强大算力的存在,由于超级计算作为一个系统工程、超级大脑,每一代超级计算都要完成数据交换能力升级、系统级软件升级等才能实现整机系统的突破,因此超级计算研制能力成为体现国家信息技术创新能力,特别是算力发展的重要象征。
天河超级计算机,从千亿亿次到亿亿次、十亿亿次,再到现在百亿亿次,不断挑战世界算力速度极限。国家超级计算天津中心首席科学家孟祥飞介绍,天河在完成传统的高精度科学工程计算之外,构建基于自主E级算力体系架构的智能计算引擎,建设人工智能大规模训练与应用系统支撑环境。天河E级智能计算开放创新平台将带来突破百亿亿次的跨模态的超级计算算力,支撑传统的科学工程计算,并服务智能混合计算,打造全方位的算力赋能创新和数字经济高质量发展载体。
众所周知,中文大语言模型的数据集非常稀缺。孟祥飞介绍,天津超算中心搜集整理了网页数据、各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据以及专业领域的中医、医药、问诊、法律等多种数据集,训练数据集总token数达到350B,训练打造了自己的中文语言大模型——天河天元大模型。同时大模型还在持续训练和完善中,并在此基础上启动深度训练面向医疗、工业、法律等领域的专业模型。
将大模型作为产业智能化升级基座,用专业数据集,打造更贴合行业领域的智能化高水平“专家”。同时为行业赋能,推动行业升级,提升领域创新效率、行业生产效率,是人工智能驱动新一轮科技革命和产业变革的巨大力量。
未来,以生成式AI为基座的产业链将成为智能化升级过程中可大规模复用的基础设施。在大模型通用性、泛化性以及降低人工智能应用门槛的优势推动下,人工智能也将会加快落地,形成新的机遇。