4月23日,商汤科技在上海举行的技术开放日上发布了日日新5.0大模型,采用MOE混合专家架构,基于超过10TB tokens训练,推理上下文窗口200K,全面对标GPT-4 Turbo。
商汤科技在发布5.0模型后,股价大涨30%以上并触发紧急暂停交易。复盘后股价仍然上涨了17.5%,成为国内AIGC领域的一支“妖股”。
日日新5.0大模型的显著能力提升源于三大核心技术革新:采用了混合专家架构(MoE),使得模型能够在激活少量参数的前提下高效完成推理,同时推理过程中的上下文窗口扩大至约200K左右,大大增强了模型理解和处理复杂情境的能力。此外,该模型基于超过10TB的tokens数据进行训练,涵盖了数千亿量级的逻辑型合成思维链数据,这一突破性进展意味着模型在知识融合和推理链条构建上达到了前所未有的深度和广度。
日日新5.0另一大技术亮点是多模态能力,其图文感知能力达到全球领先水平,在多模态大模型权威综合基准测试MMBench中综合得分排名首位。在多个知名多模态榜单MathVista,AI2D,ChartQA,TextVQA,DocVQA,MMMU取得领先成绩。
日日新5.0的多模态支持高清长图的解析和理解以及文生图交互式生成,还可以实现复杂的跨文档知识抽取及总结问答展示,还具备丰富的交互能力。
为了满足移动终端用户对大模型技术的应用需求,商汤在发布会上海推出了日日新·端侧大模型,性能实现同等尺度性能最优,跨级尺度全面领先。商汤日日新·端侧大语言模型的推理速度达到了业内最快,可在中端平台实现18.3字/s的平均生成速度,旗舰平台更是达到了78.3字/s。扩散模型同样可在端侧实现业内最快的推理速度,端侧LDM-AI扩图技术在某主流平台上,推理速度小于1.5秒,比友商云端App快10倍,支持输出1200万像素及以上的高清图片,支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。