7月20日,第二届全球媒体创新论坛在上海召开,在本届论坛上,上海人工智能实验室(上海AI实验室)、中央广播电视总台联合发布“央视听媒体大模型”(CMG Media GPT)。
以大模型的多模态理解、交互和生成能力为基础,媒体工作者将来有望在“聊天”中完成工作。目前,“央视听媒体大模型”具备了强大的视频理解能力和视听媒体问答能力,AI相当于拥有了感知真实世界的“眼睛”和“耳朵”。同时,该大模型可根据提供的视频创作文字——从主持词到新闻稿件,甚至诗歌。媒体编辑可在大模型的协助下,一键为视频生成风格各异的解说词,当前生成内容已覆盖美食、文化和科技等多个领域。
上海AI实验室科研团队介绍,“央视听媒体大模型”具备的视觉理解能力,源于跨模态互动技术的最新突破——大模型将图像/视频视为另一种“语言”,并将视觉与语言对齐,从而降低人工智能视觉任务的门槛。基于对多模态数据的建模,“央视听媒体大模型”可感知图像的风格与纹理笔触,通过将用户输入的文本指令与图像对齐,实现按照用户需求生成画面及风格一致的其他内容。
除了视频内容,央视听大模型还具备快速生成“数字人主播”的能力。使用较短的真人采集视频即可生成对应的数字人。AI生成的数字人主播以“真人”形象呈现,不仅能根据既定文案和背景场景快速生成播报视频,还可自动学习真人的语言及动作习惯,做到形象更逼真,表情更自然。
此前在2023世界人工智能大会开幕式上,上海AI实验室联合中央广播电视总台等单位发起成立了大模型语料数据联盟。此次双方共同发布“央视听媒体大模型”,将“以原创技术,促内容原创”,携手推动视听媒体编创范式变革,以科技创新加速赋能视听产业应用。
“当我们谈论大模型时,不应只关注对话聊天功能,更应看到它在提高生产效率方面的作用。”上海AI实验室主任助理乔宇表示,上海AI实验室将与学术界、产业界紧密合作,共同推动大模型落地应用,使之成为推动生产力变革的技术基础设施和社会发展的重要基石。