6月1日,阿里云宣布通义大模型进展,聚焦音视频内容的AI新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品。在公测期间(6月1日至30日)内,用户可在通义听悟官网免费体验所有AI功能,含全文概要、章节速览、发言总结高阶功能。其次,每天登录通义听悟自动获得两小时转写时长,用户还可以通过邀请好友、输入口令兑换的方式获取额外的转写时长。
通义千问官网地址:https://tingwu.aliyun.com/
通义听悟依托通义千问语言模型、音视频 AI 模型能力,为用户带来音频和视频内容记录和阅读的全新体验,可成为用户工作学习中的得力助手。通义听悟随时随地可高效完成对音视频内容的转写、检索、摘要和整理,功能也非常丰富,主要可以分为核心能力、进阶功能和黑科技三大类。
一、通义听悟的核心能力
1.实时语音转写,生成智能记录,搜索定位助力高效回顾
2.文件转写,海量文件同时上传,帮你省时又省力
3.实时翻译,支持中英互译,跨语言协作流畅自如
4.快速标记,高亮重点、问题、待办,重点信息一目了然
5.轻松导出,丰富内容任你挑,多样格式供你选
二、通义听悟的进阶功能
1.多语言语音识别,中英文自由说
2.准确提炼关键词,快速抓住会话主题
3.智能全文概要、章节速览、发言总结,高效掌握关键信息
4.自动总结生成待办,防止遗漏便于跟进
5.智能区分发言人,一键筛选高效回顾
三、通义听悟的黑科技
1.添加专有词汇,提升指定词汇识别准确率
2.提取问题,快速回顾沟通内容
3.智能替换,一键替换所有结果,自动修正目标词汇
4.检测声音事件,实时进行提醒,文字识别更准确
通义听悟之所以能有这么完善的功能,离不开两大关键技术:通义大模型和Paraformer。通义大模型对于关注 AI 领域的人来说并不陌生,是阿里达摩院在2022年9月发布的大模型系列,且通过魔搭社区开源开放。基于这些研究成果,今年4月7日,阿里正式发布了自研类 ChatGPT 产品“通义千问”。在技术落地上,通义大模型也在不断加速。近期,阿里云通义千问等大模型已接入钉钉斜杠“/”。
此外,通义听悟还内置了阿里新一代工业级语音识别模型 Paraformer。Paraformer 是阿里达摩院在去年12月发布的下一代“杀手锏”级别的语音识别基础模型,且是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,识别准确率在多个权威数据集上名列第一。
通义听悟也可嵌进各类音视频平台,形成实时字幕、智能摘要等,典型应用如钉钉的钉闪记背后便集成了听悟。未来,全新升级后的通义听悟还将在夸克APP、阿里云盘等端口提供服务。