全球最大翻译模型开源 支持100种语言

8月23日,全球社交、科技巨头Meta在官网宣布,开源多语音、语言,翻译、转录大模型SeamlessM4T。据Meta介绍,SeamlessM4T是首个一体化AI翻译大模型,支持100种语音、语言翻译,可执行语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译任务。

开源地址:https://github.com/facebookresearch/seamless_communication

SeamlessM4T

SeamlessM4T集成了Meta之前发布的NLLB、MMS等翻译模型,并使用了270000小时的语音和文本对齐数据。所以,这也是目前规模最大、功能最全的开源翻译模型。

Meta表示,SeamlessM4T能实现多模式翻译功能,主要由多款功能强大的翻译模型组合而成。

No Language Left Behind (NLLB):Meta在2022年7月6日发布的一款支持200种语言的翻译模型,对于一些冷门语言支持较好,平均翻译准确率提升了70%以上。该模型已经为维基百科提供翻译服务。

通用语音翻译器:Meta在2022年10月19日发布的一款语音到语音的通用翻译器,可翻译、识别多种地方口头语言,例如,闽南语,打破了不同地区之间的沟通障碍。

Massively Multilingual Speech(MMS):Meta在今年5月22日发布的超大规模语音、语言AI模型,可识别4000多种口语,支持1100多种文本转语音、语音转文本和语音合成。

从上述产品介绍不难看出,Meta将自己所有单领域最强AI翻译模型集成在一起,组合成了翻译界的“变形金刚”SeamlessM4T。

SeamlessM4T能支持如此多的语音、语言翻译,主要得益于高质量训练数据集,包括语音到文本、语音到语音、文本到文本等。Meta为200种语言构建了一个名为SONAR的,大规模多语言和模态文本嵌入空间。该方法在多语言相似性搜索中,大大优于LASER3或LaBSE 等。再将SONAR的方法同步扩展至语音模态,目前涵盖36种语言。

此外,Meta通过对公开网络数据(数百亿个句子)和语音存储库(400 万小时)进行数据挖掘,获得了443000小时的语音与文本对齐数据,以及创建约29000小时的语音到语音对齐数据,然后对SeamlessM4T进行预训练和微调。

SeamlessM4T在100种语言中实现了最先进的翻译结果,并在自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等,实现了多任务支持、文本翻译全部在一个模型中完成。

为了在不依赖基于文本的指标的情况下更准确地进行评估,Meta将无文本指标扩展到 BLASER 2.0,可以跨语音和文本单元进行评估,其准确性与前身相似。

在进行鲁棒性测试时,与当前最先进的翻译模型相比,SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好,平均分别提高了37%和48%。Meta还显着提高了所支持的中低资源语言的性能,并保持了高资源语言的强劲性能。

服务商动态

昆仑万维发布国内第一款AI搜索产品 已开启内测申请

2023-8-24 9:43:22

服务商动态

文本生成代码模型Code Llama正式开源 可商业化

2023-8-25 9:58:02

相关推荐