12月7日,谷歌CEO桑达尔・皮查伊和Deepmind CEO戴密斯·哈萨比斯在谷歌官网联名发文,官宣了最新多模态大模型Gemini 1.0版本正式上线。
此次谷歌发布的Gemini模型可实现多模态,性能大幅提升,Gemini是基于Transformer decoder构建的多模态模型,这种技术能够处理视频、音频和文本等不同内容形式的信息。最新的Gemini模型对比之前的技术,能够进行更复杂的推理,理解更加细微的信息。它通过阅读、过滤和理解信息,可以从数十万份文件中提取要点,将有助于在从科学到金融的许多领域实现新的突破。
据悉,Gemini有Ultra、Pro、Nano三个版本,可自动生成文本、代码、总结内容等,并能理解图片、音频和视频内容。在MMLU、DROP、HellaSwag、GSM8K等主流评测中,Gemini Ultra的能力全面超越了OpenAI的GPT-4和GPT-4 V。
此外,Gemini Nano型模型在移动设备上展现卓越的自然语言处理能力。尤其是在针对性任务微调后,在阅读理解和摘要生成等任务上胜过其他同规模模型。
谷歌首席执行官Sundar Pichai表示,Gemini是我们迄今为止最强大和最通用的模型,在许多领先的基准测试中表现非常出色。
第一个版本的Gemini针对不同尺寸进行了优化,这适用于不同的人群和行业。Ultra、Pro和Nano是Gemini的第一批模型,也是我们成立Google DeepMind的愿景的第一次实现。非常兴奋,未来我们会持续发布更多强大的模型。