谷歌最强多模态大模型—Gemini发布

12月7日，谷歌CEO桑达尔・皮查伊和Deepmind CEO戴密斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0版本正式上线。

此次谷歌发布的Gemini模型可实现多模态，性能大幅提升，Gemini是基于Transformer decoder构建的多模态模型，这种技术能够处理视频、音频和文本等不同内容形式的信息。最新的Gemini模型对比之前的技术，能够进行更复杂的推理，理解更加细微的信息。它通过阅读、过滤和理解信息，可以从数十万份文件中提取要点，将有助于在从科学到金融的许多领域实现新的突破。

据悉，Gemini有Ultra、Pro、Nano三个版本，可自动生成文本、代码、总结内容等，并能理解图片、音频和视频内容。在MMLU、DROP、HellaSwag、GSM8K等主流评测中，Gemini Ultra的能力全面超越了OpenAI的GPT-4和GPT-4 V。

此外，Gemini Nano型模型在移动设备上展现卓越的自然语言处理能力。尤其是在针对性任务微调后,在阅读理解和摘要生成等任务上胜过其他同规模模型。

谷歌首席执行官Sundar Pichai表示，Gemini是我们迄今为止最强大和最通用的模型，在许多领先的基准测试中表现非常出色。

第一个版本的Gemini针对不同尺寸进行了优化，这适用于不同的人群和行业。Ultra、Pro和Nano是Gemini的第一批模型，也是我们成立Google DeepMind的愿景的第一次实现。非常兴奋，未来我们会持续发布更多强大的模型。

Gemini