谷歌推出 Gemini，一款可以接收视频输入的人工智能

2024-04-15 08:00:00 · 飞浪 · 亚当·伊普森

就在 2023 年即将结束之际，谷歌发布了一款新的原生多模式人工智能，可以理解视频、图像、文本和音频。

如果你关注人工智能新闻，那么 11 月是一个疯狂的月份——不仅有OpenAI 的 DevDay和一系列新的 ChatGPT 公告，亚马逊还决定通过Amazon Q提高其人工智能赌注。我喜欢创新，但随着 12 月的到来，我希望能安静地喘口气。

然后谷歌就放弃了 Gemini。

什么是 Google Gemini？

Gemini 是 Google 推出的多模态 AI 模型，它不仅可以理解文本，还可以理解视频、图像和音频。它还可以理解和生成代码，以及生成文本和图像的组合。它有三个版本，具体取决于您的处理要求： Ultra、 Pro和 Nano。

Gemini 的另一个很酷的功能是它能够通过视觉理解语言。例如，如果你向它展示带有意大利语乐谱的摄像头画面，它能够理解这是什么意思并向你解释。

哪一个更好？ Gemini vs GPT vs Claude

谷歌声称其 Gemini Ultra 在数学、代码和多模态任务等大多数类别中都略胜GPT-4。例如，它在数学方面比 GPT 好 2%。然而，这项研究缺乏与 OpenAI 更优秀的 GPT-4 Turbo 的比较。目前还没有与Anthropic 的 Claude 2.1进行比较的研究。

谷歌表示，Gemini 是第一个在 MMLU（大规模多任务语言理解）上表现优于人类专家的模型，MMLU 是一项涉及 57 个学科（如 STEM、人文科学等）的测试。在这一领域，它的得分为 90%，而 GPT-4 的得分为 86.4%。

然而，用户的传闻报告至少可以说是冷淡的，称其经常出现幻觉和翻译错误（以及一些关于演示视频的问题）。一旦有时间进行独立研究，Gemini 的功能将随着时间的推移而更加清晰地显现出来。

Gemini 比 GPT 和 Claude 更具多模式性

在多模态性（能够理解多种类型的输入）方面，Gemini 目前处于领先地位。它可以原生地将视频、图像、文本和音频作为输入。相比之下，GPT-4 with Vision（GPT-4V）接受图像和文本，而 Claude 2.1 只接受文本输入。Gemini 可以创建图像，如果能访问DALL-E 3，GPT-4V 也可以。

Gemini 的内存较小，输出明显较少

Gemini 的 token 窗口比 Claude 和 GPT-4 Turbo 要小得多：Gemini 有 32k 个 token 容量，GPT-4 Turbo 有 128k 个 token 窗口，而 Anthropic 有 200k 个 token 窗口，相当于大约 150k 个单词或 500 页文本。token 通常可以指示模型可以记住和产生多少信息。

Gemini 的延迟仍未知

对于具有闪亮新功能的 AI 模型来说，一个重要因素是延迟——当 GPT-4 问世时，它提供了比 GPT-3.5 更好的输出，但代价是速度。显然，谷歌正在提供三种不同版本的 Gemini，以牺牲功能为代价提供更低的延迟选项，但这些版本与其他模型相比如何还有待观察。同样，这项研究只是时间问题。

如何使用 Google Gemini AI？

Google Bard 现在在后台使用了经过微调的 Gemini Pro 版本，Pixel 上也提供了该版本。谷歌计划在未来几个月内将其引入搜索、广告、Chrome 和 Duet AI。对于开发者来说，Gemini Pro 将从 12 月 13 日起通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 提供。

谷歌表示，Android 开发者很快就能通过 Android 14 中的新系统功能 AICore 访问 Gemini Nano。Gemini Ultra 仍在进行微调和安全测试，预计将于 2024 年初发布。

结论：多模式AI输入的一大步

虽然 Gemini 的纸面能力并没有让 GPT-4 黯然失色——对于使用 ChatGPT 的人来说，一个百分比的差异实际上并没有多大意义——但多模式输入确实是另一回事。我预计 OpenAI 和 Anthropic 将急于将原生视频和音频输入添加到他们的功能管道中（如果还没有的话）。看看这些功能在增加流程延迟方面的表现如何，将会很有趣。