谷歌推出 Gemini,一款可以接收视频输入的人工智能
如果你关注人工智能新闻,那么 11 月是一个疯狂的月份——不仅有OpenAI 的 DevDay和一系列新的 ChatGPT 公告,亚马逊还决定通过Amazon Q提高其人工智能赌注。我喜欢创新,但随着 12 月的到来,我希望能安静地喘口气。
然后谷歌就放弃了 Gemini。
什么是 Google Gemini?
Gemini 是 Google 推出的多模态 AI 模型,它不仅可以理解文本,还可以理解视频、图像和音频。它还可以理解和生成代码,以及生成文本和图像的组合。它有三个版本,具体取决于您的处理要求: Ultra、 Pro和 Nano。
Gemini 的另一个很酷的功能是它能够通过视觉理解语言。例如,如果你向它展示带有意大利语乐谱的摄像头画面,它能够理解这是什么意思并向你解释。
哪一个更好? Gemini vs GPT vs Claude
谷歌声称其 Gemini Ultra 在数学、代码和多模态任务等大多数类别中都略胜GPT-4。例如,它在数学方面比 GPT 好 2%。然而,这项研究缺乏与 OpenAI 更优秀的 GPT-4 Turbo 的比较。目前还没有与Anthropic 的 Claude 2.1进行比较的研究。
谷歌表示,Gemini 是第一个在 MMLU(大规模多任务语言理解)上表现优于人类专家的模型,MMLU 是一项涉及 57 个学科(如 STEM、人文科学等)的测试。在这一领域,它的得分为 90%,而 GPT-4 的得分为 86.4%。
然而,用户的传闻报告至少可以说是冷淡的 ,称其经常出现幻觉和翻译错误(以及一些关于演示视频的问题)。一旦有时间进行独立研究,Gemini 的功能将随着时间的推移而更加清晰地显现出来。
Gemini 比 GPT 和 Claude 更具多模式性
在多模态性(能够理解多种类型的输入)方面,Gemini 目前处于领先地位。它可以原生地将视频、图像、文本和音频作为输入。相比之下,GPT-4 with Vision(GPT-4V)接受图像和文本,而 Claude 2.1 只接受文本输入。Gemini 可以创建图像,如果能访问DALL-E 3,GPT-4V 也可以。
Gemini 的内存较小,输出明显较少
Gemini 的 token 窗口比 Claude 和 GPT-4 Turbo 要小得多:Gemini 有 32k 个 token 容量,GPT-4 Turbo 有 128k 个 token 窗口,而 Anthropic 有 200k 个 token 窗口,相当于大约 150k 个单词或 500 页文本。token 通常可以指示模型可以记住和产生多少信息。
Gemini 的延迟仍未知
对于具有闪亮新功能的 AI 模型来说,一个重要因素是延迟——当 GPT-4 问世时,它提供了比 GPT-3.5 更好的输出,但代价是速度。显然,谷歌正在提供三种不同版本的 Gemini,以牺牲功能为代价提供更低的延迟选项,但这些版本与其他模型相比如何还有待观察。同样,这项研究只是时间问题。
如何使用 Google Gemini AI?
Google Bard 现在在后台使用了经过微调的 Gemini Pro 版本,Pixel 上也提供了该版本。谷歌计划在未来几个月内将其引入搜索、广告、Chrome 和 Duet AI。对于开发者来说,Gemini Pro 将从 12 月 13 日起通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 提供。
谷歌表示,Android 开发者很快就能通过 Android 14 中的新系统功能 AICore 访问 Gemini Nano。Gemini Ultra 仍在进行微调和安全测试,预计将于 2024 年初发布。
结论:多模式AI输入的一大步
虽然 Gemini 的纸面能力并没有让 GPT-4 黯然失色——对于使用 ChatGPT 的人来说,一个百分比的差异实际上并没有多大意义——但多模式输入确实是另一回事。我预计 OpenAI 和 Anthropic 将急于将原生视频和音频输入添加到他们的功能管道中(如果还没有的话)。看看这些功能在增加流程延迟方面的表现如何,将会很有趣。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~