全模式人工智能:为什么未来的人工智能将拥有五种感官
就在上周,Google Gemini发布了,新闻轰动一时:这是一个可以“看到”和“听到”我们的人工智能!这里面有一些语义上的争论——因此用了引号——但要点是正确的:我们现在有一个可以理解视频、图像、文本和音频的生成式多模态人工智能。
目前,我们讨论两种生成式人工智能:单模态和多模态。单模态人工智能只能接受一种输入(如文本),而多模态人工智能可以接受多种输入。目前,如果生成式人工智能产品能处理的不仅仅是文本,每个人都会试图给其产品贴上多模态标签——这是宣传的必备新功能。
然而,还有第三种生成式人工智能,没有人谈论它,我相信它会比我们想象的更快成为现实:全模式人工智能。
什么是全模式人工智能?
全模态 AI 是一种生成式 AI 模型,可以将所有五种经典感官作为输入:视觉、听觉、触觉、嗅觉和味觉。它可以处理和解释来自每种模态的数据,从而以模仿人类感知的方式理解世界并与世界互动。
我们目前还拥有全模态 AI 的单独构建模块,就像在这些功能被纳入 Google Gemini 和 GPT-4 之前,我们已经拥有多模态 AI 的部分一样:这只是一个改进应用的问题。
为什么人工智能需要嗅觉、味觉或触觉?
正如那句俗话所说,“如果它看起来、游起来和叫起来都像鸭子,那它很可能就是鸭子”,我们使用多种感官来识别物体。同样,人工智能也受益于多种感官,包括嗅觉、味觉和触觉,以更好地理解和与周围环境互动。
嗅觉的力量
目前,能够接受视觉输入的人工智能会扫描它所看到的内容,对照其训练数据进行检查,并给出置信度分数(例如“我有 68.22% 的信心这是一堆糖”)。但是,如果我们赋予它像嗅探犬一样嗅东西的能力会怎么样?有了这种额外的输入,人工智能可能会突然意识到这确实不是糖,而是一种非法物质。
这是我们今天拥有的一项真正的技术,即电子鼻或电子鼻——一种用于实验室、工艺和生产部门的工具。目前,我们将其用于:
检测污染、腐败和掺假
监测、管理和比较材料(例如检测质量、聚合物、气体)
配方和菜谱的感官分析
竞争产品基准测试
然而,如果我们将电子鼻与人工智能结合起来,我们可以更进一步。在医学上,你可以通过特定的气味检测危险和有害的细菌和病毒状况。例如,肺癌会释放出可以检测到的独特有机化合物。对于环境监测,它可以检测空气、水和土壤样本中的挥发性有机化合物。
想象一下,一个全模式人工智能充当肿瘤学助手,它只需看一眼你,不仅可以将你皮肤上的每一个痣与黑色素瘤等癌症的照片进行比较,还可以通过嗅觉判断你是否有脑癌的迹象。这远远超出了普通医生的能力范围(无论他们的嗅觉有多灵敏)。
举一个不那么生死攸关的例子,具有嗅觉的人工智能可以闻到房间里是否有令人不愉快的气味,并提供令人愉悦的花香来掩盖它。
触摸的力量
触觉是我们了解世界的主要方式之一,同样的好处也适用于人工智能。我们只需用手触摸物体,就能识别物体:它是硬的还是软的、冷的还是热的、圆的还是方的?
再说一遍,这是一项已经存在的技术。麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员已经发明了一种预测性人工智能,它可以通过触摸来学习看,通过观察来学习感受。
“通过观察场景,我们的模型可以想象触摸平面或锋利边缘的感觉”,CSAIL 博士生、该系统新论文的主要作者 Yunzhu Li 说道。
“通过盲目触摸,我们的模型可以仅凭触觉来预测与环境的互动。将这两种感觉结合在一起可以增强机器人的能力,并减少我们在执行涉及操纵和抓取物体的任务时可能需要的数据。”
该技术的另一种形式是电子皮肤,即覆盖在机器上的电子皮肤,用于检测接近度、热量、湿度和触摸交互。
味觉的力量
作为人类,我们热爱品尝美味。看看你家附近有多少家餐馆、酒吧和快餐店。超市货架上有多少营养成分相似但味道完全不同的产品?这是一个巨大的市场,而能够品尝的人工智能可能会彻底改变它。
通过将口味数据与消费者购买模式进行比较,全模式人工智能可以创建新的食谱或风味组合。它还可以分析饮料(如葡萄酒)中风味的陈化过程,制作口感更好的药物,并全面监测生物和生化过程。
是的,你猜对了:这项技术确实存在,它被称为电子舌。
声音的力量
我们目前拥有可以接收音频输入的计算机,例如语音助手,但当我们将其与生成式人工智能相结合,并将这项技术提升到一个新的水平时,情况会怎样? 可以分析语音模式中细微差别的人工智能将成为可能,协助客户服务或检测健康问题。
例如,假设某人有轻微的呼吸问题——这种人工智能可能能够诊断出来。它还可以在紧急呼叫期间处理求救信号、背景噪音或其他音频提示,以协助更快、更准确地做出反应。有很多声音是我们人类听不到的,或者太过分心而无法察觉的。
视觉的力量
在医学成像领域,具有强大视觉能力的人工智能可以感知到人眼容易忽略的异常。在安全领域,它可以以人类无法比拟的细节和持久性监控视频源,并做出适当的反应。在研究领域,它可以识别微观模式并实时分析它们——这也有利于检测制成品中的缺陷。
通过我们的力量联合……
全模式人工智能的真正好处不只是个人感官,而是这些感官的结合,可以描绘出一幅更详细的世界图景——或许这是人类无法用有限的感官实现的。这并不是说全模式人工智能一定会取代我们,因为我们拥有认知推理技能和其他让我们与众不同的能力,但它肯定会有所帮助。
结论:这不是是否的问题,而是何时的问题
目前,人工智能领域正在以光速发展。如果有人在未来五年内宣布推出全模态人工智能,我不会感到惊讶。我们可能会看到一种低延迟的全模态人工智能,它充当数字助理,通过一个没有预先动画的会说话的化身实时响应。我们还可能看到一个全模态人工智能被放入一个小底盘中,就像一个有手臂和轮子的 ElliQ 版本。真的,自从阿西莫夫在 1940 年代开始写它以来,我们就一直被承诺过这些东西。
这一切听起来都像科幻小说,但如果你向 2021 年的人解释 ChatGPT,也会觉得它很科幻。我们已经拥有了这项技术,我们所需要做的就是努力。多久之后才会有人把它整合起来并投入商业使用?
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~