Amazon Bedrock 的护栏:为用户提供安全的 AI
过去一年,人工智能行业的主题一直是“快速行动,打破常规”。虽然这对于推动创新很有帮助,但第一批进入市场的模型却存在被滥用的可能:研究人员一次又一次地展示了它们如何被欺骗,被用于仇恨言论、色情内容,或者只是就它们不应该触及的话题提供建议。
在AWS re:Invent 2023上发布的 Guardrails for Amazon Bedrock 为这个问题提供了答案。在本文中,我们将介绍什么是 Guardrails,以及如何使用它来创建负责任的模型,以提供安全的用户体验,同时仍获得 AI 的好处。
首先,什么是Amazon Bedrock?
Amazon Bedrock 提供完全托管的解决方案,用于制作生成式 AI 应用程序。它从来自 Amazon 或外部 AI 公司的基础模型 (FM) 开始,作为您构建应用程序的核心。这个“基石”——一个预先训练过的基础模型——允许进行广泛的自定义以满足特定要求。
有关 Amazon Bedrock 是什么以及如何开始使用它的更多详细信息,包括微调模型和在应用程序中使用 API,我强烈建议您查看以下文章:
Beth Hord 撰写的“Amazon Bedrock 是什么?”
“如何开始使用 Amazon Bedrock”作者:Amber Israelsen
什么是 Amazon Bedrock 的 Guardrails?
Guardrails 是 Amazon Bedrock 中的一项功能,它允许您设置防护措施(称为护栏),可以检查用户输入和 AI 输出,并过滤或拒绝不安全的主题。您可以根据公司政策确定哪些符合条件。这些防护措施与基础模型 (FM) 无关。
在 Guardrails 中,有两个主要功能:拒绝主题和内容过滤器。第一个是针对您想要完全阻止人们讨论的主题,而第二个是针对您想要对其具有缩放容忍度的内容类别。例如,您可能希望允许您的用户输入轻微暴力内容(例如讨论动作片),但不允许输入高度暴力的内容。
Amazon Bedrock 的护栏可以否认什么?
任何内容都可以!您只需为护栏提供一个名称,例如“投资建议”,然后提供描述。例如“投资建议是指有关资金或资产管理或分配的咨询、指导或建议,目的是产生回报或实现特定的财务目标。”
您可以通过运行护栏跟踪测试来测试护栏是否在用户界面中正常运行。
Guardrails for Amazon Bedrock 可以过滤什么?
护栏可以过滤用户输入和模型输出。您可以过滤四个类别:仇恨、侮辱、性和暴力。您可以将这些内容的容忍度设置为无、低、中或高。过滤强度决定了按类别过滤此内容的可能性。
我可以使用 Guardrails for Amazon Bedrock 阻止用户输入 PII 吗?
目前还不行,但将来可以。亚马逊表示,它正在开发一项功能,让你能够“选择一组个人身份信息 (PII),例如姓名、电子邮件地址和电话号码,这些信息可以在 FM 生成的响应中进行编辑,或者如果用户输入包含 PII,则阻止该输入。”
我可以使用 Guardrails 监控和审核用户输入和 FM 响应吗?
是的,如果您将其与 Amazon CloudWatch 集成,您可以监控和分析违反护栏策略的用户输入和 FM 响应。
Guardrails 支持哪些大型语言模型 (LLM)?
支持 Amazon Bedrock 内的所有 LLM。这意味着 Amazon Titan Text、Anthropic Claude、Meta Llama 2、AI21 Jurassic 和 Cohere Command。您还可以将其与自定义模型和 Amazon Bedrock 代理一起使用。
如何访问 Amazon Bedrock 的 Guardrails?
目前,Guardrails 仅提供有限预览版。这意味着您需要联系 AWS Support 并请求访问此功能。
结论:Guardrails 是 Bedrock 功能集的一个很好的补充
这是 AWS re:Invent 上发布的一项很棒的功能,未来看到 Bedrock 的 PII 过滤功能将会非常棒。希望 Guardrails 能够结束预览,并向所有人开放。
有趣的是,Guardrails 将这些保护措施应用于 FM 之上,本质上是覆盖了它们的输出,这让亚马逊(和你)对输出有了更多的控制权,而不是将其交给 AI 模型开发人员。从逻辑上讲,这很有意义,因为 AWS 在 FM 模型产品方面追求广度,允许他们提供选项,同时也要负责任地使用。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~