如何阻止 OpenAI 抓取你的网站
并不是每个人都对ChatGPT的创造者 OpenAI一直在用未经许可从人们的网站上获取的数据来训练他们的人工智能感到兴奋。虽然对他们已经抓取的数据采取任何行动已经太晚了,但你可以阻止这些模型在你当前和未来的内容上进行训练——只需要两行代码。
但是,仅仅因为你可以阻止 OpenAI 抓取你的网站,我强烈建议你问一下是否应该这么做。有关更多信息,请阅读本文:“领导者:不要过早阻止 OpenAI 访问你的网站。 ”
ChatGPT 如何在网络上抓取内容
OpenAI 使用名为 GPTBot 的网络爬虫来训练他们的 AI 模型(例如GPT-4)。网络爬虫是指自动机器人四处收集互联网上所有内容的数据。这种情况一直在发生,事实上,这就是 Google 的工作方式!
如何阻止 GPTBot 抓取你的网站
以下代码禁止 GPTBot 访问您的网站,因此阻止其将您的内容用于培训目的。
首先,打开你网站的 Robots.txt 文件
如果您不熟悉这个概念,那么 robots.txt 文件位于您网站的根目录下。因此,对于www.pluralsight.com,它将位于www.pluralsight.com/robots.txt。此文档决定网络爬虫是否可以抓取您的网站,并且始终可公开访问。例如,如果您想阻止 Google 抓取某些内容,您可以输入:
User-agent: Googlebot
Disallow: /
User-agent: *
Allow: /
前两行阻止名为 Googlebot 的用户代理抓取您的网站。其余两行允许任何其他机器人抓取您的网站。如果您只想阻止网站的某个部分,您可以输入以下内容:
User-agent: Googlebot
Disallow: /nogooglebot/
这将阻止 Googlebot 抓取以https://pluralsight.com/nogooglebot/开头的任何内容
要设置 Robots.txt 文件:
创建一个名为 robots.txt 的文件(您只能拥有其中一个文件)
将上述规则添加到您的文件中
将其上传到你的网站根目录
阻止 GPTBot 访问你的整个网站
现在我们已经解释了什么是 robots.txt 文件,让我们来阻止 GPTBot。将此代码添加到您网站的 robots.txt 中:
User-agent: GPTBot
Disallow: /
是的,确实就这么简单。
阻止 GPTBot 访问你网站的特定部分
如果您想让 GPTBot 访问您网站的某些部分而不访问其他部分,您可以输入如下代码:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
无论你的 robots.txt 文件如何,ChatGPT 都可能会抓取你的网站
目前,尚不清楚您的 robots.txt 文件是否会阻止 ChatGPT 的网页浏览版本(例如“使用 Bing 浏览”)或 ChatGPT 插件。这是因为这不一定会通过 GPTBot。
无论您的 robots.txt 文件是什么,GPTBot 都不会抓取哪些内容
OpenAI 表示,该机器人抓取的网页会经过过滤,以“删除需要付费墙访问、已知收集个人身份信息 (PII) 或包含违反 (其) 政策的文本的来源”。
也就是说,依靠 GPTBot 不抓取这些内容是一场赌博,因此最安全的做法是使用上述方法(并且首先不要公开搜索 PII)。
我如何知道我的网站是否已被抓取并用于训练人工智能?
OpenAI 一直对 GPT-4(ChatGPT 背后的当前 AI 模型)在哪些网站上进行训练守口如瓶。出于竞争原因,OpenAI 表示他们不会分享“架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容”的详细信息。
简而言之,没有办法判断你的网站是否被爬取来训练 GPT-4,所以如果你不希望你的网站数据被爬取来训练 AI 模型(或者至少是 OpenAI 构建的模型),你所能做的就是采取上面列出的预防措施。
结论
通过阅读本文,您应该对 Robots.txt 文件的工作原理以及如何添加条目以阻止 OpenAI 的机器人抓取它来训练 AI 模型有深入的了解。
进一步了解 ChatGPT 和 AI
担心 ChatGPT?了解相关信息是做出明智的决定的最佳方式,决定如何在您的组织中处理 AI 的使用。Pluralsight 提供许多课程,可以帮助您了解 AI 的来龙去脉 - 您可以注册 10 天免费试用,无需承诺。以下是您可能想要查看的一些课程:
如果您想知道如何处理贵公司对 ChatGPT 和类似产品的使用,以下文章可能会有所帮助:
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~