使用robots屏蔽禁止GPT AI 爬虫抓取

现在的互联网随着生成式 AI 的普及，导致对用于训练模型或运行推理的内容需求激增。尽管一些 AI 公司明确标识了其 Web 抓取机器人，但并非所有 AI 公司都保持透明。

最近，Perplexity 被指控假冒合法访客从网站上抓取内容。这些无不都在表明AI 爬虫的肆意抓取正在威胁和大大的降低原创内容的价值。

使用robots屏蔽禁止GPT AI 爬虫抓取第3张插图

所以，对于我们网站站长来说面临着一个重要的决策：是否允许 AI 爬取我们的内容，并为他们的语言模型提供数据。

反正明月对于原创内容的价值是很在意的，既然 AI 在降低我原创内容的价值，我自然不能接受，所以针对越来越多的 AI 爬虫来访我就得采取一些措施了。

比较常见的无非就是在 robots.txt 里拒绝 AI 爬虫的抓取，目前明月经过长期的搜集整理，针对 AI 爬虫的 robots.txt 如下：

CloudFlare 在月初的时候就专门推出了一个叫【阻止 AI 爬虫程序和爬网程序】的自动程序开关，来让网站所有者自主选择是否自动拦截屏蔽 AI 爬虫。

CertD免费全自动申请和自动部署更新SSL证书