现在的互联网随着生成式 AI 的普及,导致对用于训练模型或运行推理的内容需求激增。尽管一些 AI 公司明确标识了其 Web 抓取机器人,但并非所有 AI 公司都保持透明。
最近,Perplexity 被指控假冒合法访客从网站上抓取内容。这些无不都在表明AI 爬虫的肆意抓取正在威胁和大大的降低原创内容的价值。
所以,对于我们网站站长来说面临着一个重要的决策:是否允许 AI 爬取我们的内容,并为他们的语言模型提供数据。
反正明月对于原创内容的价值是很在意的,既然 AI 在降低我原创内容的价值,我自然不能接受,所以针对越来越多的 AI 爬虫来访我就得采取一些措施了。
比较常见的无非就是在 robots.txt 里拒绝 AI 爬虫的抓取,目前明月经过长期的搜集整理,针对 AI 爬虫的 robots.txt 如下:
CloudFlare 在月初的时候就专门推出了一个叫【阻止 AI 爬虫程序和爬网程序】的自动程序开关,来让网站所有者自主选择是否自动拦截屏蔽 AI 爬虫。