文章 技术教程

使用robots屏蔽禁止GPT AI 爬虫抓取

首页 > 技术教程 > 正文

现在的互联网随着生成式 AI 的普及,导致对用于训练模型或运行推理的内容需求激增。尽管一些 AI 公司明确标识了其 Web 抓取机器人,但并非所有 AI 公司都保持透明。

最近,Perplexity 被指控假冒合法访客从网站上抓取内容。这些无不都在表明AI 爬虫的肆意抓取正在威胁和大大的降低原创内容的价值。

使用robots屏蔽禁止GPT AI 爬虫抓取第3张插图

所以,对于我们网站站长来说面临着一个重要的决策:是否允许 AI 爬取我们的内容,并为他们的语言模型提供数据。

反正明月对于原创内容的价值是很在意的,既然 AI 在降低我原创内容的价值,我自然不能接受,所以针对越来越多的 AI 爬虫来访我就得采取一些措施了。

比较常见的无非就是在 robots.txt 里拒绝 AI 爬虫的抓取,目前明月经过长期的搜集整理,针对 AI 爬虫的 robots.txt 如下:

robots.zip

CloudFlare 在月初的时候就专门推出了一个叫【阻止 AI 爬虫程序和爬网程序】的自动程序开关,来让网站所有者自主选择是否自动拦截屏蔽 AI 爬虫。

免责声明
本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络收集整理,如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!
iApp文件快递全端源码
« 上一篇 07月28日
蜜雪冰城领茉莉奶绿免单口令
下一篇 » 07月28日

还没有评论,快来抢沙发吧!