通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少校

注册:2015-11-148
跳转到指定楼层
1#
发表于 2025-3-26 20:10:36 |只看该作者 |倒序浏览

时下,AI 爬虫把各种网站折腾得不轻,不是让其崩了就是卡了,导致运行也变得极为不稳定,哪怕更改了用于规定搜索引擎抓取工具可以访问网站上哪些网址的robots.txt 文件、屏蔽已知的爬虫标识(User-Agent)、甚至过滤可疑流量,它们还是能绕过封锁,伪造身份、用住宅 IP 代理,怎么都拦不住......

随着 AI 技术的快速迭代,不少小型开发商、开源开发者发出怒吼,他们称自己正被 AI 爬虫逼到崩溃边缘,而这究竟是怎么一回事?

个人开发者:实在没办法的话,只能关服务器了

身为技术教育者、AI 艺术家的 Xe Iaso 便是众多“受害者”之一。

今年 1 月,她公开怒斥亚马逊的 AI 爬虫,称其疯狂抓取自己的 Git 代码托管服务,导致网站频繁崩溃,几乎无法正常运行。



Xe Iaso 表示,自己发布这篇帖子的目的并不是为了分享信息,而是一种求助。她直接向 AmazonBot 运营者喊话,希望对方能将自己的 Git 服务器 git.xeserv.us 加入屏蔽列表。“如果你们有任何理由非要爬取我的 Git 服务器,请先联系我,我们可以商量如何支付相应的费用来升级硬件,以匹配你们夸张的资源消耗。

但问题远比想象的棘手。Xe Iaso 已经在服务器的 robots.txt 文件中明确禁止所有爬虫:


  • User-agent:*
  • Disallow:/

然而,这并没有起到任何作用。各种 AI 爬虫工具依旧猖獗,它们会伪造身份、修改 User-Agent,甚至使用住宅 IP 代理来绕过限制。

我真的不想把我的 Gitea 服务器彻底关闭对公众的访问,但如果没有别的办法,我只能这么做”,Xe Iaso 坦言。

无奈之下,她在 Ingress 配置中添加了拦截 Amazon 爬虫的代码:


  • nginx.ingress.kubernetes.io/configuration-snippet: |
  • if ($http_user_agent ~* "(Amazon)" ){
  • return 418;
  • }

但这些爬虫依然不断更换 IP 继续轰炸,其中约 10% 的请求甚至没有使用 AmazonBot 的 User-Agent,完全无法通过常规手段阻止。「我已经不知道还能怎么办了。我讨厌这个未来。



类似的情况不止发生在 Xe laso 身上。今年 1 月,我们也曾报道过乌克兰一家专注于人体 3D 模型的网站Trilegangers 突然崩了,起初,该公司 CEO Oleksandr Tomchuk 只是收到一则警报,进而发现公司的电子商务网站已完全瘫痪了。一经排查,罪魁祸首竟然是——OpenAI 此前研发的一款机器人 GPTbot。

他们的爬虫程序正在摧毁我们的网站!”Oleksandr Tomchuk 无奈道,“这基本上是一次 DDoS 攻击。”

彼时,网友曾质疑 Trilegangers 反爬机制不够强,但现实就像 Xe Iaso 说的——根本防不住。

除了 Trilegangers、Xe Iaso 的遭遇之外,开源项目也成重灾区。

开源项目也成为 AI 爬虫的重灾区

近日,Fedora Pagure 项目的系统管理员 Kevin Fenzi 发布博文透露,AI 爬虫的影响愈演愈烈,甚至导致 pagure.io(Fedora 代码托管平台)瘫痪。尽管团队尝试封锁部分子网,但要在不影响正常用户的情况下完全拦截爬虫,几乎不可能。



“上周四和周五,情况变得更糟”,Fenzi 写道。“我们发现,大部分恶意流量来自 .br(巴西)的 IP 段,最后只能封锁整个 .br(巴西)的访问,才勉强恢复网站响应。

但他也承认,这只是临时措施,流量减少后(按理说,爬虫发现没法继续抓取后就会收敛)就会解除封锁。“我们需要更好的解决方案”,Fenzi 表示。他计划研究 mod_qos 来优化流量管理,同时已为 pagure.io 增加 CPU 资源,以缓解服务器压力。

“请不要当着我的面,把额外的成本转接到我身上”

显而易见,AI 爬虫的肆意抓取不仅对服务器带来沉重压力,也让众多技术团队面临高昂的运营成本。

对此,开源软件开发平台 SourceHut 创始人兼 CEO Drew DeVault 于上周发布了一篇《请不要再当着我的面把你们的成本转嫁给我了》,直指 AI 公司无视 robots.txt,大规模抓取数据,导致 SourceHut 服务器频繁中断。



DeVault 透露,在过去几个月里,本该专注于 SourceHut 核心工作的他,却不得不在每周花 20% 到 100% 的时间去应对 LLM 爬虫共计。

“这已经不是 SourceHut 第一次被恶意行为盯上,也不是第一次被迫为别人转嫁的成本买单——几乎每隔几年,总有人能发明出新的方式来折磨我”,他写道。

DeVault 称,四年前,SourceHut 被滥用于挖矿,被迫改为付费使用 CI 服务;两年前,平台遭遇 Go 模块镜像的滥用,每日需处理 TB 级 Git 克隆请求。如今,LLM 爬虫成为新的难题。

DeVault 指出,这些爬虫不仅无视 robots.txt,还会伪装成普通用户流量,利用随机 User-Agent 和大量住宅 IP 地址,绕过封锁策略,专门针对高消耗 API(如 git blame、Git 日志页面、每个仓库的提交记录等)。

现在,我们每周都会经历数十次短暂宕机,我每天都得多次检查并调整防御措施,以免情况变得更糟。即便偶尔有时间处理其他事务,也往往不得不中断,因为防御措施又失效了、警报又响了。SourceHut 的许多关键任务已经被推迟了数周甚至数月,因为我们不断被这些爬虫攻击打断。而且,由于爬虫和正常用户的流量难以区分,我们的防御手段有时也会误伤用户,导致他们的体验受损」,DeVault 说道。

不止 SourceHut,其他开源项目的系统管理员们同样苦不堪言。DeVault 表示,每当和同行交流,话题总会转向如何应对爬虫,而答案始终是:“没人找到彻底解决办法。”

「这种绝望的情绪肉眼可见。」

面对 AI 公司无节制的数据抓取,DeVault 生气道:“我已经受够了。这些外部成本被赤裸裸地甩到我脸上,而我只能被迫应对。做点对社会有意义的事情,或者从我的服务器上滚出去。在烧掉巨额资金之前,至少先想想如何为公共利益做点贡献吧,否则等系统管理员们忍无可忍,哪天反抗了,你们就等着吧。”

毋庸置疑,AI 爬虫的疯狂抓取让开源项目陷入了艰难境地。这些项目依赖社区协作,但资源远远比不上商业公司。

正在反抗的开发者们

当然,为了对抗爬虫,不少开发者也想过办法。

上文提到的 AI 艺术家的 Xe Iaso 在自己博文中表示,自己开发了一套叫 “Anubis” 的系统( https://git.xeserv.us/)。这是一个基于工作量证明(Proof-of-Work)的挑战机制,工作原理是,当用户访问启用了 Anubis 的网站时,Anubis 会要求浏览器完成一个基于 SHA-256 的 PoW 挑战。这一挑战需要消耗一定的计算资源,普通用户几乎察觉不到延迟,但对于大规模爬虫而言,这种额外的计算开销会显著增加抓取成本,从而起到抑制作用。

后来,GNOME 的 GitLab 实例应用了这一方法,在页面加载时开始出现一位动漫少女。



在 Mastodon 上,GNOME 系统管理员 Bart Piotrowski 慷慨地分享了一些数字,让人们充分了解问题的范围。据他介绍,在大约两个半小时内,他们总共收到了 81000 个请求,其中只有 3% 通过了 Anubi 的工作量证明,这意味着 97% 的流量来自机器人——这是一个疯狂的数字!



虽然 “Anubis” 确实能有效拦截爬虫,但它也给正常用户带来了麻烦。如果有很多人同时访问同一个 GitLab 链接,比如在群聊中分享链接时,网站加载可能会变得非常慢。据报道,有用户反馈,他们遇到了长达 1 分钟的延迟,而另一位用户在手机上等待了大约 2 分钟。



除了这种方法之外,据悉,全球最大的网络基础设施公司之一 Cloudflare 最近发布了一个叫做 「AI迷宫」(AI Labyrinth) 的全新工具,专门用来对付那些未经允许、到处抓取网页内容的爬虫机器人。

Cloudflare 透露,每天 AI 爬虫在他们的网络上发起超过 500 亿次请求,占他们总流量的近 1%。

根据 Cloudflare 在官方博客上的介绍,当系统检测到有“异常的爬虫行为”时,这个免费的可选工具就会开始发挥作用。它会引导这些坏机器人走进一个充满链接的迷宫。这些链接指向的全都是AI自动生成的「虚假页面」,而这些页面里的内容都是毫无价值、用来迷惑机器人的废话。目的是:“让这些不怀好意的机器人变得越来越慢、越来越迷茫,最终耗尽他们自己的资源”。

另外,据科技媒体 Ars Technica 报道,也有一位匿名开发者 “Aaron” 设计了一个工具 “Nepenthes”,专门让爬虫掉进无穷无尽的假页面迷宫长达“几个月”,消耗大量时间和计算资源。他直言:“让这些爬虫白白烧钱,它们本来就还没盈利,这对它们可是个大麻烦。”



https://zadzmo.org/code/nepenthes/

随着 AI 模型的快速迭代,数据已经成为“稀缺”的资源,这俨然已经成为 AI 模型公司和诸多开发者之间的一场长久“博弈”。

有人认为,AI 生成的垃圾内容正在充斥互联网,而 AI 爬虫则在不断榨取数据资源。如果 AI 公司继续无节制地抓取数据,而不给开源项目任何补偿,最终可能会威胁到支撑现代互联网的基础设施。

也有网友表示,「与其单纯屏蔽爬虫,不如让它们获取“负价值”信息,例如投喂虚假或无意义的内容,让爬虫抓取到的内容变得毫无价值。」

更有开发者评价道:

目前来看,这些大模型爬虫还算“蠢”,它们只是简单粗暴地抓取数据,并没有什么高级策略。不过,万一它们以后变聪明了,也许可以利用这一点来反制它们。

但即使它们还是这么笨,还是有办法对付的。比如,可以检查爬虫的 User-Agent(它声明自己是什么浏览器或工具),如果它说的和它实际做的不符,就给它返回错误信息(这样像 Lynx 这种老旧浏览器的正常用户就不会受影响)。

另一种办法是用各种手段“忽悠”爬虫,比如:

让它们不断重定向到无效地址,或者把它们引导到一些公司内部 API,扰乱它们的解析逻辑;

返回无效的 UTF-8 编码或损坏的压缩数据,让它们解析失败;

发送“ZIP 炸弹”(一个小文件,解压后变成超大文件),让爬虫耗光计算资源;

使用 EICAR 测试文件(通常用来检测杀毒软件),看看爬虫会不会被吓跑;

如果知道爬虫的真实身份,还可以尝试“反向 ping”来对付它们。

这些方法具体能不能生效,得看爬虫用的是什么软件,可能需要多试几种方式才能找到最有效的手段。

你如何看待这一现象?是否有过相关的经历?欢迎留言分享。

参考:

https://news.ycombinator.com/item?id=43476337

https://www.scrye.com/blogs/nirik/posts/2025/03/15/mid-march-infra-bits-2025/

https://drewdevault.com/2025/03/17/2025-03-17-Stop-externalizing-your-costs-on-me.html

https://arstechnica.com/ai/2025/03/devs-say-ai-crawlers-dominate-traffic-forcing-blocks-on-entire-countries/

https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/


来源:36kr

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-3-30 01:26 , Processed in 0.358018 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部