AI 爬虫还没有学会与网站友好相处

发布时间：2025年3月18日来源：szf

快速阅读: 据《The Register》最新报道，舒伯特透露，在`robots.txt`设“陷阱”吸引近百万次访问，标有`GPTBot`的请求出现，但经分析并非来自OpenAI，而是有人篡改用户代理字符串恶作剧，访问源多为AWS和美国家庭宽带IP。

例如，我最近在 `robots.txt` 文件里设置了一个“诱饵”，现在已经吸引了将近一百万次访问，其中甚至还包括带有 `GPTBot` 标识符的访问记录。”舒伯特解释道，“问题是，这些请求显然不是来自 OpenAI。OpenAI 似乎使用微软 Azure 来运行他们的爬虫程序，但所有这些‘诱饵’的访问来源竟然都是 AWS 的 IP 地址，甚至有一些还来自美国的家庭宽带服务提供商。这不过是一个人恶作剧的结果，他篡改了自己的 [用户代理] 字符串罢了。”

润色后的版本：

“比如，我在 `robots.txt` 文件中埋下了一个‘陷阱’，结果不到一周就吸引了近百万次访问，其中居然还有标注为 `GPTBot` 的访问记录。”舒伯特笑着说道，“可惜的是，这些访问根本不是来自 OpenAI。要知道，OpenAI 是通过微软 Azure 在运行它的爬虫程序的。但奇怪的是，这个‘陷阱’的访问源头全都是 AWS 的 IP 地址，甚至还有一些直接来自美国普通家庭的宽带网络。这背后的人明显是在恶搞，只是简单修改了自己 [用户代理] 的标识而已。”

(以上内容均由Ai生成)