AI 爬虫还没有学会与网站友好相处
快速阅读: 据《The Register》最新报道,舒伯特透露,在`robots.txt`设“陷阱”吸引近百万次访问,标有`GPTBot`的请求出现,但经分析并非来自OpenAI,而是有人篡改用户代理字符串恶作剧,访问源多为AWS和美国家庭宽带IP。
例如,我最近在 `robots.txt` 文件里设置了一个“诱饵”,现在已经吸引了将近一百万次访问,其中甚至还包括带有 `GPTBot` 标识符的访问记录。”舒伯特解释道,“问题是,这些请求显然不是来自 OpenAI。OpenAI 似乎使用微软 Azure 来运行他们的爬虫程序,但所有这些‘诱饵’的访问来源竟然都是 AWS 的 IP 地址,甚至有一些还来自美国的家庭宽带服务提供商。这不过是一个人恶作剧的结果,他篡改了自己的 [用户代理] 字符串罢了。”
润色后的版本:
“比如,我在 `robots.txt` 文件中埋下了一个‘陷阱’,结果不到一周就吸引了近百万次访问,其中居然还有标注为 `GPTBot` 的访问记录。”舒伯特笑着说道,“可惜的是,这些访问根本不是来自 OpenAI。要知道,OpenAI 是通过微软 Azure 在运行它的爬虫程序的。但奇怪的是,这个‘陷阱’的访问源头全都是 AWS 的 IP 地址,甚至还有一些直接来自美国普通家庭的宽带网络。这背后的人明显是在恶搞,只是简单修改了自己 [用户代理] 的标识而已。”
(以上内容均由Ai生成)