维基百科的霸主哀叹 AI 机器人带宽负担
快速阅读: 《The Register》消息,不良机器人常伪装成知名爬虫如Googlebot以规避封锁,现有防护措施因易被绕过而效果有限,网站管理因此面临更大挑战。
然而,这些指令通常放置在网站的根目录下,方便网络爬虫读取。不过,由于没有得到广泛采用或遵守,这类可选的声明性防护协议往往难以有效应对问题,特别是在只需更改名称就能绕过阻止名单时更是如此。运营网站的人通常指出,表现欠佳的机器人常常会冒充“Googlebot”或其他广受容忍的爬虫,以此来规避被屏蔽的风险。
经营网站者常提到,性能较差的机器人往往通过伪装成广受认可的爬虫(如Googlebot)来规避封锁,而这类行为很难被有效防范。特别是当它们仅需修改名称即可轻松绕过黑名单时,现有的保护措施显得尤为无力。
因此,网站管理者不得不面对这样一个现实:那些表现不佳的爬虫,往往会假借知名爬虫的身份(比如Googlebot),以逃避被拦截的命运。这种状况不仅增加了防护难度,也让网站的安全管理变得更加复杂棘手。
(以上内容均由Ai生成)