WTF 是灰色机器人吗？

快速阅读: 据《迪迪》称，灰色机器人正改变网络格局，既是创新推手也是风险来源。它们加剧无效流量，影响广告和内容产业。面对挑战，需平衡技术发展与商业利益，探索有效管理机制。

**灰色机器人正重塑网络格局：数字经济的新挑战**

作为一种新型的自动化程序，“灰色机器人”正在悄然崛起，逐渐成为重塑网络生态的关键力量。尽管它们尚未像“生成式人工智能”或“人工智能代理”那样广为人知，但灰色机器人的影响力早已超越了小众范围。专家指出，这一趋势正在对数字经济构成紧迫挑战。

最近的网络安全报告显示，一些网站每月会收到数百万个与生成式人工智能活动相关的抓取机器人请求。此外，人工智能爬虫还加剧了无效流量（GIVT）的增长，并推动了广告请求量的增加。例如，从十二月到二月，网络安全公司巴鲁库达（Barracuda）在其四月份发布的报告中首次提出“灰色机器人”一词，追踪到数百万个与生成式人工智能活动相关的请求。其中，一个网络应用在一个星期内收到了近千万个请求，另一个应用在一天内记录了超过50万次请求。研究显示，最活跃的灰色机器人来自Anthropic的ClaudeBot和TikTok的ByteSpider。

灰色机器人既推动了创新，也带来了风险。它们为AI搜索引擎提供动力，支持大型语言模型的数据收集，并在自动浏览和购物等领域展现了潜力。然而，这些机器人也给数字基础设施带来了巨大压力，扭曲了网站和广告分析，并在未经许可的情况下提取了价值。它们的兴起迫使出版商、广告商、创作者和电商从业者重新思考如何适应日益以非人类流量为主的互联网。

上周，Ziff Davis在一项关于AI的诉讼中进一步凸显了灰色机器人对出版商的影响。作为一家数字媒体公司的母公司，Ziff Davis旗下拥有Mashable、CNET、PCMag和Lifehacker等品牌。该诉讼指控OpenAI的GPTBot即使在出版商遵循了OpenAI的robots.txt文件指导后，仍大幅增加了在Ziff Davis网站上的抓取活动。

**灰色机器人的定义与风险**

灰色机器人是自动化程序的一种，包括AI代理、抓取器和爬虫，它们不属于“好”或“坏”的明确分类。这类机器人的好处和风险兼具，既能推动创新，也可能通过绕过广告、抓取内容、扭曲流量指标和消耗资源带来问题。

安全专家建议出版商关注灰色机器人及其形式和规模。这些机器人不仅会影响分析和窃取内容，还会通过AI驱动的广告印象影响营销人员的核心指标，如点击率和转化率。独立安全研究员扎克·爱德华兹指出：“企业出版商必须找到一种方法来提高非法抓取内容的AI公司的成本，以平衡竞争环境，并确保原创内容得到充分补偿。”

灰色机器人对出版商和电商构成了显著风险。它们能抓取知识产权，为竞争对手收集定价数据；还能未经授权访问付费内容，削弱付费墙和附属模式。对于依赖广告收入的网站，这些机器人能模仿人类行为，夸大参与度指标，触发广告呼叫却无实际价值，从而扭曲活动表现、增加无效流量（IVT），并推高基础设施成本。

出版商已感受到新自动化流量带来的压力。例如，维基百科本月透露，自2024年初以来，机器人和AI抓取器导致其基础设施成本上升了50%。这种增长不仅增加了运营成本，还可能降低用户体验，促使维基媒体探索更可持续的访问模式，并倡导对其内容的更负责任的使用。

**灰色机器人的规模与来源**

根据DoubleVerify的数据，去年来自Meta、Apple等公司的AI抓取机器人占一般无效流量（GIVT）的16%。2024年，GIVT几乎翻了一倍，全年总量首次突破20亿个广告请求。另一家安全公司HUMAN Security报告称，2024年识别并阻止了超过2150亿次抓取尝试，其中绝大部分针对零售、电子商务和媒体平台。技术、SaaS和服务领域的增长率接近500%，旅游和酒店业的同比增长超过125%。在某些极端情况下，机器人占据了某些产品页面月流量的90%以上。

推动灰色机器人流量的主要公司包括OpenAI、Perplexity、Google和TikTok。例如，流行的聊天机器人如ChatGPT和ClaudeBot部署了灰色机器人来查找和检索内容，这对依赖广告变现的网站构成了潜在威胁。许多出版商已通过robots.txt文件阻止了AI爬虫，而Reddit等平台则达成了付费访问协议。站点所有者也在探索新的方法，通过速率限制、流量监控和技术防护措施保护资源，同时应对AI驱动流量的增长。

然而，阻止AI抓取器可能会影响网站在像ChatGPT和Perplexity这样的生成式AI搜索平台上的显示效果。

**灰色机器人的检测与应对**

由于灰色机器人的快速增长和功能扩展，它们越来越难以检测。随着越来越多的公司构建定制抓取器来训练AI模型，它们的双重性质也让决定是否阻止它们变得复杂。尽管购物和浏览代理等基于机器人启用的AI工具仍在发展中，但研究人员发现它们往往不会自我标识。这种模糊性催生了对新系统的迫切需求，这些系统不仅能识别机器人，还能评估其意图并相应管理访问。

传统机器人依然可以伪装成常规浏览器，忽略robots.txt规则进行抓取，并使用设备模拟等策略逃避检测。有些甚至模仿人类行为，足以绕过验证码。

**应对灰色机器人的新方法**

欧盟的法律框架，包括AI法案、GDPR、数字服务法案和版权指令，通过将AI提供商视为数据控制器、要求披露训练数据并执行版权保护，对数据抓取施加了严格限制。与此同时，像Skyfire和Cequence这样的安全初创公司正在寻求实际解决方案。本周，这些公司宣布推出一个新系统，帮助网站识别AI机器人、验证其身份和用途，并让站点所有者向合法代理人收费，同时为代理人所有者提供自动支付访问的方式。

这些初创公司希望他们的“了解你的代理”框架不仅将机器人视为威胁，还将它们视为新的用户类型。“我们的目标是帮助公司‘夺回’今天被未经授权的人吃掉的大量业务，”Skyfire Systems创始人兼首席执行官阿米尔·萨尔汉吉说。“你知道吗？网站已经被访问了。它已经被抓取了。并不是因为你引入了这个模型，突然间就有一堆新的蚕食。”

**结语**

灰色机器人的崛起标志着互联网进入了一个新的阶段。它们既是创新的催化剂，也是数字生态系统的挑战。如何平衡技术发展与商业利益，将是未来几年的重要课题。

(以上内容均由Ai生成)