Cloudflare揭露:Perplexity涉嫌隐秘爬取网站数据
快速阅读: 9月12日,Cloudflare 发布报告,指责 Perplexity 爬虫规避网站访问限制,包括隐藏身份、更改用户代理和轮换 IP 地址,Perplexity 称报告有误解,Cloudflare 已将其从已验证机器人名单中移除。
9月12日,Cloudflare 发布报告,指责人工智能搜索初创公司 Perplexity 涉嫌规避其网络爬虫访问某些网站的限制。Cloudflare 表示,Perplexity 的爬虫在遇到阻挡时,会隐藏身份,试图绕过网站的偏好设置,包括 robots.txt 文件中声明的限制和 Web 应用程序防火墙 (WAF) 规则。
这一指控加剧了外界对 Perplexity 未经授权获取内容的担忧。此前,Perplexity 因强行突破付费墙和无视 robots.txt 文件而受到批评,但其首席执行官 Aravind Srinivas 将责任归咎于第三方爬虫。
为了验证客户的投诉,Cloudflare 设置了具有类似访问限制的新域名进行测试。结果显示,Perplexity 的爬虫(最初名为“PerplexityBot”或“Perplexity-User”)在遭到阻断后,会立即更改用户代理,伪装成“在 macOS 上运行的 Google Chrome”。Cloudflare 称,这种“未声明的爬虫”还使用轮换的 IP 地址和改变其自治系统网络 (ASN) 来绕过封锁。Cloudflare 表示,这种规避行为涉及“数万个域名和每天数百万个请求”。
对此,Perplexity 发言人 Jesse Dwyer 在一份声明中称 Cloudflare 的报告是“炒作”,并表示其中存在“很多误解”。尽管如此,Cloudflare 已将 Perplexity 从其已验证机器人名单中移除,并发布了阻止其“隐形爬行”的方法。
(以上内容均由Ai生成)