Cloudflare指责Perplexity违规抓取禁用网站数据
快速阅读: 8月5日,Cloudflare 发布报告,指责 AI 初创公司 Perplexity 无视网站禁止 AI 抓取的规定,通过改变身份标识规避拦截规则,大量抓取内容。Perplexity 否认指控,称 Cloudflare 的说法不实。此前 Perplexity 也因抄袭内容被媒体指控。
8月5日,Cloudflare 发布报告,指责 AI 初创公司 Perplexity 在网站明确禁止 AI 抓取的情况下,仍通过改变身份标识规避拦截规则,进行数据抓取。报告显示,Perplexity 忽视网站的 robots.txt 文件和已知爬虫的拦截规则,调整用户代理和自治系统编号信息,绕过屏蔽并抓取大量内容。
Cloudflare 表示,他们通过结合机器学习和网络信号,识别出 Perplexity 爬虫的特征,该爬虫每天向数万个域名发送数百万次请求。对此,Perplexity 发言人 Jesse Dwyer 回应称,Cloudflare 的博客文章是“销售噱头”,并表示截图“显示没有内容被访问”。在后续邮件中,Dwyer 进一步否认,称 Cloudflare 提到的机器人“甚至不是他们的”。
Cloudflare 表示,此次调查源于客户投诉,部分客户在 robots 文件中添加规则并专门拦截 Perplexity 的已知爬虫,但仍然遭到抓取。经过测试,Cloudflare 确认了这一情况,并已将 Perplexity 的爬虫从认证名单中移除,同时增加了新的技术拦截措施。
值得注意的是,这并非 Perplexity 首次面临此类指控。去年,《Wired》等媒体也曾指控 Perplexity 抄袭其内容;首席执行官 Aravind Srinivas 在 Disrupt 2024 大会上面对媒体问询时拒绝回答。
(以上内容均由Ai生成)