Perplexity被曝日均百万次违规抓取数据:Cloudflare指控其伪装身份规避Robots.txt禁令

🎯 情报来源:AI News & Artificial Intelligence | TechCrunch

网络基础设施巨头Cloudflare最新研究报告显示,AI初创公司Perplexity存在系统性规避网站反爬虫措施的行为。根据观测数据,该公司的网络爬虫通过伪装用户代理(UA)和自治系统号(ASN)等技术手段,日均对数万个域名发起数百万次请求,无视Robots.txt文件设置的访问禁令。

Cloudflare指出,其机器学习系统已成功指纹识别Perplexity的爬虫行为。当检测到常规爬虫被拦截时,Perplexity会改用伪装成macOS版Chrome浏览器的通用UA继续抓取。目前Cloudflare已将相关爬虫从其验证列表中移除,并部署了新的拦截技术。

💡 核心要点

  • 日均请求量:数百万次/天,涉及数万个域名
  • 规避技术:修改UA伪装浏览器+变更ASN网络标识
  • 对抗措施:Cloudflare已移除其验证状态并升级拦截系统
  • 历史背景:上月Cloudflare刚推出AI爬虫收费市场

📌 情报分析

技术价值 [高]:UA/ASN双变更技术展现复杂规避能力,但本质上属于对抗性技术而非创新

商业价值 [极高]:数据获取能力直接影响AI产品竞争力,日均百万级请求凸显数据饥渴

趋势预测 [高]:Cloudflare等基础设施商的介入可能加速形成AI数据采集合规框架,类似AdTech行业的监管演化路径

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索