🎯 情报来源:AI News & Artificial Intelligence | TechCrunch
网络基础设施巨头Cloudflare最新研究报告显示,AI初创公司Perplexity存在系统性规避网站反爬虫措施的行为。根据观测数据,该公司的网络爬虫通过伪装用户代理(UA)和自治系统号(ASN)等技术手段,日均对数万个域名发起数百万次请求,无视Robots.txt文件设置的访问禁令。
Cloudflare指出,其机器学习系统已成功指纹识别Perplexity的爬虫行为。当检测到常规爬虫被拦截时,Perplexity会改用伪装成macOS版Chrome浏览器的通用UA继续抓取。目前Cloudflare已将相关爬虫从其验证列表中移除,并部署了新的拦截技术。
💡 核心要点
- 日均请求量:数百万次/天,涉及数万个域名
- 规避技术:修改UA伪装浏览器+变更ASN网络标识
- 对抗措施:Cloudflare已移除其验证状态并升级拦截系统
- 历史背景:上月Cloudflare刚推出AI爬虫收费市场
📌 情报分析
技术价值 [高]:UA/ASN双变更技术展现复杂规避能力,但本质上属于对抗性技术而非创新
商业价值 [极高]:数据获取能力直接影响AI产品竞争力,日均百万级请求凸显数据饥渴
趋势预测 [高]:Cloudflare等基础设施商的介入可能加速形成AI数据采集合规框架,类似AdTech行业的监管演化路径
