互联网档案馆Wayback Machine因AI公司数据抓取将限制访问内容

🎯 情报来源:The Verge

互联网档案馆(Internet Archive)近日宣布,由于发现大量AI公司未经许可从Wayback Machine抓取数据用于训练AI模型,将对该平台的公开访问内容实施限制措施。这一决定直接影响全球超过7000亿个网页快照的开放性访问,可能重塑当前AI训练数据获取的行业生态。

作为全球最大网页存档项目,Wayback Machine自1996年成立以来已存储超过40PB的互联网历史数据。2023年流量数据显示,其月均访问请求中约12%来自AI相关IP地址,较2020年增长600%。此次政策调整预计将影响包括Google、OpenAI在内的多家头部AI企业的数据供应链。

💡 核心要点

  • Wayback Machine将限制AI公司的数据抓取行为,涉及7000亿+网页快照
  • AI相关访问请求占比从2020年2%激增至2023年12%
  • 存档数据总量达40PB,覆盖1996年至今的互联网历史

📌 情报分析

技术价值:高
40PB历史网页数据具有不可替代的训练价值,特别是对时间序列分析和内容演化研究。但存在数据时效性和版权风险。

商业价值:极高
直接影响大语言模型的核心训练数据源,可能迫使AI公司转向付费数据采购渠道,预计将催生2-3亿美元/年的替代数据市场。

趋势预测:高
网络数据产权争议将加剧,未来12-18个月内可能出现:1)更多平台效仿内容保护措施 2)数据授权模式的标准化进程加速。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索