Anthropic获AI训练数据合理使用裁决,但仍面临书籍侵权指控

🎯 情报来源:Simon Willison's Weblog

美国联邦法官William Alsup近日对Anthropic与五位作家的诉讼作出部分即决判决,裁定AI公司扫描实体书籍用于模型训练构成合理使用(fair use),但通过盗版电子书获取的700万份数据仍需接受陪审团审判。判决书显示,Anthropic在2021-2022年间通过Books3、LibGen等盗版资源获取书籍数据,2024年起转向耗资数百万美元批量购买并扫描实体书。

核心要点:

  • 法官裁定扫描实体书构成合理使用,因其具有转换性且未对外传播
  • Anthropic确认曾下载超700万本盗版书籍,该部分将进入陪审团审判阶段
  • 2024年转向购买并扫描实体书,耗资数百万美元建立研究图书馆
  • 雇佣谷歌图书扫描项目前负责人Tom Turvey主导”全球图书数字化”计划
  • Books3数据集同样被用于Meta的LLaMA模型训练

📌 情报分析

技术价值:[高]

书籍数据被证实对提升模型性能具有关键作用,判决为AI公司使用版权材料确立了重要先例。

商业价值:[极高]

合理使用裁决可降低数据获取成本,但盗版数据诉讼仍存数千万美元赔偿风险。Anthropic已投入数百万美元构建合规数据源。

趋势预测:

3-6个月内AI行业将加速建立版权数据采购体系,同时更多版权方可能发起类似诉讼。谷歌图书扫描模式或成行业标准解决方案。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索