🎯 情报来源:Simon Willison's Weblog
美国法律案例开放数据集CASELAW ACCESS PROJECT(CAP)近日发布,该数据集包含670万份美国联邦和州法院的判决和法官意见,时间跨度长达365年。这些数据由CASELAW ACCESS PROJECT和COURT LISTENER共同提供,其中CAP贡献了近4000万页的法律文件,COURT LISTENER则补充了来自479个法院的90万份案例。数据集以gzip压缩的换行分隔JSON格式分发。
该数据集已被纳入COMMON PILE项目,并作为COMMA系列大语言模型(LLM)的训练数据之一。其开放许可(接近公共领域)的特性使其成为AI法律研究和LLM训练的重要资源。
💡 核心要点
- 670万案例:涵盖美国联邦和州法院365年的法律判决
- 近4000万页:CASELAW ACCESS PROJECT提供的原始文件规模
- 90万+案例:COURT LISTENER从479个法院补充的数据
- gzip JSON格式:技术友好的数据分发方式
- 已用于训练:作为COMMA系列LLM的训练数据集
📌 情报分析
技术价值:高
大规模、结构化法律文本对专业领域LLM训练极具价值,但需注意365年间法律术语的演变可能带来的训练挑战。
商业价值:极高
开放许可的法律数据集可显著降低法律AI开发门槛,预计将催生一批法律科技初创企业。美国法律市场年规模超3000亿美元,应用前景广阔。
趋势预测:高
专业领域高质量数据集需求将持续增长。继法律领域后,医疗、金融等领域的类似开放数据集可能陆续出现,推动垂直领域LLM发展。