🎯 情报来源:Anthropic
Anthropic宣布启动一项新的漏洞赏金计划,旨在对其最新的安全措施进行压力测试。该计划与HackerOne合作,聚焦于尚未公开部署的“宪法分类器”(Constitutional Classifiers)系统,特别是针对化学、生物、放射性和核(CBRN)武器相关内容的安全防护。
参与者将获得对Claude 3.7 Sonnet模型的早期访问权限,并有机会赢得高达25,000美元的奖励,用于发现未发布系统中的通用越狱漏洞。通用越狱是指能够一致绕过Claude安全措施的漏洞,尤其是涉及CBRN相关主题的隐患。
核心要点:
- 漏洞赏金计划与HackerOne合作,目标是测试宪法分类器系统的安全性。
- 最高奖励金额为25,000美元,针对发现的通用越狱漏洞。
- 计划专注于应对化学、生物、放射性和核(CBRN)威胁相关的潜在风险。
- 申请通道现已开放,截止日期为5月18日,项目为邀请制。
- 未来还将扩展至Claude Opus 4模型的安全测试。
📌 情报分析
技术价值:高
通过引入通用越狱测试和宪法分类器系统,Anthropic在提升AI模型安全性方面展现了实质性的进展。这种技术手段有助于识别和修复可能被恶意利用的关键漏洞。
商业价值:高
此计划不仅强化了Anthropic在负责任AI开发领域的领导地位,还为其未来更高级别的ASL-3标准部署奠定了基础,从而增强客户和监管机构对产品的信任。
趋势预测:
随着AI能力的不断提升,类似的漏洞赏金计划可能成为行业标配。未来3-6个月内,更多公司可能会效仿这一做法,以应对日益复杂的AI安全挑战。