Anthropic公司近日宣布,在推出Claude Opus 4的同时,激活了AI安全等级3(ASL-3)的部署和安全标准。这一举措基于其负责任扩展政策(RSP),旨在通过增强内部安全措施和针对性的部署措施,减少模型被滥用于化学、生物、放射性和核武器(CBRN)开发的风险。ASL-3标准不仅提高了模型权重被盗的难度,还通过一系列部署措施限制了Claude在CBRN武器相关领域的潜在滥用。
尽管Anthropic尚未确定Claude Opus 4是否确实需要ASL-3的保护,但由于其在CBRN相关知识和能力上的持续进步,公司决定采取预防性措施,将Claude Opus 4置于ASL-3标准下。这一决策反映了Anthropic在AI安全领域的谨慎态度和对未来风险的预见性。
Anthropic的RSP核心原则是,随着AI模型能力的增强,部署和安全保护也应相应加强。ASL-3标准针对的是复杂的非国家行为者,旨在提供更高水平的防御,以应对部署和安全威胁。通过实施宪法分类器、建立广泛的监控系统以及持续改进防御措施,Anthropic致力于防止模型被用于灾难性滥用。
在安全方面,Anthropic采取了100多种安全控制措施,包括初步的出口带宽控制,以保护模型权重不被泄露。这些措施结合了预防性控制和检测机制,旨在从初始入口点到最终提取,全面防范高级威胁。
Anthropic的这一系列措施标志着在防范AI能力被灾难性滥用方面取得了重大进展。公司表示,将继续与AI行业的其他成员、Claude用户以及政府和民间社会伙伴合作,改进保护这些模型的方法,为迎接更强大AI的挑战和机遇做好准备。