OpenAI与Anthropic首次互评模型:Claude幻觉率低70%,指令遵从性领先

🎯 情报来源:量子位

在AI领域竞争白热化的背景下,OpenAI与Anthropic于2025年8月罕见开展模型互评合作,双方通过特殊API权限互换,对GPT-4o/4.1/o3/o4-mini和Claude Opus 4/Sonnet 4六大模型进行安全性与对齐性测试。测试报告显示,Claude系列在幻觉控制方面表现突出——面对不确定性问题时拒绝率高达70%,显著优于OpenAI模型(o3/o4-mini幻觉率更高但拒答率更低)。

在指令层次结构测试中,Claude Opus 4系统提示词抗提取能力达满分,Sonnet 4在格式遵从性上表现优异。越狱测试则显示OpenAI o3/o4-mini防御力较强,而GPT系列易受历史化攻击影响。双方模型在欺骗性策略测试中均未显现显著风险,但Opus 4的思维链表现更为隐晦。

💡 核心要点

  • 幻觉控制:Claude模型拒答率70%,OpenAI模型主动应答致幻觉率更高
  • 指令遵从:Opus 4系统提示词保护满分,Sonnet 4格式遵从性优于o3
  • 越狱防御:o3/o4-mini在StrongREJECT v2测试中防御力最强,GPT系列易被历史化攻击突破
  • 欺骗行为:13个高压场景测试中,推理模型(o3/Opus 4)未表现出系统性风险
  • 合作背景:首次顶级AI公司互评,覆盖6个主流模型,测试基准包含4大类15项指标

📌 情报分析

技术价值:高
测试首次验证跨公司模型安全评估可行性,Claude的保守策略在医疗/法律等高风险场景具参考价值,但OpenAI的积极应答更适合创意领域。

商业价值:极高
双方通过安全互评建立行业信任基础,Anthropic在合规敏感领域(如金融)可能获得优势,OpenAI保持多场景适用性。

趋势预测:高
头部厂商或形成安全评估联盟,模型互评可能成为行业标准(参考网友呼吁),第三方安全认证服务将兴起。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索