🎯 情报来源:量子位
上海AI Lab的P1-235B-A22B模型在国际物理奥林匹克竞赛(IPhO 2025)中以21.2分斩获金牌,成为首个达成此成就的开源模型。在覆盖13场顶级赛事的HiPhO基准测试中,该模型以12金1银的成绩与谷歌Gemini-2.5-Pro并列第一,超越GPT-5(11金)和Grok-4(10金)。其配备的PhysicsMinions多智能体系统更将平均得分从35.9提升至38.4,创下所有模型最高分纪录。
团队构建的HiPhO基准采用人类对齐评估标准,涵盖2024-2025年IPhO、APhO等赛事数据。P1系列通过多阶段强化学习(含上下文窗口扩展和通过率过滤策略)实现持续性能提升,其中30B参数版本P1-30B-A3B同样获得8金4银1铜,超越部分闭源模型。
💡 核心要点
- 历史性突破:P1-235B成为首个在IPhO夺金的开源模型(21.2/30分)
- 基准统治力:HiPhO测试12金1银,与Gemini-2.5-Pro并列全球第一
- 系统加成:PhysicsMinions多智能体使模型得分提升2.5分(35.9→38.4)
- 规模效率:30B参数版本P1-30B-A3B获8金,超越Claude-4-Sonnet等闭源模型
- 评估创新:HiPhO基准覆盖13场奥赛,采用人类评分标准对齐
📌 情报分析
技术价值:极高
• 多智能体系统PhysicsMinions实现三重验证机制,错误修正能力经IPhO验证
• 多阶段强化学习策略使30B模型达到235B级别75%的竞赛性能
商业价值:高
• 开源体系降低科研门槛,GitHub仓库已获1.2k星(发布48小时内)
• 物理推理能力可迁移至工程仿真、材料研发等工业场景
趋势预测:极高
• 开源模型首次在硬核科学领域反超闭源模型,预示领域专业化竞争加剧
• HiPhO基准或成AI物理智能新标准,已有9家机构提交测试结果
