腾讯TiG框架突破:14B参数模型王者荣耀对战准确率超90%,碾压671B大模型

🎯 情报来源:量子位

腾讯最新发布的Think-In-Games (TiG)框架实现重大突破,成功将大语言模型应用于《王者荣耀》实战训练。该框架通过”边玩边学”机制,使仅14B参数的Qwen-3-14B模型以90.91%的动作准确率,超越671B参数的Deepseek-R1(86.67%)。

TiG创新性地将强化学习决策重构为语言建模任务,模型通过JSON读取游戏状态,选择”推上路”等宏操作并解释策略逻辑。研究采用多阶段训练方法,结合监督微调(SFT)和GRPO强化学习算法,Qwen-2.5-32B模型准确率从66.67%提升至86.84%。

💡 核心要点

  • 14B小模型(Qwen-3-14B)以90.91%准确率碾压671B大模型(Deepseek-R1)
  • 采用GRPO算法后,32B模型准确率提升20.17个百分点(66.67%→86.84%)
  • 训练2000步即实现超人类水平的战略决策能力
  • 首创”重新标注算法”实现游戏状态与宏观动作的精准匹配
  • 计算成本仅为传统RL方法的1/10量级

📌 情报分析

技术价值:极高 – 首次实现LLM在复杂MOBA游戏的端到端决策,突破”解释”与”执行”的鸿沟

商业价值:高 – 腾讯自有IP+游戏场景的闭环验证,可快速复用到《英雄联盟》等头部产品

趋势预测:极高 – 小模型+专用算法组合将重塑游戏AI开发生态,参数规模竞赛迎来拐点

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索