🎯 情报来源:量子位
腾讯最新发布的Think-In-Games (TiG)框架实现重大突破,成功将大语言模型应用于《王者荣耀》实战训练。该框架通过”边玩边学”机制,使仅14B参数的Qwen-3-14B模型以90.91%的动作准确率,超越671B参数的Deepseek-R1(86.67%)。
TiG创新性地将强化学习决策重构为语言建模任务,模型通过JSON读取游戏状态,选择”推上路”等宏操作并解释策略逻辑。研究采用多阶段训练方法,结合监督微调(SFT)和GRPO强化学习算法,Qwen-2.5-32B模型准确率从66.67%提升至86.84%。
💡 核心要点
- 14B小模型(Qwen-3-14B)以90.91%准确率碾压671B大模型(Deepseek-R1)
- 采用GRPO算法后,32B模型准确率提升20.17个百分点(66.67%→86.84%)
- 训练2000步即实现超人类水平的战略决策能力
- 首创”重新标注算法”实现游戏状态与宏观动作的精准匹配
- 计算成本仅为传统RL方法的1/10量级
📌 情报分析
技术价值:极高 – 首次实现LLM在复杂MOBA游戏的端到端决策,突破”解释”与”执行”的鸿沟
商业价值:高 – 腾讯自有IP+游戏场景的闭环验证,可快速复用到《英雄联盟》等头部产品
趋势预测:极高 – 小模型+专用算法组合将重塑游戏AI开发生态,参数规模竞赛迎来拐点
