港科广×腾讯VistaWise框架破纪录:仅471张截图+24G显卡实现《我的世界》33%通关率,成本骤降95%

🎯 情报来源:量子位

香港科技大学(广州)与腾讯联合团队在EMNLP 2025发表的研究成果VistaWise框架,通过”跨模态知识图谱+轻量化视觉微调”技术,在《我的世界》”获取钻石”任务中实现33%通关率(较前SOTA提升8%),9个子任务成功率均超73%。该方案仅需471张游戏截图和单张24G显存消费级显卡,训练成本较传统方法降低5个数量级,推理开销仅为同类方案Voyager的5%(1.28美元vs25美元)。

核心技术突破在于将文本攻略与视觉感知融合为轻量化知识图谱,配合”检索式图池化”机制,实现毫秒级任务信息锁定。系统采用”感知-检索-推理-执行”闭环,在8G显存笔记本上即可完成真机操作,GPU显存需求下降87.5%,推理tokens减少30.7%。

💡 核心要点

  • 通关成功率33%:刷新非API类方法纪录,较前SOTA提升8个百分点
  • 成本降低95%:完整任务链开销仅1.28美元(对比Voyager的25美元)
  • 训练数据锐减:仅需471张截图(对比传统160M帧)
  • 硬件需求骤降:单张24G显卡训练,8G笔记本即可部署
  • 推理效率提升:tokens消耗减少30.7%,延迟降低20ms/帧

📌 情报分析

技术价值:极高
首创”图-检-控”三位一体框架,实现开放世界小样本学习突破。跨模态知识图谱动态更新仅需20ms,YOLOv10-L微调实现像素级定位,Path-Searching+Entity-Matching双阶段池化技术具行业普适性。

商业价值:高
部署成本降至消费级硬件水平,为游戏AI、数字孪生等领域提供可复用的低成本方案。腾讯已将其纳入犀牛鸟专项,预计在MMO游戏NPC、自动化测试等场景快速落地。

趋势预测:高
“轻量化专家模型+知识图谱”模式可能成为开放世界AI新范式。论文显示该方法可扩展至《原神》等3A游戏,未来12-18个月或引发游戏开发工具链革新。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索