字节&NTU多模态模型新突破:按需搜索减少30%查询量,性能反超传统RAG

🎯 情报来源:量子位

字节跳动与南洋理工大学联合研发的MMSearch-R1多模态模型系统,通过端到端强化学习实现了智能化的『按需搜索』能力。实验表明,7B参数的MMSearch-R1-7B在知识密集型视觉问答任务中,搜索频率降低32.9%的同时,准确率反超同规模传统RAG模型3%,并达到32B大模型RAG基线的性能水平。

研究团队构建了包含3400个需搜索样本和1600个非搜索样本的FactualVQA数据集,采用GRPO强化学习算法训练模型自主决策搜索时机。系统集成Google Lens图像搜索和基于JINA Reader的文本搜索工具,通过带0.1搜索惩罚因子的奖励机制(90%准确性+10%格式得分)优化搜索行为。

💡 核心要点

  • 性能突破:7B模型达到32B模型的RAG效果,准确率提升3%
  • 效率优化:搜索频率降低32.9%,减少计算资源消耗
  • 技术架构:集成Google Lens+JINA Reader双搜索工具链
  • 训练创新:采用GRPO强化学习算法,5000样本均衡数据集
  • 成本控制:搜索惩罚因子0.1有效抑制无效查询

📌 情报分析

技术价值(极高):首次实现多模态模型的自主搜索决策,强化学习框架在5000样本量级即展现显著效果,验证了小样本高效训练路径。

商业价值(高):32.9%的搜索量降低直接转化为云计算成本节约,7B模型达到32B性能的特性更适合边缘部署,存在明确的商业化落地场景。

趋势预测(高):按需搜索机制将成多模态模型标配技术,论文中透露的veRL框架可能引发工具链整合浪潮,搜索引擎厂商或加速布局AI原生接口。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索