快手开源Keye-VL 1.5多模态推理模型:128k上下文+0.1秒级视频定位+跨模态推理能力

🎯 情报来源:量子位

快手于2025年9月5日正式开源其多模态推理模型Keye-VL 1.5,该模型在视频理解领域树立了新标杆。Keye-VL 1.5具备128k超长上下文窗口和0.1秒级视频元素定位能力,在Video-MME短视频基准测试中斩获73.0的高分,同时在多项公开Benchmark中超越Qwen2.5-VL 7B等同类模型。

该模型创新性地采用Slow-Fast双路编码机制,通过动态分配计算资源实现性能与成本的平衡。在内部200条短视频应用评测中,Keye-VL-1.5-8B在五项人类标注指标上获得3.53分的综合成绩,较预览版本提升0.51分。

💡 核心要点

  • 128k超长上下文窗口,支持高精度视频时序理解
  • 0.1秒级视频元素定位精度,远超行业平均水平
  • Video-MME基准73.0分,多项测试超越Qwen2.5-VL 7B
  • 内部评测综合得分3.53分,较前代提升0.51分
  • 四阶段预训练使用超1万亿token数据

📌 情报分析

技术价值:极高 – 创新的Slow-Fast编码策略和3DRoPE位置编码技术解决了视频处理中的关键难题,128k上下文窗口在行业内处于领先地位。

商业价值:高 – 已在快手内部应用于内容审核、智能剪辑等核心业务,验证了千万级日常场景的可行性,具备快速商业化潜力。

趋势预测:高 – 多模态视频理解是AI发展的重要方向,Keye团队在顶会密集发布相关成果,显示该领域将迎来快速发展期。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索