🎯 情报来源:量子位
2025年7月30日,昆仑万维正式开源多模态统一模型Skywork UniPic。该模型以1.5B参数规模实现图像理解、文本到图像生成和图像编辑三大核心能力的深度融合,在消费级显卡上即可流畅运行。
定量测试显示,Skywork UniPic在GenEval指令遵循评估中取得0.86分(无CoT),接近7B参数BAGEL模型带CoT的0.88分;在DPG-Bench复杂指令生图基准达到85.5分的SOTA水平,与14B参数模型相当。其图像编辑能力在GEditBench-EN和ImgEdit-Bench分别获得5.83分和3.49分。
💡 核心要点
- 1.5B参数规模下性能逼近7B-14B参数商业模型
- 支持RTX 4090等消费级显卡部署
- GenEval指令遵循评估0.86分(无CoT)
- DPG-Bench生图基准85.5分(行业SOTA)
- 完整开源模型权重、技术报告及全流程代码
📌 情报分析
技术价值:极高
采用自回归模型架构实现跨模态统一表征,通过MAR编码器与SigLIP2编码器的解耦设计,在亿级高质量数据训练下实现生成质量与语义理解的平衡。
商业价值:高
消费级硬件适配特性显著降低部署门槛,开源策略有利于生态构建。其渐进式多任务训练策略已验证小规模高质量数据的可行性,具有成本优势。
趋势预测:高
继GPT-4o后,证实原生多模态统一模型的技术路线价值。1.5B参数达到商用级性能,预示模型轻量化将成为重要发展方向。
