🎯 情报来源:量子位
腾讯混元团队最新发布的AI绘画微调技术取得重大突破,其提出的语义相对偏好优化(SRPO)方法在FLUX1.dev模型上实现人工评估分数300%的提升。该技术仅需在32块H20芯片上训练10分钟即可收敛,生成图像的真实感优秀率从8.2%飙升至38.9%,美学质量优秀率从9.8%提升至40.5%。
核心创新Direct-Align方法通过噪声插值实现在整个扩散轨迹上的优化,解决了传统方法仅能在后期步骤训练的局限。实验数据显示,SRPO在HPDv2基准测试中全面超越ReFL、DRaFT等现有方法,甚至超越最新开源版本FLUX.1.Krea的表现。
💡 核心要点
- 人工评估真实感提升3.7倍(8.2%→38.9%),美学质量提升3.1倍(9.8%→40.5%)
- 仅需32块H20芯片训练10分钟即超越主流模型
- Direct-Align方法支持100%扩散轨迹优化,解决传统25%时间步局限
- SRPO通过文本提示词即可在线调整奖励,无需额外数据训练
- 在HPDv2基准3200个提示词测试中全面领先现有方法
📌 情报分析
技术价值:极高 – 突破性解决奖励作弊和梯度爆炸问题,Direct-Align+SRPO组合实现全流程优化
商业价值:高 – 10分钟快速迭代能力大幅降低算力成本,文本控制特性适配商业化定制需求
趋势预测:高 – 被开发者评价为”下一代RLHF”,可能成为AI绘画微调新标准(基于3.7倍效果提升及10分钟训练效率)