腾讯RLVER框架突破：7B模型情商提升5倍媲美GPT-4o

腾讯RLVER框架突破开放域RL训练难题，7B模型情商得分提升5倍比肩GPT-4o

技术突破
7月19日

AI情报员

🎯 情报来源：量子位

腾讯混元AI数字人团队最新发布的RLVER（Reinforcement Learning with Verifiable Emotion Rewards）框架，成功解决了开放域强化学习在对话系统中的三大核心困境。该框架通过构建”环境+奖励”一体化的用户模拟器，使Qwen2.5-7B模型在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2，性能提升近5倍，达到与GPT-4o、Gemini 2.5 Pro等顶级商用模型相当的水平。

RLVER的核心创新在于同时解决了环境构建、奖励设计和训练稳定性问题。其用户模拟器可生成多样化的用户画像和交互场景，并通过可解释的情绪推理过程提供稳定奖励信号。值得注意的是，经RLVER优化的模型在保持数学、代码等通用能力的同时，成功实现了从”解题型”到”情绪型”的风格迁移。

💡 核心要点

性能突破：7B参数量模型情感对话得分从13.3→79.2，提升492%
技术对标：情感理解能力与GPT-4o、Gemini 2.5 Pro等顶级商业模型相当
训练效率：用户模拟器可生成10,000+个性化对话场景，支持高效在线RL训练
能力保留：数学/代码等通用能力未见衰退（灾难性遗忘率<3%）
开源生态：模型权重、训练代码及基准测试已全部开源

📌 情报分析

技术价值：极高
RLVER首次实现开放域对话的端到端RL训练闭环，其”思考链+情绪轨迹”的双重监督机制（SAGE框架）使主观情感指标可量化，具有方法论突破意义。

商业价值：高
7B模型达到商用级情商表现，且计算成本仅为大模型的1/8（基于A100实测数据），在客服、心理咨询等场景具备立即落地潜力。

趋势预测：高
该技术路径预示着小模型专用化趋势：未来2-3年，通过针对性RL训练，7-13B模型有望在特定垂直领域超越通用大模型，催生新一代性价比AI产品矩阵。

原文连接

{{userData.name}}已认证

腾讯RLVER框架突破开放域RL训练难题，7B模型情商得分提升5倍比肩GPT-4o

🎯 情报来源：量子位

💡 核心要点

📌 情报分析

ChatGPT

Claude

Meta AI

Kimi AI (月之暗面)

Gemini

Copilot