LLM驱动的协同进化推荐系统CoARS设计与实现

发布时间：2026/6/21 15:35:16

1. 项目概述在推荐系统领域我们正见证着一场由大语言模型LLM驱动的范式变革。传统推荐系统通常采用静态的单次预测模式而基于LLM的智能推荐系统Agentic Recommender Systems, ARS则将推荐过程重构为推荐代理RecAgent与用户代理UserAgent之间的多轮交互决策过程。这种交互式推荐能够实现偏好的迭代获取和推荐结果的持续优化显著提升了系统的灵活性和个性化程度。然而现有ARS系统存在两个关键局限首先它们主要采用Reflexion式优化范式将历史交互轨迹作为文本记忆存储在提示上下文中而非将其内化为模型参数层面的知识其次现有的强化学习RL方法依赖于预定义或基于评判的奖励机制无法充分捕捉ARS系统中双向交互产生的内生监督信号。这些限制导致现有系统难以实现推荐代理与用户代理的真正协同进化。2. 核心设计思路2.1 协同进化框架CoARS框架的核心创新在于将ARS中的代理训练建模为一个协同进化学习过程。在这个框架中推荐代理和用户代理通过共享的交互轨迹相互优化形成良性循环推荐代理优化通过学习生成更符合用户偏好的推荐内容和更有说服力的推荐理由用户代理优化通过改进对推荐内容的评估能力和反馈质量提供更精准的偏好信号这种双向优化机制使得两个代理能够从同一交互轨迹中获得互补但针对性的学习信号实现真正的协同进化。2.2 自蒸馏强化学习CoARS采用的自蒸馏强化学习包含两个关键组件交互奖励机制将每个交互轮次分解为对两个代理的耦合监督推荐代理奖励考虑推荐正确性、用户接受强度和交互阶段敏感性用户代理奖励考虑推荐正确性、用户响应方向和强度以及同伴相似性自蒸馏信用分配将历史交互轨迹重写为参考轨迹通过教师-学生模式比较生成细粒度的token级信用信号使代理能够从自身历史中提取更精细的学习信号这种设计突破了传统RL在ARS应用中仅依赖稀疏标量奖励的局限实现了从交互轨迹中提取多层次、细粒度的监督信号。3. 关键技术实现3.1 交互奖励设计3.1.1 推荐代理奖励函数推荐代理的奖励设计需要同时考虑三个维度R_rec_t (2*hit_t - 1) * (0.5 0.5*s_t) * D_t其中hit_t ∈ {0,1}推荐正确性指标s_t ∈ [0,1]用户接受强度D_t交互阶段敏感系数在正确推荐前呈指数增长这个设计确保正确推荐获得正向奖励错误推荐获得负向惩罚奖励幅度随用户接受程度线性缩放后期错误会受到更严厉的惩罚3.1.2 用户代理奖励函数用户代理奖励函数更为复杂需要考虑同伴相似性的调节作用R_user_t (2*hit_t - 1)*(2*s_t - 1)*(1 - α*q_t*(2*s_t - 1))其中q_t ∈ [-1,1]同伴相似性得分α0.1调节系数这个设计实现了鼓励对正确推荐的接受和对错误推荐的拒绝使用同伴相似性作为奖励幅度的调节信号对逆流而上的决策如拒绝高相似同伴接受的推荐给予额外奖励3.2 自蒸馏信用分配3.2.1 参考轨迹构建诊断历史交互轨迹并构建参考轨迹是关键步骤d_t (m_rec_t, m_user_t, m_rec*_t, m_user*_t, e_t)包含原始推荐和用户反馈消息修正后的推荐和反馈消息使用真实项重新生成诊断标签指明原始交互中的问题3.2.2 教师-学生模式对比通过比较教师和学生模式的token级概率差异计算诊断优势A_t,n clip(log π_T(ŷ_t,n|x,d,ŷ_t,n) - log π_S(ŷ_t,n|x,ŷ_t,n), -1, 1)这种设计将历史交互从被动记录转化为主动学习信号提供细粒度的token级优化指导避免依赖外部标注完全基于交互自身产生监督3.3 整体训练目标3.3.1 推荐代理目标J_rec E[Σ(1/|y_rec_t| * Σ(R_rec_t λ_rec_SD * A_rec_t,n) * log π_rec_S(y_rec_t,n))]3.3.2 用户代理目标J_user E[Σ(1/|y_user_t| * Σ(R_user_t λ_user_SD * A_user_t,n) * log π_user_S(y_user_t,n))]这两个目标共享相同的交互轨迹数据但针对不同代理的特定角色进行优化实现了参数层面的协同进化。4. 实验验证与分析4.1 实验设置我们在三个标准推荐数据集上评估CoARSLastFM音乐推荐场景MovieLens电影推荐场景Instruments商品推荐场景基线模型包括Reflexion基于记忆的简单代理AFL交互历史存储在记忆中的双代理系统iAgent用户侧指令感知推荐框架RecoWorld使用用户点击作为评判信号的RL方法评估指标推荐性能Hit1用户模拟性能F1分数4.2 主要结果4.2.1 推荐性能比较方法BackboneLastFMMovieLensInstrumentsReflexionQwen3-8B0.00960.03610.0265AFLQwen3-8B0.02150.04610.0624iAgentQwen3-8B0.06480.08480.1254RecoWorldQwen3-8B0.19850.17240.2222CoARSQwen3-8B0.22120.26310.3470CoARS在所有数据集和模型规模上均表现最佳特别是在Instruments数据集上相对RecoWorld提升超过56%验证了协同进化范式的优势。4.2.2 用户模拟性能方法BackboneLastFMMovieLensInstrumentsReflexionQwen3-8B0.08960.10280.1284AFLQwen3-8B0.14100.16930.2384iAgentQwen3-8B0.15720.18560.3146RecoWorldQwen3-8B0.15130.18670.2664CoARSQwen3-8B0.31450.29740.3812CoARS在用户模拟任务上也显著优于基线证明其不仅能提升推荐质量还能产生更真实的用户反馈行为。4.3 消融研究我们通过消融实验验证各组件贡献移除协同进化固定UserAgent推荐性能下降18-25%移除交互奖励性能下降最显著32-40%移除自蒸馏性能下降15-22%结果表明所有组件都对最终性能有实质性贡献其中交互奖励最为关键。5. 实际应用建议5.1 系统部署考量在实际部署CoARS框架时需要注意计算资源教师-学生模式会增加约30%的计算开销建议使用LoRA等参数高效微调技术对实时性要求高的场景可降低自蒸馏频率冷启动问题初始阶段可混合使用预定义奖励和交互奖励逐步增加自蒸馏比重随交互数据积累安全与公平性监控奖励函数的分布变化定期评估不同用户群体的推荐质量差异设置奖励裁剪机制防止极端优化5.2 参数调优经验基于我们的实验提供以下调优建议奖励权重λ_rec_SD和λ_user_SD初始设为0.3-0.5随训练进程线性增加到1.0学习率主模型1e-6到5e-6LoRA模块1e-4到5e-4批次设计混合新旧用户交互轨迹每批次包含8-16个完整交互轨迹对长轨迹采用分段采样6. 未来发展方向CoARS框架为智能推荐系统的优化开辟了多个有前景的方向多模态交互融合视觉、语音等多模态反馈扩展奖励信号来源个性化进化在共享策略基础上引入用户特定适配器平衡个性化与泛化能力安全与可解释性开发奖励函数的安全约束机制增强自蒸馏过程的透明度跨领域迁移研究不同领域间代理能力的迁移开发元学习版本的CoARS在实际应用中我们发现CoARS框架的一个有趣特性是它能够自然捕捉到用户偏好的微妙变化。例如在电影推荐场景中系统不仅学会了适应用户显式表达的偏好还能通过多轮交互识别出用户自己可能未意识到的潜在兴趣模式。这种能力的产生正是协同进化和细粒度信用分配共同作用的结果。