2025_NIPS_Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning

2025_NIPS_Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning 文章总结与翻译一、主要内容本文聚焦离线多智能体强化学习(Offline MARL)的核心挑战——分布偏移与高维动作空间导致的动作分布外(OOD)问题和价值高估现象,提出了一种基于集中式训练-去中心化执行(CTDE)范式的新型算法反事实保守Q学习(CFCQL)。问题背景:离线强化学习(Offline RL)无需与环境交互,适合安全敏感场景,但直接应用于多智能体场景时,因联合动作空间随智能体数量指数增长,OOD问题和价值高估会急剧恶化;现有方法要么采用独立学习范式无法实现团队协作,要么直接扩展单智能体保守算法导致过度悲观,缺乏理论保障。核心思路:CFCQL不将所有智能体视为单一高维智能体,而是为每个智能体单独计算反事实保守正则化项,再通过加权平均组合为全局正则化,实现温和且可控的保守价值估计。计算单个智能体的正则化时,仅对该智能体采样OOD动作,其余智能体动作保留数据集分布,避免联合动作空间带来的过度惩罚。理论证明:CFCQL保持了单智能体保守算法的价值低估特性,其正则化强度和安全策略改进界与智能体数量无关,在智能体数量较多时理论上优于直接扩展的多智能体保守Q学习(MACQL)。实验验证:在4类环境(离散/连续动作空间)中验证,包括自定义的Equal Line环境、星际争霸II、多智能体粒子环境和多智能体MuJoCo,CFCQL在大多数数据集上优于现有基线方法,尤其在智能体数量较多的场景中性能稳定,而MA