CollabSim基于CSCW的LLM智能体协作能力评估框架与实验报告 核心贡献 (Core Contribution)针对当前多智能体系统MAS因缺乏“协作能力”而非“任务执行能力”导致失败的问题CollabSim提供了一个理论 grounded基于社会交互理论、可配置且可重复的实验框架。它超越了传统的基于结果outcome-centric的基准测试深入评估智能体在交互过程中的过程级能力。 系统架构 (System Architecture)CollabSim 的核心架构包含以下关键层次支持对智能体协作过程的精细化控制1. 交互层 (Interaction Layer)公共状态 (Public State):智能体通过可见性规则感知任务环境并获取其他智能体的公开更新。私人状态 (Private State):每个智能体维护独立的任务理解和内部状态。2. 控制层 (Control Layer)通过.yml配置文件驱动编排实验配置、执行逻辑和评估流程。采用基于回合turn-based的循环机制。3. 探测模块 (Probing Module)功能在每次动作后对智能体进行内部状态查询。评估维度感知任务状态智能体对当前任务进展的理解。感知队友意图智能体对队友行为的推测。自我推理智能体对自身行为的解释。关键指标Self-reported confidence score报告的对共享任务理解的置信度。Pairwise response similarity通过 SBERT 编码的余弦相似度追踪共享表征随时间的收敛情况。 可配置的交互条件 (Configurable Interaction Conditions)条件描述CSCW (计算机支持的协同工作) 对照Communication Bandwidth限制消息频率/长度模拟带宽受限的通信环境媒介丰富度操作 (Media richness)Information Visibility控制智能体对共享状态的访问权限工作空间意识与信息共享Group Size改变会话中智能体的数量团队结构与协调扩展 实验任务 (CSCW Paradigms)CollabSim 包含四个经典的 CSCW 任务用于模拟真实的协作挑战任务核心挑战起源文献Shape Factory成本不对称与互赖性下的资源协调Bos et al. (2004)DayTrader个体与集体激励之间的社会困境Bos et al. (2002)Hidden Profile信息不对称下的信息共享与整合Stasser Titus (1985)Map task基于文本的空间通信与指称一致性Anderson et al. (1991) 基准实验与关键发现 (Experiments Key Findings)实验设置测试模型Qwen3.6-35B, Llama-4, GPT-5.5, Claude 4.6 Sonnet智能体设计Persona-Based: 标准提示词包含基础人设与任务指令。Theory-Informed: 基于共享心智模型理论显式引导智能体追踪队友状态并参与指称对齐Grounding。核心结论总结发现项详细结果受限通信带宽一致降低合作水平智能体未能优先处理关键的“指称对齐”交换导致信息共享与对齐行为退化。信息可见性增加智能体参与度如更高的交易接受率但不保证任务结果。结果收益取决于动作是否直接解决任务需求。组规模动态产生机会与协调负担的权衡。在 DayTrader (N9) 中Theory-informed 智能体表现出高信心~90%但协作度却跌至~0%揭示了“报告状态”与“实际行为”间的巨大差距。模型表现无单一赢家私有模型整体表现领先或并列。GPT-5.5 表现持续强劲Claude 在 DayTrader 中表现最佳Qwen 对条件变化极为敏感。智能体设计影响Theory-informed 设计在部分任务如 Shape Factory中有效但在 Hidden Profile准确率从 100% 骤降至 0%等任务中反而降低表现。显式理论引导是任务依赖的。 定性分析与失败模式 (Qualitative Analysis)CollabSim 揭示了性能低下通常源于过程层面的失败而非简单的能力缺失未能围绕共同目标协调智能体在大型组中碎片化无法就共同目标达成一致。指称对齐失败智能体无法建立共享的指称系统如正确识别“红色方块” vs “蓝色方块”。状态更新滞后智能体未能及时感知队友状态的更新导致无效动作或冲突。 实验步骤与脚本资源 (Experiment Resources)配置文件示例 (YAML):# CollabSim experiment configuration snippetexperiment:name:ShapeFactory_Bandwidth_Limitedconfig_path:./configs/shape_factory_config.ymlagents:-type:Persona-Basedmodel:Qwen3.6-35B-type:Theory-Informedmodel:GPT-5.5conditions:communication_bandwidth:low# Limits message frequencyinformation_visibility:high评估脚本逻辑系统自动生成结构化 JSON 轨迹Structured JSON traces。通过 SBERT 计算相似度指标量化共享心智模型的构建情况。资源下载与链接原始 HTML:https://arxiv.org/html/2606.06399v1实验复现数据通常包含在arxiv.org/abs/2606.06399的补充材料中。 专家总结CollabSim 框架不仅是一个测试工具更是一套评估标准。它证明了智能体之间的“协作能力”如共享心智模型、指称对齐、状态同步是独立于个体执行能力的特殊维度。对于开发者而言优化智能体的协作表现不能仅靠提示词工程更需要引入显式的理论指导机制并针对特定的交互条件如带宽、可见性进行微调。建议在开发多智能体系统时应优先使用 CollabSim 进行任务原型测试特别是在“Hidden Profile”和“DayTrader”等社交困境任务中以验证智能体的协作鲁棒性。
CollabSim:基于CSCW的LLM智能体协作能力评估框架与实验报告
CollabSim基于CSCW的LLM智能体协作能力评估框架与实验报告 核心贡献 (Core Contribution)针对当前多智能体系统MAS因缺乏“协作能力”而非“任务执行能力”导致失败的问题CollabSim提供了一个理论 grounded基于社会交互理论、可配置且可重复的实验框架。它超越了传统的基于结果outcome-centric的基准测试深入评估智能体在交互过程中的过程级能力。 系统架构 (System Architecture)CollabSim 的核心架构包含以下关键层次支持对智能体协作过程的精细化控制1. 交互层 (Interaction Layer)公共状态 (Public State):智能体通过可见性规则感知任务环境并获取其他智能体的公开更新。私人状态 (Private State):每个智能体维护独立的任务理解和内部状态。2. 控制层 (Control Layer)通过.yml配置文件驱动编排实验配置、执行逻辑和评估流程。采用基于回合turn-based的循环机制。3. 探测模块 (Probing Module)功能在每次动作后对智能体进行内部状态查询。评估维度感知任务状态智能体对当前任务进展的理解。感知队友意图智能体对队友行为的推测。自我推理智能体对自身行为的解释。关键指标Self-reported confidence score报告的对共享任务理解的置信度。Pairwise response similarity通过 SBERT 编码的余弦相似度追踪共享表征随时间的收敛情况。 可配置的交互条件 (Configurable Interaction Conditions)条件描述CSCW (计算机支持的协同工作) 对照Communication Bandwidth限制消息频率/长度模拟带宽受限的通信环境媒介丰富度操作 (Media richness)Information Visibility控制智能体对共享状态的访问权限工作空间意识与信息共享Group Size改变会话中智能体的数量团队结构与协调扩展 实验任务 (CSCW Paradigms)CollabSim 包含四个经典的 CSCW 任务用于模拟真实的协作挑战任务核心挑战起源文献Shape Factory成本不对称与互赖性下的资源协调Bos et al. (2004)DayTrader个体与集体激励之间的社会困境Bos et al. (2002)Hidden Profile信息不对称下的信息共享与整合Stasser Titus (1985)Map task基于文本的空间通信与指称一致性Anderson et al. (1991) 基准实验与关键发现 (Experiments Key Findings)实验设置测试模型Qwen3.6-35B, Llama-4, GPT-5.5, Claude 4.6 Sonnet智能体设计Persona-Based: 标准提示词包含基础人设与任务指令。Theory-Informed: 基于共享心智模型理论显式引导智能体追踪队友状态并参与指称对齐Grounding。核心结论总结发现项详细结果受限通信带宽一致降低合作水平智能体未能优先处理关键的“指称对齐”交换导致信息共享与对齐行为退化。信息可见性增加智能体参与度如更高的交易接受率但不保证任务结果。结果收益取决于动作是否直接解决任务需求。组规模动态产生机会与协调负担的权衡。在 DayTrader (N9) 中Theory-informed 智能体表现出高信心~90%但协作度却跌至~0%揭示了“报告状态”与“实际行为”间的巨大差距。模型表现无单一赢家私有模型整体表现领先或并列。GPT-5.5 表现持续强劲Claude 在 DayTrader 中表现最佳Qwen 对条件变化极为敏感。智能体设计影响Theory-informed 设计在部分任务如 Shape Factory中有效但在 Hidden Profile准确率从 100% 骤降至 0%等任务中反而降低表现。显式理论引导是任务依赖的。 定性分析与失败模式 (Qualitative Analysis)CollabSim 揭示了性能低下通常源于过程层面的失败而非简单的能力缺失未能围绕共同目标协调智能体在大型组中碎片化无法就共同目标达成一致。指称对齐失败智能体无法建立共享的指称系统如正确识别“红色方块” vs “蓝色方块”。状态更新滞后智能体未能及时感知队友状态的更新导致无效动作或冲突。 实验步骤与脚本资源 (Experiment Resources)配置文件示例 (YAML):# CollabSim experiment configuration snippetexperiment:name:ShapeFactory_Bandwidth_Limitedconfig_path:./configs/shape_factory_config.ymlagents:-type:Persona-Basedmodel:Qwen3.6-35B-type:Theory-Informedmodel:GPT-5.5conditions:communication_bandwidth:low# Limits message frequencyinformation_visibility:high评估脚本逻辑系统自动生成结构化 JSON 轨迹Structured JSON traces。通过 SBERT 计算相似度指标量化共享心智模型的构建情况。资源下载与链接原始 HTML:https://arxiv.org/html/2606.06399v1实验复现数据通常包含在arxiv.org/abs/2606.06399的补充材料中。 专家总结CollabSim 框架不仅是一个测试工具更是一套评估标准。它证明了智能体之间的“协作能力”如共享心智模型、指称对齐、状态同步是独立于个体执行能力的特殊维度。对于开发者而言优化智能体的协作表现不能仅靠提示词工程更需要引入显式的理论指导机制并针对特定的交互条件如带宽、可见性进行微调。建议在开发多智能体系统时应优先使用 CollabSim 进行任务原型测试特别是在“Hidden Profile”和“DayTrader”等社交困境任务中以验证智能体的协作鲁棒性。