从《炉石传说》到在线购物:AgentBench如何用游戏和网页任务‘拷问’大模型的真实智商?

从《炉石传说》到在线购物:AgentBench如何用游戏和网页任务‘拷问’大模型的真实智商? 当AI玩转《炉石传说》和网购AgentBench如何用游戏化测试揭示大模型的真实智商想象一下你正在教一个外星人玩《炉石传说》——它精通所有卡牌规则却总在关键时刻做出匪夷所思的出牌选择或者让它帮你网购一款蓝牙耳机结果它反复对比的参数竟是包装盒颜色和快递员星座。这正是当前大语言模型LLM作为智能代理Agent面临的现实困境它们拥有惊人的知识储备却在需要多步推理、动态决策的实际任务中频频翻车。1. 游戏场AI的智力体操馆1.1 数字卡牌中的战略盲区Aquawar——这个简化版《炉石传说》的测试环境中AI需要指挥不同特性的鱼类军团作战。人类玩家会自然形成的战术思维对AI却是巨大挑战回合规划缺陷AI常陷入最优单步陷阱比如为追求当前回合最大伤害值耗尽关键卡牌导致后续回合崩盘概率误解面对60%概率造成双倍伤害的卡牌效果部分模型会出现反常识决策记忆断层在多轮对战中模型可能忘记对手已暴露的关键卡牌信息测试中发现一个典型案例当AI持有能复活阵亡鱼类的珊瑚祭司卡牌时竟优先保护攻击力最低的杂兵而非具有战略价值的主力卡。1.2 横向思维谜题的思维窄化在解谜类测试中模型展现出更明显的局限性。例如面对经典谜题男子走进餐厅点了一份鳄鱼肉吃了一口后冲出餐厅自杀。为什么主流模型的典型反应路径首先假设鳄鱼肉有毒81%测试样本当被告知鳄鱼肉安全时转向猜测男子有精神疾病67%极少模型能联想到男子曾是海难幸存者曾被迫食用同伴绰号鳄鱼的隐藏逻辑这种表现揭示了当前LLMs在联想跳跃和情境重构能力上的瓶颈。2. 网购实战当AI遇上选择困难症2.1 WebShop测试中的认知偏差在模拟网购环境中AI代理需要完成购买适合程序员的机械键盘这类任务。常见失败模式包括偏差类型具体表现出现频率参数固化过度关注RGB灯效而忽视轴体类型42%场景失焦推荐静音键盘给游戏玩家33%评价误读将手感像巧克力的比喻评价视为食品属性25%2.2 多条件筛选的组合爆炸当任务复杂度提升时如寻找支持Mac的87键热插拔键盘预算500元内模型表现急剧下降# 理想决策流程 vs 实际观察到的AI流程 理想路径: 筛选接口类型 → 确认键位布局 → 检查热插拔功能 → 比价 实际路径: 随机选择Mac兼容产品 → 检查价格 → 忽略其他条件62%测试案例这种表现差距暴露出模型在多条件并行处理和属性优先级判断上的不足。3. 家务挑战常识推理的阿喀琉斯之踵3.1 物理常识的缺失把刚煮好的汤锅放到木质餐桌上这类任务中高达78%的测试模型忽略了需要垫隔热垫的物理常识汤锅把手朝向的安全考量放置位置与用餐动线的关系3.2 空间推理的局限性当要求将吸尘器收纳到已存放扫把的橱柜时模型常出现空间冲突忽略43%工具取用顺序不合理如建议先放吸尘器会挡住扫把37%完全虚构橱柜结构20%4. 从测试到进化AgentBench的启示录4.1 商业模型与开源模型的差距图谱测试揭示的差距不仅体现在总分上更反映在能力维度上核心能力分化对比能力维度商业模型优势开源模型短板多轮对话维持87%上下文保持率平均52%动态策略调整每任务3.2次策略修正1.7次模糊指令解析78%准确率41%4.2 突破路径的实战验证某些创新方法显示出显著效果递归验证机制让模型自行检查决策链的关键节点错误率降低29%人类反馈强化学习在购物任务中引入用户偏好数据后推荐准确率提升41%场景预演训练通过虚拟环境预训练模型在家务任务中的表现提升35%在Aquawar游戏的最新测试中采用混合训练方法的模型已能达到业余人类玩家75%的胜率。而在模拟购物环境下顶尖模型的商品筛选准确率从初版的32%提升至68%这个数字仍在持续进化中。