北大:细粒度知识获取基准FIKA-BENCH

北大:细粒度知识获取基准FIKA-BENCH 标题FIKA-Bench: From Fine-grained Recognition to Fine-Grained Knowledge Acquisition来源arXiv, 2605.13193v1️文章简介研究问题当面对内部知识未知的陌生对象时多模态系统能否主动搜索、验证并利用外部证据来完成高精度的细粒度识别主要贡献论文提出了 FIKA-BENCH这是一个包含 311 个实例的防泄漏且基于证据的基准专门用于评估模型在闭卷失败场景下的主动外部知识获取能力。重点思路提出细粒度知识获取新范式将任务从被动的闭集分类转变为需要主动利用工具搜索、比对视觉细节并验证证据的开放性问题。设计严格的五步构建流程包括公共源筛选、模型困难度过滤剔除前沿大模型能直接回答的案例、图像 - 答案泄漏检测、标签人工审计以及证据落地性审查。构建涵盖产品、自然、交通和文化四大领域的混合数据集结合去污染后的公共数据集样本与志愿者提供的真实生活场景图像确保每个样本都有可验证的外部证据链接。制定严格的评估协议采用大模型作为裁判仅当预测答案达到要求的细粒度层级且与验证证据一致时才判定为正确拒绝宽泛或猜测性的回答。分析总结现有最先进系统的表现远未达标最佳模型准确率仅为 25.1%没有任何模型超过 30%证明该任务极具挑战性。真实生活场景的图像并不比精心挑选的公共数据集样本更难智能体反而能利用真实场景中的上下文线索和可搜索的视觉细节取得更好成绩。单纯赋予模型工具使用能力不足以解决问题智能体失败的主要原因集中在错误的实体检索和糟糕的视觉定位判断而非缺乏工具访问权限。引入跨样本记忆机制和针对特定领域的技能如飞机注册号查询能显著提升性能表明未来的改进方向应侧重于智能体的架构设计与专用技能进化。个人观点论文不再测试模型记住了什么而是测试模型在不知道答案时如何像人类一样去“寻找”答案从静态识别到动态知识获取的范式转变。