北大：细粒度知识获取基准FIKA-BENCH-尧图企业网站定制

标题FIKA-Bench: From Fine-grained Recognition to Fine-Grained Knowledge Acquisition来源arXiv, 2605.13193v1️文章简介研究问题当面对内部知识未知的陌生对象时多模态系统能否主动搜索、验证并利用外部证据来完成高精度的细粒度识别主要贡献论文提出了 FIKA-BENCH这是一个包含 311 个实例的防泄漏且基于证据的基准专门用于评估模型在闭卷失败场景下的主动外部知识获取能力。重点思路提出细粒度知识获取新范式将任务从被动的闭集分类转变为需要主动利用工具搜索、比对视觉细节并验证证据的开放性问题。设计严格的五步构建流程包括公共源筛选、模型困难度过滤剔除前沿大模型能直接回答的案例、图像 - 答案泄漏检测、标签人工审计以及证据落地性审查。构建涵盖产品、自然、交通和文化四大领域的混合数据集结合去污染后的公共数据集样本与志愿者提供的真实生活场景图像确保每个样本都有可验证的外部证据链接。制定严格的评估协议采用大模型作为裁判仅当预测答案达到要求的细粒度层级且与验证证据一致时才判定为正确拒绝宽泛或猜测性的回答。分析总结现有最先进系统的表现远未达标最佳模型准确率仅为 25.1%没有任何模型超过 30%证明该任务极具挑战性。真实生活场景的图像并不比精心挑选的公共数据集样本更难智能体反而能利用真实场景中的上下文线索和可搜索的视觉细节取得更好成绩。单纯赋予模型工具使用能力不足以解决问题智能体失败的主要原因集中在错误的实体检索和糟糕的视觉定位判断而非缺乏工具访问权限。引入跨样本记忆机制和针对特定领域的技能如飞机注册号查询能显著提升性能表明未来的改进方向应侧重于智能体的架构设计与专用技能进化。个人观点论文不再测试模型记住了什么而是测试模型在不知道答案时如何像人类一样去“寻找”答案从静态识别到动态知识获取的范式转变。

相关新闻

B站缓存视频转换完整指南：3步将m4s文件转为通用MP4

ChatGPT记忆功能深度解析（2024官方API文档未公开的7个底层机制）

对抗攻击下机器学习鲁棒性：从数据投毒到可攻击区域的理论与实践

Windows和Office激活终极指南：KMS_VL_ALL_AIO智能脚本完整教程

5大核心功能解锁Windows生产力新境界

QModMaster：工业自动化Modbus调试工具的5分钟快速入门指南

免Root修改SIM卡国家码：Nrfr工具完整使用指南与实战教程

对比直接使用厂商API体验Taotoken聚合服务的稳定性

MASA模组汉化终极指南：快速实现Minecraft中文界面本地化

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势