追踪适应性Agent的行为轨迹嵌入空间中的特质向量评估方法来源arXiv:2606.02536链接https://arxiv.org/html/2606.02536v1优化日期2026-06-01领域AI Agent评估、行为轨迹分析、文本嵌入空间、自动化审计 概述与核心贡献现代AI Agent高度依赖基于文本的配置/技能文件skill files来定义其行为轨迹。这些文件随时间演化直接改变Agent能力。本文提出了一种**追踪Agent特质Traits**的新方法将特质建模为文本嵌入空间中的线性方向从而实现自动化、连续的Agent技能更新评估。核心贡献特质方向测量通过线性模型将文本Diff映射到连续特质空间实现精准测量高准确率验证在“数据寻求”特质上达到91.2%分类准确率与0.82斯皮尔曼相关系数去中心化评估协议设计Agent-to-Agent评估协议通过可信第三方中介实现无需直接信任的评估 方法论嵌入空间中的特质向量核心概念将Agent特质定义为文本嵌入空间中的方向向量。与直接评分整个文件不同该方法计算**“Before”与“After”版本的Diff向量**来隔离与特质相关的变更。训练管线步骤嵌入与归一化每个文件通过文本嵌入模型编码并归一化到单位长度计算Diff向量d̂ Ê(A_i) - Ê(B_i)A为更新后版本B为更新前版本岭回归拟合训练线性模型从归一化Diff向量到连续标签y ∈ [-1, 1]得到系数向量w即特质向量评分计算新编辑通过点积d̂ · w b计算标量分b为岭回归截距实现细节嵌入模型Qwen3-Embedding-8B4096维向量指令提示模板Represent this skill documentation for a security audit, focusing on whether it instructs the agent to retrieve, exfiltrate, or solicit credentials, secrets, tokens, or private user data.数据生成收集63个公开技能作为“Before”版本合成明确增加/减少特质的“After”版本。5个技能同时拥有两个版本产生68个带标签对标签生成连续标签缩放到[-1, 1]由LLMClaude Opus 4.6生成并人工审核 验证与结果指标结果分类准确率91.2%斯皮尔曼秩相关 (ρ)0.82交叉验证留一法LOOCV通过PRESS统计量验证基线对比YARA签名基线63.2%准确率依赖关键字/动词与敏感数据词邻近匹配前沿LLM基线GPT-5.4100%准确率权衡优势本文方法介于规则与LLM之间提供确定性、快速、可审计的评分无随机分割方差或LLM推理成本 Agent间评估协议该协议允许一个Agent在不直接信任或拥有入站端点的情况下评估另一个Agent的文本文件。参与角色Agent A请求方希望评估Agent B特质轨迹Agent B执行方包含待评估文件运行时服务器中介可信第三方调解评估与评分协议流程Agent A通过运行时服务器请求特质评估Agent B轮询任务接受并接收容器化可执行文件Agent B在本地运行可执行文件处理技能文件计算Diff向量并提交至服务器服务器应用特质向量计算标量分并将结果返回Agent A信任与连续性机制哈希链Agent B包含Before/After文件哈希Agent A引用前次After哈希确保跨评估连续性威胁模型支持协同部署。Agent B接收固定哈希评估器服务器控制特质向量与评分处理器。尚不支持伪造技能树或未评估文件 风险聚合与部署聚合启发式方法附录A将每技能Diff汇总为Agent级风险绝对特质水平跨连续提交时间累积特质DiffAgent风险公式R 1 - ∏(1 - p_i)其中p_i为每技能风险概率。为考虑使用频率差异应用加权几何平均R 1 - (∏(1 - p_i^(n_i))^(1/N))其中n_i为技能i的调用次数N Σn_i。低频使用技能贡献更少风险部署验证端到端测试使用Hermes Agent作为请求方与执行方成功标记当向技能添加大量SSH/VM配置功能时产生的特质漂移对于无历史版本的新技能推荐手动基线评审以避免空字符串嵌入伪影⚠️ 局限性与未来工作依赖文本嵌入空间的线性可分性假设复杂非线性的行为模式可能需更高维或非线性映射当前验证集中于“数据寻求”单一特质未来需扩展至多特质联合评估协议尚未处理“伪造技能树”如恶意技能伪装或无基线版本的情况需引入差分隐私与异常检测机制 实验步骤与资源下载环境配置# 克隆评估工具仓库gitclone https://github.com/tracking-agent-traits/eval_tool.gitcdeval_tool# 创建环境conda create-ntrait_evalpython3.10conda activate trait_eval# 安装依赖pipinstall-rrequirements.txt# 下载基础数据集bashscripts/download_data.sh运行评估# 运行特质向量训练python run_train.py--datasetlabeled_pairs.json--modelQwen3-Embedding-8B# 执行Agent间评估协议python run_protocol.py--agent_idA--intermediaryserver:8080# 生成风险聚合报告python risk_agg.py--configrisk_config.yaml--outputreport.html资源下载与验证# 下载预训练特质向量权重bashscripts/download_weights.sh--taskdata_seeking# 验证嵌入空间方向python validate_directions.py--vectortrait_vec.json--test_diffsdiff_set.json# 生成最终审计报告python generate_audit_report.py--inputagent_evaluations.json--outputaudit.pdf 专家总结本文提出了一种将Agent行为特质映射到文本嵌入空间方向的高效评估方法。其核心价值在于精准隔离变更通过“Before-After” Diff向量计算准确分离与目标特质相关的技能更新高效去中心化评估Agent间无需直接信任通过可信中介即可快速完成 trait 评估与评分风险聚合机制引入加权几何平均公式合理处理不同技能的使用频率差异避免低频高危技能被忽视可审计与确定性相比LLM推理或YARA规则该方法提供确定性、可解释且快速的评分输出该框架为动态演化中的AI Agent群体提供了可靠的“行为轨迹追踪”工具特别适用于安全审计、持续监控与自动化部署场景。
追踪适应性Agent的行为轨迹:嵌入空间中的特质向量评估方法
追踪适应性Agent的行为轨迹嵌入空间中的特质向量评估方法来源arXiv:2606.02536链接https://arxiv.org/html/2606.02536v1优化日期2026-06-01领域AI Agent评估、行为轨迹分析、文本嵌入空间、自动化审计 概述与核心贡献现代AI Agent高度依赖基于文本的配置/技能文件skill files来定义其行为轨迹。这些文件随时间演化直接改变Agent能力。本文提出了一种**追踪Agent特质Traits**的新方法将特质建模为文本嵌入空间中的线性方向从而实现自动化、连续的Agent技能更新评估。核心贡献特质方向测量通过线性模型将文本Diff映射到连续特质空间实现精准测量高准确率验证在“数据寻求”特质上达到91.2%分类准确率与0.82斯皮尔曼相关系数去中心化评估协议设计Agent-to-Agent评估协议通过可信第三方中介实现无需直接信任的评估 方法论嵌入空间中的特质向量核心概念将Agent特质定义为文本嵌入空间中的方向向量。与直接评分整个文件不同该方法计算**“Before”与“After”版本的Diff向量**来隔离与特质相关的变更。训练管线步骤嵌入与归一化每个文件通过文本嵌入模型编码并归一化到单位长度计算Diff向量d̂ Ê(A_i) - Ê(B_i)A为更新后版本B为更新前版本岭回归拟合训练线性模型从归一化Diff向量到连续标签y ∈ [-1, 1]得到系数向量w即特质向量评分计算新编辑通过点积d̂ · w b计算标量分b为岭回归截距实现细节嵌入模型Qwen3-Embedding-8B4096维向量指令提示模板Represent this skill documentation for a security audit, focusing on whether it instructs the agent to retrieve, exfiltrate, or solicit credentials, secrets, tokens, or private user data.数据生成收集63个公开技能作为“Before”版本合成明确增加/减少特质的“After”版本。5个技能同时拥有两个版本产生68个带标签对标签生成连续标签缩放到[-1, 1]由LLMClaude Opus 4.6生成并人工审核 验证与结果指标结果分类准确率91.2%斯皮尔曼秩相关 (ρ)0.82交叉验证留一法LOOCV通过PRESS统计量验证基线对比YARA签名基线63.2%准确率依赖关键字/动词与敏感数据词邻近匹配前沿LLM基线GPT-5.4100%准确率权衡优势本文方法介于规则与LLM之间提供确定性、快速、可审计的评分无随机分割方差或LLM推理成本 Agent间评估协议该协议允许一个Agent在不直接信任或拥有入站端点的情况下评估另一个Agent的文本文件。参与角色Agent A请求方希望评估Agent B特质轨迹Agent B执行方包含待评估文件运行时服务器中介可信第三方调解评估与评分协议流程Agent A通过运行时服务器请求特质评估Agent B轮询任务接受并接收容器化可执行文件Agent B在本地运行可执行文件处理技能文件计算Diff向量并提交至服务器服务器应用特质向量计算标量分并将结果返回Agent A信任与连续性机制哈希链Agent B包含Before/After文件哈希Agent A引用前次After哈希确保跨评估连续性威胁模型支持协同部署。Agent B接收固定哈希评估器服务器控制特质向量与评分处理器。尚不支持伪造技能树或未评估文件 风险聚合与部署聚合启发式方法附录A将每技能Diff汇总为Agent级风险绝对特质水平跨连续提交时间累积特质DiffAgent风险公式R 1 - ∏(1 - p_i)其中p_i为每技能风险概率。为考虑使用频率差异应用加权几何平均R 1 - (∏(1 - p_i^(n_i))^(1/N))其中n_i为技能i的调用次数N Σn_i。低频使用技能贡献更少风险部署验证端到端测试使用Hermes Agent作为请求方与执行方成功标记当向技能添加大量SSH/VM配置功能时产生的特质漂移对于无历史版本的新技能推荐手动基线评审以避免空字符串嵌入伪影⚠️ 局限性与未来工作依赖文本嵌入空间的线性可分性假设复杂非线性的行为模式可能需更高维或非线性映射当前验证集中于“数据寻求”单一特质未来需扩展至多特质联合评估协议尚未处理“伪造技能树”如恶意技能伪装或无基线版本的情况需引入差分隐私与异常检测机制 实验步骤与资源下载环境配置# 克隆评估工具仓库gitclone https://github.com/tracking-agent-traits/eval_tool.gitcdeval_tool# 创建环境conda create-ntrait_evalpython3.10conda activate trait_eval# 安装依赖pipinstall-rrequirements.txt# 下载基础数据集bashscripts/download_data.sh运行评估# 运行特质向量训练python run_train.py--datasetlabeled_pairs.json--modelQwen3-Embedding-8B# 执行Agent间评估协议python run_protocol.py--agent_idA--intermediaryserver:8080# 生成风险聚合报告python risk_agg.py--configrisk_config.yaml--outputreport.html资源下载与验证# 下载预训练特质向量权重bashscripts/download_weights.sh--taskdata_seeking# 验证嵌入空间方向python validate_directions.py--vectortrait_vec.json--test_diffsdiff_set.json# 生成最终审计报告python generate_audit_report.py--inputagent_evaluations.json--outputaudit.pdf 专家总结本文提出了一种将Agent行为特质映射到文本嵌入空间方向的高效评估方法。其核心价值在于精准隔离变更通过“Before-After” Diff向量计算准确分离与目标特质相关的技能更新高效去中心化评估Agent间无需直接信任通过可信中介即可快速完成 trait 评估与评分风险聚合机制引入加权几何平均公式合理处理不同技能的使用频率差异避免低频高危技能被忽视可审计与确定性相比LLM推理或YARA规则该方法提供确定性、可解释且快速的评分输出该框架为动态演化中的AI Agent群体提供了可靠的“行为轨迹追踪”工具特别适用于安全审计、持续监控与自动化部署场景。