如果说过去十年的人工智能主要在解决“看得见的问题”——识别图像、理解文本、生成语言那么未来几年的 AI将不得不面对一个更棘手、更人性化的挑战——理解人类行为本身。01 AI为什么需要理解“人类行为”所谓“人类行为”并不是简单的动作识别而是隐藏在语言、语音、表情、姿态背后的心理与社会信号。 一个人说“我没事”的语气是否真的没事 一个微笑是礼貌性的还是掩饰性的 一句话背后的意图是合作、讽刺还是试探 一个人的语速、语调、面部肌肉是否透露出焦虑或抑郁这些问题恰恰是 AI 想要真正融入社会、理解人类、与人共存所必须跨越的门槛。然而心理与社会行为的理解远比语言理解或视觉识别复杂得多。心理与社会行为理解的长期挑战首先行为本身是多维度的 情绪、认知、病理、社会互动每一类都像是一个独立的宇宙内部有自己的理论体系、标签体系、数据采集方式。其次行为信号是多模态的。 语言、语音、视觉每一种模态都承载着不同的信息 语音透露情绪强度面部揭示微表情语言表达意图而姿态则暗示社交态度。更麻烦的是这些模态之间并不总是同步的。 一个人可能嘴上说“我很开心”但语调低沉、眼神躲闪、姿态收缩。 AI 要理解这种“跨模态冲突”难度可想而知。第三现有模型大多是单任务、单数据集训练出来的。 一个模型做情绪识别一个模型做讽刺检测一个模型做抑郁预测。 这导致整个领域呈现出一种“碎片化生态”—— 每个任务都像一座孤岛模型之间无法共享知识数据之间无法互通。这就像让 AI 学习人类行为却只给它看“局部切片”永远无法看到完整的行为全景。研究缺口缺乏统一的行为理解基准当研究者试图构建一个“行为基础模型”Behavioral Foundation Model时他们会立刻撞上四面墙。数据格式不统一 有的给原始视频有的只给提取好的特征有的甚至只有文本。标签体系不一致 “快乐”与“喜悦”算不算同一个标签 “惊讶”要不要分成正向惊讶和负向惊讶评估指标不兼容 同样是情绪识别有的用加权准确率有的用 F1有的用多标签指标。模型难以跨任务迁移 在讽刺检测上训练的模型几乎无法迁移到幽默识别或抑郁预测。换句话说整个领域缺少一个“ImageNet 时刻”—— 一个能统一任务、统一格式、统一评估的基准体系。HUMAN BEHAVIOR ATLAS构建统一的心理与社会行为图谱在这样的背景下MIT 主导的研究团队提出了HUMAN BEHAVIOR ATLASHBA。它的目标非常明确为心理与社会行为理解构建一个真正意义上的统一基准。它的贡献也非常直接。数据统一 13 个数据集被重新整理成一致的 prompt–target 格式。任务统一 10 类行为任务被纳入同一框架。评估统一 所有任务都采用标准化指标确保跨数据集可比。模型统一 基于 HBA 训练的 OMNISAPIENS-7B首次实现了“行为基础模型”的雏形。这不仅是一个数据集更是一套完整的行为理解范式。这项工作背后是一个横跨 MIT、NUS、Harvard、Imperial、NTU 的国际团队。MIT 负责多模态行为建模是 MOSEI/MOSI 等经典数据集的原班人马 NTU 的 Erik Cambria 是全球情感计算领域的领军人物 NUS 和 Imperial 提供复杂系统建模与视觉行为分析的技术支撑 Harvard 则补上了心理学与社会行为理论的底层逻辑。研究论文最终被 ICLR 2026 收录这本身就说明了社区对“行为基础模型”方向的认可。02 心理行为计算的碎片化现状在理解 HBA 的意义之前我们需要先回头看看这个领域的现状。 心理行为计算并不是一个新领域但它长期以来呈现出一种“碎片化发展”的状态。情绪计算从面部动作到情绪维度情绪计算是最早发展起来的分支之一。 从 Ekman 的面部动作单元AU到六大基本情绪再到二维情绪空间valence–arousal研究者试图用各种方式量化情绪。典型任务包括情绪识别anger, joy, sadness 情感极性分析positive / negative / neutral。但问题在于不同数据集的情绪标签体系完全不同甚至同一个情绪在不同语境下含义也不同。认知状态建模隐藏在行为背后的“心智活动”认知状态更难。 注意力、惊讶、意图、决策这些状态往往不是直接表达出来的而是通过外部行为推断的。例如 一个人突然抬头、瞳孔放大可能意味着惊讶 一个人语速变慢、停顿增多可能意味着思考或犹豫。认知状态的隐性特征使得模型难以直接学习。心理病理识别从语音、语言到微表情抑郁、焦虑、PTSD 等病理状态是心理行为计算中最敏感、最复杂的任务。它们往往依赖语音特征pitch、energy、 语言内容负性表达、认知扭曲、 面部微表情肌肉僵硬、情绪平淡。但这些数据集通常规模小、标签稀缺、采集方式不一致导致模型难以泛化。社会行为理解AI 最难攻克的“语用层”幽默、讽刺、社交判断、意图识别这些任务涉及语用学、社会心理学、文化背景。一句话是否讽刺往往取决于语气、上下文、表情、文化语境、说话者关系。这类任务对 AI 来说极具挑战性因为它们需要跨模态推理与社会常识。共同问题碎片化的生态阻碍了统一模型的诞生尽管这些方向都取得了进展但它们有一个共同的问题数据集各自为政 模态不一致有的给 raw有的给 feature 标签体系不兼容 评估指标不统一 模型无法跨任务迁移。这就像让 AI 学习人类行为却只给它看“不同风格的教材”甚至连考试标准都不一样。在这样的生态下构建一个“统一的行为基础模型”几乎是不可能的。03 人类行为图谱HBA统一心理与社会行为的基准体系当研究者第一次试图把“心理行为”与“社会行为”放进同一个框架时他们面对的不是一个任务而是一整个生态系统。情绪、认知、病理、社交互动这些维度之间既相互关联又彼此独立像是四条并行却不断交叉的河流。HUMAN BEHAVIOR ATLASHBA做的第一件事就是为这片混乱的行为丛林建立一套清晰的地图。图1人类行为ATLAS概述。a数据集的选择标准和预处理管道。b 数据集分布在10个与行为相关的任务中。内圈表示输入数据的模态组合其中T文本A音频V视频。中间环描述了数据集的任务如第3.1节所定义。外圈和条形图分别列出了数据集及其样本量。c数据模式的分布。我们的数据集侧重于视频理解因为它包括视觉和音频模态83.6%的样本包含视频数据。d样本持续时间的分布。涵盖了短视频和长视频/音频任务29.2%的视频/音频片段持续时间超过20秒。e数据集来源。数据集来自北美、欧洲和亚洲的不同地理区域。这张地图的核心是四大行为维度。四大行为维度理解人类行为的基础坐标系在 HBA 的设计中所有行为都被归入四个顶层维度它们构成了整个基准体系的“心理坐标系”。Affective情绪这是最直观的维度也是人类行为中最容易被感知的一层。愤怒、喜悦、悲伤、恐惧这些情绪往往通过语气、表情、姿态直接表现出来。情绪是行为的“表层信号”但也是最容易被误读的部分。Cognitive认知认知状态更隐蔽它不是“表现出来的”而是“推断出来的”。注意力、惊讶、意图、推理这些状态往往藏在微妙的行为变化中。认知维度让 AI 不只是“看见”而是“理解”。Pathology病理病理维度涉及心理健康抑郁、焦虑、PTSD 等。这类状态往往通过语速、语调、语言内容、面部肌肉的细微变化表现出来。它是最敏感、最复杂、最需要谨慎处理的维度。Social社会过程社会行为是 AI 最难攻克的部分。幽默、讽刺、社交判断、合作意图这些行为依赖语用学、文化背景、社会常识。它们不是“信号”而是“语境”。这四大维度共同构成了 HBA 的行为宇宙。任何一个行为任务都可以在这四个维度中找到自己的位置。十类行为任务从情绪到讽刺的全谱系覆盖在四大维度之上HBA 进一步定义了十类具体任务覆盖了心理与社会行为的主流研究方向。情绪识别EMO识别愤怒、喜悦、悲伤等具体情绪是情绪计算的基础任务。情感极性SEN判断一句话是正向、负向还是中性是 NLP 中最经典的任务之一。社会推理SOC理解一个行为是否得体、是否具有社交意义是 AI 社会智能的关键。意图识别INT判断说话者的目的是合作、拒绝、试探还是暗示。非语言交流NVC通过姿态、手势、表情理解行为是视觉行为分析的核心。幽默HUM识别幽默需要跨模态推理与文化理解是 AI 的“高难度动作”。讽刺SAR讽刺往往是“反向表达”需要理解语境与语气是语用学的典型难题。焦虑ANX通过语言与语音识别焦虑状态是心理病理建模的重要方向。抑郁DEP抑郁识别依赖语音平淡、语言负性、面部僵硬等多模态信号。PTSDPTSDPTSD 的行为特征更隐蔽需要跨模态细粒度分析。这十类任务覆盖了从“情绪表层”到“深层心理”再到“社会语用”的完整行为谱系。13个多模态数据集构建统一行为图谱的原材料为了让模型真正理解这些行为HBA 汇集了来自全球的 13 个公开数据集覆盖文本、语音、视频三大模态。整个基准包含101,964个统一样本其中83.6%包含视频模态这意味着 HBA 不只是语言模型的 playground而是一个真正的多模态行为理解平台。这些数据集来自北美、欧洲、亚洲涵盖不同文化、不同语言、不同场景让模型能够学习到更具普适性的行为模式。从 MELD 的多方对话到 MOSEI 的情绪表达从 Social-IQ 的社交推理到 DAIC-WOZ 的抑郁访谈再到 PTSD-in-the-Wild 的真实场景视频HBA 的数据覆盖范围几乎囊括了心理与社会行为研究的主流任务。这也是为什么它被称为“人类行为图谱”。04 统一数据格式Prompt–Target Schema 的设计逻辑如果说 HBA 的数据集是原材料那么 Prompt–Target Schema 就是把这些原材料加工成“模型能吃的格式”的关键步骤。在多模态 LLM 时代统一格式不是锦上添花而是基础设施。为什么要统一格式多模态 LLM 的输入接口是统一的但现实中的行为数据集却是“百花齐放”有的给原始视频有的只给提取好的特征 有的给完整转录有的没有文本 有的任务是分类有的是生成 有的标签是三类有的是五类。如果不统一格式模型根本无法在同一个训练框架下处理这些任务。HBA 的目标是让所有行为任务都能被同一个模型理解、学习、推理。Prompt设计原则让模型知道“你要我做什么”HBA 的 Prompt 设计遵循三个原则。显式引用模态例如 、、文本转录 让模型明确知道输入包含哪些信号。包含文本转录即便任务主要依赖视频或音频文本转录仍然是重要的语义补充。任务指令化Prompt 采用 instruction-style让模型知道任务目标是什么例如 “请判断该说话者的情绪” “请识别该段视频中的意图”这种设计让模型能够在统一框架下处理不同任务。Target设计原则让模型知道“你要我输出什么”HBA 将所有任务的输出统一为两种形式。分类任务 → 离散标签如 Positive / Negative / Neutral、Angry / Happy / Sad生成任务 → 自由文本如社会推理、意图识别、非语言交流解释连续量表 → 离散化例如 PHQ-9 的抑郁评分被转换为“抑郁 / 非抑郁”类别这种统一让模型能够在同一训练循环中处理不同类型的任务。统一格式的意义让模型具备“行为基础能力”Prompt–Target Schema 的真正价值在于它让所有行为任务都能被同一个模型处理 它让模型能够跨任务共享知识 它让行为理解从“单点能力”变成“基础能力”换句话说HBA 不只是一个数据集而是一套让模型“学会理解人类行为”的训练语言。这也是行为基础模型Behavioral Foundation Model能够成立的前提。05 统一评估体系跨数据集的可比性如果说 HUMAN BEHAVIOR ATLASHBA解决了“行为数据从哪里来”的问题那么统一评估体系解决的就是“这些行为到底该怎么评”。在心理与社会行为研究中评估从来不是一个简单的数字游戏。不同数据集有不同的标签体系不同任务有不同的评价标准甚至同一个任务在不同论文中也可能采用完全不同的指标。这就像让一群学生参加不同风格的考试有的考选择题、有的考问答、有的考口语然后你还要把他们的成绩放在一起比较——这几乎是不可能的。 HBA 的出现就是要把这件“不可能的事”变成“可操作的标准”。表1将MELD样本转换为统一提示目标格式的示例。评估指标统一让所有任务说同一种“评价语言”HBA 的第一步是把所有任务的评估指标统一到一个可比较的体系中。对于情感极性SEN采用的是二元加权F1。 这是因为不同数据集的情感标签体系差异巨大有的三类、有的五类、有的甚至不包含中性。加权 F1 能更公平地衡量正负情绪的识别能力。对于情绪识别EMO采用的是类别加权准确率均值。 情绪类别往往不平衡比如“愤怒”比“喜悦”更常见或者“悲伤”比“惊讶”更容易被标注。加权准确率能避免模型只预测“大类”而忽略“小类”。对于病理类任务ANX、DEP、PTSD统一采用加权F1。 心理病理数据集通常规模小、类别不平衡F1 是最稳健的指标。对于生成类任务SOC、INT、NVCHBA 引入了LLM judge。 这意味着模型的输出不是简单的“对/错”而是由一个更强的语言模型来判断其语义是否与参考答案一致。 这是一种更贴近真实语义理解的评估方式也更符合行为任务的复杂性。统一指标的意义在于 无论任务来自哪个数据集、采用哪种模态、属于哪种行为维度它们最终都能在同一个评价体系下被比较。标签体系统一让行为标签更符合心理学与语用学逻辑除了评估指标HBA 还对标签体系进行了统一处理。例如joy与happiness被合并为同一类。 这在心理学中本来就是同义情绪但不同数据集却把它们分开导致模型难以学习一致的情绪概念。又比如surprise被拆分为positive surprise与negative surprise。 因为“惊讶”本身是中性的但在行为分析中正向惊讶惊喜与负向惊讶震惊在语音、表情、语境上完全不同。这种标签统一让模型学习到的情绪概念更加贴近真实世界而不是被数据集的历史遗留问题所限制。统一评估的价值让行为理解真正可比较、可扩展、可复用统一评估体系带来的价值是巨大的。它让模型性能可以横向比较。 过去不同论文之间的结果无法直接对比现在所有任务都在同一指标体系下评估模型的优劣一目了然。它让行为任务具备共同的评价标准。 这意味着未来的新数据集、新任务、新模型都可以无缝接入 HBA 的评估框架。它让行为理解从“各自为政”走向“统一生态”。 这正是构建行为基础模型的关键一步。06 行为描述符Behavioral Descriptors细粒度行为信号的引入如果说多模态数据是行为理解的“原材料”那么行为描述符就是“精炼后的特征层”。 它们捕捉的是那些肉眼难以察觉、但对心理与社会行为极其关键的细粒度信号。为什么需要描述符原始视频和音频虽然信息丰富但也非常“粗糙”。 微表情、肌肉细微运动、声学变化、语音能量波动这些信号往往隐藏在毫秒级的变化中模型很难直接从原始模态中捕捉。尤其是在讽刺、焦虑、非语言交流等任务中这些细节往往决定了行为的真实含义。例如 讽刺往往伴随轻微的语调上扬、短暂的停顿、微妙的表情变化 焦虑可能表现为语速加快、能量不稳定、面部肌肉紧绷 非语言交流依赖姿态、手势、眼神方向等细节。这些信号如果不被显式提取模型很容易“听懂了词却读不懂人”。描述符来源从面部到声学的多层次行为特征HBA 引入了三类行为描述符MediaPipe 用于提取面部关键点、身体姿态关键点。 它能捕捉微表情、姿态变化、手势等视觉行为信号。OpenSMILE 用于提取声学特征如 pitch、energy、spectral。 它能捕捉语音中的情绪强度、紧张程度、语调变化。Whisper v3 用于自动生成文本转录。 在缺少人工转录的数据集中它提供了可靠的语义基础。这些描述符共同构成了一个“行为特征层”让模型能够从更细致的角度理解人类行为。描述符的作用让模型真正“看见”行为细节行为描述符的引入带来了显著的性能提升尤其是在细粒度任务上。例如 非语言交流NVC、 讽刺SAR、 幽默HUM、 抑郁DEP。这些任务高度依赖微妙的行为信号而描述符恰好提供了这些信号的结构化表达。描述符让模型不仅能“看见视频、听见语音”还能“理解行为的细节”。 这就像给模型加上了“行为显微镜”。07 OMNISAPIENS-7B基于HBA的行为基础模型当 HUMAN BEHAVIOR ATLAS 把心理与社会行为的“地图”铺开之后下一步就是 谁来读懂这张地图MIT 团队给出的答案是一个专门为行为理解而生的多模态大模型——OMNISAPIENS-7B。 它不是一个通用 LLM 的简单微调版本而是一个真正意义上“以人类行为为中心”的基础模型。它的设计思路很明确 让模型不仅能“看见”视频、听懂语音、理解文本还能跨模态推断情绪、识别意图、判断社交行为甚至捕捉心理病理信号。为了实现这一点研究团队构建了三个版本SFT、BAM、RL。 它们像是三种不同风格的“行为专家”各自擅长不同类型的任务。图2每个模型的多任务结果。每个结果都报告了该任务所有数据集的平均得分。从最佳到最差深绿色→ 黄色→ 深红色。在人类行为ATLAS上训练后OMNISAPIENS-7B SFTRL在大多数行为任务中表现优于现有的预训练模型SFT版本统一多模态行为模型的基础形态SFTSupervised Fine-Tuning版本是 OMNISAPIENS-7B 的“主力军”。 它以Qwen2.5-Omni为骨架继承了强大的多模态编码能力。模型的结构非常清晰多模态编码器负责把文本、语音、视频统一投影到同一个语义空间。分类头用于处理情绪识别、情感极性、病理检测等离散任务。生成头用于处理社会推理、意图识别、非语言交流等开放式任务。换句话说SFT 是一个“全能型行为理解模型”能够覆盖 HBA 的全部 10 类任务。 它的目标不是在某个任务上做到极致而是在所有任务上保持稳定、可靠、可泛化的表现。这也是行为基础模型的核心价值 不是单点突破而是整体能力的统一。BAM版本行为描述符的残差适配器让模型“看见细节”如果说 SFT 是“通才”那么 BAMBehavioral Adapter Module就是“细节专家”。BAM 的设计非常巧妙 它不改变模型的 backbone而是在 backbone 之外加了一个轻量级的残差适配器。流程大致如下行为描述符MediaPipe OpenSMILE → 经过 FFN小型前馈网络 → 生成一个残差向量 → 注入到模型的倒数第二层隐藏状态h_penult这种设计有两个关键优势它不会破坏原有表示 backbone 是冻结的模型不会因为加入描述符而“遗忘”原本的能力。图3MUStARD的例子演讲者钱德勒来自《老友记》讽刺地建议安装阳台灯。虽然Qwen2.5 Omni-7B预测没有讽刺但OMNISAPIENS-7B SFT正确地将该实例识别为讽刺。它能显著提升细粒度任务 尤其是那些依赖微表情、声学特征、姿态变化的任务例如 非语言交流NVC 讽刺SAR 幽默HUM 抑郁DEPBAM 的存在让模型不仅能“理解行为”还能“捕捉行为细节”。 这就像给模型加了一副“行为显微镜”。RL版本基于GRPO的统一生成模型RLReinforcement Learning版本则是另一种思路 把所有任务都统一为“生成任务”。无论是情绪识别、意图判断还是社交推理模型最终都输出一段文本由 LLM judge 来评估其正确性。训练采用 GRPOGroup Relative Policy Optimization奖励包含正确性模型输出是否与参考答案一致。格式输出是否符合任务要求。语义相似度输出与参考答案的语义距离。这种训练方式让RL 版本在开放式任务上表现尤为突出例如社会推理SOC、 意图识别INT、 非语言交流NVC。它更像一个“行为解释专家”擅长生成自然、连贯、语义丰富的行为分析。表2按行为任务标题和相关数据集子标题分组的结果。最佳结果以粗体显示次佳结果以下划线显示。根据统一的度量我们对SEN使用二进制加权F1EMO的平均每类加权精度HUM、SAR、ANX、DEP、PTSD的加权F1以及SOC、INT、NVC的LLM判断精度。*MMPSY仅使用文本输入不包括BAM由于保留了主干结果与OMNISAPIENS-7B SFT相当。08 实验结果统一行为基准的价值验证HBA 的意义不仅体现在数据和模型设计上更体现在实验结果中。 这些结果清晰地展示了 统一行为基准 多模态行为模型 行为理解能力的质变。图4:CH-SIMSv2数据集中的示例说话者短暂地展示了一个瞬间的微笑表示积极的情绪。虽然OMNISAPIENS-7B SFT错过了微妙的线索并预测了负面情绪但OMNISAPIINS-7B BAM正确地预测了正面情绪。多任务性能全面超越现有多模态 LLM在 10 个行为任务中OMNISAPIENS-7B 在8个任务上领先。SFT 稳定、全面 BAM 在细粒度任务上大幅提升 RL 在开放式任务上表现最佳这说明行为基础模型不是“单点突破”而是“整体提升”。迁移学习对未见任务显著提升更令人惊喜的是OMNISAPIENS-7B 在未见数据集上的迁移能力非常强。例如SEN情感极性18.3% DEP抑郁检测29.4% SAR讽刺识别39.1%这意味着模型不仅能在训练任务上表现优秀还能迁移到新的行为任务上。 这正是“基础模型”的核心特征。BAM的任务特性分析细节任务的“加速器”BAM 的提升具有明显的任务特性显著提升的任务 NVC非语言交流 SAR讽刺HUM幽默 DEP抑郁这些任务都依赖细粒度行为信号。提升有限的任务 SOC社会推理 INT意图识别这些任务更依赖语言语义与语用推理而非微表情或声学特征。这说明 BAM 的作用非常明确 它是“细节任务的加速器”。定性案例模型真正“理解行为”的瞬间研究团队中展示了几个非常典型的案例。讽刺识别 原始模型误判为“非讽刺”但BAM 版本捕捉到语调与表情的微妙变化成功识别讽刺。微表情情绪识别 SFT 版本忽略了细微的嘴角上扬而 BAM 版本成功识别出“正向情绪”。社会推理 RL 版本生成的解释更自然、更贴近人类判断。这些案例说明 OMNISAPIENS-7B 不只是“做对题”而是真正“理解行为”。09 迈向“行为基础模型”的关键一步当我们回望过去十年 AI 的发展轨迹会发现一个清晰的趋势模型从“任务专家”走向“通用基础模型”。 语言领域有 GPT、LLaMA视觉领域有CLIP、DINO多模态领域有 Gemini、Qwen-Omni。 但在心理与社会行为理解这个更贴近人类、更复杂、更具语境性的领域长期以来却缺少一个真正意义上的“基础模型”。HUMAN BEHAVIOR ATLASHBA和 OMNISAPIENS-7B 的出现正是在填补这一空白。 它们不仅是一个数据集和一个模型更像是为“行为智能”奠定基础设施的第一代工程。行为理解的统一范式从碎片化到统一图谱过去的行为研究像是一堆散落的拼图 情绪识别是一块意图识别是一块讽刺检测是一块抑郁预测又是一块。 每一块都有人在做但没有人把它们拼在一起。HBA 做的就是把这些碎片重新组合成一张完整的“行为图谱”。从碎片化任务 → 统一行为图谱 从单任务模型 → 行为基础模型这意味着模型不再是“只会做一件事的专家”而是能够跨任务、跨模态、跨维度理解人类行为的“通才”。 这也是 AI 从“工具”走向“伙伴”的关键一步。对未来研究的启示行为智能的时代正在到来HBA 的提出不只是为了训练一个模型而是在为未来十年的行为智能研究定方向。多模态行为预训练将成为新趋势 就像语言模型需要大规模语料行为模型也需要大规模行为数据。 HBA 是第一步但未来一定会出现更大、更丰富、更真实的行为预训练数据。行为描述符将成为关键增强模块 MediaPipe、OpenSMILE、Whisper v3 只是开始。 未来会有更多“行为特征层”加入模型例如 眼动追踪、肌电信号、生理数据、社交图谱…… 行为理解将从“看见”走向“感知”。统一评估体系将推动社区标准化 HBA 的评估框架将成为行为研究的“共同语言”。 未来的新任务、新数据集、新模型都可以无缝接入这一体系。这意味着行为智能将从“各自为政”走向“统一生态”。潜在应用行为基础模型的现实价值当 AI 能够理解人类行为它的应用边界将被彻底重写。心理健康评估 通过语音、语言、表情识别抑郁、焦虑、PTSD辅助临床筛查。社会机器人 让机器人真正理解人类的情绪、意图、社交信号而不是机械回应。教育与认知监测 识别学生的注意力、理解程度、情绪状态提供个性化教学反馈。安全与风险识别 在驾驶、工业、医疗等场景中识别疲劳、紧张、风险行为。多模态人机交互 让 AI 不只是“听懂话”而是“读懂人”。这些应用的共同点是 它们都需要 AI 理解“人类行为”这一最复杂、最人性化的信号。END参考资料https://arxiv.org/pdf/2510.04899关于波动智能——波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系融合人工智能与意识科学构建覆盖情绪识别、建模与推荐的智能引擎自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构赋能企业实现更高效的用户洞察与精准情绪交互推动从功能驱动到意图驱动的产业范式升级。亲爱的人工智能研究者为了确保您不会错过*波动智能*的最新推送请星标*波动智能*。我们倾心打造并精选每篇内容只为为您带来启发和深思希望能成为您理性思考路上的伙伴加入AI交流群请扫码加微信
人类行为图谱:麻省理工领衔发布统一心理与社会行为理解的多模态基准体系
如果说过去十年的人工智能主要在解决“看得见的问题”——识别图像、理解文本、生成语言那么未来几年的 AI将不得不面对一个更棘手、更人性化的挑战——理解人类行为本身。01 AI为什么需要理解“人类行为”所谓“人类行为”并不是简单的动作识别而是隐藏在语言、语音、表情、姿态背后的心理与社会信号。 一个人说“我没事”的语气是否真的没事 一个微笑是礼貌性的还是掩饰性的 一句话背后的意图是合作、讽刺还是试探 一个人的语速、语调、面部肌肉是否透露出焦虑或抑郁这些问题恰恰是 AI 想要真正融入社会、理解人类、与人共存所必须跨越的门槛。然而心理与社会行为的理解远比语言理解或视觉识别复杂得多。心理与社会行为理解的长期挑战首先行为本身是多维度的 情绪、认知、病理、社会互动每一类都像是一个独立的宇宙内部有自己的理论体系、标签体系、数据采集方式。其次行为信号是多模态的。 语言、语音、视觉每一种模态都承载着不同的信息 语音透露情绪强度面部揭示微表情语言表达意图而姿态则暗示社交态度。更麻烦的是这些模态之间并不总是同步的。 一个人可能嘴上说“我很开心”但语调低沉、眼神躲闪、姿态收缩。 AI 要理解这种“跨模态冲突”难度可想而知。第三现有模型大多是单任务、单数据集训练出来的。 一个模型做情绪识别一个模型做讽刺检测一个模型做抑郁预测。 这导致整个领域呈现出一种“碎片化生态”—— 每个任务都像一座孤岛模型之间无法共享知识数据之间无法互通。这就像让 AI 学习人类行为却只给它看“局部切片”永远无法看到完整的行为全景。研究缺口缺乏统一的行为理解基准当研究者试图构建一个“行为基础模型”Behavioral Foundation Model时他们会立刻撞上四面墙。数据格式不统一 有的给原始视频有的只给提取好的特征有的甚至只有文本。标签体系不一致 “快乐”与“喜悦”算不算同一个标签 “惊讶”要不要分成正向惊讶和负向惊讶评估指标不兼容 同样是情绪识别有的用加权准确率有的用 F1有的用多标签指标。模型难以跨任务迁移 在讽刺检测上训练的模型几乎无法迁移到幽默识别或抑郁预测。换句话说整个领域缺少一个“ImageNet 时刻”—— 一个能统一任务、统一格式、统一评估的基准体系。HUMAN BEHAVIOR ATLAS构建统一的心理与社会行为图谱在这样的背景下MIT 主导的研究团队提出了HUMAN BEHAVIOR ATLASHBA。它的目标非常明确为心理与社会行为理解构建一个真正意义上的统一基准。它的贡献也非常直接。数据统一 13 个数据集被重新整理成一致的 prompt–target 格式。任务统一 10 类行为任务被纳入同一框架。评估统一 所有任务都采用标准化指标确保跨数据集可比。模型统一 基于 HBA 训练的 OMNISAPIENS-7B首次实现了“行为基础模型”的雏形。这不仅是一个数据集更是一套完整的行为理解范式。这项工作背后是一个横跨 MIT、NUS、Harvard、Imperial、NTU 的国际团队。MIT 负责多模态行为建模是 MOSEI/MOSI 等经典数据集的原班人马 NTU 的 Erik Cambria 是全球情感计算领域的领军人物 NUS 和 Imperial 提供复杂系统建模与视觉行为分析的技术支撑 Harvard 则补上了心理学与社会行为理论的底层逻辑。研究论文最终被 ICLR 2026 收录这本身就说明了社区对“行为基础模型”方向的认可。02 心理行为计算的碎片化现状在理解 HBA 的意义之前我们需要先回头看看这个领域的现状。 心理行为计算并不是一个新领域但它长期以来呈现出一种“碎片化发展”的状态。情绪计算从面部动作到情绪维度情绪计算是最早发展起来的分支之一。 从 Ekman 的面部动作单元AU到六大基本情绪再到二维情绪空间valence–arousal研究者试图用各种方式量化情绪。典型任务包括情绪识别anger, joy, sadness 情感极性分析positive / negative / neutral。但问题在于不同数据集的情绪标签体系完全不同甚至同一个情绪在不同语境下含义也不同。认知状态建模隐藏在行为背后的“心智活动”认知状态更难。 注意力、惊讶、意图、决策这些状态往往不是直接表达出来的而是通过外部行为推断的。例如 一个人突然抬头、瞳孔放大可能意味着惊讶 一个人语速变慢、停顿增多可能意味着思考或犹豫。认知状态的隐性特征使得模型难以直接学习。心理病理识别从语音、语言到微表情抑郁、焦虑、PTSD 等病理状态是心理行为计算中最敏感、最复杂的任务。它们往往依赖语音特征pitch、energy、 语言内容负性表达、认知扭曲、 面部微表情肌肉僵硬、情绪平淡。但这些数据集通常规模小、标签稀缺、采集方式不一致导致模型难以泛化。社会行为理解AI 最难攻克的“语用层”幽默、讽刺、社交判断、意图识别这些任务涉及语用学、社会心理学、文化背景。一句话是否讽刺往往取决于语气、上下文、表情、文化语境、说话者关系。这类任务对 AI 来说极具挑战性因为它们需要跨模态推理与社会常识。共同问题碎片化的生态阻碍了统一模型的诞生尽管这些方向都取得了进展但它们有一个共同的问题数据集各自为政 模态不一致有的给 raw有的给 feature 标签体系不兼容 评估指标不统一 模型无法跨任务迁移。这就像让 AI 学习人类行为却只给它看“不同风格的教材”甚至连考试标准都不一样。在这样的生态下构建一个“统一的行为基础模型”几乎是不可能的。03 人类行为图谱HBA统一心理与社会行为的基准体系当研究者第一次试图把“心理行为”与“社会行为”放进同一个框架时他们面对的不是一个任务而是一整个生态系统。情绪、认知、病理、社交互动这些维度之间既相互关联又彼此独立像是四条并行却不断交叉的河流。HUMAN BEHAVIOR ATLASHBA做的第一件事就是为这片混乱的行为丛林建立一套清晰的地图。图1人类行为ATLAS概述。a数据集的选择标准和预处理管道。b 数据集分布在10个与行为相关的任务中。内圈表示输入数据的模态组合其中T文本A音频V视频。中间环描述了数据集的任务如第3.1节所定义。外圈和条形图分别列出了数据集及其样本量。c数据模式的分布。我们的数据集侧重于视频理解因为它包括视觉和音频模态83.6%的样本包含视频数据。d样本持续时间的分布。涵盖了短视频和长视频/音频任务29.2%的视频/音频片段持续时间超过20秒。e数据集来源。数据集来自北美、欧洲和亚洲的不同地理区域。这张地图的核心是四大行为维度。四大行为维度理解人类行为的基础坐标系在 HBA 的设计中所有行为都被归入四个顶层维度它们构成了整个基准体系的“心理坐标系”。Affective情绪这是最直观的维度也是人类行为中最容易被感知的一层。愤怒、喜悦、悲伤、恐惧这些情绪往往通过语气、表情、姿态直接表现出来。情绪是行为的“表层信号”但也是最容易被误读的部分。Cognitive认知认知状态更隐蔽它不是“表现出来的”而是“推断出来的”。注意力、惊讶、意图、推理这些状态往往藏在微妙的行为变化中。认知维度让 AI 不只是“看见”而是“理解”。Pathology病理病理维度涉及心理健康抑郁、焦虑、PTSD 等。这类状态往往通过语速、语调、语言内容、面部肌肉的细微变化表现出来。它是最敏感、最复杂、最需要谨慎处理的维度。Social社会过程社会行为是 AI 最难攻克的部分。幽默、讽刺、社交判断、合作意图这些行为依赖语用学、文化背景、社会常识。它们不是“信号”而是“语境”。这四大维度共同构成了 HBA 的行为宇宙。任何一个行为任务都可以在这四个维度中找到自己的位置。十类行为任务从情绪到讽刺的全谱系覆盖在四大维度之上HBA 进一步定义了十类具体任务覆盖了心理与社会行为的主流研究方向。情绪识别EMO识别愤怒、喜悦、悲伤等具体情绪是情绪计算的基础任务。情感极性SEN判断一句话是正向、负向还是中性是 NLP 中最经典的任务之一。社会推理SOC理解一个行为是否得体、是否具有社交意义是 AI 社会智能的关键。意图识别INT判断说话者的目的是合作、拒绝、试探还是暗示。非语言交流NVC通过姿态、手势、表情理解行为是视觉行为分析的核心。幽默HUM识别幽默需要跨模态推理与文化理解是 AI 的“高难度动作”。讽刺SAR讽刺往往是“反向表达”需要理解语境与语气是语用学的典型难题。焦虑ANX通过语言与语音识别焦虑状态是心理病理建模的重要方向。抑郁DEP抑郁识别依赖语音平淡、语言负性、面部僵硬等多模态信号。PTSDPTSDPTSD 的行为特征更隐蔽需要跨模态细粒度分析。这十类任务覆盖了从“情绪表层”到“深层心理”再到“社会语用”的完整行为谱系。13个多模态数据集构建统一行为图谱的原材料为了让模型真正理解这些行为HBA 汇集了来自全球的 13 个公开数据集覆盖文本、语音、视频三大模态。整个基准包含101,964个统一样本其中83.6%包含视频模态这意味着 HBA 不只是语言模型的 playground而是一个真正的多模态行为理解平台。这些数据集来自北美、欧洲、亚洲涵盖不同文化、不同语言、不同场景让模型能够学习到更具普适性的行为模式。从 MELD 的多方对话到 MOSEI 的情绪表达从 Social-IQ 的社交推理到 DAIC-WOZ 的抑郁访谈再到 PTSD-in-the-Wild 的真实场景视频HBA 的数据覆盖范围几乎囊括了心理与社会行为研究的主流任务。这也是为什么它被称为“人类行为图谱”。04 统一数据格式Prompt–Target Schema 的设计逻辑如果说 HBA 的数据集是原材料那么 Prompt–Target Schema 就是把这些原材料加工成“模型能吃的格式”的关键步骤。在多模态 LLM 时代统一格式不是锦上添花而是基础设施。为什么要统一格式多模态 LLM 的输入接口是统一的但现实中的行为数据集却是“百花齐放”有的给原始视频有的只给提取好的特征 有的给完整转录有的没有文本 有的任务是分类有的是生成 有的标签是三类有的是五类。如果不统一格式模型根本无法在同一个训练框架下处理这些任务。HBA 的目标是让所有行为任务都能被同一个模型理解、学习、推理。Prompt设计原则让模型知道“你要我做什么”HBA 的 Prompt 设计遵循三个原则。显式引用模态例如 、、文本转录 让模型明确知道输入包含哪些信号。包含文本转录即便任务主要依赖视频或音频文本转录仍然是重要的语义补充。任务指令化Prompt 采用 instruction-style让模型知道任务目标是什么例如 “请判断该说话者的情绪” “请识别该段视频中的意图”这种设计让模型能够在统一框架下处理不同任务。Target设计原则让模型知道“你要我输出什么”HBA 将所有任务的输出统一为两种形式。分类任务 → 离散标签如 Positive / Negative / Neutral、Angry / Happy / Sad生成任务 → 自由文本如社会推理、意图识别、非语言交流解释连续量表 → 离散化例如 PHQ-9 的抑郁评分被转换为“抑郁 / 非抑郁”类别这种统一让模型能够在同一训练循环中处理不同类型的任务。统一格式的意义让模型具备“行为基础能力”Prompt–Target Schema 的真正价值在于它让所有行为任务都能被同一个模型处理 它让模型能够跨任务共享知识 它让行为理解从“单点能力”变成“基础能力”换句话说HBA 不只是一个数据集而是一套让模型“学会理解人类行为”的训练语言。这也是行为基础模型Behavioral Foundation Model能够成立的前提。05 统一评估体系跨数据集的可比性如果说 HUMAN BEHAVIOR ATLASHBA解决了“行为数据从哪里来”的问题那么统一评估体系解决的就是“这些行为到底该怎么评”。在心理与社会行为研究中评估从来不是一个简单的数字游戏。不同数据集有不同的标签体系不同任务有不同的评价标准甚至同一个任务在不同论文中也可能采用完全不同的指标。这就像让一群学生参加不同风格的考试有的考选择题、有的考问答、有的考口语然后你还要把他们的成绩放在一起比较——这几乎是不可能的。 HBA 的出现就是要把这件“不可能的事”变成“可操作的标准”。表1将MELD样本转换为统一提示目标格式的示例。评估指标统一让所有任务说同一种“评价语言”HBA 的第一步是把所有任务的评估指标统一到一个可比较的体系中。对于情感极性SEN采用的是二元加权F1。 这是因为不同数据集的情感标签体系差异巨大有的三类、有的五类、有的甚至不包含中性。加权 F1 能更公平地衡量正负情绪的识别能力。对于情绪识别EMO采用的是类别加权准确率均值。 情绪类别往往不平衡比如“愤怒”比“喜悦”更常见或者“悲伤”比“惊讶”更容易被标注。加权准确率能避免模型只预测“大类”而忽略“小类”。对于病理类任务ANX、DEP、PTSD统一采用加权F1。 心理病理数据集通常规模小、类别不平衡F1 是最稳健的指标。对于生成类任务SOC、INT、NVCHBA 引入了LLM judge。 这意味着模型的输出不是简单的“对/错”而是由一个更强的语言模型来判断其语义是否与参考答案一致。 这是一种更贴近真实语义理解的评估方式也更符合行为任务的复杂性。统一指标的意义在于 无论任务来自哪个数据集、采用哪种模态、属于哪种行为维度它们最终都能在同一个评价体系下被比较。标签体系统一让行为标签更符合心理学与语用学逻辑除了评估指标HBA 还对标签体系进行了统一处理。例如joy与happiness被合并为同一类。 这在心理学中本来就是同义情绪但不同数据集却把它们分开导致模型难以学习一致的情绪概念。又比如surprise被拆分为positive surprise与negative surprise。 因为“惊讶”本身是中性的但在行为分析中正向惊讶惊喜与负向惊讶震惊在语音、表情、语境上完全不同。这种标签统一让模型学习到的情绪概念更加贴近真实世界而不是被数据集的历史遗留问题所限制。统一评估的价值让行为理解真正可比较、可扩展、可复用统一评估体系带来的价值是巨大的。它让模型性能可以横向比较。 过去不同论文之间的结果无法直接对比现在所有任务都在同一指标体系下评估模型的优劣一目了然。它让行为任务具备共同的评价标准。 这意味着未来的新数据集、新任务、新模型都可以无缝接入 HBA 的评估框架。它让行为理解从“各自为政”走向“统一生态”。 这正是构建行为基础模型的关键一步。06 行为描述符Behavioral Descriptors细粒度行为信号的引入如果说多模态数据是行为理解的“原材料”那么行为描述符就是“精炼后的特征层”。 它们捕捉的是那些肉眼难以察觉、但对心理与社会行为极其关键的细粒度信号。为什么需要描述符原始视频和音频虽然信息丰富但也非常“粗糙”。 微表情、肌肉细微运动、声学变化、语音能量波动这些信号往往隐藏在毫秒级的变化中模型很难直接从原始模态中捕捉。尤其是在讽刺、焦虑、非语言交流等任务中这些细节往往决定了行为的真实含义。例如 讽刺往往伴随轻微的语调上扬、短暂的停顿、微妙的表情变化 焦虑可能表现为语速加快、能量不稳定、面部肌肉紧绷 非语言交流依赖姿态、手势、眼神方向等细节。这些信号如果不被显式提取模型很容易“听懂了词却读不懂人”。描述符来源从面部到声学的多层次行为特征HBA 引入了三类行为描述符MediaPipe 用于提取面部关键点、身体姿态关键点。 它能捕捉微表情、姿态变化、手势等视觉行为信号。OpenSMILE 用于提取声学特征如 pitch、energy、spectral。 它能捕捉语音中的情绪强度、紧张程度、语调变化。Whisper v3 用于自动生成文本转录。 在缺少人工转录的数据集中它提供了可靠的语义基础。这些描述符共同构成了一个“行为特征层”让模型能够从更细致的角度理解人类行为。描述符的作用让模型真正“看见”行为细节行为描述符的引入带来了显著的性能提升尤其是在细粒度任务上。例如 非语言交流NVC、 讽刺SAR、 幽默HUM、 抑郁DEP。这些任务高度依赖微妙的行为信号而描述符恰好提供了这些信号的结构化表达。描述符让模型不仅能“看见视频、听见语音”还能“理解行为的细节”。 这就像给模型加上了“行为显微镜”。07 OMNISAPIENS-7B基于HBA的行为基础模型当 HUMAN BEHAVIOR ATLAS 把心理与社会行为的“地图”铺开之后下一步就是 谁来读懂这张地图MIT 团队给出的答案是一个专门为行为理解而生的多模态大模型——OMNISAPIENS-7B。 它不是一个通用 LLM 的简单微调版本而是一个真正意义上“以人类行为为中心”的基础模型。它的设计思路很明确 让模型不仅能“看见”视频、听懂语音、理解文本还能跨模态推断情绪、识别意图、判断社交行为甚至捕捉心理病理信号。为了实现这一点研究团队构建了三个版本SFT、BAM、RL。 它们像是三种不同风格的“行为专家”各自擅长不同类型的任务。图2每个模型的多任务结果。每个结果都报告了该任务所有数据集的平均得分。从最佳到最差深绿色→ 黄色→ 深红色。在人类行为ATLAS上训练后OMNISAPIENS-7B SFTRL在大多数行为任务中表现优于现有的预训练模型SFT版本统一多模态行为模型的基础形态SFTSupervised Fine-Tuning版本是 OMNISAPIENS-7B 的“主力军”。 它以Qwen2.5-Omni为骨架继承了强大的多模态编码能力。模型的结构非常清晰多模态编码器负责把文本、语音、视频统一投影到同一个语义空间。分类头用于处理情绪识别、情感极性、病理检测等离散任务。生成头用于处理社会推理、意图识别、非语言交流等开放式任务。换句话说SFT 是一个“全能型行为理解模型”能够覆盖 HBA 的全部 10 类任务。 它的目标不是在某个任务上做到极致而是在所有任务上保持稳定、可靠、可泛化的表现。这也是行为基础模型的核心价值 不是单点突破而是整体能力的统一。BAM版本行为描述符的残差适配器让模型“看见细节”如果说 SFT 是“通才”那么 BAMBehavioral Adapter Module就是“细节专家”。BAM 的设计非常巧妙 它不改变模型的 backbone而是在 backbone 之外加了一个轻量级的残差适配器。流程大致如下行为描述符MediaPipe OpenSMILE → 经过 FFN小型前馈网络 → 生成一个残差向量 → 注入到模型的倒数第二层隐藏状态h_penult这种设计有两个关键优势它不会破坏原有表示 backbone 是冻结的模型不会因为加入描述符而“遗忘”原本的能力。图3MUStARD的例子演讲者钱德勒来自《老友记》讽刺地建议安装阳台灯。虽然Qwen2.5 Omni-7B预测没有讽刺但OMNISAPIENS-7B SFT正确地将该实例识别为讽刺。它能显著提升细粒度任务 尤其是那些依赖微表情、声学特征、姿态变化的任务例如 非语言交流NVC 讽刺SAR 幽默HUM 抑郁DEPBAM 的存在让模型不仅能“理解行为”还能“捕捉行为细节”。 这就像给模型加了一副“行为显微镜”。RL版本基于GRPO的统一生成模型RLReinforcement Learning版本则是另一种思路 把所有任务都统一为“生成任务”。无论是情绪识别、意图判断还是社交推理模型最终都输出一段文本由 LLM judge 来评估其正确性。训练采用 GRPOGroup Relative Policy Optimization奖励包含正确性模型输出是否与参考答案一致。格式输出是否符合任务要求。语义相似度输出与参考答案的语义距离。这种训练方式让RL 版本在开放式任务上表现尤为突出例如社会推理SOC、 意图识别INT、 非语言交流NVC。它更像一个“行为解释专家”擅长生成自然、连贯、语义丰富的行为分析。表2按行为任务标题和相关数据集子标题分组的结果。最佳结果以粗体显示次佳结果以下划线显示。根据统一的度量我们对SEN使用二进制加权F1EMO的平均每类加权精度HUM、SAR、ANX、DEP、PTSD的加权F1以及SOC、INT、NVC的LLM判断精度。*MMPSY仅使用文本输入不包括BAM由于保留了主干结果与OMNISAPIENS-7B SFT相当。08 实验结果统一行为基准的价值验证HBA 的意义不仅体现在数据和模型设计上更体现在实验结果中。 这些结果清晰地展示了 统一行为基准 多模态行为模型 行为理解能力的质变。图4:CH-SIMSv2数据集中的示例说话者短暂地展示了一个瞬间的微笑表示积极的情绪。虽然OMNISAPIENS-7B SFT错过了微妙的线索并预测了负面情绪但OMNISAPIINS-7B BAM正确地预测了正面情绪。多任务性能全面超越现有多模态 LLM在 10 个行为任务中OMNISAPIENS-7B 在8个任务上领先。SFT 稳定、全面 BAM 在细粒度任务上大幅提升 RL 在开放式任务上表现最佳这说明行为基础模型不是“单点突破”而是“整体提升”。迁移学习对未见任务显著提升更令人惊喜的是OMNISAPIENS-7B 在未见数据集上的迁移能力非常强。例如SEN情感极性18.3% DEP抑郁检测29.4% SAR讽刺识别39.1%这意味着模型不仅能在训练任务上表现优秀还能迁移到新的行为任务上。 这正是“基础模型”的核心特征。BAM的任务特性分析细节任务的“加速器”BAM 的提升具有明显的任务特性显著提升的任务 NVC非语言交流 SAR讽刺HUM幽默 DEP抑郁这些任务都依赖细粒度行为信号。提升有限的任务 SOC社会推理 INT意图识别这些任务更依赖语言语义与语用推理而非微表情或声学特征。这说明 BAM 的作用非常明确 它是“细节任务的加速器”。定性案例模型真正“理解行为”的瞬间研究团队中展示了几个非常典型的案例。讽刺识别 原始模型误判为“非讽刺”但BAM 版本捕捉到语调与表情的微妙变化成功识别讽刺。微表情情绪识别 SFT 版本忽略了细微的嘴角上扬而 BAM 版本成功识别出“正向情绪”。社会推理 RL 版本生成的解释更自然、更贴近人类判断。这些案例说明 OMNISAPIENS-7B 不只是“做对题”而是真正“理解行为”。09 迈向“行为基础模型”的关键一步当我们回望过去十年 AI 的发展轨迹会发现一个清晰的趋势模型从“任务专家”走向“通用基础模型”。 语言领域有 GPT、LLaMA视觉领域有CLIP、DINO多模态领域有 Gemini、Qwen-Omni。 但在心理与社会行为理解这个更贴近人类、更复杂、更具语境性的领域长期以来却缺少一个真正意义上的“基础模型”。HUMAN BEHAVIOR ATLASHBA和 OMNISAPIENS-7B 的出现正是在填补这一空白。 它们不仅是一个数据集和一个模型更像是为“行为智能”奠定基础设施的第一代工程。行为理解的统一范式从碎片化到统一图谱过去的行为研究像是一堆散落的拼图 情绪识别是一块意图识别是一块讽刺检测是一块抑郁预测又是一块。 每一块都有人在做但没有人把它们拼在一起。HBA 做的就是把这些碎片重新组合成一张完整的“行为图谱”。从碎片化任务 → 统一行为图谱 从单任务模型 → 行为基础模型这意味着模型不再是“只会做一件事的专家”而是能够跨任务、跨模态、跨维度理解人类行为的“通才”。 这也是 AI 从“工具”走向“伙伴”的关键一步。对未来研究的启示行为智能的时代正在到来HBA 的提出不只是为了训练一个模型而是在为未来十年的行为智能研究定方向。多模态行为预训练将成为新趋势 就像语言模型需要大规模语料行为模型也需要大规模行为数据。 HBA 是第一步但未来一定会出现更大、更丰富、更真实的行为预训练数据。行为描述符将成为关键增强模块 MediaPipe、OpenSMILE、Whisper v3 只是开始。 未来会有更多“行为特征层”加入模型例如 眼动追踪、肌电信号、生理数据、社交图谱…… 行为理解将从“看见”走向“感知”。统一评估体系将推动社区标准化 HBA 的评估框架将成为行为研究的“共同语言”。 未来的新任务、新数据集、新模型都可以无缝接入这一体系。这意味着行为智能将从“各自为政”走向“统一生态”。潜在应用行为基础模型的现实价值当 AI 能够理解人类行为它的应用边界将被彻底重写。心理健康评估 通过语音、语言、表情识别抑郁、焦虑、PTSD辅助临床筛查。社会机器人 让机器人真正理解人类的情绪、意图、社交信号而不是机械回应。教育与认知监测 识别学生的注意力、理解程度、情绪状态提供个性化教学反馈。安全与风险识别 在驾驶、工业、医疗等场景中识别疲劳、紧张、风险行为。多模态人机交互 让 AI 不只是“听懂话”而是“读懂人”。这些应用的共同点是 它们都需要 AI 理解“人类行为”这一最复杂、最人性化的信号。END参考资料https://arxiv.org/pdf/2510.04899关于波动智能——波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系融合人工智能与意识科学构建覆盖情绪识别、建模与推荐的智能引擎自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构赋能企业实现更高效的用户洞察与精准情绪交互推动从功能驱动到意图驱动的产业范式升级。亲爱的人工智能研究者为了确保您不会错过*波动智能*的最新推送请星标*波动智能*。我们倾心打造并精选每篇内容只为为您带来启发和深思希望能成为您理性思考路上的伙伴加入AI交流群请扫码加微信