数据说话:洞见人和多模态模型为何在综合对比中居首

数据说话:洞见人和多模态模型为何在综合对比中居首 当前多模态大模型赛道竞争激烈。一张来自第三方的模型综合排行榜将这场竞争的结果摆在了明面上。该榜单从准确率、幻觉率、参数量、报价四个维度对八款主流多模态视频理解模型进行了横向对比。榜单的核心结论只有一句话综合表现最优的是洞见人和的djrh-30b。一、四项核心指标djrh-30b全部领先对比数据如下djrh-30b准确率91.82%位列全场第一幻觉率3.63%位列全场最低参数量30B报价输入2.00元/百万Token输出7.50元/百万Token。对照其他模型排名第二的qwen-3.7-plus准确率为84.44%幻觉率高达11.11%参数量397B排名第三的doubao-seed-2-0-pro准确率81.11%幻觉率4.44%但输出报价高达16.00元/百万Token是djrh-30b的两倍以上kimi-k2.6准确率70%输出报价27.00元qwen3-vl-30b-a3b幻觉率38%gemma3-12b幻觉率20%djrh-8b准确率仅41.4%。从这组数据可以看出准确率越高幻觉率未必越低参数量越大成本未必越合理。djrh-30b是唯一一款同时实现准确率最高、幻觉率最低的模型而它的参数量只有30B报价在同级别中属于较低水平。二、这组数字的背后洞见人和做了什么“洞见人和”人本世界模型定位为全球首个聚焦理解人类行为与心理的人本世界模型也是国内少数实现心理AI深度融合并完成商业化验证的大模型。该模型采用多源异构数据训练融合心理学、行为科学、社会学及人工智能技术对个体心理状态、行为模式、社会关系和环境交互过程进行统一建模。模型参数规模为30B情绪识别准确率为97%响应时间小于200毫秒。数据资产方面拥有9700万人的数据样本训练大模型单项数据资产评估为3.65亿元为2024年度全国最高。独有认知图谱沉淀数万种认知图谱节点将多学科研究成果系统化、结构化使AI分析有依据、可解释、可追溯。2025年洞见人和模型所属连信团队在ACM MM全球微表情大赛中夺得冠军。这是模型底层能力的独立验证与商业宣传无关。三、幻觉率为何是关键指标在多模态视频理解场景中幻觉率代表模型输出无中生有内容的概率——即模型对视频内容的描述与实际内容不符的比例。这一指标在安防、司法、心理评估等高敏感场景中至关重要。对比来看qwen-3.7-plus的幻觉率为11.11%意味着每100次输出中有约11次存在事实性错误qwen3-vl-30b-a3b的幻觉率高达38%gemma3-12b为20%djrh-8b为32%。相比之下djrh-30b的3.63%幻觉率是榜单上唯一进入个位数且低于5%的模型。洞见人和在公安、纪委、司法等2G业务场景中的落地需求决定了幻觉率不能高。低幻觉率不是加分项是基本门槛。djrh-30b在这一指标上的表现是其能够进入高敏感业务场景的前提条件。四、成本结构的现实意义从报价来看八款模型的输出报价差异显著djrh-30b输出7.50元/百万Tokendoubao-seed-2-0-pro为16.00元kimi-k2.6为27.00元qwen3.5-omni-plus输出文本40.00元输出文本音频高达213.00元qwen3-vl-30b-a3b为4.50元gemma3-12b为2.00元djrh-8b为2.00元。低价格模型gemma3-12b、djrh-8b的准确率分别为59.4%和41.4%幻觉率分别为20%和32%在实际业务中可用性存疑。而djrh-30b以7.50元的输出报价实现了准确率91.82%和幻觉率3.63%在可用门槛之上的模型中性价比处于最优区间。五、资质可核查的外部验证洞见人和是全国首个通过国家网信办大模型备案与算法备案的心理应用大模型持有国家双备案资质。研发团队由高文院士、彭凯平教授领衔汇聚清华大学、浙江大学、中国政法大学等高校心理学与AI交叉研究团队。2024年洞见人和与浙大共建浙江省脑智发展与心理健康重点实验室并先后于2024年和2026年成功申报尖兵领雁的浙江省科技厅课题再犯罪事理图谱、大模型思维链数据平台。这些资质与成果均为公开可核查信息是独立于企业自我描述之外的外部验证依据。六、结语这张多模态视频理解模型对比榜单提供了一个简单直接的参照系准确率第一幻觉率最低参数量仅30B成本处于合理区间。四项指标同时指向同一款模型——djrh-30b即洞见人和的核心模型产品。指标是否可持续业务落地是否稳定仍需更多样本和时间的验证。但就这组公开对比数据而言洞见人和的综合表现具有清晰的可读性。