文章核心总结该研究提出GeCCo(Guided generation of Computational Cognitive Models)pipeline,利用大型语言模型(LLMs)生成计算认知模型,在决策、学习、规划、记忆四大认知领域,其生成模型的预测性能均达到或超越文献中最优的领域特定模型,且具有可解释性强、效率高的特点。核心内容背景痛点:传统计算认知模型需人工设计,耗时耗力且受研究者理论偏见限制,难以探索更广泛的模型空间。GeCCo pipeline:输入任务描述、参与者数据和代码模板,通过10轮迭代生成Python函数形式的认知模型,每轮基于贝叶斯信息准则(BIC)反馈优化模型,避免重复且提升拟合效果。实验验证:采用Llama 3.1 70B、Qwen 72B、R1 70B三款LLM,在四类人类行为数据集上测试,生成模型在BIC分数和超越概率(EXP)上表现优异,且通过后验预测检验验证有效性。控制实验:证实迭代反馈和LLM推理能力是性能核心驱动因素,无数据污染,能从模拟数据中恢复真实模型,捕获的可解释方差与认知科学基础模型CENTAUR相当。创新点首次实现LLM驱动的通用认知模型生成:跨四大认知领域通用,无需针对特定任务定制,大幅降低模型开发门槛。
2025_NIPS_Generating Computational Cognitive Models using Large Language Models
文章核心总结该研究提出GeCCo(Guided generation of Computational Cognitive Models)pipeline,利用大型语言模型(LLMs)生成计算认知模型,在决策、学习、规划、记忆四大认知领域,其生成模型的预测性能均达到或超越文献中最优的领域特定模型,且具有可解释性强、效率高的特点。核心内容背景痛点:传统计算认知模型需人工设计,耗时耗力且受研究者理论偏见限制,难以探索更广泛的模型空间。GeCCo pipeline:输入任务描述、参与者数据和代码模板,通过10轮迭代生成Python函数形式的认知模型,每轮基于贝叶斯信息准则(BIC)反馈优化模型,避免重复且提升拟合效果。实验验证:采用Llama 3.1 70B、Qwen 72B、R1 70B三款LLM,在四类人类行为数据集上测试,生成模型在BIC分数和超越概率(EXP)上表现优异,且通过后验预测检验验证有效性。控制实验:证实迭代反馈和LLM推理能力是性能核心驱动因素,无数据污染,能从模拟数据中恢复真实模型,捕获的可解释方差与认知科学基础模型CENTAUR相当。创新点首次实现LLM驱动的通用认知模型生成:跨四大认知领域通用,无需针对特定任务定制,大幅降低模型开发门槛。