智能之镜:NeuroAI 如何反映大脑与人工智能的未来
【来源:虎嗅网】
本文来自微信公众号:集智俱乐部 (ID:swarma_org),作者:李济安、熊华东
导语
近年来,人工智能,特别是大语言模型(Large Language Models,LLMs),已经在多个领域展现出令人惊讶的能力——不仅能像人一样进行自然对话,还能在编程、游戏、化学、生物学等复杂任务中达到接近甚至超过专家的水平。比如,AlphaFold因为对蛋白质复杂结构的预测,获得了2024年诺贝尔化学奖。这些强大的人工智能(AI)系统最初其实是受到心理学和神经科学的启发而发展起来的:早期的“连接主义”(Connectionism)模型就是对神经元活动的一种高度抽象的模拟。随着技术的发展,现代AI逐渐脱离对神经系统的直接模仿,走向更注重工程效率的设计。人工智能的飞速发展,正在重新激发人们对一个关键问题的关注:AI能否反过来帮助我们理解大脑?而大脑的结构和计算机制,又能否为构建更智能的AI提供线索?加州大学圣地亚哥分校五年级博士生,集智俱乐部「因果涌现」读书会主题社区成员李济安在此领域的相关研究被《Nature》和NeuralPS等期刊接收,对此进行报道。
关键词:NeuroAI,人工智能,微型循环神经网络,上下文学习,情景记忆
在大语言模型能力如此强大的背景下,AI与神经科学之间的联系变得前所未有地重要,催生了一个新兴领域:NeuroAI。它关注两个角度的问题:
1.用AI来研究大脑(AI for Neuro):在实验上,AI技术可以帮助科学家自动化数据分析、提取神经和行为特征;在理论上,人工神经网络能模拟人脑中神经元的活动规律与认知过程,从而验证、甚至提出新的神经科学理论。
2.用大脑来启发AI(Neuro for AI):我们能否用神经科学技术理解AI系统的“内部工作原理”?此外,因为生物大脑的信息处理效率远超当前的AI系统,我们能否基于神经科学的启发让AI更聪明、更节能、更类人?
为回应上述两个核心问题,我们提出一种基于微型循环神经网络的模型,它能用极少的参数来处理序列化数据,用以刻画生物体的策略学习,揭示出决策行为中隐含的复杂认知机制,发表于《自然》期刊;并从认知神经科学的角度出发,系统分析了大语言模型的注意力机制,发现其运作方式与人类的自由回忆过程惊人地相似,发表于《神经信息处理系统大会》顶级会议。
AI for Neuro:用微型循环神经网络读懂生物决策的秘密
论文题目:Discovering cognitive strategies with tiny recurrent neural networks
论文来源:https://www.nature.com/articles/s41586-025-09142-4
在心理学和神经科学中,研究者常借助计算模型来描述和理解生物体的认知过程,比如人是如何感知、记忆、决策和学习的。以决策为例,当个体面对多个选择时,模型可以帮助我们理解其如何基于过往经验做出选择。
传统的认知建模方法通常由研究者基于任务结构手动构建,构造出一个被认为是“最优”的策略模型,被称为贝叶斯最优模型。它假设生物个体像统计学家一样,会整合所有可获得的信息,以概率上最合理的方式做出判断。例如医生在诊断时,综合病人症状、检验结果、流行病趋势与以往经验等,逐步积累证据以判断疾病状态,这种不确定信息下的整合正体现了贝叶斯推理的核心思想。贝叶斯最优模型会假设个体对信息和不确定性都有最优的估计。另一类常见模型是强化学习,它假设人或动物通过与环境互动,从获得的“奖励”或“惩罚”中学习行为策略。比如,在一个简单的“赌博机”任务中,参与者面对两台看起来相同的老虎机,其中一台中奖率较高。如果参与者反复尝试并逐渐倾向于选择那台更常中奖的机器,就可以被认为是学会了利用奖励信息进行策略优化。此类学习过程可由强化学习算法建模,模拟行为的价值更新机制。
这些模型具有一个共同特点:它们结构简洁,参数量少,比如“学习率”(控制新信息更新速度)和“决策噪音”(反映行为的随机性),因此容易解释和拟合。但也正因为其简洁性以及隐含的最优性假设,它们往往难以捕捉真实生物行为中广为存在的复杂性和次优性。比如,实验中发现,动物在奖励结构改变后,常常依然固守之前的选择偏好——哪怕新的选择更优。这种“固执”的现象难以被最优模型解释。研究者往往需要在模型中人为添加额外的“惯性”参数,或者设计某些特定的规则来逼近实际行为。但随着所需解释的行为细节增多,模型结构就变得越来越繁琐,充满“补丁式”的假设,不仅易引入主观偏见,也难以推广到其他任务中。
这引出了一个根本性问题:是否存在一种无需预设的建模方式,能够让模型直接从行为数据中“自主发现”策略?受到近年来物理学中“自动公式发现”思想的启发,我们提出了一种新的方法:使用微型循环神经网络(recurrent neural network,RNN)作为通用策略学习器,对个体的行为动态进行建模(图1)。
图1 RNN模型概览(a)认知模型与神经网络在结构上非常相似:模型输入会更新d个动态变量,这些变量再通过softmax输出当前动作的概率P(at)。(b)神经网络中的隐藏单元会计算输入与前一时刻状态h(t-1)的函数。
RNN是一种擅长建模时间序列的神经网络结构,能自动捕捉行为随时间演变的依赖关系。我们所采用的模型极为精简,仅包含1至4个隐藏单元。这让模型在保留足够表达能力的同时,保持较强的可解释性,使得对其内部机制的分析成为可能。
我们的核心研究问题是:这种结构极简、完全数据驱动的模型,是否能够在无需任何人为假设的前提下,捕捉复杂且非最优的行为模式——比如人们常常懒得换、爱用老办法(“偏好保持”)或在“尝鲜”和“吃老本”之间反复权衡(“探索-利用”权衡)等?它是否能够在多样化任务中超越传统强化学习或混合策略模型的表现?
实验结果显示,这些微型循环神经网络模型在六类经典奖励学习任务中(涵盖人类、猴子、小鼠、大鼠的行为数据)表现出色,在行为预测精度上全面优于传统模型(如图2所示),并可与更大规模的循环神经网络相媲美(如图3所示)。这表明,即便使用高度压缩的网络,它依旧能学会并举一反三地模仿各种复杂决策,展现出用模型理解动物和人类的行为的巨大潜力。
图2 RNN在动物任务中的表现。(d)任务结构示意:被试在决策状态下选择动作A1或A2,随后进入两个可能的二级状态S1或S2,这些状态会以一定概率产生奖励。(e)模型在不同d(动态变量的数量)下的表现(数值越低越好)。
图3蒸馏模型的表现效果。(c)三种人类任务结构,从左到右分别是三臂反转学习任务、四臂漂移赌博机任务、原始两阶段任务。(d)RNN模型表现与变量维度的关系,左图三臂反转学习任务(n=1010);中图为四臂漂移赌博机任务(n=918);右图为原始两阶段任务(n=1961)。
更重要的是,这些仅有1–4个神经元构成的RNN在行为预测上不仅准确,而且具备很强的可解释性。在模型中,动物行为的决策随时间变化,可使用动力系统的分析方法,用一张图来呈现决策过程,以当前动作偏好(Logit)为坐标、用箭头或颜色指示下一步的变化方向与幅度,如图4a-c所示。这些图片清晰地展示了不同模型在运行时的关键特点,比如哪些状态是稳定的,哪些状态会吸引模型靠近,以及模型如何在状态间切换,清晰呈现思维如何从一个想法或状态转变到另一个。这种动力系统方法带来了很多意料之外的发现,例如,某些行为策略会根据不同的状态调整学习速度,类似人在不同情境下改变学习方式。此外,它还揭示了一些传统方法难以发现的新心理机制,如奖励后可能表现出“无所谓”倾向,决策时不再在意差别(图4d-f)。
图4基于动力系统分析的模型解释和比较(a)示意图展示了模型在连续试次中偏好的变化过程。(b-c)相位图(phase portraits)展示了当前偏好(logit)、选择的动作(A1蓝色;A2红色)和获得的奖励(R=0浅色;R=1深色)共同作用下,动作偏好的变化情况。(b)拟合了猴子在反转学习任务中行为的两个一维模型的相位图。(c)拟合了同一猴子数据下的一维RNN模型的相位图。(d-f)偏好设定点分析。
极具启发性的是,我们发现即使是面对复杂任务,描述单个个体的行为所需的最小网络维度也很低。这提示了每个动物在特定任务中的“最小行为维度”是有限的(图2e)。因此我们的方法不仅有助于刻画个体差异,也为认知建模提供了一个新的、可量化的指标来描述行为的复杂性。因此,本研究不仅扩展了认知建模的工具集,也为高可解释性行为建模提供了新的方向。
这一研究展示了一个关键转变:神经网络不再只是一个行为拟合的黑箱工具,而正在成为一种认知显微镜。它不仅具备数据驱动的建模能力,还能通过压缩与抽象,揭示出潜在的行为生成机制。这种研究范式与当前“AI for Science”的趋势高度一致,即:神经网络作为模型发现的中介工具,能够从高维实验数据中提取结构化知识。
不过为了实现知识的可解释表达,我们需要找到适当的结构化表示形式。理想的表示形式应满足两点:一是具备良好的预测能力,二是对人类研究者而言语义清晰、逻辑透明。例如,AlphaFold在蛋白质建模中通过图结构表示氨基酸间的几何约束;物理学中的自动理论发现方法常用符号表达式揭示变量间的对称性和守恒定律,二者都具有高可解释性。在我们的研究中,这种结构化形式体现为低维离散动力系统,也就是一个用少数几个关键指标,描述和预测事件随时间如何一步步变化,这为生物体策略行为提供了一种可计算、可视化且易于理解的抽象结构。
在这篇用微型循环神经网络来理解生物决策的研究中,我们发现可以通过合适的结构化表示,利用AI算法揭示人类行为背后的潜在生成机制,既准确又有很强的可解释。除此之外,还有其他的研究路径可以达到同样的目标。例如强调可计算性与形式可解释性的方法[2],通过引入符号回归技术,把RNN学得的低维离散动力系统转译为形式简洁的决策方程,在不牺牲预测精度的前提下,使模型规则一目了然;以及强调语义表达与泛化能力的方法[3],将实验任务与被试逐试次行为序列转换成自然语言描述,并用其微调大型语言模型,经微调的模型在未见任务与新被试上依然保持准确预测,自然语言本身也视为一种高度灵活、结构丰富的认知表征形式,可能成为理解复杂人类行为的通用建模接口。这些不同的方法共同构成了当前“以人工智能促进科学发现”范式中的关键组成部分。
Neuro for AI:大语言模型上下文学习与人类情景记忆的相似性
在前文中我们看到,人工神经网络可以帮助我们理解人类的认知机制。而在下面这篇研究中,我们反过来尝试用神经科学中的理论,来解释大型语言模型(LLMs)所展现出的某些智能特性。
论文标题:Linking In-context Learning in Transformers to Human Episodic Memory
论文链接:https://proceedings.neurips.cc/paper_files/paper/2024/file/0ba385c3ea3bb417ac6d6a33e24411bc-Paper-Conference.pdf
大语言模型拥有的一种令人惊讶的能力叫作“上下文学习”(in-context learning):它们在不经过任何参数更新的情况下,仅凭输入中的几个示例,就能临时掌握新的任务或模式。这种能力不只是模仿格式,而是能在复杂任务中展示出一定程度的泛化能力。
比如,在一个语法学习任务中,如果模型输入如下不存在的词:
mize→mized
glorp→glorpped
tarn→?
它可以根据前两个例子自动“归纳”出构词规律,判断出tarn应该变为tarned。这意味着,模型能够在上下文中识别模式、临时抽象出规则,并将其迁移到新例上。这种“举一反三”的能力让人联想到人类的类比推理和工作记忆:我们也能在看到几个例子后,迅速抽取其中的规律,并用于新的问题。
那么,大模型是怎么做到这一点的?它的机制是否真的与人脑的记忆过程相似?
之前的一些研究已经发现,在Transformer架构中,有一种被称为归纳注意力头(induction head)的结构,在上下文学习中起到了核心作用。它们的作用类似于一种“模式检索与拷贝”机制:当模型在输入中识别出重复出现的结构时,归纳注意力头会学会对第一次出现的位置产生很强的注意力,并根据该位置的后缀部分预测后续结果。举个例子,如果输入序列是:
A P O Q Q E D A P O?
虽然这些字符本身没有具体含义,但归纳头能识别出其中的重复结构“APOQ”,并在第二次遇到“A P O”时,自动预测下一个应为“Q”。也就是说,即便序列本身是随机的(没有出现在训练语料中),只要有模式可循,归纳头就能对其进行捕捉和复制。这一机制表明:即便在无显式规则的条件下,归纳头也能通过局部模式学习实现泛化,体现出类似“在观察中学习”的能力。
我们进一步提出一个假设:这种归纳头的行为机制是否类似于人类在自由回忆任务中的表现(图5)自由回忆指的是个体在听完一组单词后尽可能多地回忆这些单词的心理任务。心理学中一个经典模型是上下文维护与检索(Context Maintenance and Retrieval,CMR)模型,它是一种人类的记忆方式,记忆的提取依赖于当前情境与过往记忆之间的上下文匹配。CMR记忆模型能有效解释两类现象:新近效应(更易记住末尾项目)与时序效应(回忆顺序倾向保留原来记忆刺激时的顺序)。
图5人类实验、CMR模型和大语言模型的条件回忆概率(CRP)。(左)PEERS数据集(N=171)的参与者条件回忆概率(CRP)。(中)展示了不同参数的CMR模型,有些参数对应人类自由回忆的行为。(右)展示了几个典型“归纳头”的注意力分布及其由CMR模型拟合的注意力分布。
我们发现了令人惊讶的一个现象,LLM的部分中后层注意力头在行为上高度类似于CMR人类记忆模型(图5):它们倾向聚焦于时间上邻近的词元(token)。进一步分析表明,这些注意力机制的动态可以被CMR精确建模。更重要的是,随着训练的进行,这种“类人记忆偏好”在模型中自发增强,与人类的记忆方式越来越像。这表明,大语言模型在上下文学习中,可能自发形成了一种类似人的记忆内部机制,为我们理解其智能行为提供了新的认知科学视角。
为验证这一CMR机制的功能性,我们设计了消融实验,系统移除与CMR行为最接近的注意力头。结果显示,模型在多个上下文学习任务中的表现显著下降。这说明,这些类似于人的记忆结构并不是偶然产物,而是支撑模型泛化与学习能力的关键组成部分。
在另一项后续研究中[5],我们借鉴了神经科学中研究神经反馈的经典实验范式,用于探索LLM是否具备类似元认知的心理功能。结果表明,语言模型确实展现出一定程度的基于上下文学习的元认知能力:它们不仅能够监控自己内部的神经状态,还能在一定程度上对其进行调控。我们的方法可以对LLM的元认知能力及其影响因素进行系统性量化,为今后的研究提供了一个可推广的评估框架。
我们正站在一个新的认知神经科学研究转折点上:神经网络不仅仅是模拟人类行为的黑箱,更可用作“认知显微镜”来理解人类心智。同时,心理学与神经科学的理论与技术也为解释与改进AI系统提供了强有力的启发。这种互为镜像、相互促进的智能理解体系,正是NeuroAI所描绘的愿景。它不仅加深我们对智能本质的理解,也有望推动下一代AI系统向更加强大、高效、可解释的方向发展。
参考资料
[1]Li Ji-An,Marcus K.Benna,and Marcelo G.Mattar."Discovering Cognitive Strategies with Tiny Recurrent Neural Networks." Nature(2025).
[2]Hua-Dong Xiong,Li Ji-An,Marcelo G.Mattar,and Robert C.Wilson."Distilling human decision-making dynamics:a comparative analysis of low-dimensional architectures." In NeurIPS 2023 AI for Science Workshop.
[3]Marcel Binz,Elif Akata,Matthias Bethge,Franziska Brändle,Fred Callaway,Julian Coda-Forno,Peter Dayan et al."Centaur:a foundation model of human cognition." arXiv preprint arXiv:2410.20268(2024).
[4]Li Ji-An,Corey Zhou,Marcus Benna,and Marcelo G.Mattar."Linking in-context learning in transformers to human episodic memory." Advances in neural information processing systems 37(2024):6180-6212.
[5]Li Ji-An,Hua-Dong Xiong,Robert C.Wilson,Marcelo G.Mattar,and Marcus K.Benna."Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations." arXiv preprint arXiv:2505.13763(2025).
本文为科普中国·星空计划扶持作品
作者:李济安、熊华东
审核:张江北京师范大学系统科学学院教授
出品:中国科协科普部
监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司
大模型可解释性读书会
集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:
自下而上:Transformer circuit为什么有效?
自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?
复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?
系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?
五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。
读书会计划于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享10周左右。