第5章:消息传递与神经生物学
Thomas Parr, Giovanni Pezzulo, Karl J. Friston
出自:Active Inference (MIT Press, 2022)
📖 章节总结
本章的核心任务,是把前一章中以变分推断、预测编码与POMDP推理形式呈现的”消息传递”机制,具体映射到真实神经系统的解剖结构与生理过程之中。作者首先强调,自由能最小化是一个原理(principle),而神经系统如何实现这一原理则属于过程理论(process theory)。只有把抽象原理落实为可测量、可检验的神经动力学假说,主动推理才真正进入经验神经科学的领域。为此,本章提出一个总体思路:把梯度下降理解为神经活动的演化,把贝叶斯消息传递理解为突触连接上的信息交换,从而将生成模型中的稀疏依赖结构与皮层及皮层下系统中的稀疏连接结构对应起来。
在皮层层面,作者以经典皮层微回路(canonical cortical microcircuit)为中枢,说明层内和层间区域连接如何承载不同类型的推断变量。浅层锥体细胞(pyramidal cells)多与向上传递的误差信号相关,深层锥体细胞则更多承担向下传递的预测信号;第四层的棘星形细胞(spiny stellate cells)接收来自较低层级或丘脑的上行输入。这样,层级生成模型中的预测(prediction)、预测误差(prediction error)、隐状态(hidden states)与隐原因(hidden causes),便可在神经解剖学上获得功能定位。特别重要的是,上行与下行消息并不对称:上行常携带误差信号,下行常携带预测信号,而这种计算不对称还预示了频谱不对称——误差信号更可能表现为 γ 频段活动,预测信号则更可能体现为 α 或 β 频段活动。
随后,作者把这一框架推广到行动控制。主动推理并不把”运动命令”理解为外加的控制指令,而是把它理解为对本体感觉后果的预测。来自初级运动皮层第五层Betz细胞的下行信号,预测身体应当感受到怎样的肌肉长度、张力与姿态;脊髓反射弧则通过最小化本体感觉预测误差,使身体状态改变到符合该预测。行动因此不是先有命令再有感觉,而是通过改变感觉输入来消除预测误差。这一思想揭示了知觉与行动的对偶性:知觉通过更新信念来解释感觉,行动通过改变感觉来兑现信念。作者进一步讨论感觉衰减(sensory attenuation),说明为何系统必须暂时降低对当前本体感觉误差的精度加权,才能维持”我正在移动”的先行信念——否则尚未发生的动作会立即被当前感觉证伪。由此,某些精神病理与神经疾病,如被动性体验(passivity phenomena)、紧张症(catatonia)或帕金森综合征(Parkinsonism),便可理解为感觉精度调控异常的结果。
在皮层下结构方面,本章重点讨论基底神经节(basal ganglia)与丘脑(thalamus)。基底神经节被解释为策略评估与选择的关键装置:皮层第五层投向纹状体(striatum)的信号,不只是运动预测,也可编码策略(policy)的预期自由能(expected free energy)以及经验先验 E。直接通路与间接通路由此分别关联到促进特定策略执行与抑制不合语境策略的功能平衡;多巴胺(dopamine)则被解释为策略精度 γ 的调制器,即调节系统对”当前该做什么”的信心,而不只是传统意义上的奖赏预测误差(reward prediction error)。这一框架也自然解释了帕金森病中的运动不能与高多巴胺状态下的冲动行为。丘脑则被区分为初级核团与次级核团:前者更像感觉中继并参与一阶统计量的消息传递,后者可能与精度(precision)等二阶统计量有关。
本章最后将神经调质(neuromodulation)与学习(learning)纳入统一框架。乙酰胆碱、去甲肾上腺素、多巴胺、5-羟色胺分别被视作不同概率分布精度的候选生物学载体:似然精度、转移精度、策略精度与偏好或内感受精度。精度决定了预测误差在推断中被赋予多大权重,因此直接关联注意、感觉整合、行动选择与情感价值。与快速但粗粒度的精度调制不同,学习体现为更持久的突触效能改变,即对生成模型参数的更新;这与赫布学习(Hebbian learning)一致。章节结尾进一步指出,真实脑层级同时包含连续与离散两类表征:靠近感受器与效应器的层级偏连续,较高层级则更适合离散范畴、策略与目标表征。主动推理的神经生物学意义,就在于为这两类表征及其耦合提供统一的消息传递解释。
🧩 核心概念
- 贝叶斯消息传递(Bayesian Message Passing):指在生成模型的局部依赖结构上,变量之间通过局部消息交换完成整体推断的机制。其关键不在”全局计算”,而在”每个节点只和少数相邻节点交换必要信息”。在神经生物学语境中,这一思想之所以重要,是因为它天然适合映射到神经元的稀疏突触连接:每个神经元只接收局部输入,却可参与全局信念更新。
- 经典皮层微回路(Canonical Cortical Microcircuit):指在不同皮层区域重复出现的一种分层连接模板。作者将其视为主动推理在新皮层中的候选实现单元:浅层、第四层与深层细胞群分别承载不同消息类型,如预测误差、感觉输入与向下预测。它的重要性在于,使”层级生成模型”与”皮层层级结构”之间不再只是比喻关系,而成为可提出实验预测的结构同构。
- 预测误差(Prediction Error):即感觉输入或下层状态与当前预测之间的偏差。在主动推理中,误差不是噪声残差,而是驱动知觉更新、动作生成与学习的核心量。上行误差信号把”模型哪里错了”传给高层,高层再据此修正预测;若在行动系统中,则可通过反射性地改变身体来压低误差。
- 感觉衰减(Sensory Attenuation):指系统在发起动作时,暂时下调某些感觉通道的精度加权,尤其是本体感觉误差的权重。没有这一机制,任何尚未实现的运动预测都会被当前静止状态的感觉立即否定,行动因此无法启动。感觉衰减说明,行动并非简单增加运动输出,而是主动调节”哪些误差值得被认真对待”。
- 预期自由能(Expected Free Energy):是对某一策略未来后果的综合评价量,兼具实用价值(pragmatic value)与认知价值(epistemic value)。在本章中,它被映射到基底神经节的策略评估机制,成为行动规划的核心指标。系统并非简单追求即时奖赏,而是在多种候选策略中选择能够最好满足偏好、降低不确定性的路径。
- 精度(Precision):是方差的倒数,可理解为对某个概率分布或某类误差信号的置信度。在神经实现上,精度常体现为对误差信号的增益调制。精度越高,相应误差越能影响信念更新;精度越低,该误差越容易被忽略。注意、感觉可靠性、动作启动与病理症状,都可从精度分配的角度得到统一理解。
- 神经调质(Neuromodulation):指通过多巴胺、乙酰胆碱、去甲肾上腺素、5-羟色胺等神经递质,对局部回路的增益、可塑性与计算权重进行调节。与快速的点对点兴奋/抑制传递不同,神经调质更像对”整类计算条件”的设定。在主动推理框架中,它尤其适合被解释为精度参数的生物学载体,因此连接了计算变量与神经化学。
- 连续与离散层级(Continuous and Discrete Hierarchies):指神经系统不同层级可能采用不同表征形式。低层必须处理连续变化的感觉和运动变量,如亮度、肌长、关节角度;高层则更适合处理对象类别、情境、策略等离散变量。本章强调,两类层级并存且相互耦合,构成从感知到计划、从动作到决策的完整推断链条。
🔬 关键公式与推导
- 自由能梯度下降与神经动力学:本章延续前章思路,把神经活动看作对变分自由能 F 的梯度下降过程,即神经状态沿着 −∇F 的方向演化。直觉上,神经元并非”编码答案”,而是在不断调整活动,使当前信念对感觉输入的解释更加自洽。由此,神经动力学本身就是近似贝叶斯推断。
- 预测误差的精度加权更新:误差信号通常不是直接进入更新,而是被精度加权。可直观表述为”更新强度 ≈ 精度 × 预测误差”。这意味着,同样大小的误差,在高精度条件下会引发显著的信念修正,在低精度条件下则可能被忽略。注意、感觉衰减和病理性妄想等现象,都可用这一乘法关系来理解。
- 行动作为本体感觉预测误差最小化:在运动系统中,下行信号并非经典控制论中的命令(command),而是本体感觉预测 g。脊髓层面计算 ε_y ≈ 感觉输入 − 预测;反射弧驱动肌肉收缩或放松,使感觉输入向预测靠拢。因此,行动不是”输出指令”,而是”让身体去证明预测是对的”。这是主动推理对运动控制最具颠覆性的重述。
- 策略后验与预期自由能:策略选择的核心关系是:策略后验 π 依赖于预期自由能 G 与经验先验 E。直觉上,若某策略具有更低的 G,系统就更相信它值得执行;若某语境中某策略长期频繁被采用,则 E 也会提高其先验可行性。于是策略选择并不是纯目标导向的,也不是纯习惯驱动的,而是二者的联合推断。
- 神经调质与精度参数的对应:作者将 γ、ω、ζ、χ 等精度参数分别与多巴胺、去甲肾上腺素、乙酰胆碱和5-羟色胺联系。其直觉推导是:若某递质系统稳定地影响某类误差或某类连接的增益,那么它就可能不是在”传递内容”,而是在编码”对内容有多确信”。这一步使计算模型中的隐变量获得了可检验的神经化学解释。
- 学习作为参数后验更新:除状态推断外,系统还会更新对参数的信念,例如状态与结果之间的连接强度。若两个神经群体反复共同激活,则它们未来共同出现的概率被上调,突触效能增强。这一机制可概括为”共同放电 ⇒ 连接增强”,即赫布学习的主动推理版本。
💡 认知启示
本章最大的理论贡献,在于把”脑如何实现推断”从抽象算法问题推进到神经机制问题。它表明,主动推理并不只是一套解释行为的数据拟合语言,而是能对皮层层级、频段差异、基底神经节环路、神经调质系统乃至病理现象提出统一解释的过程理论。换言之,大脑并非先有感知模块、行动模块、奖赏模块,再由外部理论拼装起来;相反,这些传统区分都可被重新理解为同一自由能最小化机制在不同解剖基质上的展开。
对心智理论而言,本章的重要启示是:知觉、行动、计划、习惯、注意与情感调节之间并不存在根本断裂。它们共享同一种计算语法,只是在所涉及的变量类型、时间尺度与精度控制方式上有所不同。行动之所以能被看作”兑现预测”,习惯之所以能被看作”高先验策略”,注意之所以能被看作”精度分配”,都说明认知不是若干独立功能的拼盘,而是一个层级化、具身化、化学调制的推断系统。
对临床与实验研究而言,本章也提供了极具操作性的框架。若病理可被刻画为某类精度失衡、某条消息传递通路异常,或某类层级耦合失败,那么精神疾病与神经疾病就能以计算—生物双重语言被描述。帕金森病、幻觉、被动性体验、紧张症等现象,由此不再只是症状列表,而成为可通过生成模型、神经影像与外周指标联合检验的推断障碍。这使主动推理成为连接理论神经科学、实验范式与计算精神病学的重要桥梁。