《Active Inference: The Free Energy Principle in Mind, Brain, and Behavior》第3章：Chapter 3: The High Road to Active Inference

第3章：通往主动推理的高路

Thomas Parr, Giovanni Pezzulo, Karl J. Friston

出自：Active Inference (MIT Press, 2022)

📖 章节总结

本章从”高路”（the high road）进入主动推理（Active Inference），与前章的”低路”形成对照。所谓高路，不再从近似贝叶斯推断的技术需要出发来引入变分自由能（variational free energy），而是从一条第一性原理出发：一个生物体若要持续存在，就必须将自身维持在一组可容许、可生存的状态之内，避免落入与其存在不相容的状态。据此，生命系统的根本任务可以形式化为”最小化惊异”（surprise minimization），即避免进入在其生存分布下概率极低的感官状态。然而，直接计算惊异通常不可行，因此生命系统转而最小化一个可计算的上界——变分自由能——来逼近这一目标。

为使”系统”与”环境”的区分成立，本章引入马尔可夫毯（Markov blanket）这一关键统计结构。马尔可夫毯将内部状态（internal states）与外部状态（external states）分隔开来，以感觉状态（sensory states）和行动状态（active states）作为中介，使系统只能通过感觉接受环境影响、通过行动影响环境。这一结构既保证了系统的自主性，也解释了内部状态何以能与外部状态建立某种同步或对应关系：二者虽不直接相互作用，却通过共同依赖毯内变量而形成条件关联。因此，内部状态可被理解为对外部状态的概率性表征——换言之，系统似乎拥有一个关于世界如何生成感觉输入的生成模型（generative model）。

在此基础上，作者将主动推理重新表述为”自证据化”（self-evidencing）：一个自适应系统通过感知与行动，不断采样与其生成模型相一致的感觉证据，从而最大化模型证据（model evidence）。由于惊异可写为 −ln P(y)，模型证据越大则惊异越小，因此最小化惊异与最大化模型证据在数学上等价。进一步地，变分自由能是惊异的可操作上界，故感知的作用在于调整内部状态，使近似后验尽可能贴近真实后验，缩小二者之间的KL散度；行动的作用则在于改变所采样到的感觉结果本身，使系统实际获得更符合其先验偏好的感觉输入。换言之，感知解决”我现在处于什么状态”的问题，行动解决”我怎样让世界更符合我的模型与偏好”的问题。

本章还将上述论证与统计物理学联系起来。若一个带有马尔可夫毯的随机动力系统能够在环境涨落中持续存在，它就必须在平均意义上沿着某个”能量地形”向下运动，回到高概率、低惊异的区域。作者据此把生命系统的持续存在解释为一种非平衡稳态（nonequilibrium steady state）：系统虽然开放并持续与环境交换物质和能量，但其状态分布保持相对稳定。此时，自由能最小化不仅是推断论意义上的优化，也相当于遵循哈密顿最小作用原理（Hamiltonian principle of least action）的行为路径选择——系统倾向于沿最不”费力”、最不惊异的轨道演化。

与强化学习或最优控制不同，主动推理并不把行为建立在显式价值函数之上，而是建立在信念与偏好统一的生成模型之上。所谓偏好，并非额外附加的奖励标量，而是以先验偏好（prior preferences）的形式嵌入模型，表示某些未来结果更”应当”发生。因此，规划并不是在外部价值地图中寻找最大奖赏，而是对未来可能轨迹进行推断，选择预期自由能（expected free energy）最低的策略（policy）。这种处理使行为从”奖赏驱动”转化为”信念驱动”，并自然引入不确定性、时间深度、反事实未来与信息寻求等维度。

最后，作者指出，主动推理为多种传统理论提供了统一框架。它与强调自组织与自维持的生成论/具身论（enactive theories）相容，与强调目标校正与反馈调节的控制论（cybernetics）相容，也与强调内部模型和预测控制的预测加工理论（predictive processing）相容。更重要的是，它解释了从最简单的自稳系统到具有规划、探索与初级主体性的复杂生物之间的连续谱：凡能最小化变分自由能者，已可称为自证据化系统；凡还能最小化预期自由能、比较替代未来者，则进入真正具有规划和行动选择能力的”代理者”（agent）范畴。由此，主动推理不仅是一种认知理论，更是连接生命、自组织、感知、行动与心智的统一原则。

🧩 核心概念

主动推理（Active Inference）：主动推理是解释生命体如何通过感知与行动维持其存在的统一框架。它认为生物体并非被动接收刺激后再反应，而是持续通过内部生成模型预测感觉输入，并通过更新信念与采取行动来减少预测与实际之间的偏差。其核心目标不是单纯”求真”，而是在保持自身可存续状态的前提下，使感觉结果尽可能符合模型与偏好。

惊异（Surprise）：惊异是信息论意义上的负对数概率，即某一感觉结果在模型下有多不可能。它并不等同于主观惊讶，而是一个客观统计量。对于生命系统而言，惊异高意味着系统进入了罕见、危险或不适宜生存的状态区域。因此，最小化惊异可以被理解为维持生命体处于其生态位所允许的可生存范围之内。

变分自由能（Variational Free Energy）：变分自由能是惊异的可计算上界，也是主动推理的核心优化量。由于系统无法直接求得真实后验与模型证据，它借助近似分布 Q(x) 来构造自由能，并通过调整内部状态降低该值。自由能越低，说明系统要么更好地解释了当前感觉，要么其近似信念更贴近真实后验。因此，自由能是感知与行动共同依赖的统一目标函数。

马尔可夫毯（Markov Blanket）：马尔可夫毯是区分系统与环境的统计边界，由感觉状态和行动状态构成，使内部状态与外部状态在给定毯状态时条件独立。概念上，它既是系统自主性的形式条件，也是”表征”得以成立的基础：内部并不直接接触外部世界，却能通过毯内变量与外部形成可靠对应，因此可视为对外部原因的概率性建模。

生成模型（Generative Model）：生成模型是系统关于”外部状态如何产生感觉输入”的内在假设结构。它不仅描述感觉的成因，也编码系统偏好的感觉结果——即哪些状态更应当出现。主动推理中的生成模型兼具描述性与规范性：一方面用于解释当前感觉，另一方面规定系统应朝何种未来状态行动。

模型证据与自证据化（Model Evidence / Self-evidencing）：模型证据是感觉数据在某一生成模型下的边缘似然。若系统不断获得与其模型一致的感觉输入，则模型证据升高。作者将生物行为概括为”自证据化”：生命体通过行动主动采样能够支持其模型的证据，从而维持其存在形式。这里的”证据”并非理论证明，而是使系统持续处于高概率生存态的感知事实。

预期自由能（Expected Free Energy）：预期自由能是对未来策略后果的自由能预估，用于比较不同策略的优劣。它把偏好满足与不确定性消减统一起来：一个好策略既应通向偏好的结果，也应减少未来的模糊与歧义。因此，预期自由能最小化不仅产生目标导向行为，也产生探索、求知和信息采样行为。

策略（Policy）：策略是跨时间的行动轨迹或候选计划。在主动推理中，系统并非只选择”下一步做什么”，而是对多条未来轨迹进行推断，并赋予它们不同概率。概率最高的策略即预期自由能最低的策略。因此，行动选择本质上是关于未来路径的贝叶斯推断，而不是单步刺激—反应配对。

非平衡稳态（Nonequilibrium Steady State）：生命体不是封闭的热平衡系统，而是在持续与环境交换物质、能量与信息的情况下维持统计稳定。非平衡稳态描述的正是这种”动态中保持形式”的存在方式。主动推理认为，只要系统能够长期维持马尔可夫毯及其特征状态分布，它就表现为在平均意义上最小化惊异与自由能。

🔬 关键公式与推导

马尔可夫毯的条件独立性

μ ⊥ x │ b ⟺ p(μ, x │ b) = p(μ │ b)·p(x │ b)

直觉上，一旦给定毯状态 b（通常包括感觉与行动），内部状态 μ 与外部状态 x 之间就不存在额外的直接统计依赖。也就是说，系统对世界的一切”接触”都必须经过毯。正因为有了这层中介，内部状态才能既与环境分离、又与环境耦合。

惊异的定义

ℑ(y) = −ln P(y)

某一感觉结果 y 越不可能，P(y) 越小，负对数值越大，惊异也就越大。对生命系统而言，长期处于高惊异感觉意味着不断进入罕见且危险的状态，因此必须通过感知与行动将感觉采样拉回高概率区域。

熵与平均惊异的关系

H[P(y)] = 𝔼_P(y)[ℑ(y)] = −𝔼_P(y)[ln P(y)]

该式表明，熵就是长期平均意义上的惊异。若一个系统把自身感觉限制在少数高概率区域中，它的长期平均惊异就低，熵也较低。这为”生命通过抗熵维持自身组织”提供了信息论表述。

自由能是惊异的上界

F = D_KL[Q(x) ∥ P(x │ y, m)] − ln P(y │ m)

其中 D_KL ≥ 0，因此 F ≥ −ln P(y │ m)。这意味着自由能至少与惊异一样大。若近似后验 Q(x) 恰好等于真实后验 P(x │ y, m)，则 D_KL = 0，此时自由能就等于惊异。感知的任务就是让 Q(x) 尽量逼近真实后验，从而压缩这段”上界间隙”。

感知与行动的功能分工

从上式可以直观看出，自由能包含两部分：一部分是近似后验与真实后验之间的散度，另一部分是感觉数据本身的负对数证据。内部状态更新只能改变 Q(x)，因此主要用于缩小 D_KL；而行动能够改变未来感觉 y，因此能够进一步降低 −ln P(y │ m)。这就是为什么主动推理中”知觉”与”行为”是同一优化原理的两种实现。

预期自由能与最可能策略

主动推理把策略 π 的对数概率设定为与其预期自由能成反比：预期自由能越低，策略越可能被选择。其直觉类似于物理中的最小作用量原理——系统会在诸多可行轨迹中趋向那条总体”代价”最低、最符合偏好且最能减少不确定性的路径。因而，规划可被看成对未来轨迹的概率推断，而非外加的优化模块。

💡 认知启示

本章最重要的启示，是把”活着”重新界定为一种持续的推断活动。大脑与行为系统并不是先有知觉、后有决策、再有行动的串联模块，而是在同一个自由能最小化原则下协同工作。感知不是被动反映世界，而是使内部信念贴近外部原因；行动不是单纯输出命令，而是主动重塑感觉采样，使世界更符合有机体的预测与偏好。

第二个启示，是认知中的目标、价值和偏好可以不必被理解为外加的奖励函数，而可被内嵌为生成模型中的先验偏好。这样一来，目的性（teleology）不再神秘：生物之所以表现出”朝向目标”的行为，不是因为有一个外部价值标尺在驱动，而是因为其内部模型先天地偏向某些未来状态，并通过推断找到通向这些状态的最可能路径。

第三个启示，是不确定性不再只是决策中的噪声或障碍，而是行动选择的核心维度。预期自由能框架说明，智能行为不仅要追求偏好结果，还要主动减少歧义、提高可控性。这为解释探索、好奇、信息觅取、环境塑形乃至社会制度建构提供了统一语言：这些行为都可被视为降低长期惊异、改善未来可预测性的策略。

第四个启示，是主动推理为生命、心智与社会层级之间建立了连续谱。简单自稳系统、具有层级模型的动物、能够规划反事实未来的人类，差别不在于是否遵循不同原则，而在于生成模型的深度、时间跨度与策略空间的复杂度不同。由此，认知科学可在同一理论框架中讨论从稳态调节到主体性、从感觉控制到规划与文化建构的连续演化。

最后，本章提示我们：所谓”表征”并非必须理解为静态的内部图像，而更适合理解为马尔可夫毯两侧通过动态耦合形成的概率对应。心智不是世界的镜像，而是一个通过自证据化不断维持自身存在的预测系统。这一定义把认识论、生命论与行为科学紧密缝合在一起，是主动推理最具解释雄心之处。

相关文章：