《Active Inference: The Free Energy Principle in Mind, Brain, and Behavior》第6章：Chapter 6: A Recipe for Designing Active Inference Models

第6章：设计主动推理模型的配方

Thomas Parr, Giovanni Pezzulo, Karl J. Friston

出自：Active Inference (MIT Press, 2022)

📖 章节总结

本章的核心任务是将前几章提出的主动推理（Active Inference）一般原理，转化为可实际操作的模型设计流程。作者提出，构建一个主动推理模型通常可归纳为四个步骤。第一，明确”我们到底在建模什么系统”——这一步要求研究者划定系统边界，区分内部状态（internal states）、外部状态（external states）以及二者之间的接口，即感觉状态（sensory states）和主动状态（active states）。这种划分通常借助马尔可夫毯（Markov blanket）完成，它并非单纯的技术设定，而是决定了”谁在推断””推断什么”的本体论前提。第二，决定生成模型（generative model）的合适形式——研究者需要判断问题更适合用离散变量（discrete variables）还是连续变量（continuous variables）表述，是否需要层级化或深层结构（hierarchical/deep models），以及是否需要时间深度（temporal depth）来支持对未来行动后果的预测与规划。第三，设置生成模型本身，即决定模型中的变量、先验信念（priors）、参数与可学习部分。第四，设置生成过程（generative process），也就是外部世界如何真正产生观测，以及它与主体内部生成模型之间是近似、简化还是显著不同的关系。

作者特别强调，第一个设计选择看似朴素，实则具有深刻的理论意涵。马尔可夫毯的划定并非唯一的：我们可以把它画在单个神经元周围、画在整个大脑周围，也可以画在整个机体，甚至延展到身体外部的工具与社会系统。不同尺度下，”内部”与”外部”的区分会发生变化，因此同一过程在不同边界设定下会得到不同解释。例如，以单个神经元为系统时，它似乎在推断神经网络中的其他状态；而以整个神经系统为系统时，则是在推断身体外部的世界。由此可见，主动推理模型的第一步并非技术编码，而是研究者对认知尺度、身体边界与环境嵌入方式的理论承诺。

第二个设计维度聚焦于生成模型的形式。作者指出，离散与连续之间不仅是计算实现上的差别，更对应不同的认知过程假设。离散模型适合刻画对象类别、行动策略、符号性状态等；连续模型适合描述位置、速度、肌肉长度、光照强度等连续变化量。现实中的认知系统往往需要二者结合——例如高层决策以离散策略表示，低层感知—动作动力学则以连续变量展开。与此同时，模型还需考虑时间尺度是否分层：若所有变量在同一尺度变化，可用浅层模型（shallow model）；若高层变量变化较慢、低层变量变化较快，则需层级或深层模型（hierarchical/deep model）。语言理解、分层目标控制、工作记忆等任务都需要这种多时间尺度结构。进一步地，若主体需要规划，则模型必须具有时间深度，能够表示行动—结果的未来链条，并通过期望自由能（expected free energy）比较不同策略（policy）所导向的可能未来。

第三步是最具创造性的部分：如何选择”对的问题变量”。作者认为，模型设计本质上是将认知假设翻译为概率结构。研究者需要决定隐藏状态（hidden states）、观测（observations）、行动（actions）分别是什么，它们之间如何映射，哪些模态彼此独立、哪些需要联合建模。书中以”跳跃的青蛙”为例，说明一个概念如何作为多模态感觉后果的共同原因——视觉、听觉、触觉乃至内感受信息都可以被整合到同一层级化生成模型中。这里的关键并非模型越复杂越好，而在于其结构要尽可能贴近我们关于数据生成机制的科学假设。作者借良好调节器定理（good regulator theorem）指出，系统若要有效调节环境，就必须在统计意义上成为该环境的一个好模型；但这并不要求生成模型与生成过程完全同构——简化而有效的模型同样可能更适合行动控制。

在学习问题上，作者将学习（learning）解释为对模型参数的推断，将推断（inference）解释为对模型状态的推断。两者共享贝叶斯更新的逻辑，但发生在不同时间尺度上：状态更新快，参数更新慢。前者可类比于神经活动动力学，后者可类比于突触可塑性。这样的区分使主动推理不仅能解释知觉与行动，还能解释好奇、主动学习与模型结构更新。最后，本章转向生成过程的设置，并提出一个重要的哲学区分：显式模型（explicit/environmental models）倾向于重建世界结构，行动导向模型（action-oriented models）则强调编码足以支持成功行为的感觉—动作耦合关系。作者以迷宫中的啮齿动物为例，对比”认知地图式”模型与”触须—触觉条件反应式”模型，说明主动推理并不要求主体总是构造精确的世界表征。总之，本章提供的不是僵硬模板，而是一套将理论、实验任务与计算实现连成一体的方法论配方。

🧩 核心概念

马尔可夫毯（Markov blanket）：用于界定系统边界的形式工具。它将系统分为内部状态、外部状态以及中介二者相互作用的毯状态（blanket states），后者又可细分为感觉状态与主动状态。其核心意义在于：内部系统无法直接接触外部世界，只能通过感觉输入间接推断外部原因，并通过行动影响环境。

生成模型（generative model）：主体内部关于”外部状态如何导致感觉结果”的概率模型。它编码主体的先验信念、状态转移、似然映射与偏好结构，是进行知觉、行动选择与学习的基础。生成模型具有主观性，因为它表达的是主体所相信的因果结构，而非环境本身的客观结构。

生成过程（generative process）：产生主体观测数据的外部世界动力学。它是环境层面的”真实”数据生成机制，可以与主体的生成模型近似一致，也可以显著不同。主动推理的关键并不在于二者完全一致，而在于主体模型是否足以实现适应性调节与成功行动。

离散变量与连续变量（discrete vs. continuous variables）：离散变量适合刻画类别、选项、策略、事件序列；连续变量适合描述位置、速度、亮度等连续变化量。两者不仅存在技术实现差异，也对应对认知过程时间结构和神经实现方式的不同假设。许多实际模型采取混合形式：高层离散，低层连续。

层级/深层模型（hierarchical/deep model）：具有多个时间尺度与抽象层级的生成模型。高层状态变化慢、负责长期上下文；低层状态变化快、负责局部细节。它适合解释语言、计划、工作记忆与层级目标控制等任务，因为这些任务天然包含”慢变量约束快变量”的结构。

时间深度（temporal depth）：指模型是否显式表示未来观测与行动后果。缺乏时间深度的模型只能解释当下推断；具备时间深度的模型则可比较不同策略引向的未来结果，从而支持规划（planning）与反事实推断（counterfactual inference）。

推断与学习（inference vs. learning）：推断是对隐藏状态的快速更新，学习是对模型参数的缓慢更新。两者都可理解为自由能最小化，但作用对象与时间尺度不同。这一区分使主动推理能够统一解释在线知觉与长期知识积累。

行动导向模型（action-oriented model）：一种不追求完整重建外部世界、而强调编码对成功行为足够有用的感觉—动作关系的生成模型。它体现了生态心理学、具身认知与形态计算的观点：主体不必拥有详尽的世界地图，也能通过恰当的感觉—动作耦合实现适应行为。

🔬 关键公式与推导

自由能最小化的总体原则：一旦生成模型与生成过程被设定，系统的内部状态与主动状态便沿自由能泛函梯度下降。直觉上，这意味着主体通过更新信念来减少”我所预测的”和”我所感受到的”之间的不一致，并通过行动将世界带向更符合其预测与偏好的状态。

变分自由能与期望自由能的区分：变分自由能（variational free energy）主要针对当前观测，用于驱动当下的知觉推断；期望自由能（expected free energy）则是对未来观测的函数，只有在模型具有时间深度时才可计算。主体之所以能够规划，正是因为它比较不同策略下未来期望自由能的大小，并倾向于选择使其最小化的策略。

离散时间模型中的参数结构：作者提到 POMDP 中常见的 A、B、C、D、E 矩阵。A 可理解为隐藏状态→观测的似然映射，B 表示状态转移，D 表示初始状态先验，C 编码对观测结果的偏好，E 反映策略先验。其核心思想不在于记忆字母标签，而是将”世界如何生成感觉””主体偏好什么””主体预期如何行动”都写成概率对象。

状态更新与参数更新的同构性：推断和学习在算法形式上共享贝叶斯更新结构。前者更新 q(state)，后者更新 q(parameter)。差别在于前者快速、逐时展开，后者缓慢、跨经验积累。这种同构性支撑一个统一主张：知觉、决策与学习并非彼此孤立的模块，而是同一优化原则在不同层面的体现。

良好调节器定理的直觉表达：若一个系统想要有效调节环境，那么它必须在某种意义上”像”环境——即其内部模型需要捕获环境中与生存和行动相关的统计结构。但”像”并不等于逐项复制，而更接近”≈”：保留关键因果关系，压缩无关细节。这也解释了为何行动导向模型虽不写实，仍可能具有高效的适应性。

💡 认知启示

本章对认知科学的重要启示在于，它将”如何建模心智”转化为一系列可检验的结构性选择。首先，认知不是在真空中发生的，而是在某个被明确划定的系统边界内展开。马尔可夫毯的设定迫使我们认真面对具身性（embodiment）、内感受（interoception）、工具使用与社会嵌入这些问题：心智究竟止于大脑、止于身体，还是可延展至环境中的支撑结构？

其次，作者表明认知过程具有多重时间尺度。感知的细粒度变化、目标维持、行动规划、语言理解和工作记忆，不应被压平为单一层次上的计算。深层生成模型之所以重要，是因为它为”上下文如何约束瞬时输入””长期目标如何组织局部动作”提供了统一的形式表达。

再次，本章对”表征是否必须写实”给出了一种折中回答。主动推理并不要求认知系统形成完整的世界复制品；它更关注模型是否足以支持成功调节。这为认知地图、预测加工、生态心理学与行动导向认知之间提供了对话空间——认知系统既可以通过显式世界模型来行动，也可以通过精简的感觉—动作耦合规则有效适应。

最后，将学习视为较慢时间尺度上的推断，为理解神经可塑性、探索行为与精神病理提供了统一框架。异常行为未必意味着”非理性”，也可能意味着主体在不同先验下仍然是贝叶斯最优（Bayes optimal）的。由此，认知科学的任务不只是判断行为是否正确，而是反向追问：什么样的先验、什么样的生成模型，会使这种行为成为最优反应？

相关文章：