《Active Inference: The Free Energy Principle in Mind, Brain, and Behavior》第6章:Chapter 6: A Recipe for Designing Active Inference Models

第6章:设计主动推理模型的配方

Thomas Parr, Giovanni Pezzulo, Karl J. Friston

出自:Active Inference (MIT Press, 2022)

📖 章节总结

本章的核心任务是将前几章提出的主动推理(Active Inference)一般原理,转化为可实际操作的模型设计流程。作者提出,构建一个主动推理模型通常可归纳为四个步骤。第一,明确”我们到底在建模什么系统”——这一步要求研究者划定系统边界,区分内部状态(internal states)、外部状态(external states)以及二者之间的接口,即感觉状态(sensory states)和主动状态(active states)。这种划分通常借助马尔可夫毯(Markov blanket)完成,它并非单纯的技术设定,而是决定了”谁在推断””推断什么”的本体论前提。第二,决定生成模型(generative model)的合适形式——研究者需要判断问题更适合用离散变量(discrete variables)还是连续变量(continuous variables)表述,是否需要层级化或深层结构(hierarchical/deep models),以及是否需要时间深度(temporal depth)来支持对未来行动后果的预测与规划。第三,设置生成模型本身,即决定模型中的变量、先验信念(priors)、参数与可学习部分。第四,设置生成过程(generative process),也就是外部世界如何真正产生观测,以及它与主体内部生成模型之间是近似、简化还是显著不同的关系。

作者特别强调,第一个设计选择看似朴素,实则具有深刻的理论意涵。马尔可夫毯的划定并非唯一的:我们可以把它画在单个神经元周围、画在整个大脑周围,也可以画在整个机体,甚至延展到身体外部的工具与社会系统。不同尺度下,”内部”与”外部”的区分会发生变化,因此同一过程在不同边界设定下会得到不同解释。例如,以单个神经元为系统时,它似乎在推断神经网络中的其他状态;而以整个神经系统为系统时,则是在推断身体外部的世界。由此可见,主动推理模型的第一步并非技术编码,而是研究者对认知尺度、身体边界与环境嵌入方式的理论承诺。

第二个设计维度聚焦于生成模型的形式。作者指出,离散与连续之间不仅是计算实现上的差别,更对应不同的认知过程假设。离散模型适合刻画对象类别、行动策略、符号性状态等;连续模型适合描述位置、速度、肌肉长度、光照强度等连续变化量。现实中的认知系统往往需要二者结合——例如高层决策以离散策略表示,低层感知—动作动力学则以连续变量展开。与此同时,模型还需考虑时间尺度是否分层:若所有变量在同一尺度变化,可用浅层模型(shallow model);若高层变量变化较慢、低层变量变化较快,则需层级或深层模型(hierarchical/deep model)。语言理解、分层目标控制、工作记忆等任务都需要这种多时间尺度结构。进一步地,若主体需要规划,则模型必须具有时间深度,能够表示行动—结果的未来链条,并通过期望自由能(expected free energy)比较不同策略(policy)所导向的可能未来。

第三步是最具创造性的部分:如何选择”对的问题变量”。作者认为,模型设计本质上是将认知假设翻译为概率结构。研究者需要决定隐藏状态(hidden states)、观测(observations)、行动(actions)分别是什么,它们之间如何映射,哪些模态彼此独立、哪些需要联合建模。书中以”跳跃的青蛙”为例,说明一个概念如何作为多模态感觉后果的共同原因——视觉、听觉、触觉乃至内感受信息都可以被整合到同一层级化生成模型中。这里的关键并非模型越复杂越好,而在于其结构要尽可能贴近我们关于数据生成机制的科学假设。作者借良好调节器定理(good regulator theorem)指出,系统若要有效调节环境,就必须在统计意义上成为该环境的一个好模型;但这并不要求生成模型与生成过程完全同构——简化而有效的模型同样可能更适合行动控制。

在学习问题上,作者将学习(learning)解释为对模型参数的推断,将推断(inference)解释为对模型状态的推断。两者共享贝叶斯更新的逻辑,但发生在不同时间尺度上:状态更新快,参数更新慢。前者可类比于神经活动动力学,后者可类比于突触可塑性。这样的区分使主动推理不仅能解释知觉与行动,还能解释好奇、主动学习与模型结构更新。最后,本章转向生成过程的设置,并提出一个重要的哲学区分:显式模型(explicit/environmental models)倾向于重建世界结构,行动导向模型(action-oriented models)则强调编码足以支持成功行为的感觉—动作耦合关系。作者以迷宫中的啮齿动物为例,对比”认知地图式”模型与”触须—触觉条件反应式”模型,说明主动推理并不要求主体总是构造精确的世界表征。总之,本章提供的不是僵硬模板,而是一套将理论、实验任务与计算实现连成一体的方法论配方。

🧩 核心概念

  • 马尔可夫毯(Markov blanket):用于界定系统边界的形式工具。它将系统分为内部状态、外部状态以及中介二者相互作用的毯状态(blanket states),后者又可细分为感觉状态与主动状态。其核心意义在于:内部系统无法直接接触外部世界,只能通过感觉输入间接推断外部原因,并通过行动影响环境。
  • 生成模型(generative model):主体内部关于”外部状态如何导致感觉结果”的概率模型。它编码主体的先验信念、状态转移、似然映射与偏好结构,是进行知觉、行动选择与学习的基础。生成模型具有主观性,因为它表达的是主体所相信的因果结构,而非环境本身的客观结构。
  • 生成过程(generative process):产生主体观测数据的外部世界动力学。它是环境层面的”真实”数据生成机制,可以与主体的生成模型近似一致,也可以显著不同。主动推理的关键并不在于二者完全一致,而在于主体模型是否足以实现适应性调节与成功行动。
  • 离散变量与连续变量(discrete vs. continuous variables):离散变量适合刻画类别、选项、策略、事件序列;连续变量适合描述位置、速度、亮度等连续变化量。两者不仅存在技术实现差异,也对应对认知过程时间结构和神经实现方式的不同假设。许多实际模型采取混合形式:高层离散,低层连续。
  • 层级/深层模型(hierarchical/deep model):具有多个时间尺度与抽象层级的生成模型。高层状态变化慢、负责长期上下文;低层状态变化快、负责局部细节。它适合解释语言、计划、工作记忆与层级目标控制等任务,因为这些任务天然包含”慢变量约束快变量”的结构。
  • 时间深度(temporal depth):指模型是否显式表示未来观测与行动后果。缺乏时间深度的模型只能解释当下推断;具备时间深度的模型则可比较不同策略引向的未来结果,从而支持规划(planning)与反事实推断(counterfactual inference)。
  • 推断与学习(inference vs. learning):推断是对隐藏状态的快速更新,学习是对模型参数的缓慢更新。两者都可理解为自由能最小化,但作用对象与时间尺度不同。这一区分使主动推理能够统一解释在线知觉与长期知识积累。
  • 行动导向模型(action-oriented model):一种不追求完整重建外部世界、而强调编码对成功行为足够有用的感觉—动作关系的生成模型。它体现了生态心理学、具身认知与形态计算的观点:主体不必拥有详尽的世界地图,也能通过恰当的感觉—动作耦合实现适应行为。

🔬 关键公式与推导

  • 自由能最小化的总体原则:一旦生成模型与生成过程被设定,系统的内部状态与主动状态便沿自由能泛函梯度下降。直觉上,这意味着主体通过更新信念来减少”我所预测的”和”我所感受到的”之间的不一致,并通过行动将世界带向更符合其预测与偏好的状态。
  • 变分自由能与期望自由能的区分:变分自由能(variational free energy)主要针对当前观测,用于驱动当下的知觉推断;期望自由能(expected free energy)则是对未来观测的函数,只有在模型具有时间深度时才可计算。主体之所以能够规划,正是因为它比较不同策略下未来期望自由能的大小,并倾向于选择使其最小化的策略。
  • 离散时间模型中的参数结构:作者提到 POMDP 中常见的 A、B、C、D、E 矩阵。A 可理解为隐藏状态→观测的似然映射,B 表示状态转移,D 表示初始状态先验,C 编码对观测结果的偏好,E 反映策略先验。其核心思想不在于记忆字母标签,而是将”世界如何生成感觉””主体偏好什么””主体预期如何行动”都写成概率对象。
  • 状态更新与参数更新的同构性:推断和学习在算法形式上共享贝叶斯更新结构。前者更新 q(state),后者更新 q(parameter)。差别在于前者快速、逐时展开,后者缓慢、跨经验积累。这种同构性支撑一个统一主张:知觉、决策与学习并非彼此孤立的模块,而是同一优化原则在不同层面的体现。
  • 良好调节器定理的直觉表达:若一个系统想要有效调节环境,那么它必须在某种意义上”像”环境——即其内部模型需要捕获环境中与生存和行动相关的统计结构。但”像”并不等于逐项复制,而更接近”≈”:保留关键因果关系,压缩无关细节。这也解释了为何行动导向模型虽不写实,仍可能具有高效的适应性。

💡 认知启示

本章对认知科学的重要启示在于,它将”如何建模心智”转化为一系列可检验的结构性选择。首先,认知不是在真空中发生的,而是在某个被明确划定的系统边界内展开。马尔可夫毯的设定迫使我们认真面对具身性(embodiment)、内感受(interoception)、工具使用与社会嵌入这些问题:心智究竟止于大脑、止于身体,还是可延展至环境中的支撑结构?

其次,作者表明认知过程具有多重时间尺度。感知的细粒度变化、目标维持、行动规划、语言理解和工作记忆,不应被压平为单一层次上的计算。深层生成模型之所以重要,是因为它为”上下文如何约束瞬时输入””长期目标如何组织局部动作”提供了统一的形式表达。

再次,本章对”表征是否必须写实”给出了一种折中回答。主动推理并不要求认知系统形成完整的世界复制品;它更关注模型是否足以支持成功调节。这为认知地图、预测加工、生态心理学与行动导向认知之间提供了对话空间——认知系统既可以通过显式世界模型来行动,也可以通过精简的感觉—动作耦合规则有效适应。

最后,将学习视为较慢时间尺度上的推断,为理解神经可塑性、探索行为与精神病理提供了统一框架。异常行为未必意味着”非理性”,也可能意味着主体在不同先验下仍然是贝叶斯最优(Bayes optimal)的。由此,认知科学的任务不只是判断行为是否正确,而是反向追问:什么样的先验、什么样的生成模型,会使这种行为成为最优反应?

滚动至顶部