《Active Inference: The Free Energy Principle in Mind, Brain, and Behavior》第2章:Chapter 2: The Low Road to Active Inference

第2章:通往主动推理的低路

Thomas Parr, Giovanni Pezzulo, Karl J. Friston

出自:Active Inference (MIT Press, 2022)

📖 章节总结

本章从贝叶斯大脑假说(Bayesian brain hypothesis)出发,以”自下而上”的方式引入Active Inference框架。这条”低路”的起点是亥姆霍兹提出的经典观点——感知即无意识推理(perception as unconscious inference)。

核心论证路径如下:

第一步:感知即推理。 感知不是从感觉器官到内部表征的被动传导,而是一个推理过程——大脑将自上而下的先验预测与自下而上的感觉输入结合,通过贝叶斯规则更新信念。执行贝叶斯推理需要一个生成模型(generative model),它编码了”观测是如何从隐状态生成的”这一概率关系。

第二步:行动即推理。 Active Inference的关键突破在于将行动纳入同一推理框架。感知通过更新信念(改变想法)来减少惊奇,行动通过改变世界(改变感觉输入)来减少惊奇。两者优化的是同一个目标函数。温度调节的例子最为直观:当体温偏高时,”改变想法”显然不如”开窗降温”来得有效——行动才是适应性的选择。

第三步:变分自由能。 由于精确的贝叶斯推理在计算上不可行(需要对所有隐状态积分),Active Inference引入变分近似:用近似后验 Q(x) 替代真实后验 P(x|y),用变分自由能 F 替代惊奇。F 是惊奇的上界——最小化 F 等价于间接最小化惊奇。

变分自由能有三种等价分解,每种提供不同的直觉:

  • 能量 − 熵:在与生成模型一致的同时保持最大不确定性(最大熵原理)
  • 复杂度 − 准确度:找到最简单且能准确解释数据的信念(奥卡姆剃刀)
  • 散度 + 证据:感知最小化散度,行动最大化证据

第四步:规划即推理。 期望自由能(expected free energy, G)将框架扩展到前瞻性认知。每条策略(policy,即行动序列)的好坏由其期望自由能来评分。期望自由能同样有多种分解:

  • 信息增益 + 实用价值:自动平衡探索(解决不确定性)与利用(实现目标)
  • 风险 + 歧义:风险衡量策略后果的不确定性,歧义衡量状态到观测映射的模糊程度

通过删除期望自由能中的不同项,可以推导出一系列经典决策理论:贝叶斯决策理论、期望效用理论、KL控制、内在动机、最大信息原理等——它们都是Active Inference的特例。

🧩 核心概念

Generative Model vs. Generative Process(生成模型 vs. 生成过程)

生成模型是有机体内部的概率模型,编码”世界状态如何产生观测”的信念。生成过程是外部世界中真实的因果机制。两者不必相同:模型中的隐状态空间可以与真实世界不同维度、不同类型。视错觉就是生成模型与生成过程不匹配的典型案例——有时模型比过程提供了更好(更简洁)的解释。

Variational Free Energy(变分自由能)

写作 F[Q, y],是近似后验 Q 的泛函和观测 y 的函数。它是惊奇 −ln P(y) 的上界,界的松紧度由 Q 与真实后验之间的KL散度决定。当 Q = P(x|y) 时,F 恰好等于惊奇。感知通过优化 Q 来收紧上界,行动通过改变 y 来降低惊奇本身。

Expected Free Energy(期望自由能)

写作 G(π),是评估未来策略好坏的目标函数。与变分自由能的关键区别:F 只涉及当前和过去的观测(回顾性),G 涉及预测的未来观测(前瞻性、反事实性)。G 通过生成模型的”如果-那么”模拟来计算——有机体虚拟地运行每条策略,预测其后果。

Information Gain / Epistemic Value(信息增益 / 认识性价值)

期望自由能中衡量”一条策略能减少多少关于世界状态的不确定性”的项。它驱动探索行为:选择那些能最大程度更新信念的行动。例如,不知道今天周几时,先看日历(认识性行动)再决定去哪家咖啡馆(实用性行动)。

Pragmatic Value(实用价值)

期望自由能中衡量”预测结果与偏好是否一致”的项。它驱动目标导向行为:选择那些能带来偏好结果的行动。C 参数编码了有机体的先验偏好。

Risk vs. Ambiguity(风险 vs. 歧义)

风险:同一策略可能导致不同结果的不确定性(一对多映射:策略→结果)。歧义:即使完全知道状态,观测仍然模糊的不确定性(一对多映射:状态→观测)。抛硬币判断天气就是高歧义的典型——结果与状态之间没有信息关系。

Bayesian Surprise vs. Surprise(贝叶斯惊奇 vs. 惊奇)

两个容易混淆但截然不同的概念。惊奇 = −ln P(y),衡量观测在模型下有多不可能。贝叶斯惊奇 = D_KL[P(x|y) ‖ P(x)],衡量观测导致多大的信念更新。一个极端自信的先验可以有零贝叶斯惊奇(完全不更新)但巨大的惊奇(观测极不可能)。

Policy vs. Action(策略 vs. 行动)

行动直接影响外部世界,策略是关于”如何行为”的假说。Active Inference将规划视为对策略的推理——推断”我正在执行哪条策略”,然后将该策略的预测转化为具体行动。

🔬 关键公式与推导

贝叶斯规则

P(x|y) = P(x)·P(y|x) / P(y)

直觉:后验 = 先验 × 似然 / 证据。苹果-青蛙的例子完美展示:先验认为90%是苹果,但观察到跳跃后,后验翻转为90%是青蛙。

变分自由能的三种分解

  • F = −E_Q[ln P(y,x)] − H[Q(x)](能量 − 熵)
  • F = D_KL[Q(x) ‖ P(x)] − E_Q[ln P(y|x)](复杂度 − 准确度)
  • F = D_KL[Q(x) ‖ P(x|y)] − ln P(y)(散度 − 证据)

第三种分解最重要:由于KL散度 ≥ 0,所以 F ≥ −ln P(y),即自由能是惊奇的上界。感知收紧上界(减小散度),行动降低下界(减小惊奇)。

期望自由能的分解

G(π) = −信息增益 − 实用价值 = 歧义 + 风险

信息增益和实用价值以相同的单位(nats)表达,因此探索与利用可以自动权衡——无需额外的元控制器。

KL散度

D_KL[Q(x) ‖ P(x)] = E_Q[ln Q(x) − ln P(x)]

衡量两个概率分布之间的差异。非对称:D_KL[Q‖P] ≠ D_KL[P‖Q]。在Active Inference中反复出现:衡量复杂度、风险、信息增益、贝叶斯惊奇等。

💡 认知启示

感知与行动的统一目标函数

传统认知科学将感知和行动视为优化不同目标的独立系统(感知最大化准确度,行动最大化效用)。Active Inference的核心洞见是:两者优化同一个量——变分自由能。这不是一个优雅的数学巧合,而是有深刻的生物学含义:有机体的存在本身要求它同时”理解世界”和”让世界符合期望”。

主观最优性

贝叶斯推理是”最优的”,但这个最优性是相对于有机体自己的生成模型而言的,不是相对于客观现实。一个有缺陷的模型仍然可以进行”最优”推理——只是得出错误的结论。视错觉正是这种主观最优性的体现:大脑找到了最简解释,只是那个解释碰巧不对应物理现实。

先验即身份

Active Inference中的先验不仅是”对世界的预期”,更编码了有机体的存在条件和偏好。对鱼来说,”在水中”的先验概率极高——不是因为鱼”预测”自己在水中,而是因为这是它作为鱼的存在条件。从这个意义上说,有机体的身份等价于它的先验。

探索-利用的自然解决

期望自由能将信息增益(探索)和实用价值(利用)统一到同一个表达式中,以相同的单位衡量。这意味着”先看日历再去咖啡馆”这种先探索后利用的序列行为,自然涌现于一个统一的目标函数,而不需要外部元策略来切换探索/利用模式。

经典决策理论都是特例

期望效用理论、贝叶斯决策理论、KL控制、内在动机、最大信息原理——这些看似独立的框架,都可以通过删除期望自由能中的不同项来推导。这揭示了它们之间的深层统一性,也明确了每个框架的适用边界。

“低路”的认识论启示

从贝叶斯大脑到Active Inference的推导路径展示了一个重要的科学方法论:从一个被广泛接受的假设(感知是推理)出发,通过逻辑上必要的扩展(行动也是推理),自然地到达一个更普遍的框架。这条”低路”的说服力在于每一步都是渐进的、有动机的,而不是突然引入一个全新的原理。

滚动至顶部