《Active Inference: The Free Energy Principle in Mind, Brain, and Behavior》第2章：Chapter 2: The Low Road to Active Inference

第2章：通往主动推理的低路

Thomas Parr, Giovanni Pezzulo, Karl J. Friston

出自：Active Inference (MIT Press, 2022)

📖 章节总结

本章从贝叶斯大脑假说（Bayesian brain hypothesis）出发，以”自下而上”的方式引入Active Inference框架。这条”低路”的起点是亥姆霍兹提出的经典观点——感知即无意识推理（perception as unconscious inference）。

核心论证路径如下：

第一步：感知即推理。 感知不是从感觉器官到内部表征的被动传导，而是一个推理过程——大脑将自上而下的先验预测与自下而上的感觉输入结合，通过贝叶斯规则更新信念。执行贝叶斯推理需要一个生成模型（generative model），它编码了”观测是如何从隐状态生成的”这一概率关系。

第二步：行动即推理。 Active Inference的关键突破在于将行动纳入同一推理框架。感知通过更新信念（改变想法）来减少惊奇，行动通过改变世界（改变感觉输入）来减少惊奇。两者优化的是同一个目标函数。温度调节的例子最为直观：当体温偏高时，”改变想法”显然不如”开窗降温”来得有效——行动才是适应性的选择。

第三步：变分自由能。 由于精确的贝叶斯推理在计算上不可行（需要对所有隐状态积分），Active Inference引入变分近似：用近似后验 Q(x) 替代真实后验 P(x|y)，用变分自由能 F 替代惊奇。F 是惊奇的上界——最小化 F 等价于间接最小化惊奇。

变分自由能有三种等价分解，每种提供不同的直觉：

能量 − 熵：在与生成模型一致的同时保持最大不确定性（最大熵原理）
复杂度 − 准确度：找到最简单且能准确解释数据的信念（奥卡姆剃刀）
散度 + 证据：感知最小化散度，行动最大化证据

第四步：规划即推理。 期望自由能（expected free energy, G）将框架扩展到前瞻性认知。每条策略（policy，即行动序列）的好坏由其期望自由能来评分。期望自由能同样有多种分解：

信息增益 + 实用价值：自动平衡探索（解决不确定性）与利用（实现目标）
风险 + 歧义：风险衡量策略后果的不确定性，歧义衡量状态到观测映射的模糊程度

通过删除期望自由能中的不同项，可以推导出一系列经典决策理论：贝叶斯决策理论、期望效用理论、KL控制、内在动机、最大信息原理等——它们都是Active Inference的特例。

🧩 核心概念

Generative Model vs. Generative Process（生成模型 vs. 生成过程）

生成模型是有机体内部的概率模型，编码”世界状态如何产生观测”的信念。生成过程是外部世界中真实的因果机制。两者不必相同：模型中的隐状态空间可以与真实世界不同维度、不同类型。视错觉就是生成模型与生成过程不匹配的典型案例——有时模型比过程提供了更好（更简洁）的解释。

Variational Free Energy（变分自由能）

写作 F[Q, y]，是近似后验 Q 的泛函和观测 y 的函数。它是惊奇 −ln P(y) 的上界，界的松紧度由 Q 与真实后验之间的KL散度决定。当 Q = P(x|y) 时，F 恰好等于惊奇。感知通过优化 Q 来收紧上界，行动通过改变 y 来降低惊奇本身。

Expected Free Energy（期望自由能）

写作 G(π)，是评估未来策略好坏的目标函数。与变分自由能的关键区别：F 只涉及当前和过去的观测（回顾性），G 涉及预测的未来观测（前瞻性、反事实性）。G 通过生成模型的”如果-那么”模拟来计算——有机体虚拟地运行每条策略，预测其后果。

Information Gain / Epistemic Value（信息增益 / 认识性价值）

期望自由能中衡量”一条策略能减少多少关于世界状态的不确定性”的项。它驱动探索行为：选择那些能最大程度更新信念的行动。例如，不知道今天周几时，先看日历（认识性行动）再决定去哪家咖啡馆（实用性行动）。

Pragmatic Value（实用价值）

期望自由能中衡量”预测结果与偏好是否一致”的项。它驱动目标导向行为：选择那些能带来偏好结果的行动。C 参数编码了有机体的先验偏好。

Risk vs. Ambiguity（风险 vs. 歧义）

风险：同一策略可能导致不同结果的不确定性（一对多映射：策略→结果）。歧义：即使完全知道状态，观测仍然模糊的不确定性（一对多映射：状态→观测）。抛硬币判断天气就是高歧义的典型——结果与状态之间没有信息关系。

Bayesian Surprise vs. Surprise（贝叶斯惊奇 vs. 惊奇）

两个容易混淆但截然不同的概念。惊奇 = −ln P(y)，衡量观测在模型下有多不可能。贝叶斯惊奇 = D_KL[P(x|y) ‖ P(x)]，衡量观测导致多大的信念更新。一个极端自信的先验可以有零贝叶斯惊奇（完全不更新）但巨大的惊奇（观测极不可能）。

Policy vs. Action（策略 vs. 行动）

行动直接影响外部世界，策略是关于”如何行为”的假说。Active Inference将规划视为对策略的推理——推断”我正在执行哪条策略”，然后将该策略的预测转化为具体行动。

🔬 关键公式与推导

贝叶斯规则

P(x|y) = P(x)·P(y|x) / P(y)

直觉：后验 = 先验 × 似然 / 证据。苹果-青蛙的例子完美展示：先验认为90%是苹果，但观察到跳跃后，后验翻转为90%是青蛙。

变分自由能的三种分解

F = −E_Q[ln P(y,x)] − H[Q(x)]（能量 − 熵）
F = D_KL[Q(x) ‖ P(x)] − E_Q[ln P(y|x)]（复杂度 − 准确度）
F = D_KL[Q(x) ‖ P(x|y)] − ln P(y)（散度 − 证据）

第三种分解最重要：由于KL散度 ≥ 0，所以 F ≥ −ln P(y)，即自由能是惊奇的上界。感知收紧上界（减小散度），行动降低下界（减小惊奇）。

期望自由能的分解

G(π) = −信息增益 − 实用价值 = 歧义 + 风险

信息增益和实用价值以相同的单位（nats）表达，因此探索与利用可以自动权衡——无需额外的元控制器。

KL散度

D_KL[Q(x) ‖ P(x)] = E_Q[ln Q(x) − ln P(x)]

衡量两个概率分布之间的差异。非对称：D_KL[Q‖P] ≠ D_KL[P‖Q]。在Active Inference中反复出现：衡量复杂度、风险、信息增益、贝叶斯惊奇等。

💡 认知启示

感知与行动的统一目标函数

传统认知科学将感知和行动视为优化不同目标的独立系统（感知最大化准确度，行动最大化效用）。Active Inference的核心洞见是：两者优化同一个量——变分自由能。这不是一个优雅的数学巧合，而是有深刻的生物学含义：有机体的存在本身要求它同时”理解世界”和”让世界符合期望”。

主观最优性

贝叶斯推理是”最优的”，但这个最优性是相对于有机体自己的生成模型而言的，不是相对于客观现实。一个有缺陷的模型仍然可以进行”最优”推理——只是得出错误的结论。视错觉正是这种主观最优性的体现：大脑找到了最简解释，只是那个解释碰巧不对应物理现实。

先验即身份

Active Inference中的先验不仅是”对世界的预期”，更编码了有机体的存在条件和偏好。对鱼来说，”在水中”的先验概率极高——不是因为鱼”预测”自己在水中，而是因为这是它作为鱼的存在条件。从这个意义上说，有机体的身份等价于它的先验。

探索-利用的自然解决

期望自由能将信息增益（探索）和实用价值（利用）统一到同一个表达式中，以相同的单位衡量。这意味着”先看日历再去咖啡馆”这种先探索后利用的序列行为，自然涌现于一个统一的目标函数，而不需要外部元策略来切换探索/利用模式。

经典决策理论都是特例

期望效用理论、贝叶斯决策理论、KL控制、内在动机、最大信息原理——这些看似独立的框架，都可以通过删除期望自由能中的不同项来推导。这揭示了它们之间的深层统一性，也明确了每个框架的适用边界。

“低路”的认识论启示

从贝叶斯大脑到Active Inference的推导路径展示了一个重要的科学方法论：从一个被广泛接受的假设（感知是推理）出发，通过逻辑上必要的扩展（行动也是推理），自然地到达一个更普遍的框架。这条”低路”的说服力在于每一步都是渐进的、有动机的，而不是突然引入一个全新的原理。

相关文章：