第2章:通往主动推理的低路
Thomas Parr, Giovanni Pezzulo, Karl J. Friston
出自:Active Inference (MIT Press, 2022)
📖 章节总结
本章从贝叶斯大脑假说(Bayesian brain hypothesis)出发,以”自下而上”的方式引入Active Inference框架。这条”低路”的起点是亥姆霍兹提出的经典观点——感知即无意识推理(perception as unconscious inference)。
核心论证路径如下:
第一步:感知即推理。 感知不是从感觉器官到内部表征的被动传导,而是一个推理过程——大脑将自上而下的先验预测与自下而上的感觉输入结合,通过贝叶斯规则更新信念。执行贝叶斯推理需要一个生成模型(generative model),它编码了”观测是如何从隐状态生成的”这一概率关系。
第二步:行动即推理。 Active Inference的关键突破在于将行动纳入同一推理框架。感知通过更新信念(改变想法)来减少惊奇,行动通过改变世界(改变感觉输入)来减少惊奇。两者优化的是同一个目标函数。温度调节的例子最为直观:当体温偏高时,”改变想法”显然不如”开窗降温”来得有效——行动才是适应性的选择。
第三步:变分自由能。 由于精确的贝叶斯推理在计算上不可行(需要对所有隐状态积分),Active Inference引入变分近似:用近似后验 Q(x) 替代真实后验 P(x|y),用变分自由能 F 替代惊奇。F 是惊奇的上界——最小化 F 等价于间接最小化惊奇。
变分自由能有三种等价分解,每种提供不同的直觉:
- 能量 − 熵:在与生成模型一致的同时保持最大不确定性(最大熵原理)
- 复杂度 − 准确度:找到最简单且能准确解释数据的信念(奥卡姆剃刀)
- 散度 + 证据:感知最小化散度,行动最大化证据
第四步:规划即推理。 期望自由能(expected free energy, G)将框架扩展到前瞻性认知。每条策略(policy,即行动序列)的好坏由其期望自由能来评分。期望自由能同样有多种分解:
- 信息增益 + 实用价值:自动平衡探索(解决不确定性)与利用(实现目标)
- 风险 + 歧义:风险衡量策略后果的不确定性,歧义衡量状态到观测映射的模糊程度
通过删除期望自由能中的不同项,可以推导出一系列经典决策理论:贝叶斯决策理论、期望效用理论、KL控制、内在动机、最大信息原理等——它们都是Active Inference的特例。
🧩 核心概念
Generative Model vs. Generative Process(生成模型 vs. 生成过程)
生成模型是有机体内部的概率模型,编码”世界状态如何产生观测”的信念。生成过程是外部世界中真实的因果机制。两者不必相同:模型中的隐状态空间可以与真实世界不同维度、不同类型。视错觉就是生成模型与生成过程不匹配的典型案例——有时模型比过程提供了更好(更简洁)的解释。
Variational Free Energy(变分自由能)
写作 F[Q, y],是近似后验 Q 的泛函和观测 y 的函数。它是惊奇 −ln P(y) 的上界,界的松紧度由 Q 与真实后验之间的KL散度决定。当 Q = P(x|y) 时,F 恰好等于惊奇。感知通过优化 Q 来收紧上界,行动通过改变 y 来降低惊奇本身。
Expected Free Energy(期望自由能)
写作 G(π),是评估未来策略好坏的目标函数。与变分自由能的关键区别:F 只涉及当前和过去的观测(回顾性),G 涉及预测的未来观测(前瞻性、反事实性)。G 通过生成模型的”如果-那么”模拟来计算——有机体虚拟地运行每条策略,预测其后果。
Information Gain / Epistemic Value(信息增益 / 认识性价值)
期望自由能中衡量”一条策略能减少多少关于世界状态的不确定性”的项。它驱动探索行为:选择那些能最大程度更新信念的行动。例如,不知道今天周几时,先看日历(认识性行动)再决定去哪家咖啡馆(实用性行动)。
Pragmatic Value(实用价值)
期望自由能中衡量”预测结果与偏好是否一致”的项。它驱动目标导向行为:选择那些能带来偏好结果的行动。C 参数编码了有机体的先验偏好。
Risk vs. Ambiguity(风险 vs. 歧义)
风险:同一策略可能导致不同结果的不确定性(一对多映射:策略→结果)。歧义:即使完全知道状态,观测仍然模糊的不确定性(一对多映射:状态→观测)。抛硬币判断天气就是高歧义的典型——结果与状态之间没有信息关系。
Bayesian Surprise vs. Surprise(贝叶斯惊奇 vs. 惊奇)
两个容易混淆但截然不同的概念。惊奇 = −ln P(y),衡量观测在模型下有多不可能。贝叶斯惊奇 = D_KL[P(x|y) ‖ P(x)],衡量观测导致多大的信念更新。一个极端自信的先验可以有零贝叶斯惊奇(完全不更新)但巨大的惊奇(观测极不可能)。
Policy vs. Action(策略 vs. 行动)
行动直接影响外部世界,策略是关于”如何行为”的假说。Active Inference将规划视为对策略的推理——推断”我正在执行哪条策略”,然后将该策略的预测转化为具体行动。
🔬 关键公式与推导
贝叶斯规则
P(x|y) = P(x)·P(y|x) / P(y)
直觉:后验 = 先验 × 似然 / 证据。苹果-青蛙的例子完美展示:先验认为90%是苹果,但观察到跳跃后,后验翻转为90%是青蛙。
变分自由能的三种分解
- F = −E_Q[ln P(y,x)] − H[Q(x)](能量 − 熵)
- F = D_KL[Q(x) ‖ P(x)] − E_Q[ln P(y|x)](复杂度 − 准确度)
- F = D_KL[Q(x) ‖ P(x|y)] − ln P(y)(散度 − 证据)
第三种分解最重要:由于KL散度 ≥ 0,所以 F ≥ −ln P(y),即自由能是惊奇的上界。感知收紧上界(减小散度),行动降低下界(减小惊奇)。
期望自由能的分解
G(π) = −信息增益 − 实用价值 = 歧义 + 风险
信息增益和实用价值以相同的单位(nats)表达,因此探索与利用可以自动权衡——无需额外的元控制器。
KL散度
D_KL[Q(x) ‖ P(x)] = E_Q[ln Q(x) − ln P(x)]
衡量两个概率分布之间的差异。非对称:D_KL[Q‖P] ≠ D_KL[P‖Q]。在Active Inference中反复出现:衡量复杂度、风险、信息增益、贝叶斯惊奇等。
💡 认知启示
感知与行动的统一目标函数
传统认知科学将感知和行动视为优化不同目标的独立系统(感知最大化准确度,行动最大化效用)。Active Inference的核心洞见是:两者优化同一个量——变分自由能。这不是一个优雅的数学巧合,而是有深刻的生物学含义:有机体的存在本身要求它同时”理解世界”和”让世界符合期望”。
主观最优性
贝叶斯推理是”最优的”,但这个最优性是相对于有机体自己的生成模型而言的,不是相对于客观现实。一个有缺陷的模型仍然可以进行”最优”推理——只是得出错误的结论。视错觉正是这种主观最优性的体现:大脑找到了最简解释,只是那个解释碰巧不对应物理现实。
先验即身份
Active Inference中的先验不仅是”对世界的预期”,更编码了有机体的存在条件和偏好。对鱼来说,”在水中”的先验概率极高——不是因为鱼”预测”自己在水中,而是因为这是它作为鱼的存在条件。从这个意义上说,有机体的身份等价于它的先验。
探索-利用的自然解决
期望自由能将信息增益(探索)和实用价值(利用)统一到同一个表达式中,以相同的单位衡量。这意味着”先看日历再去咖啡馆”这种先探索后利用的序列行为,自然涌现于一个统一的目标函数,而不需要外部元策略来切换探索/利用模式。
经典决策理论都是特例
期望效用理论、贝叶斯决策理论、KL控制、内在动机、最大信息原理——这些看似独立的框架,都可以通过删除期望自由能中的不同项来推导。这揭示了它们之间的深层统一性,也明确了每个框架的适用边界。
“低路”的认识论启示
从贝叶斯大脑到Active Inference的推导路径展示了一个重要的科学方法论:从一个被广泛接受的假设(感知是推理)出发,通过逻辑上必要的扩展(行动也是推理),自然地到达一个更普遍的框架。这条”低路”的说服力在于每一步都是渐进的、有动机的,而不是突然引入一个全新的原理。