附录B:主动推理的方程
Thomas Parr, Giovanni Pezzulo, Karl J. Friston
出自:Active Inference (MIT Press, 2022)
📖 章节总结
本附录将主文中有关主动推理的核心思想压缩为一组可计算、可实现、可比较的方程体系。作者首先在离散状态的 POMDP 框架下,给出给定策略条件下的变分自由能、状态后验更新、策略后验、参数学习与精度更新;随后说明期望自由能为何能作为策略先验的原则性依据,并展示其在计算上如何分解为歧义性、风险、显著性与新颖性等成分。最后,附录将讨论扩展至贝叶斯模型约化与连续状态空间模型,说明同一套自由能最小化原则如何贯通离散推断、规划、学习与连续动力学。
从结构上看,这一附录并非简单罗列公式,而是在回答一个更深层的问题:如果把感知、行动、规划、学习全部理解为变分推断的不同侧面,那么这些过程在数学上应当如何统一表达。作者的回答是:对隐状态的推断、对策略的选择、对 Dirichlet 参数的更新、对精度的调节,乃至连续系统中的预测编码与行动,都可以被写成自由能或期望自由能的梯度流。换言之,主动推理并非若干算法的拼装,而是一种在同一变分原理下展开的推断架构。
附录还承担了”从思想到实现”的桥梁功能。主文多从概念层面解释有机体如何通过最小化惊异来维持自身,而附录则指出:在实际建模时,这意味着要指定 A、B、C、D、E 等生成模型成分,构造后验信念的充分统计量,并通过 softmax、消息传递、Dirichlet 累加、Gamma 精度更新等具体计算步骤来近似求解。尤其在期望自由能一节,作者不只给出常见的工程分解,还试图论证为什么风险与歧义性的最小化会自然导向适应性策略选择。这使附录既是技术说明书,也是对主文理论合法性的数学补充。
🧩 核心概念
第一,附录把”推断”严格定义为对隐状态的后验信念更新。给定某一策略,系统依据观测 o、似然映射 A、状态转移 B 以及初始先验 D 来最小化条件自由能 F_π。这里的关键思想是:状态并非被直接读取,而是通过最小化自由能得到的后验近似。为保证后验保持归一化,作者引入对数后验变量 v,并通过 softmax 将其映射为状态信念 s。由此,信念更新被写成一种具有生物学可解释性的梯度下降,而非抽象的解析求解。
第二,附录把”规划”解释为对策略的推断,即”规划即推断”。每个策略都可视作一个竞争性模型,其优劣由两部分共同决定:已经积累的变分自由能 F,以及面向未来的期望自由能 G。再加上习惯或偏置项 E,策略后验便由 π = σ(ln E − F − G) 给出。这个表达式非常关键,因为它表明行动选择并非额外附加的控制模块,而是对”哪条策略最可信”的贝叶斯更新。
第三,附录把”学习”解释为对生成模型参数的后验更新。由于 A、B、C、D、E 对应范畴分布,其共轭先验为 Dirichlet 分布,因此学习可被写成对 Dirichlet 浓度参数的累加更新。直观上,只要某种”状态→结果”或”状态→状态”转换在经验中出现,相应参数就增加一份”证据”。因此,学习并非神秘的权重调整,而是对统计计数的贝叶斯积累。
第四,附录突出精度在主动推理中的调节作用。精度相当于不同信号来源的可信度或增益控制,可作用于似然、转移与策略选择。通过 Gamma 先验与后验,精度自身也成为需要推断的变量。这样一来,系统不仅推断”世界是什么”,也推断”我该在多大程度上相信当前感觉、状态转移或策略评估”。这使主动推理具有典型的层级贝叶斯特征。
第五,期望自由能被呈现为连接认识论与行动论的关键量。它一方面包含实用性成分,即与偏好结果的接近程度;另一方面包含认知性成分,即减少不确定性的潜力。作者进一步区分显著性(对隐状态的信息增益)与新颖性(对模型参数的信息增益),表明主动推理并非单纯趋利避害,也包含主动获取信息、改进模型的内在倾向。
第六,在连续情形下,附录转向广义滤波。此时隐变量被区分为服从动力学方程的 x 与服从静态先验的 v,自由能则在拉普拉斯近似与广义运动坐标下展开。预测误差 ε_y、ε_x、ε_v 驱动期望值的更新,而行动通过改变感觉输入来最小化自由能。于是,离散 POMDP 中的信念更新与连续预测编码被纳入同一理论谱系。
🔬 关键公式
1. 给定策略的变分自由能
附录先将观测模型与状态转移模型代入自由能,得到离散 POMDP 条件下的 F_π。其核心结构是:当前信念 s_πτ 既要解释观测 o_τ,也要与前一时刻状态及当前策略下的转移动力学保持一致。公式中 ln s 与 ln A、ln B、ln D 的组合,本质上体现了后验信念与似然、先验转移、初始先验之间的协调。
2. 状态更新:s_πτ = σ(v_πτ),v̇_πτ = −∇_{s_πτ} F_π
这组方程把状态推断写成梯度下降。v 可理解为未归一化的对数后验,softmax 保证 s 是合法概率分布。其重要意义不在于形式上的优雅,而在于它给出了局部可实现的消息传递方案:状态更新只依赖感觉证据、紧邻时刻的过去状态信念和未来状态信念,因而具有神经生物学上的可解释性。附录同时指出,简单的平均场分解往往导致后验过度自信,因此实际中更常使用边际消息传递,以得到更保守的不确定性估计。
3. 规划即推断:π = σ(ln E − F − G)
这是全书最核心的公式之一。ln E 表示习惯或策略先验偏置,F 表示已观察到的数据对各策略的解释代价,G 表示若继续沿该策略前进、未来预期会产生多少期望自由能。策略后验越高,意味着该策略同时更符合过去的证据、也更有利于未来。用一句话概括:有机体不是直接”选动作”,而是在推断哪条策略最值得信赖。
4. 学习规则
a = a + Σ_τ (o_τ ⊗ s_τ)
b_πτ = b_πτ + Σ_τ (s_πτ ⊗ s_{πτ−1})
c = c + Σ_τ o_τ
d = d + s₁
e = e + π
这些更新式体现了 Dirichlet–范畴共轭结构。a 对应似然 A 的浓度参数,b 对应转移 B,c 对应偏好或结果计数,d 对应初始状态先验,e 对应策略先验/习惯。其形式都极为直观:经验发生一次,就把相应的统计证据纳入其中。附录借此说明,学习并非独立过程,而是推断在参数空间中的延伸。
5. 精度相关表达
当策略先验被写成 Gibbs 测度时,P(π | γ) = Cat(σ(−γG)),γ 即充当策略精度。γ 越高,系统越强烈地区分期望自由能高低不同的策略;γ 越低,策略选择越趋于平坦。类似地,ζ 控制似然精度,ω 控制转移精度。通过对这些精度的自由能求导并做梯度下降,系统得以根据误差结构自适应地调节不同信号源的增益。这一步把”注意””信心”或”增益控制”内生化进模型。
6. 期望自由能的分解
附录给出 G_πτ = H · s_πτ + o_πτ · (ln o_πτ − ln C_τ),其中 o_πτ = A s_πτ。这里 H · s_πτ 可理解为歧义性,即在给定隐状态信念下似然自身的不确定性;o_πτ · (ln o_πτ − ln C_τ) 则对应预测结果与偏好之间的偏离,即风险或实用性代价。两者相加构成期望自由能,说明好的策略既要趋向偏好结果,也要减少感知上的模糊性。
7. 参数信息增益与新颖性
附录进一步给出基于 Dirichlet 参数的新颖性近似项,最终写成 E_{Q(o_τ,s_τ|π)}[D_KL(P(A|o_τ,s_τ) ∥ P(A))] ≈ o_πτ · W s_πτ。其含义是:如果某一策略预期会带来对生成模型参数的大幅更新,则它具有更高的认知价值。这样,探索并非外加的奖励机制,而是模型自我完善的内在要求。
8. 贝叶斯模型约化
附录通过比较完整模型与约化模型的先验,推导出约化后验和模型证据可由完整模型的推断结果直接得到。对 Dirichlet 先验的情形,ΔF 可由 Beta 函数之差表达。其意义在于:系统无需对每个候选模型重新完整反演,即可评估更简约的结构是否更优。这为结构学习与突触修剪提供了形式化基础。
9. 连续情形下的广义滤波
在连续状态空间模型中,自由能可写为预测误差 ε_y、ε_x、ε_v 的精度加权二次型之和。随后得到的更新方程
μ̇_x − Dμ_x = ∇_{μ_x}g · Π_y ε_y − Dᵀ Π_x ε_x + ∇_{μ_x}f · Π_x ε_x
μ̇_v − Dμ_v = ∇_{μ_v}g · Π_y ε_y + ∇_{μ_v}f · Π_x ε_x − Π_v ε_v
构成预测编码的标准形式。这里的期望值并非静态估计,而是在广义坐标中沿时间持续运动。行动更新 u̇ = −∇_{u}y(u) · Π_y ε_y 则说明,行动通过减少感觉预测误差来最小化自由能——这正是连续主动推理的基本机制。
💡 与主文的联系
本附录与主文之间最直接的关系,在于它把主文中的概念性论述全部压缩为可操作的计算语法。主文强调自由能原理提供了统一解释——生物体通过维持可存续状态来抵抗熵增;而附录则展示,这种统一性并非修辞性的,而是能够落实为对隐状态、策略、参数与精度的一整套变分更新。因此,读完主文若仍觉得主动推理过于哲学化,附录就是对这一疑虑的正面回应。
附录尤其深化了第7章关于 POMDP 模型的讨论。主文中 A、B、C、D、E 常被介绍为生成模型组件,但附录进一步说明,这些对象并非仅是建模记号,而是进入自由能与期望自由能计算的充分统计量。换言之,主文中的智能体架构在附录中被转换为具体的矩阵运算、Dirichlet 学习与 softmax 信念更新。主文中的 T-迷宫、觅食、认知探索等例子,都可视为这些方程在特定任务结构中的实例化。
附录还补强了主文对认知行为的解释。主文多从直觉上说明有机体会主动采样信息,而附录则通过公式B.26至B.34说明:最优策略的选择之所以自然表现出探索倾向,是因为最小化歧义性、风险以及参数信息增益的上界,能够在数学上形成期望自由能的选择压力。也就是说,探索不是奖励最大化的补丁,而是贝叶斯生存系统在不确定世界中的内在逻辑。
此外,附录末尾关于广义滤波的讨论,把本书前半部分的离散 POMDP 叙述与后半部分的神经动力学、预测编码、行动—感知循环连接起来。主文若侧重思想图景,那么附录给出的连续形式说明:同样的自由能机制并不限于离散决策任务,也可描述连续感觉运动耦合、层级误差传递与主动控制。这使主动推理既能作为认知模型,也能作为理论神经科学中的过程理论。
总体而言,附录B的学术价值在于:它不是”附加的数学细节”,而是整本书的压缩核心。主文负责建立直觉、哲学背景与应用视野;附录则负责证明这些直觉能够被写成严整的推断方程。若说主文回答的是”主动推理在说什么”,那么附录B回答的就是”它究竟如何运作”。