第4章:主动推理的生成模型
Thomas Parr, Giovanni Pezzulo, Karl J. Friston
出自:Active Inference (MIT Press, 2022)
📖 章节总结
本章是全书的形式化核心,将前三章的概念性讨论转化为严格的数学框架。核心任务是:给定一个生成模型,如何通过最小化变分自由能来实现推理?
章节围绕两大类生成模型展开:
离散时间模型——POMDP
部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)处理的是类别变量在离散时间步上的演化。模型由四个概率矩阵完全确定:
- A(似然矩阵):状态→观测的映射
- B(转移矩阵):给定策略下,状态如何从一步演化到下一步
- C(偏好向量):对观测结果的先验偏好
- D(初始状态向量):对初始隐状态的先验信念
策略的先验概率通过 softmax 函数从期望自由能导出:概率最高的策略是那些预期能最小化未来自由能的策略。信念更新通过变分消息传递实现:每个时间步的隐状态信念由来自过去(通过转移矩阵)、未来(通过反向转移)和当前观测(通过似然矩阵)的消息共同决定。
连续时间模型——预测编码
连续时间模型使用随机微分方程描述隐状态的演化,适用于感觉运动控制等连续过程。关键创新是广义运动坐标(generalized coordinates of motion):不仅追踪状态本身,还追踪其速度、加速度等高阶时间导数,用泰勒展开重构完整轨迹。
在拉普拉斯近似(将所有分布视为高斯分布)下,自由能简化为精度加权的预测误差的平方和。这直接导出了预测编码方案:高层向低层发送预测,低层计算预测误差并回传,驱动信念更新。
行动的形式化
行动通过最小化自由能关于感觉数据的梯度来实现。由于行动改变的是感觉输入,它只影响预测编码层级中最底层的预测误差。这等价于在预测编码框架的底层添加了经典反射弧——行动就是实现下行预测的运动反射。
两个模型的统一
尽管离散和连续模型在数学形式上不同,但它们共享同一个原理:变分自由能最小化。两者都可以表达为消息传递方案,其中节点对应神经元群体,边对应突触连接,消息对应突触信号。
🧩 核心概念
POMDP(部分可观测马尔可夫决策过程)
一种离散时间的生成模型,其中智能体无法直接观察世界的真实状态,只能通过可能带噪声的观测来推断。”部分可观测”强调观测和状态之间不是一一对应——同一个状态可能产生不同观测,不同状态也可能产生相同观测。
Factor Graph(因子图)
表达生成模型中变量间依赖关系的图形化工具。圆形节点表示随机变量(隐状态或观测),方形节点表示概率分布(先验、似然、转移),箭头表示因果方向。因子图使得复杂的概率关系可以被可视化,也直接对应消息传递算法的计算结构。
Mean Field Approximation(平均场近似)
一种简化变分推理的关键假设:将联合后验分解为各时间步后验的乘积,即 Q(s̃|π) = ∏_τ Q(s_τ|π)。这使得推理可以在每个时间步独立进行,极大降低了计算复杂度,但代价是忽略了时间步之间的后验相关性。
Generalized Coordinates of Motion(广义运动坐标)
用状态的当前值及其逐阶时间导数(速度、加速度等)来参数化连续轨迹的方法。基于泰勒展开,6个左右的广义坐标通常足以精确近似近期轨迹。这个方法的关键优势是处理了噪声的时间相关性——传统卡尔曼滤波假设白噪声(时间不相关),但生物系统中的噪声通常是平滑的(由动力学系统生成)。
Laplace Approximation(拉普拉斯近似)
将所有概率分布近似为高斯分布的方法。在对数空间中,高斯分布是二次函数——因此拉普拉斯近似等价于对对数概率做二阶泰勒展开。这使得推理只需找到后验的众数(最大后验估计, MAP),精度矩阵可以直接从联合概率的二阶导数解析得到。
Predictive Coding(预测编码)
一种层级化的消息传递方案:每一层预测下一层的输入,计算预测误差,并将误差向上传播。在Active Inference中,预测编码自然涌现于连续时间生成模型的自由能最小化。高层发送预测(自上而下),低层计算预测误差(自下而上),两者的交互驱动信念更新。
Precision(精度)
协方差矩阵的逆,衡量概率分布的确定性/不确定性。高精度 = 低不确定性 = 分布尖锐。在预测编码中,精度起着”增益控制”的作用——高精度的预测误差对信念更新的影响更大。这提供了注意力的计算解释:注意力 ≈ 选择性地提高某些预测误差通道的精度。
Variational Message Passing vs. Belief Propagation(变分消息传递 vs. 信念传播)
两种在因子图上进行近似推理的消息传递算法。变分消息传递基于平均场近似,每个节点从其马尔可夫毯中的邻居接收消息。信念传播使用递归定义的消息,每个从 a 到 b 的消息依赖于所有发送到 a 的消息(除了从 b 来的)。两者在结构上相似但细节不同。
🔬 关键公式与推导
Jensen不等式与变分自由能的推导
推导的核心步骤:
1. 从边缘似然 P(y) = ∑_x P(y,x) 出发
2. 引入任意分布 Q(x):P(y) = ∑_x P(y,x)·Q(x)/Q(x)
3. 取对数:ln P(y) = ln E_Q[P(y,x)/Q(x)]
4. 应用 Jensen 不等式(对数的均值 ≥ 均值的对数,因为对数是凹函数):ln P(y) ≥ E_Q[ln P(y,x)/Q(x)] = −F
直觉:Jensen 不等式将一个不可行的积分问题转化为一个可行的优化问题。自由能 F 是惊奇 −ln P(y) 的上界;最小化 F 等价于尽可能逼近惊奇。
离散时间的信念更新
状态信念更新(感知):
- s_πτ = σ(v_πτ)
- v̇_πτ = ln A·o_τ + ln B_πτ·s_πτ₋₁ + ln B_πτ₊₁·s_πτ₊₁ − ln s_πτ
直觉:每个时间步的状态信念由三个”消息”驱动——来自当前观测的(似然)、来自过去状态的(前向转移)、来自未来状态的(后向转移)。这三者的综合减去当前信念的对数,构成预测误差,驱动信念更新。
策略信念更新(规划):
- π = σ(−G − F)
直觉:策略的后验概率正比于其负期望自由能和负变分自由能之和的指数。好的策略(低期望自由能)获得高概率。
连续时间的自由能
F = ½ ε̃ᵀ Π̃ ε̃
其中 ε̃ 是广义预测误差向量,包含三类:
- ε_y = ỹ − g̃(μ̃_x, μ̃_v)(观测预测误差)
- ε_x = Dμ̃_x − f̃(μ̃_x, μ̃_v)(动力学预测误差)
- ε_v = μ̃_v − η̃(先验预测误差)
直觉:在拉普拉斯近似下,自由能就是精度加权的预测误差的平方和。越大的误差 × 越高的精度 = 越高的自由能 = 越需要更新信念或采取行动。
行动方程
u̇ = −∇_u F = −∇_u ỹ(u)ᵀ Π̃_y ε̃_y
直觉:行动只依赖于最底层的感觉预测误差。行动改变感觉输入以减小预测误差——这就是预测编码框架下的反射弧。大脑皮层发送预测,脊髓/脑干的运动神经元执行减小感觉预测误差的动作。
💡 认知启示
神经计算的统一语言
本章展示了感知、规划和行动如何在同一个数学框架下被表达为消息传递。这不只是一个抽象的数学对应——因子图中的节点可以直接映射为神经元群体,边映射为突触连接,消息映射为突触信号。这为”从计算理论到神经实现”架设了桥梁。
运动控制的预测编码解释
Active Inference对运动控制的解释与传统最优控制根本不同。传统方案需要逆模型(从期望状态计算所需的运动指令)和复杂的控制器。Active Inference只需要一个生成模型(前向模型)加反射弧:大脑预测运动的感觉后果,反射弧负责消除预测与实际感觉之间的误差。这大大简化了运动控制的计算架构,也更符合脊髓反射的生理实现。
注意力的精度解释
精度矩阵在预测编码中扮演”增益调节”角色。提高某个预测误差通道的精度 = 让该通道的信号对信念更新产生更大影响 = 选择性注意。这提供了一个优雅的注意力计算理论:注意力不是一个独立的模块,而是推理过程的内在组成部分。
层级结构的自然涌现
连续时间模型可以自然地扩展为层级结构:高层的隐原因(v)充当低层的先验。每一层处理不同时间尺度的动力学——高层慢、低层快。这与大脑皮层的层级组织(V1→V2→V4→IT,处理从边缘到物体的逐级抽象)存在深刻的对应。
两种时间的统一
离散时间(决策、规划)和连续时间(感觉运动控制)看似需要不同的理论,但本章展示它们只是同一个自由能最小化原理在不同生成模型下的体现。这为后续章节讨论混合模型(离散决策驱动连续运动)奠定了基础。