《Active Inference: The Free Energy Principle in Mind, Brain, and Behavior》第11章：Appendix A: Mathematical Background

附录A：数学背景

Thomas Parr, Giovanni Pezzulo, Karl J. Friston

出自：Active Inference (MIT Press, 2022)

📖 章节总结

本附录提供了理解Active Inference形式化推导所需的数学工具箱。涵盖三大板块：线性代数基础（向量/矩阵运算、导数、概率分布的代数表达）、泰勒级数近似（拉普拉斯近似、广义运动坐标）、以及变分微积分（泛函、欧拉-拉格朗日方程、与Active Inference的联系）。这些工具不是为了数学本身，而是为了让读者能追踪正文中的推导——特别是第4章的预测编码方程和第9章的模型反演方法。

🧩 核心概念

线性代数中的关键运算

点积（dot product）：a·b = ∑ᵢ aᵢbᵢ，两个向量的内积，产生标量。在Active Inference中反复出现于精度加权预测误差的计算。
外积（outer product）：c⊗c = ccᵀ，产生矩阵。在后验协方差的估计中至关重要。
迹（trace）：tr(AB) = ∑ᵢ (AB)ᵢᵢ，矩阵乘积的对角线元素之和。提供了在标量、向量、矩阵表达之间转换的桥梁：a = c·Bc = tr(BccᵀT) = tr(BC)。
矩阵逆：A⁻¹A = I，将矩阵乘法”撤销”的运算。在精度（协方差的逆）中核心出现。

梯度与求导

梯度算子 ∇ₓ：对向量求导的紧凑表示。在自由能对后验众数的优化中反复出现。
Hessian矩阵：∇ₓ(∇ₓf)ᵀ，函数的二阶导数矩阵，衡量”曲率”。在拉普拉斯近似中，后验精度 = 联合概率的负Hessian（在众数处求值）。
二次量的梯度恒等式：∇ₐ(b(a)·Cb(a)) = ∇ₐb(a)·(C+Cᵀ)b(a)。预测编码信念更新方程的推导直接依赖此恒等式。

概率分布的代数表达

多元正态分布：p(x) ∝ exp(−½(x−η)·Π(x−η))，其中 η 是众数，Π 是精度矩阵。连续时间Active Inference的核心分布。
类别分布的矩阵/张量表达：条件概率 P(o=i|s=j) = Aᵢⱼ 可以用矩阵 A 紧凑表示。多个条件变量时扩展为张量：P(o=i|s₁=j,s₂=k) = Aᵢⱼₖ。这使得POMDP中的所有推导可以用线性代数运算完成。
信息论量的代数形式：条件熵 H[P(o|s)] = −diag(A·ln A)，用矩阵运算一行表达。

Taylor Series（泰勒级数）

用函数在某点的各阶导数来局部近似该函数。一维：f̂(x) = ∑ₙ (1/n!)εⁿ∂ₓⁿf(x)|ₓ₌ₐ，其中 ε = x−a。多维推广引入梯度和Hessian。在Active Inference中有两大应用：

Laplace Approximation（拉普拉斯近似）

将概率分布在其众数 μ 处做二阶泰勒展开：ln p(x) ≈ ln p(μ) + ε·∇ₓln p|μ + ½ε·H|μ·ε。由于众数处一阶导数为零，分布近似为高斯：q(x) ≈ N(μ, Σ⁻¹)，其中 Σ⁻¹ = −∂²ₓln p(x,y)|μ。关键意义：只需找到众数（MAP估计），精度矩阵就能解析得到——大大简化了推理。

Generalized Coordinates of Motion（广义运动坐标）

泰勒系数的另一种读法：x(τ) ≈ x₀ + τx’₀ + ½τ²x”₀ + … 。将位置、速度、加速度等打包为向量，可以用有限个参数表示连续轨迹。约6个广义坐标通常足够。

Variational Calculus（变分微积分）

处理泛函（函数的函数）优化的数学工具。常规微积分找函数的极值点，变分微积分找泛函的极值函数。

泛函：J[f] = ∫L(x, f, f’)dx，将函数 f 映射为标量。自由能 F[Q,y] 就是泛函——它以近似后验 Q 为输入（一个函数），输出标量值。
Euler-Lagrange方程：∂_f L − d/dx(∂_{f’} L) = 0，泛函取极值的必要条件。当拉格朗日量 L 不依赖 f’ 时，简化为 ∂_f L = 0。Active Inference中对 Q 优化自由能的条件正是这种简化形式。
与Hamilton原理的联系：Hamilton最小作用量原理说”自然选择使作用量取极值的路径”。Active Inference中的自由能最小化可以视为统计力学版本的最小作用量原理——生物体选择使自由能取极值的信念轨迹。

🔬 关键公式

Jensen不等式的代数基础

ln E[X] ≥ E[ln X]（对凹函数成立）

直觉：对数函数是凹的——曲线”向下弯”。先取平均再取对数，总是大于等于先取对数再取平均。两点情况的几何直觉：连接曲线上两点的弦总在曲线下方。Active Inference的全部变分推理建立在这个简单的不等式之上。

后验精度的闭合解

Σ⁻¹ = −∂²ₓ ln p(x,y)|ₓ₌μ

这是拉普拉斯近似的核心结果：后验精度就是联合概率对数在众数处的负二阶导数。物理直觉：二阶导数衡量曲率——自由能景观在众数附近越陡峭（曲率越大），后验越精确。

变分最优解

对泛函 J[f] = ∫L(x,f)dx 求极值：∂_f L = 0

在Active Inference的具体形式中：

ln Q*(x) = E_{Q(其余变量)}[ln P(y,x)] + const

即最优近似后验的对数正比于联合概率对数在其他变量上的期望。这就是平均场近似的核心方程。

💡 与主文的联系

拉普拉斯近似 → 预测编码（第4/8章）

连续时间Active Inference中的全部信念更新方程都建立在拉普拉斯近似之上。自由能简化为精度加权预测误差的平方和（F = ½ε̃ᵀΠ̃ε̃），信念更新变为梯度下降。没有拉普拉斯近似，连续时间的推理在计算上不可行。

广义坐标 → 平滑噪声处理（第4/8章）

传统卡尔曼滤波假设白噪声——这对生物系统不合适。广义坐标让模型能处理时间相关的平滑噪声，代价是状态空间维度增加。

类别分布的矩阵表示 → POMDP计算（第4/7章）

将条件概率表示为矩阵/张量后，POMDP中的所有推理步骤（信念更新、期望自由能计算）都可以用矩阵乘法完成，这既简洁又计算高效。

变分微积分 → 自由能最小化的合法性（第3/4章）

变分微积分为”为什么最小化自由能是正确的做法”提供了数学基础。欧拉-拉格朗日方程保证了梯度下降找到的是泛函的真正极值，而非任意的驻点。

二次梯度恒等式 → 精度学习（第9章/附录B）

∇_C(b·Cb) = b⊗b 这个恒等式直接用于后验协方差矩阵的估计——它说明要学习精度，只需计算预测误差的外积。

相关文章：