《Active Inference: The Free Energy Principle in Mind, Brain, and Behavior》第11章:Appendix A: Mathematical Background

附录A:数学背景

Thomas Parr, Giovanni Pezzulo, Karl J. Friston

出自:Active Inference (MIT Press, 2022)

📖 章节总结

本附录提供了理解Active Inference形式化推导所需的数学工具箱。涵盖三大板块:线性代数基础(向量/矩阵运算、导数、概率分布的代数表达)、泰勒级数近似(拉普拉斯近似、广义运动坐标)、以及变分微积分(泛函、欧拉-拉格朗日方程、与Active Inference的联系)。这些工具不是为了数学本身,而是为了让读者能追踪正文中的推导——特别是第4章的预测编码方程和第9章的模型反演方法。

🧩 核心概念

线性代数中的关键运算

  • 点积(dot product):a·b = ∑ᵢ aᵢbᵢ,两个向量的内积,产生标量。在Active Inference中反复出现于精度加权预测误差的计算。
  • 外积(outer product):c⊗c = ccᵀ,产生矩阵。在后验协方差的估计中至关重要。
  • 迹(trace):tr(AB) = ∑ᵢ (AB)ᵢᵢ,矩阵乘积的对角线元素之和。提供了在标量、向量、矩阵表达之间转换的桥梁:a = c·Bc = tr(BccᵀT) = tr(BC)。
  • 矩阵逆:A⁻¹A = I,将矩阵乘法”撤销”的运算。在精度(协方差的逆)中核心出现。

梯度与求导

  • 梯度算子 ∇ₓ:对向量求导的紧凑表示。在自由能对后验众数的优化中反复出现。
  • Hessian矩阵:∇ₓ(∇ₓf)ᵀ,函数的二阶导数矩阵,衡量”曲率”。在拉普拉斯近似中,后验精度 = 联合概率的负Hessian(在众数处求值)。
  • 二次量的梯度恒等式:∇ₐ(b(a)·Cb(a)) = ∇ₐb(a)·(C+Cᵀ)b(a)。预测编码信念更新方程的推导直接依赖此恒等式。

概率分布的代数表达

  • 多元正态分布:p(x) ∝ exp(−½(x−η)·Π(x−η)),其中 η 是众数,Π 是精度矩阵。连续时间Active Inference的核心分布。
  • 类别分布的矩阵/张量表达:条件概率 P(o=i|s=j) = Aᵢⱼ 可以用矩阵 A 紧凑表示。多个条件变量时扩展为张量:P(o=i|s₁=j,s₂=k) = Aᵢⱼₖ。这使得POMDP中的所有推导可以用线性代数运算完成。
  • 信息论量的代数形式:条件熵 H[P(o|s)] = −diag(A·ln A),用矩阵运算一行表达。

Taylor Series(泰勒级数)

用函数在某点的各阶导数来局部近似该函数。一维:f̂(x) = ∑ₙ (1/n!)εⁿ∂ₓⁿf(x)|ₓ₌ₐ,其中 ε = x−a。多维推广引入梯度和Hessian。在Active Inference中有两大应用:

Laplace Approximation(拉普拉斯近似)

将概率分布在其众数 μ 处做二阶泰勒展开:ln p(x) ≈ ln p(μ) + ε·∇ₓln p|μ + ½ε·H|μ·ε。由于众数处一阶导数为零,分布近似为高斯:q(x) ≈ N(μ, Σ⁻¹),其中 Σ⁻¹ = −∂²ₓln p(x,y)|μ。关键意义:只需找到众数(MAP估计),精度矩阵就能解析得到——大大简化了推理。

Generalized Coordinates of Motion(广义运动坐标)

泰勒系数的另一种读法:x(τ) ≈ x₀ + τx’₀ + ½τ²x”₀ + … 。将位置、速度、加速度等打包为向量,可以用有限个参数表示连续轨迹。约6个广义坐标通常足够。

Variational Calculus(变分微积分)

处理泛函(函数的函数)优化的数学工具。常规微积分找函数的极值点,变分微积分找泛函的极值函数。

  • 泛函:J[f] = ∫L(x, f, f’)dx,将函数 f 映射为标量。自由能 F[Q,y] 就是泛函——它以近似后验 Q 为输入(一个函数),输出标量值。
  • Euler-Lagrange方程:∂_f L − d/dx(∂_{f’} L) = 0,泛函取极值的必要条件。当拉格朗日量 L 不依赖 f’ 时,简化为 ∂_f L = 0。Active Inference中对 Q 优化自由能的条件正是这种简化形式。
  • 与Hamilton原理的联系:Hamilton最小作用量原理说”自然选择使作用量取极值的路径”。Active Inference中的自由能最小化可以视为统计力学版本的最小作用量原理——生物体选择使自由能取极值的信念轨迹。

🔬 关键公式

Jensen不等式的代数基础

ln E[X] ≥ E[ln X](对凹函数成立)

直觉:对数函数是凹的——曲线”向下弯”。先取平均再取对数,总是大于等于先取对数再取平均。两点情况的几何直觉:连接曲线上两点的弦总在曲线下方。Active Inference的全部变分推理建立在这个简单的不等式之上。

后验精度的闭合解

Σ⁻¹ = −∂²ₓ ln p(x,y)|ₓ₌μ

这是拉普拉斯近似的核心结果:后验精度就是联合概率对数在众数处的负二阶导数。物理直觉:二阶导数衡量曲率——自由能景观在众数附近越陡峭(曲率越大),后验越精确。

变分最优解

对泛函 J[f] = ∫L(x,f)dx 求极值:∂_f L = 0

在Active Inference的具体形式中:

ln Q*(x) = E_{Q(其余变量)}[ln P(y,x)] + const

即最优近似后验的对数正比于联合概率对数在其他变量上的期望。这就是平均场近似的核心方程。

💡 与主文的联系

拉普拉斯近似 → 预测编码(第4/8章)

连续时间Active Inference中的全部信念更新方程都建立在拉普拉斯近似之上。自由能简化为精度加权预测误差的平方和(F = ½ε̃ᵀΠ̃ε̃),信念更新变为梯度下降。没有拉普拉斯近似,连续时间的推理在计算上不可行。

广义坐标 → 平滑噪声处理(第4/8章)

传统卡尔曼滤波假设白噪声——这对生物系统不合适。广义坐标让模型能处理时间相关的平滑噪声,代价是状态空间维度增加。

类别分布的矩阵表示 → POMDP计算(第4/7章)

将条件概率表示为矩阵/张量后,POMDP中的所有推理步骤(信念更新、期望自由能计算)都可以用矩阵乘法完成,这既简洁又计算高效。

变分微积分 → 自由能最小化的合法性(第3/4章)

变分微积分为”为什么最小化自由能是正确的做法”提供了数学基础。欧拉-拉格朗日方程保证了梯度下降找到的是泛函的真正极值,而非任意的驻点。

二次梯度恒等式 → 精度学习(第9章/附录B)

∇_C(b·Cb) = b⊗b 这个恒等式直接用于后验协方差矩阵的估计——它说明要学习精度,只需计算预测误差的外积。

滚动至顶部