《Active Inference: The Free Energy Principle in Mind, Brain, and Behavior》第7章：Chapter 7: Active Inference in Discrete Time

第7章：离散时间中的主动推理

Thomas Parr, Giovanni Pezzulo, Karl J. Friston

出自：Active Inference (MIT Press, 2022)

📖 章节总结

本章的核心任务是将前文以连续时间为主的主动推理框架，具体落实到离散时间的生成模型之中，并说明这种形式如何统一解释知觉推断、行动选择、信息寻求、学习与层级认知。作者首先从隐马尔可夫模型（Hidden Markov Model, HMM）出发，展示一个最简单的分类推断情形：主体依据一串离散观察结果，对背后的隐藏状态序列进行贝叶斯更新。这里的关键不仅在于”识别”外部世界，更在于主体在每个时间步上持续修正对状态的后验信念，并允许不确定性被显式表达。换言之，主动推理并不追求一次性给出确定答案，而是以概率分布的形式维持多种解释并动态加权。

在此基础上，作者将 HMM 扩展为部分可观测马尔可夫决策过程（Partially Observable Markov Decision Process, POMDP）。这一转变标志着”被动感知者”向”自主行动者”的过渡：主体不仅要推断世界如何变化，还要推断不同策略（policy）会如何改变状态转移，并据此选择行动路线。POMDP 的引入使策略成为生成模型中的潜变量，从而”决策”不再是独立于知觉之外的附加模块，而是对自我生成感觉序列之原因的一种推断。换言之，策略选择就是模型比较——主体偏好那些会带来较低期望自由能（expected free energy）的策略。

随后，本章以 T 迷宫任务系统阐明期望自由能的结构。作者强调，它可分解为认知价值（epistemic value）与实践价值（pragmatic value）两部分。前者驱动主体寻找能最大程度减少不确定性的观察，后者驱动主体实现与先验偏好一致的结果。这样一来，经典的探索—利用困境在主动推理中被重新表述：探索与利用并非互相竞争的两套机制，而是同一目标函数下的两种组成部分。老鼠先去查看线索再据此前往奖励臂，并不是先”探索”后”利用”的人为切换，而是持续最小化期望自由能的自然结果。

作者接着细化认知价值的内部结构，将其解释为后验预测熵（posterior predictive entropy）减去期望歧义（expected ambiguity）。这一区分十分重要：高不确定性本身并不足以吸引认知系统，只有当这种不确定性能够被新的观察真正消解时，相关行动才具有高认知价值。因此，好的感知实验既要面对”尚未解决的问题”，又要处在”有望获得清晰证据”的位置。视觉搜索的示例表明，主体会回避高歧义的刺激，却偏向采样动态更不稳定、因而信息增益更高的位置。

在学习部分，作者进一步将生成模型的参数本身纳入推断范围，使学习成为对 A、B、C、D、E 等参数的贝叶斯推断，而不只是状态推断的附属过程。通过为分类分布（categorical distribution）配置狄利克雷分布（Dirichlet distribution）先验，系统可以用伪计数的积累来更新对似然与转移结构的信念。此时，期望自由能中出现新颖性（novelty）项，它对应的是关于模型参数的信息增益。于是，主动推理不仅解释”寻找状态信息”的行为，也解释”寻找可促进学习的新数据”的行为。

最后，本章讨论层级或深层推断（hierarchical/deep inference）。通过在不同时间尺度上嵌套 POMDP，系统可以将快速变化的低层词项、感觉片段，与缓慢变化的高层上下文、句子结构联系起来。高层状态为低层提供经验先验（empirical priors），低层证据又反过来更新高层信念。这种跨时间尺度的递归耦合，使主动推理能够处理阅读、工作记忆、序列理解等复杂认知现象。总体而言，本章表明：离散时间中的主动推理并非连续时间理论的简化版，而是一套适用于离散观察、规划、学习和层级认知的完整计算框架。

🧩 核心概念

隐马尔可夫模型（HMM）：描述隐藏状态在离散时间上依次转移并生成离散观察结果的过程。主体无法直接观察真实状态，只能根据结果序列反推最可能的隐因。在本章中，HMM 作为最基础的离散生成模型，展示了主动推理如何将知觉理解为对状态后验概率的持续更新，而非简单的刺激—反应映射。

部分可观测马尔可夫决策过程（POMDP）：在 HMM 基础上加入策略与行动，使状态转移受策略条件化。主体既无法直接观察全部世界状态，又必须考虑自己的行动会如何改变未来输入。作者借此表明，决策不是独立模块，而是对”若我按此策略行动，将会看到什么”的生成性推断。

策略（policy）：跨多个时间步的行动序列假设。在主动推理中，策略并非单纯的控制命令，而是解释未来感觉序列的一种潜在原因。主体比较不同策略所对应的期望自由能，并为更优策略赋予更高先验概率，因此行动选择本质上是对策略后验的推断。

期望自由能（expected free energy）：离散时间主动推理中评估未来策略的核心量。它综合考虑结果是否符合偏好、观察是否能够减少不确定性，以及在学习情形下是否能够更新模型参数。最小化期望自由能，等于同时追求有价值的结果、可解释的感觉以及有信息量的经验。

认知价值（epistemic value）：衡量某一策略能带来多大信息增益——即它在多大程度上能减少对隐藏状态的不确定性。其直觉并非”偏爱新奇刺激”，而是偏爱那些能产生可分辨证据、从而改变信念的行动。在 T 迷宫中，先去查看线索就是高认知价值策略的典型体现。

实践价值（pragmatic value）：对应主体对结果的先验偏好，类似但不等同于效用（utility）。如果某类结果在偏好分布 C 中被赋予较高概率，那么产生这些结果的策略就更可取。主动推理因此将目标导向行为解释为实现”我预期会遇到的结果”，而非外加的奖赏最大化规则。

歧义（ambiguity）：指给定状态时结果映射本身的不确定性，即同一状态可能生成多种观察。即便某个位置值得关注，若观察之后仍然无法区分状态，那么它的认知价值就会下降。歧义解释了为什么主体会回避模糊、低照明或噪声很高的感知位置。

新颖性（novelty）：关于模型参数的信息增益，表示某策略对学习生成模型本身有多大帮助。与显著性（salience，针对状态）不同，新颖性针对的是 A、B 等参数的更新潜力。当主体对某些位置或映射仍缺乏经验时，采样这些位置会更”新”，因而更能驱动主动学习。

狄利克雷分布（Dirichlet distribution）：分类分布的共轭先验，可用一组浓度参数（concentration parameters）表示对各类结果的伪计数信念。它使离散学习具有极强的直觉性：观察越多，计数越大，后续单次观察带来的更新就越小。作者借此将学习表述为累积证据下的贝叶斯塑形过程。

层级/深层推断（hierarchical/deep inference）：将多个 POMDP 按不同时间尺度嵌套。低层快速处理局部感觉与短时序列，高层缓慢编码上下文、句子或任务结构。高层为低层提供经验先验，低层再向高层回传证据，由此形成跨时间尺度的递归推断结构。

🔬 关键公式与推导

期望自由能的基本分解

G(π) 可写为认知部分与实践部分之和。直觉上，前一部分衡量”这条策略能让我知道多少”，后一部分衡量”这条策略会不会把我带到偏好的结果”。这意味着策略评价不是只看奖赏，也不是只看信息，而是在同一贝叶斯目标下同时权衡二者。

认知价值的展开

I(π) = H[Q(o|π)] − E_{Q(s|π)}[H[P(o|s)]]

第一项为后验预测熵，表示”如果采取该策略，我可能会看到什么”的总体不确定性；第二项为期望歧义，表示即便去看了，状态到结果的映射本身有多模糊。两者相减后，留下的才是真正可被行动消解的不确定性。因此，高认知价值不等于高混乱，而是高可学习性。

互信息与贝叶斯惊讶的等价解释

认知价值还可写成状态与结果之间的互信息（mutual information），或写成观察前后状态信念变化的期望 KL 散度。直觉上，这说明一个好策略就是：执行之后，主体对世界的看法会发生显著而有根据的改变。由此，认知行动本质上是主动设计”最能改变自己信念的实验”。

偏好向量的 softmax 变换

C = σ([…])

偏好不是直接以概率给定，而常以对数概率或相对价值形式给出，再经 softmax 归一化。这样既保留了偏好强弱的相对差异，也将其转换为合法概率分布。例如 e⁶ 级别的比率意味着奖励结果相对中性结果具有极强吸引力。

狄利克雷学习更新

a ← a + Σ(sτ ⊗ oτ)

这里的外积可理解为”某状态与某结果共同出现了一次”的计数增加。若主体相信某状态以较高概率导致了当前观察，相应的参数就会被强化。这使学习看起来如同活动依赖可塑性（activity-dependent plasticity）：共现越多，映射越被巩固。

期望自由能中的新颖性项

当把参数 θ 纳入模型后，G(π) 除显著性与实践价值外，还包含参数信息增益（parameter information gain）。其直觉是：某策略若能显著改变主体对模型参数的信念，就具有高新颖性价值。因此，主动学习不是偶然副产品，而是策略选择目标函数中的内生组成部分。

💡 认知启示

本章对认知科学的重要启示在于，它将知觉、决策、探索、学习与层级理解统一到同一组离散生成模型中。首先，认知系统并非先被动感知、再附加决策模块，而是在同一推断过程中同时回答”世界是什么””我该做什么””下一步该看哪里”。这使知觉（perception）与行动（action）之间的边界被显著弱化。

其次，作者用期望自由能重新表述了探索—利用问题，说明信息寻求并非偏离目标的”额外成本”，而是实现适应性行为的必要组成部分。一个主体之所以会先寻找线索、再追求奖赏，不是因为它在两个系统间切换，而是因为减少不确定性本身就是好策略的一部分。这为动物探索、好奇心、注意分配与实验行为提供了统一解释。

再次，将参数学习与结构学习纳入主动推理，意味着大脑不仅推断”当前状态”，也在持续塑造”世界如何生成数据”的内部模型。由此，记忆、熟悉性、新颖性偏好、甚至返回抑制（inhibition of return）等现象，都可以被理解为不同层面自由能最小化的后果。

最后，层级离散模型揭示了认知的深层时间结构。语言理解、工作记忆、上下文整合之所以可能，并非因为大脑为每类任务单独设计了机制，而是因为它能在多个时间尺度上同时维护和更新信念：快速感觉服务于慢速语境，慢速语境又约束快速感觉。就此而言，本章提供的不只是一个决策模型，而是一种关于心智如何在时间中组织世界、组织自身行为的统一理论图景。

相关文章：