第7章:离散时间中的主动推理
Thomas Parr, Giovanni Pezzulo, Karl J. Friston
出自:Active Inference (MIT Press, 2022)
📖 章节总结
本章的核心任务是将前文以连续时间为主的主动推理框架,具体落实到离散时间的生成模型之中,并说明这种形式如何统一解释知觉推断、行动选择、信息寻求、学习与层级认知。作者首先从隐马尔可夫模型(Hidden Markov Model, HMM)出发,展示一个最简单的分类推断情形:主体依据一串离散观察结果,对背后的隐藏状态序列进行贝叶斯更新。这里的关键不仅在于”识别”外部世界,更在于主体在每个时间步上持续修正对状态的后验信念,并允许不确定性被显式表达。换言之,主动推理并不追求一次性给出确定答案,而是以概率分布的形式维持多种解释并动态加权。
在此基础上,作者将 HMM 扩展为部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)。这一转变标志着”被动感知者”向”自主行动者”的过渡:主体不仅要推断世界如何变化,还要推断不同策略(policy)会如何改变状态转移,并据此选择行动路线。POMDP 的引入使策略成为生成模型中的潜变量,从而”决策”不再是独立于知觉之外的附加模块,而是对自我生成感觉序列之原因的一种推断。换言之,策略选择就是模型比较——主体偏好那些会带来较低期望自由能(expected free energy)的策略。
随后,本章以 T 迷宫任务系统阐明期望自由能的结构。作者强调,它可分解为认知价值(epistemic value)与实践价值(pragmatic value)两部分。前者驱动主体寻找能最大程度减少不确定性的观察,后者驱动主体实现与先验偏好一致的结果。这样一来,经典的探索—利用困境在主动推理中被重新表述:探索与利用并非互相竞争的两套机制,而是同一目标函数下的两种组成部分。老鼠先去查看线索再据此前往奖励臂,并不是先”探索”后”利用”的人为切换,而是持续最小化期望自由能的自然结果。
作者接着细化认知价值的内部结构,将其解释为后验预测熵(posterior predictive entropy)减去期望歧义(expected ambiguity)。这一区分十分重要:高不确定性本身并不足以吸引认知系统,只有当这种不确定性能够被新的观察真正消解时,相关行动才具有高认知价值。因此,好的感知实验既要面对”尚未解决的问题”,又要处在”有望获得清晰证据”的位置。视觉搜索的示例表明,主体会回避高歧义的刺激,却偏向采样动态更不稳定、因而信息增益更高的位置。
在学习部分,作者进一步将生成模型的参数本身纳入推断范围,使学习成为对 A、B、C、D、E 等参数的贝叶斯推断,而不只是状态推断的附属过程。通过为分类分布(categorical distribution)配置狄利克雷分布(Dirichlet distribution)先验,系统可以用伪计数的积累来更新对似然与转移结构的信念。此时,期望自由能中出现新颖性(novelty)项,它对应的是关于模型参数的信息增益。于是,主动推理不仅解释”寻找状态信息”的行为,也解释”寻找可促进学习的新数据”的行为。
最后,本章讨论层级或深层推断(hierarchical/deep inference)。通过在不同时间尺度上嵌套 POMDP,系统可以将快速变化的低层词项、感觉片段,与缓慢变化的高层上下文、句子结构联系起来。高层状态为低层提供经验先验(empirical priors),低层证据又反过来更新高层信念。这种跨时间尺度的递归耦合,使主动推理能够处理阅读、工作记忆、序列理解等复杂认知现象。总体而言,本章表明:离散时间中的主动推理并非连续时间理论的简化版,而是一套适用于离散观察、规划、学习和层级认知的完整计算框架。
🧩 核心概念
- 隐马尔可夫模型(HMM):描述隐藏状态在离散时间上依次转移并生成离散观察结果的过程。主体无法直接观察真实状态,只能根据结果序列反推最可能的隐因。在本章中,HMM 作为最基础的离散生成模型,展示了主动推理如何将知觉理解为对状态后验概率的持续更新,而非简单的刺激—反应映射。
- 部分可观测马尔可夫决策过程(POMDP):在 HMM 基础上加入策略与行动,使状态转移受策略条件化。主体既无法直接观察全部世界状态,又必须考虑自己的行动会如何改变未来输入。作者借此表明,决策不是独立模块,而是对”若我按此策略行动,将会看到什么”的生成性推断。
- 策略(policy):跨多个时间步的行动序列假设。在主动推理中,策略并非单纯的控制命令,而是解释未来感觉序列的一种潜在原因。主体比较不同策略所对应的期望自由能,并为更优策略赋予更高先验概率,因此行动选择本质上是对策略后验的推断。
- 期望自由能(expected free energy):离散时间主动推理中评估未来策略的核心量。它综合考虑结果是否符合偏好、观察是否能够减少不确定性,以及在学习情形下是否能够更新模型参数。最小化期望自由能,等于同时追求有价值的结果、可解释的感觉以及有信息量的经验。
- 认知价值(epistemic value):衡量某一策略能带来多大信息增益——即它在多大程度上能减少对隐藏状态的不确定性。其直觉并非”偏爱新奇刺激”,而是偏爱那些能产生可分辨证据、从而改变信念的行动。在 T 迷宫中,先去查看线索就是高认知价值策略的典型体现。
- 实践价值(pragmatic value):对应主体对结果的先验偏好,类似但不等同于效用(utility)。如果某类结果在偏好分布 C 中被赋予较高概率,那么产生这些结果的策略就更可取。主动推理因此将目标导向行为解释为实现”我预期会遇到的结果”,而非外加的奖赏最大化规则。
- 歧义(ambiguity):指给定状态时结果映射本身的不确定性,即同一状态可能生成多种观察。即便某个位置值得关注,若观察之后仍然无法区分状态,那么它的认知价值就会下降。歧义解释了为什么主体会回避模糊、低照明或噪声很高的感知位置。
- 新颖性(novelty):关于模型参数的信息增益,表示某策略对学习生成模型本身有多大帮助。与显著性(salience,针对状态)不同,新颖性针对的是 A、B 等参数的更新潜力。当主体对某些位置或映射仍缺乏经验时,采样这些位置会更”新”,因而更能驱动主动学习。
- 狄利克雷分布(Dirichlet distribution):分类分布的共轭先验,可用一组浓度参数(concentration parameters)表示对各类结果的伪计数信念。它使离散学习具有极强的直觉性:观察越多,计数越大,后续单次观察带来的更新就越小。作者借此将学习表述为累积证据下的贝叶斯塑形过程。
- 层级/深层推断(hierarchical/deep inference):将多个 POMDP 按不同时间尺度嵌套。低层快速处理局部感觉与短时序列,高层缓慢编码上下文、句子或任务结构。高层为低层提供经验先验,低层再向高层回传证据,由此形成跨时间尺度的递归推断结构。
🔬 关键公式与推导
- 期望自由能的基本分解
G(π) 可写为认知部分与实践部分之和。直觉上,前一部分衡量”这条策略能让我知道多少”,后一部分衡量”这条策略会不会把我带到偏好的结果”。这意味着策略评价不是只看奖赏,也不是只看信息,而是在同一贝叶斯目标下同时权衡二者。
- 认知价值的展开
I(π) = H[Q(o|π)] − E_{Q(s|π)}[H[P(o|s)]]
第一项为后验预测熵,表示”如果采取该策略,我可能会看到什么”的总体不确定性;第二项为期望歧义,表示即便去看了,状态到结果的映射本身有多模糊。两者相减后,留下的才是真正可被行动消解的不确定性。因此,高认知价值不等于高混乱,而是高可学习性。
- 互信息与贝叶斯惊讶的等价解释
认知价值还可写成状态与结果之间的互信息(mutual information),或写成观察前后状态信念变化的期望 KL 散度。直觉上,这说明一个好策略就是:执行之后,主体对世界的看法会发生显著而有根据的改变。由此,认知行动本质上是主动设计”最能改变自己信念的实验”。
- 偏好向量的 softmax 变换
C = σ([…])
偏好不是直接以概率给定,而常以对数概率或相对价值形式给出,再经 softmax 归一化。这样既保留了偏好强弱的相对差异,也将其转换为合法概率分布。例如 e⁶ 级别的比率意味着奖励结果相对中性结果具有极强吸引力。
- 狄利克雷学习更新
a ← a + Σ(sτ ⊗ oτ)
这里的外积可理解为”某状态与某结果共同出现了一次”的计数增加。若主体相信某状态以较高概率导致了当前观察,相应的参数就会被强化。这使学习看起来如同活动依赖可塑性(activity-dependent plasticity):共现越多,映射越被巩固。
- 期望自由能中的新颖性项
当把参数 θ 纳入模型后,G(π) 除显著性与实践价值外,还包含参数信息增益(parameter information gain)。其直觉是:某策略若能显著改变主体对模型参数的信念,就具有高新颖性价值。因此,主动学习不是偶然副产品,而是策略选择目标函数中的内生组成部分。
💡 认知启示
本章对认知科学的重要启示在于,它将知觉、决策、探索、学习与层级理解统一到同一组离散生成模型中。首先,认知系统并非先被动感知、再附加决策模块,而是在同一推断过程中同时回答”世界是什么””我该做什么””下一步该看哪里”。这使知觉(perception)与行动(action)之间的边界被显著弱化。
其次,作者用期望自由能重新表述了探索—利用问题,说明信息寻求并非偏离目标的”额外成本”,而是实现适应性行为的必要组成部分。一个主体之所以会先寻找线索、再追求奖赏,不是因为它在两个系统间切换,而是因为减少不确定性本身就是好策略的一部分。这为动物探索、好奇心、注意分配与实验行为提供了统一解释。
再次,将参数学习与结构学习纳入主动推理,意味着大脑不仅推断”当前状态”,也在持续塑造”世界如何生成数据”的内部模型。由此,记忆、熟悉性、新颖性偏好、甚至返回抑制(inhibition of return)等现象,都可以被理解为不同层面自由能最小化的后果。
最后,层级离散模型揭示了认知的深层时间结构。语言理解、工作记忆、上下文整合之所以可能,并非因为大脑为每类任务单独设计了机制,而是因为它能在多个时间尺度上同时维护和更新信念:快速感觉服务于慢速语境,慢速语境又约束快速感觉。就此而言,本章提供的不只是一个决策模型,而是一种关于心智如何在时间中组织世界、组织自身行为的统一理论图景。