图片
随着AI系统在关键领域的应用越来越广泛,确保其推理过程的可靠性变得至关重要。CRV方法为我们提供了一个强大的工具,帮助我们理解和改进AI的推理过程。

图片

大家好!今天我要和大家分享一篇来自Meta FAIR团队和爱丁堡大学的最新研究论文,这篇论文题为《通过计算图验证思维链推理》(Verifying Chain-of-Thought Reasoning via Its Computational Graph)。

论文背景与作者介绍

这篇论文由Meta FAIR的Zheng Zhao(第一作者,爱丁堡大学博士生)、Yeskendir Koishekenov、Xianjun Yang、Naila Murray、Nicola Cancedda共同完成。Zheng Zhao在Meta实习期间完成了这项研究工作,并于2025年10月13日发布在arXiv上。

在开始详细介绍之前,让我们先思考一个问题:我们如何知道AI模型的推理过程是否正确?

技术背景:思维链推理的挑战

近年来,思维链(Chain-of-Thought, CoT)推理已成为提升大语言模型(LLM)性能的重要技术。从DeepSeek-R1到OpenAI的o1模型,都采用了这种逐步推理的方式。然而,一个根本性问题始终存在:这些推理过程本身有时是错误的

当前验证思维链推理的方法主要分为两类:

  1. 黑盒方法:分析生成的文本或最终的logit分布
  2. 灰盒方法:查看模型的内部状态,如原始激活值或隐藏状态轨迹

这些方法虽然有一定效果,但存在一个根本局限:它们只能检测模型内部状态与错误的相关性,而无法解释为什么底层计算会导致错误

这就像医生只能告诉你”你发烧了”,却无法解释”你为什么会发烧”。而这篇论文提出的方法,就像给AI做了一次”CT扫描”,能够深入到计算的”细胞层面”来诊断问题。

论文核心方法:基于电路的推理验证(CRV)

研究者们提出了一种全新的白盒方法——基于电路的推理验证(Circuit-based Reasoning Verification, CRV)。这个方法的核心假设是:正确的思维链步骤与错误步骤的归因图,作为模型潜在推理电路的执行轨迹,具有不同的结构特征

这个假设听起来很抽象,让我用一个比喻来解释:想象AI的推理过程就像一条河流,正确的推理就像河道畅通的河流,而错误的推理则像是河道中出现了障碍或改道。CRV方法就像是通过分析河流的”水流轨迹图”来判断河道是否通畅。

CRV方法的四个步骤

CRV方法包含四个关键步骤,我将逐一为大家解析:

步骤1:用可解释的转码器替换MLP模块

图片

首先,研究者们对目标LLM进行了架构修改,使其变得可解释。具体来说,他们为模型中的每个MLP模块训练了一个对应的转码器(transcoder)。

转码器是一种特殊的稀疏自编码器(SAE),它不是简单地重构输入,而是模拟目标组件的输入-输出函数。通过将模型的标准MLP模块替换为训练好的转码器,模型的中间计算不再由密集向量表示,而是由这些有意义特征的稀疏组合表示。

这就像把一本用密语写的书翻译成了我们能理解的语言,让我们能够”读懂”AI的思考过程。

步骤2:构建步骤级归因图

步骤3:提取可解释的图特征

  1. 全局图统计:捕获计算子图的高级摘要,包括修剪后的活跃特征节点数量以及最终的logit概率和熵。
  2. 节点影响和激活统计:量化可解释特征节点的属性。计算它们的激活值和影响分数的统计量(均值、最大值、标准差)。还包括按层划分的活跃特征直方图,表征推理步骤的计算深度。
  3. 拓扑和路径特征:分析信息流的结构,计算修剪后子图上的一组丰富的拓扑特征。包括图密度、中心性度量(度数、介数)以识别计算中心,以及连通性度量。

步骤4:诊断分类器

实验结果与发现

研究者们在Llama 3.1 8B Instruct模型上进行了一系列实验,验证了他们的核心假设:推理步骤的归因图包含其正确性的丰富结构信号。

验证性能与鲁棒性

图片

表1展示了CRV与各种基线方法在三个数据集上的性能比较。CRV在所有数据集和指标上一致地优于所有黑盒和灰盒基线。这种结构信号的强度在合成数据集上尤为明显。例如,在算术任务上,CRV实现了92.47的AUROC,比最强基线分数76.45有显著提升。

跨领域泛化分析

图片图片

表2显示CRV学习的错误指纹高度领域特定。在跨领域迁移中,CRV的性能相比领域内训练大幅下降,甚至常常低于最强的免训练基线。例如,在算术任务上训练的CRV在GSM8K上的AUROC仅为57.04,低于Energy基线的62.55。

这种领域特异性揭示了不同推理任务(如形式逻辑、算术计算、自然语言算术)中的错误在模型的计算图中产生不同的结构模式。虽然这限制了当前的监督验证,但它突显了CRV捕获的丰富信号。

难度增加下的性能

图片图片

错误计算的结构分析

图片图片

图片图片

图3和图4展示了错误计算的结构特征。图3通过主成分分析(PCA)将完整的高维特征向量投影到二维空间,显示错误步骤形成正确步骤分布内的密集子集。图4展示了五个高度预测特征的分布,从图拓扑(如图密度)到节点统计(如总活跃特征),正确与错误的分布明显不同。

从诊断到因果干预

图片图片

 

通过追踪信号回到图,他们发现一个高度活跃的最后一层转码器特征(ID 91814)与乘法强烈相关。研究者们假设这种过早激活导致了错误,并进行了直接干预:他们重新运行生成直到失败点,并使用前向钩子手动将这个特定乘法特征的激活钳制为零。

读完这篇论文,我深感震撼。CRV方法不仅是一种验证技术,更是一种理解AI推理过程的新范式。它让我们能够从简单的错误检测转向对LLM推理的更深层、因果性的理解。

这项研究的几个亮点特别值得关注:

  1. 创新性:首次提出通过计算图的结构特征来验证思维链推理,开创了白盒验证的新方向。
  2. 实用性:虽然CRV计算密集,不适合作为实用的即插即用验证器,但它提供了其他方法无法获得的科学见解。
  3. 可解释性:通过分析错误的结构特征,研究者们能够理解为什么模型会犯错,甚至能够通过干预特定特征来纠正错误。
  4. 领域特异性:发现不同推理任务的错误在计算图中表现为不同的结构模式,这为未来针对特定领域的验证方法提供了方向。

当然,这项研究也有一些局限性:

  1. 计算成本高:构建和分析归因图需要大量计算资源,限制了其实际应用。
  2. 领域泛化性差:CRV学习的错误指纹高度领域特定,跨领域性能下降明显。
  3. 依赖转码器:方法的有效性依赖于转码器的质量,而训练高质量的转码器本身就是一个挑战。

未来展望

这项研究为AI可解释性和可靠性研究开辟了新方向。未来,我期待看到:

  1. 更高效的计算图分析方法:降低计算成本,使CRV方法更实用。
  2. 跨领域泛化技术:开发能够捕获通用错误模式的方法,提高跨领域性能。
  3. 自动干预机制:基于CRV的诊断结果,自动纠正模型推理过程中的错误。
  4. 与其他验证方法的结合:将CRV与黑盒和灰盒方法结合,构建更全面的验证系统。

结语

这篇论文向我们展示了一种全新的AI推理验证方法,它不仅能够检测错误,还能解释错误的原因,甚至能够纠正错误。这就像我们不仅能够知道AI”发烧了”,还能知道”为什么发烧”,甚至能够”对症下药”。

随着AI系统在关键领域的应用越来越广泛,确保其推理过程的可靠性变得至关重要。CRV方法为我们提供了一个强大的工具,帮助我们理解和改进AI的推理过程。

我相信,这项研究只是开始,未来会有更多基于计算图分析的AI可解释性和可靠性研究出现。让我们拭目以待!

文章来自:51CTO

Loading

作者 yinhua

发表回复