AI之间能不能互相“接活”？推理链接力的真实表现 -

这两年大模型的“推理能力”已经从一个炫技名词，变成衡量模型上限的关键维度。无论是数学解题、代码推导，还是多步逻辑判断，只要你想让模型认真思考，几乎绕不过一个关键词，Chain-of-Thought，也就是大家熟悉的 CoT，“一步一步想，一步一步写出来”。

CoT的成功已经被无数论文、产品和 demo 反复证明，只要把“请详细说明推理过程”加进提示词，模型的答题正确率往往肉眼可见地提高。它不再只是给你一个结果，而是把过程摊开，让你看到它是怎么想的。对研究者来说，这既是能力提升，也是某种“可解释性”的幻象。

但有一个问题，一直被大家默默忽略，所有这些工作，几乎都默认一件事——从头到尾，都是“同一个模型在推理”。从读题，到逐步分析，再到写出最终答案，都是同一个大模型一路跑完。可是在一个真实的 AI 系统里，这种“单模型闭门造车”的方式，真的合理吗？

如果我们不再把大模型当成一个孤立的“黑盒”，而是当成一个可以协作的“推理模块”，问题立刻变得有趣，一个模型写到一半的推理链，能不能交给另一个模型继续？一段 CoT 能不能像代码片段一样，被不同模型复用、延续、修正？

甚至，能不能有这样的系统，大模型负责“难段”，小模型负责“收尾”，从而在成本和性能之间找到新的平衡？这是我们今天要直面的问题——推理接力，是否可行？

“推理接力”背后，其实是三个更底层的关键词。第一是推理稳定性，当你中途换一个模型，原本展开的推理逻辑是否会崩塌？第二是模型间的互操作性，不同家族、不同规模的模型，是否说得上同一种“推理语言”？第三是多模型协作推理系统的可行性，未来的 AI，是否有可能像一个“推理团队”，而不是一个“孤胆专家”，通过接力、协作来完成复杂任务？

这项工作把问题挑明了，当一个模型的推理链被截断在四分之一、二分之一、四分之三处时，换一个模型来续写——到底能否无缝衔接？是顺势而下，还是直接翻车？

提出这个问题的，不是一家大厂内部技术报告，而是一个典型的“学术+工程”混合团队。前面三位第一作者来自传统学术阵地，宾夕法尼亚州立大学、纽约州立大学宾汉姆顿分校和多伦多大学，偏理论与方法论；后面几位作者则来自加州大学伯克利分校和 Algoverse，一边是著名的 AI 重镇，一边是更偏工程与应用导向的机构。从组合上看，这是一个很典型的 2025 年式 AI 研究团队，上游有对推理本身的好奇，下游有对多模型系统可落地性的现实关注。

1.从 CoT 到 PRM，推理评估的范式转向

要理解这项研究，得先回到 CoT（Chain-of-Thought）刚被发现的那一刻——研究者惊讶地发现，只要让模型“把思考过程写出来”，它的数学和逻辑能力就会显著提升。CoT 让模型像人一样一步步推理，也让“写过程”成为大模型时代的默认提示词。

但 CoT 的发展很快走向更复杂的方向。自一致性（Self-Consistency）告诉我们，模型内部其实存在多条潜在推理路径，采样多条再投票，往往比单一路径更可靠。Least-to-Most 等结构化方法则进一步把复杂问题拆解成子问题，让推理变得更像“程序化思考”。

与此同时，研究者也开始怀疑，这些推理链到底有多可信？Lanham 等人的工作通过截断 CoT、让模型续写，揭示了一个尴尬事实——模型有时并不是在“延续逻辑”，而是在“顺着语气编下去”。这直接暴露了一个长期被忽略的问题，我们一直在用最终答案评估推理能力，却无法判断推理过程本身是否合理。

这正是 Process Reward Model（PRM）出现的意义。PRM 不再只看“答案对不对”，而是逐步评估每一步推理是否合理、是否推动问题向前。它把评估从“结果正确”带向“过程正确”，让推理链第一次成为可以被量化、被审视的对象。

在这样的背景下，这项研究提出了一个更进一步的问题，如果推理链本身可以被评估，那么它能不能被“传递”？不同模型之间能不能接力？CoT能不能从“模型内部的思维过程”变成“模型之间可共享的推理资源”？而 PRM，恰好提供了检验这场“推理接力赛”是否顺畅的标尺。

2.方法论，推理接力的三步框架

如果把这项研究看成一场关于“推理链能否跨模型流通”的大型实验，那么方法论部分就是它的操作手册。作者没有简单地把两个模型的输出拼在一起，而是设计了一套严谨又带点“工程美学”的流程，让推理链的生成、截断与接力都具备可控性和可复现性。

我们从两个“强力起跑手”开始。Gemma-3-4B-IT和 LLaMA-3.1-70B-Instruct 被选为推理链的初始生成者，它们负责从题目开始，一步一步写出完整的 Chain-of-Thought。这里的“完整”不仅指内容完整，还包括对每个 token 的 log-prob 记录。

log-prob 是模型在生成每个词时的内部置信度，它像一条隐藏的“心电图”，记录着模型在推理过程中的信心波动。通过这些信号，研究者能看到模型在哪些步骤特别确定，在哪些步骤犹豫不决。

有了推理链和信心曲线，第二步就是决定“在哪里切断”。传统做法可能会按token 数量或句子数量来截断，但作者选择了更贴近模型内部状态的方式，累积 log-prob。

他们把整条推理链的总 log-prob 当作一个整体，然后找到累积达到 25%、50%、75% 的位置，分别作为早期、中期和后期的截断点。换句话说，截断点不是“写了多少字”，而是“模型已经积累了多少自信”。这种基于“信心流”的截断方式，让推理链的阶段划分更贴近模型的真实推理节奏。

截断之后，第三步才是真正的“接力”。研究者把截断后的推理前缀与原题目重新组合成一个提示，输入给第二个模型，让它继续推理直到得出最终答案。接力选手分为两类，同族小模型（如 Gemma-3-1B）和跨族小模型（如 LLaMA-3.1-8B）。同族模型共享相似的架构、tokenizer 和训练风格，理论上更容易“接上话”；跨族模型则像是接手一个完全不同风格的草稿，能否读懂、能否延续，是这项研究最想回答的问题之一。

当第二模型完成续写后，前缀与后缀被拼接成一条完整的“混合推理链”（Hybrid CoT）。这条链既包含强模型的推理，也包含小模型的续写，是一种真正意义上的“多模型协作推理产物”。接下来，它们将被送上评估台，接受严格的质量检测。

3.实验设置：数据、模型与评估体系

为了让推理接力的实验更具说服力，作者选择了一个足够难、足够结构化、足够能体现推理链质量的数据集，MATH。这个包含 5000 道题目的数学推理数据集，覆盖代数、几何、数论等多个领域，每一道题都需要多步推理才能得出答案。它不仅是评估模型数学能力的标杆，也是检验推理链稳定性的理想场景。

在模型组合上，研究者采用了“强模型生成、弱模型接力”的策略。负责生成完整推理链的基座模型是 Gemma-3-4B-IT 和 LLaMA-3.1-70B-Instruct，它们的推理能力足够强，能提供高质量的起始链条。

而负责接力的则是它们的小型版本，Gemma-3-1B-IT 和 LLaMA-3.1-8B-Instruct。这样的组合既能测试同族模型之间的互操作性，也能观察跨族模型在接力时是否会出现逻辑断裂。

评估体系则是这项研究的亮点之一。最终答案准确率当然是最直观的指标，但作者显然不满足于“只看结果”。他们引入了 Process Reward Model（PRM）来对推理链的每一步进行评分，从而评估逻辑一致性与推理质量。PRM 的加入让评估从“结果导向”转向“过程导向”，这是理解推理链稳定性的关键。

除此之外，还有两个非常有洞察力的指标。NRG（Normalized Relative Gain）用于衡量接力是否带来性能提升，它告诉我们“接力有没有帮忙”。XMD（Cross-Model Degradation）则用于衡量接力是否破坏了原模型的推理链，它告诉我们“接力有没有添乱”。这两个指标让研究者能够更细致地分析不同模型组合、不同截断点下的推理表现。

4.实验结果：推理接力的成败与边界

研究团队把不同模型、不同截断点、不同家族的组合全部跑了一遍，结果呈现出一种非常鲜明、甚至可以说是“泾渭分明”的趋势，同族模型之间的接力顺滑自然，跨族模型之间的接力则充满磕绊。推理链，看似只是文本，但背后其实藏着模型之间深层的“思维风格差异”。

先看最顺利的部分，同族模型接力。无论是 Gemma → Gemma，还是 LLaMA → LLaMA，只要是同一家族内部的“兄弟模型”接棒，整体表现都相当稳健。

随着截断点从 25% 推进到 50%、再到 75%，准确率呈现出一种非常自然的上升趋势，仿佛模型越往后接，越能“读懂前任留下的草稿”。与此同时，XMD（跨模型退化指标）也在不断下降，说明接力过程中对原推理链的破坏越来越小。

图片

表1:MATH数据集上每个模型完全生成的推理链的性能（即，没有与另一个模型的切换或交换）。

这种现象背后其实很好理解。同族模型共享相似的 tokenizer、相似的预训练语料、相似的推理结构偏好，它们的“推理语言”天然更接近。就像你接手一个同事写的代码，如果你们用的是同一套框架、同一套命名习惯、同一套工程规范，那你自然能更快读懂、也更容易继续写下去。推理链也是同样的道理。

图片

表2：使用Gemma3-4B-IT中完全生成的CoT，在MATH数据集上按截断点和连续模型划分的混合推理链的性能。

但一旦跨族接力，画风立刻变了。无论是 LLaMA → Gemma，还是 Gemma → LLaMA，准确率都出现明显下降，NRG（相对增益）不是负数就是远低于同族组合，XMD 更是居高不下，几乎在告诉你，“这条推理链被续写得面目全非了。”

跨族接力的失败并不是偶然，而是结构性的。不同架构的模型在推理时使用的“内部表征语言”并不相同，它们的逻辑展开方式、句式偏好、数学表达习惯、甚至 token 切分方式都可能完全不一样。

图片

表3：使用LLaMA-3.1-70B-Instruct中完全生成的CoT，在MATH数据集上按截断点和连续模型划分的混合推理链的性能。

你可以把它理解成，Gemma 写的是“中文式数学解题步骤”，LLaMA 写的是“英文式数学解题步骤”，两者的风格差异足以让对方看不懂彼此的“思维轨迹”。于是，当一个模型接手另一个模型的推理链时，它往往不是“延续”，而是“重新开始”，这自然导致逻辑断裂、语义不连续，最终体现在准确率和 XMD 上，就是一片惨淡。

不过，即便是跨族接力，也不是完全没有规律可循。一个非常稳定的趋势是，截断越晚，接力越稳定。到了 75% 截断点时，无论是同族还是跨族，表现都比 25% 和 50% 时好得多。这很好理解，越靠近推理末尾，剩下的步骤越少，逻辑结构越明确，模型需要“理解”的上下文越短，犯错空间也越小。

但即便如此，75% 截断的接力表现仍然明显低于原模型完整 CoT 的表现。这说明推理链的后段并不是独立存在的，它依赖前段的风格、结构和逻辑铺垫。推理链不是一串可以随意拼接的句子，而是一种“风格化的逻辑结构”。只要前后风格不一致，哪怕只剩最后几步，也可能出现偏差。

PRM的结果进一步揭示了跨族接力的深层问题。跨族模型的PRM 分数普遍低于同族模型，这意味着它们不仅在最终答案上表现不佳，在推理过程本身的逻辑一致性上也出现了明显断裂。PRM 的评分机制本质上是在问，“你这一步推理是否合理？”而跨族模型往往在续写时出现逻辑跳跃、语义不连贯、步骤不推进等问题，说明它们确实难以理解前者的推理“语法”。

5.推理接力为何难？模型协作的未来在哪里？

看到这里，一个问题自然浮现，为什么推理接力这么难？为什么模型之间不能像人类一样，轻松接手彼此的思考过程？

最根本的原因，是推理风格与表征差异。不同模型的推理链看起来都是自然语言，但背后依赖的是各自的内部表征空间。Gemma 的“推理语言”和 LLaMA 的“推理语言”并不相同，它们的逻辑展开方式、表达偏好、token 切分方式都可能完全不同。你让一个模型接手另一个模型的推理链，本质上是在让它“翻译”一种它从未真正学过的推理语法，这当然容易出错。

另一个关键因素是上下文整合负担。小模型接手大模型的长推理链，就像一个初级工程师接手资深工程师写的复杂代码。即便逻辑是对的，它也可能因为理解负担过重而无法顺利延续。尤其是在数学推理这种高度结构化的任务里，前面几步的逻辑铺垫往往决定后续步骤的可行性，小模型一旦理解不到位，后续推理就会迅速崩塌。

错误放大也是一个不可忽视的因素。推理链是一种累积结构，前面的小偏差会在后续步骤中被不断放大。跨族模型由于风格差异更大，更难纠正前者的错误，于是错误会像滚雪球一样越滚越大，最终导致推理链彻底偏离轨道。

尽管如此，推理接力的潜在价值依然巨大。想象一下未来的 AI 系统，大型模型负责关键推理节点，小模型负责收尾或执行重复性步骤，整个系统像流水线一样协作完成复杂任务。这不仅能降低推理成本，还能让 AI 系统具备更高的灵活性和可扩展性。推理接力的研究，正是在为这种“模块化推理系统”探索可行路径。

推理接力不是为了证明“模型能不能接力”，而是为了回答一个更重要的问题，未来的 AI 系统，能不能像一个团队，而不是一个孤立的个体，去完成复杂推理任务。

参考资料：https://arxiv.org/abs/2512.20647

文章来自：51CTO