开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图 -

本文第一作者为清华大学计算机系本科生钱成，何秉翔。两人均为 THUNLP 成员。钱成主要研究兴趣为工具学习，大模型驱动智能体，即将就读 UIUC 博士。何秉翔主要研究兴趣为大模型对齐与安全，即将就读清华大学博士。本文通讯作者为从鑫与林衍凯，指导教师为刘知远副教授。

在人工智能迅猛发展的今天，我们不断探索着机器的智能化，但却往往忽视了这些智能体如何深层地理解我们 —— 它们的创造者。我们人类在生活中的每一次互动，每一句话语，每一个行为，都充斥着意图和情感。但真正的挑战在于：这些隐式的意图如何被智能体捕捉、解析并作出反应？传统的智能体对明确的命令反应迅速，然而在理解复杂的人类隐式意图上，它们往往显得力不从心。

近年来，GPT 和 LLaMA 等语言模型展示了在解决复杂任务上的惊人能力。然而，尽管以它们作为核心的智能体擅长制定策略、执行任务，却很少兼顾鲁棒的用户交互策略。用户给出的任务通常是模糊和简短的，这就需要智能体不仅能理解我们的字面请求，更要能透视我们的隐式意图。

因此，让新一代的智能体落地并为大众所用，需要以人为中心，不仅仅关注于任务执行的精确度，更关注于如何与人类建立起一种更加自然、流畅而富有洞察力的沟通方式。

为了弥补这一缺失，近期来自清华大学、人民大学、以及腾讯的联合团队提出了一种全新的智能体交互设计方案。该工作首先引入了 Intention-in-Interaction（IN3）这一全新的基准测试，旨在通过与用户明确的交互来理解用户的隐式意图。

以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后，文章对完全态的智能体系统进行了全面评估。

结果显示，这套方案在识别模糊用户任务、恢复和总结关键缺失信息、设定精确且必要的智能体执行目标、以及减少冗余工具使用等诸多方面有着突出表现。这一创新的方法，不仅填补了智能体与用户交互的空白，将人类真正置于智能体设计的中心，同时意味着我们正在向着设计更加符合人类意图的智能体的目标迈进一步。

论文标题：Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
论文链接：https://arxiv.org/abs/2402.09205
代码仓库：https://github.com/HBX-hbx/Mistral-Interact
开源模型：https://huggingface.co/hbx/Mistral-Interact
开源数据集：https://huggingface.co/datasets/hbx/IN3

智能体系统对于模糊任务和清晰任务执行的对比

Intention-in-Interaction 基准测试

当前的智能体基准测试通常假设给定的任务是清晰的，并没有把用户意图理解当作评估的重要方面。鉴于评估指标的不完备性，该工作制定了 Intention-in-Interaction（IN3）基准测试，旨在通过明确的任务模糊性判断和用户意图理解来评测智能体的交互能力。

IN3 基准数据的构造过程

如上图所示，基于人类编写的种子任务为 Step 1，模型迭代生成新任务以增强数据集，同时从数据集中采样以作为下一轮生成的新示例（Step 2）。在这种 Self-Instruct 的生成方式后，再对每个任务的模糊度、缺失细节以及每个细节的重要程度和潜在的选项进行人工标注（Step 3）。

Mistral-Interact 训练过程

由于大语言模型处于智能体设计的核心位置，该工作首先进行了一项初步研究，评估当前开源和闭源模型在交互过程中的隐式意图理解能力。

具体地，文章从 IN3 中随机抽取了十个任务，将它们应用于测试 LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2 和 GPT-4 并指示这些模型 i）判断任务的模糊度，ii）在任务模糊时询问用户缺失的细节，iii）总结详细的用户任务。

隐式意图理解初步研究中各个模型的定量与定性结果展示

由结果可见，Mistral 在一定程度上表现更好，但仍然存在对人类意图理解不足的问题。相比之下，GPT-4 在任务模糊度和重要缺失细节方面与人类意图最为接近。同时，初步探索也表明，为了进一步提升智能体在交互中的隐式意图理解能力，单纯的提示工程（prompt engineering）是不够的，有必要以当前开源模型为基础，进一步训练，以达到可以在智能体落地应用的程度。

训练数据（IN3 对话记录）的构造过程

参照上图，根据 IN3 关于任务模糊度、缺失细节和潜在选项的标注，文章在构建对话记录过程中应用了若干策略（橙色框），其中包括：清晰初始推理链的构造、带有建议选项的询问构造、不同用户回答语气的构造、以及清晰总结推理链的构造。这几种对话构造策略将更好地激发目标模型的询问以及推理能力。

智能体交互能力全面评估

智能体的隐式意图理解能力既可以通过用户交互来直接评估，也可以通过智能体执行下游任务来间接评估。其中，用户交互关注意图理解本身，而任务执行关注意图理解的最终目的，即增强智能体处理任务的能力。

因此，为了全面评估可交互智能体设计，文章将实验分为两个部分：i）指令理解：评估智能体在用户交互期间的意图理解能力；ii）指令执行：评估集成了交互模型后智能体的任务执行表现。

指令理解并不涉及任何实时的智能体执行，因此文章直接评估了不同语言模型在交互过程中的表现，以判断其作为智能体设计中的上游模块的交互能力，结果如下表所示：

指令理解测试结果，其中箭头代表得分越高 / 越低则能力更强

结果表明，Mistral-Interact 能够更好地理解用户的意图，在判断任务模糊度以及缺失细节的覆盖率等指标上表现最佳，而且能够基于详细的用户意图进行明确而全面的总结。相较于其他开源模型，Mistral-Interact 在询问模糊任务中的缺失细节方面能提供更加合理的选项，询问方式更加友好，并与 GPT-4 的表现不相上下。

在指令执行方面，为了评估隐式意图理解对于智能体任务执行有效性，文章将 Mistral-Interact 作为上游交互模块整合到 XAgent 框架中进行测试。其中，XAgent 可以在诸如网络搜索、代码执行、命令行和文件系统等环境中进行交互。

指令执行测试结果 (ST 代表 subtask，MS 代表 milestone)

上表呈现了智能体任务执行的定量评估结果，结果表明整合 Mistral-Interact 有助于：i）在执行过程中避免设定不必要的目标，ii）使智能体的执行过程更加符合详细的用户意图，以及 iii）减少不必要的工具调用，促进智能体工具使用效率。

智能体交互案例分析

在指令理解方面，为了进一步展示 Mistral-Interact 在不同对话场景下的鲁棒性，文章还提供了三个案例分析。

Mistral-Interact 与用户在不同场景下的案例分析

案例 A 展示了不同用户语气和对话风格对 Mistral-Interact 的影响。文章发现，无论用户的回答是简短还是详细，热情还是冷漠，甚至包含拼写错误，Mistral-Interact 都能准确理解并提供适当的回应，证明了其鲁棒性。

在案例 B 测试了当用户表现出不合作的态度时，Mistral-Interact 是否能够继续追问并引导对话回到正轨。结果显示，即使用户回避问题，其仍然能够有效地重新引导对话。

在案例 C 中可以观察到 Mistral-Interact 可以将用户提供的额外信息纳入总结，而这些信息并没有被交互模型明确询问。这表明，当模型的询问无法完全覆盖缺失细节或用户有特定要求时，模型仍然能够合理而全面地总结所有用户意图，从而使其更加用户友好。

在指令执行方面，为了更清晰阐明 Mistral-Interact 的作用，下图中提供了一个比较的案例研究。

智能体与 Mistral-Interact 交互前后的执行过程的案例研究

根据上图中标记为浅红色的文本，可以发现当用户的目标模糊时，XAgent 无法准确设定精确反映用户需求的子任务。根据标记为紫色的文本，可以发现 XAgent 时常会设置一些不必要的子任务。这些均因为用户的任务过于模糊而无法执行，智能体倾向于虚构一些不必要的细节，从而与用户的真实意图不符。

相比之下，在与 Mistral-Interact 进行积极交互后，明确的任务目标能够让 XAgent 制定更具体的子任务。图中标记为绿色的文本展示了这种一致性。同时，智能体执行流程变得更加简单，工具调用次数也有所减少。所有这些都反映了一个更加高效的智能体执行过程。

结语

我们正站在一个全新的起点，准备见证一个人机协同、相互理解与学习的新篇章。智能体即将不再是冰冷的信息处理器，而是充满同理心的伙伴，它们能够通过细腻的交互体验，深刻理解我们背后可能并没有最初明确表达的需求和愿望。这场以人为中心的智能体设计革命，将揭示出交互中的无限可能性，进而让智能体真正成为我们生活中不可或缺的助力。