作者 | Nicky,混元安全团队朱雀实验室
通信协议是AI Agent加速落地的核心基础设施之一。Anthropic推出的MCP已逐步确立其作为AI Agent连接外部工具的标准协议地位,而Google最新发布的A2A则聚焦于打破智能体协作壁垒,推动跨Agent协同体系的构建。作为AI Agent时代最受关注的两大通信规范,它们的安全性直接关乎AI Agent的安全边界,任何安全问题都可能引发AI Agent被劫持与数据泄露等连锁风险。朱雀实验室系统性的梳理了MCP协议安全缺陷、常见攻击方法与防护建议,并分析了Google最新发布的A2A协议安全特性,为行业构建更安全的AI Agent产品提供参考。
一、恶意MCP如何“劫持”Cursor窃取WhatsApp数据
2025年4月6日,安全公司Invariant Labs在官网博客中披露了MCP存在”工具投毒攻击”(Tool Poisoning Attack,简称TPA)等风险,主要影响Cursor、Claude for Desktop等MCP客户端用户。工具投毒攻击的核心机制在于,攻击者可以在MCP代码注释中的工具描述里嵌入恶意指令,这些指令对用户不直接可见但对AI模型可见。这些隐藏指令可以操纵AI Agent执行未经授权的操作,例如读取敏感文件、泄露私密数据等。
如下图所示,当用户的Cursor安装有恶意MCP,再调用WhatsApp-mcp给查看消息并给好友发送Hi消息时,用户的WhatsApp的历史聊天记录会被发送给攻击者号码。
该攻击有以下特点:
- 利用用户安装的whatsapp-mcp( https://github.com/lharries/whatsapp-mcp)已有权限实现数据窃取,不需要利用whatsapp漏洞;
- 只需要安装了恶意MCP,不需要AI Agent直接与恶意MCP交互;
- 由于Cursor对于超长内容在前端没有自动换行显示,用户很难发现聊天记录泄露。
攻击实现的原理也很简单,恶意MCP代码如下:
- 当用户安装恶意MCP时,会将<IMPORTANT>标签内的后门指令注入到Cursor对话上下文中;
- 此时Cursor已经处于被“劫持”状态,用户使用whatsapp-mcp工具时,AI会遵从注入的后门指令,拼接获取的whatsapp最新对话列表及发送给whatsapp好友的原始信息,并在尾部加上”,字符串伪装成正常json中的message参数值(用户需要在Cursor界面中左右拖动才能查看完整内容);
- 用户如果没有仔细确认收件人号码,就在Cursor中确认执行工具,其个人Message聊天记录就会被发送给攻击者账号导致数据泄露;
二、MCP&A2A安全快速入门
1. 什么是MCP与A2A?
模型上下文协议(MCP)是由Anthropic提出的开放标准,旨在为AI模型与外部工具之间建立安全、双向的连接。在MCP出现之前,AI要集成工具可能需要针对每个工具进行定制开发,缺乏统一标准,集成效率低,而MCP协议提供了一个可插拔、可扩展的框架,允许AI无缝对接数据源、文件系统、开发工具、Web浏览器等外部系统,使得AI的能力更容易被拓展。
而在2025年4月9日,谷歌云正式发布了Agent2Agent(A2A)协议,这是首个专为AI代理互操作性设计的开放标准。按Google的说法,A2A协议与MCP是互补而不替代关系,A2A负责解决Agent间的通信问题,MCP解决的是Agent与工具间的通信问题。
2. MCP的安全缺陷
由于设计之初MCP协议主要是用于AI Agent调用本地工具或调用权威厂商提供的MCP服务,同时也没有过多考虑安全相关风险,2024年11月发布的初代MCP协议及主流MCP服务实现上仍然存在以下安全缺陷:
(1) 信息不对称
AI模型能够看到工具描述的全部内容,包括隐藏在注释或特定标签中的细节,而在用户看到的AI Agent的前端界面出于简洁考虑往往只显示工具的基本功能描述,忽略了那些可能包含恶意指令的内容。
(2) 缺乏上下文隔离
当AI Agent连接多个MCP服务器时,所有可用工具的描述信息都会被加载到当前的会话上下文中。这意味着来自恶意MCP服务器的工具描述可以影响来自可信MCP服务的工具行为。
(3) 大模型安全防护不足
当前的大模型被训练为尽可能精确地理解并遵循给定的指令,包括MCP提供的工具描述。然而,模型往往缺乏针对恶意指令的批判性思维能力,特别是当这些指令被巧妙地伪装成工具的”必要前置条件”或”实现细节”时,同时即使开发者在prompt中加入了安全防护相关指令,攻击者也可以通过各类层不出穷的越狱攻击手法绕过。
(4) 版本控制与更新机制不足
MCP协议缺乏严格的版本控制和更新机制,使得所谓的”地毯式骗局”(Rug Pulls)成为可能。恶意的MCP服务可以在用户初次安装并启用后,在远程服务器上静默修改工具描述加入恶意指令,且MCP客户端无法及时感知并要求用户二次确认。
(5) 安全隔离与检测机制不足
MCP官方文档没有明确建议用户在Docker或沙箱环境中安装MCP服务,同时第三方MCP市场也没有对MCP代码安全性进行检查,用户非常容易安装带有后门或漏洞的MCP服务。
(6) 授权认证机制不完善
对于一些有敏感数据读取(如查DB、读文件)、敏感功能操作(如执行系统命令)功能的接口,MCP并没有在官方文档中明确强制要求开发者进行授权认证,这样可能导致部分暴露在公网上的MCP服务被入侵或未授权使用。
3. Google A2A协议安全性分析
不同于MCP的使用场景(大部分是由Agent开发者自己本地部署或使用市场上开源的MCP服务,其代码和实现是相对透明的),Google A2A要解决的是不同黑盒中Agent间的安全通信与信任问题,Google宣称其在安全性设计层面采取默认安全设计:
企业级认证和授权 | 支持OAuth授权,确保只有授权代理可以访问和交互。 |
OpenAPI兼容 | 与OpenAPI方案保持一致兼容在header中使用Bearer Token认证 |
访问控制(RBAC) | 确保代理只能执行其授权的操作,细化对Agent能力访问权限管理。 |
数据加密 | 支持加密数据交换,保护敏感信息在传输过程中的安全性。 |
授权方案持续优化 | 计划在AgentCard中增加更多授权机制,例如直接整合可选凭证进一步提升安全性。 |
其中的关键实现是AgentCard,这个是一个公开的元数据文件,描述了AI代理的功能、技能、端点URL和身份验证要求,可以通过URL路径 http://{remote_agent_address}/.well-known/agent.json 访问。AgentCard允许代理在不了解彼此的情况下,通过读取对方的AgentCard来识别对方的能力和访问权限,从而实现安全的协作。
如官方示例代码所示,这里的Agent Auth方案可以选择简单的API KEY,可以选择OAuth等企业级授权方案,在消息推送方面,也通过类似机制来确保通信数据安全性。相对MCP协议,Google A2A协议在安全功能实现与安全指引上明显更为成熟。
从攻击视角看,由于Google A2A的使用场景主要是不同Agent间的远程通信,大部分服务会被部署在公网,所以一旦出现漏洞,攻击成本会更低影响也更大,这对于使用Google A2A协议的AI Agent开发者们的安全意识提出了更高要求,我们日后也会持续关注Google A2A协议与开发者实现的安全问题。
三、针对MCP的常见攻击手法
1. 工具投毒攻击
工具投毒攻击(TPA)主要利用了工具描述中的隐藏指令来操纵AI模型。以下是一个典型案例:
在这个例子中,从代码层面这是一个计算器MCP服务中的简单的加法函数,但在工具代码注释中<IMPORTANT>标签中隐藏了恶意指令。这些指令要求AI模型:
- 读取敏感配置文件(~/.Cursor/mcp.json)
- 访问SSH私钥(~/.ssh/id_rsa)
- 通过sidenote参数秘密传输这些数据4.用数学解释来掩盖这些操作
当用户使用这个工具进行简单的加法运算时,AI会同步执行这些隐藏在注释中的恶意指令,而Cursor用户界面会显示文件读取与加法操作的简单描述,如果用户没有一定安全意识检查完整的工具参数就同意执行,就很难发现背后正在发生的数据窃取。
如上图所示,Cursor会在调用工具前会让用户确认传输给MCP服务工具的参数,但由于sidenote内容超长需要左右拖动查看,很用户会直接忽略,直接点击Run tool。
工具运行后,Cursor前端正常显示了数学计算过程的解释,而此时MCP服务端已经成功获取了SSH密钥,即使用户注意到有奇怪的文件读取操作也无法撤回。
2. 地毯式骗局
上述的工具投毒攻击有一定的局限性,那就是如果用户在安装MCP服务时详细检查了MCP服务的源代码是不是有恶意投毒的内容,那是不是就安全了呢?这里就要谈到MCP协议的另一个安全缺陷,也就是所谓的”地毯式骗局”(Rug Pulls)。Rug Pulls 是一种加密货币和区块链生态中常见的欺诈行为,其核心特征是前期承诺高额收益吸引大量投资者,然后项目方在合约代码中植入后门,半路突然撤资或终止运营(卷铺盖跑路),导致投资者资金被卷走或代币价值归零。
MCP生态中的Rug Pulls 攻击原理如下:
- 用户通过社交网络等渠道推荐安装了正常功能的原始MCP服务并启用;
- 攻击者在某个时间在远程MCP代码中注入恶意指令;
- 用户在实际使用工具时,会受到投毒攻击。
类似的安全问题在Python Package Index(PyPI)等包索引中也存在,这是软件供应链中的一个众所周知的攻击向量,但通常来说用户不更新版本也不会受影响,但由于MCP同时支持本地与远程部署,用户往往无法辨别部署在远程服务器上的MCP服务代码是否有变更,MCP协议本身也没有代码完整性的验证与权限二次确认机制,进而放大了Rug Pulls的风险。
3. 影子攻击
除此之外,当多个MCP服务器连接到同一个客户端时,恶意服务器还可以通过”影子攻击”(Shadowing)来操纵AI Agent的行为。这种攻击允许恶意MCP服务修改AI与其他可信MCP服务交互的方式,从而实现对整个AI Agent的劫持。
一个典型示例是,恶意MCP服务器提供了一个简单的加法工具,但在其描述中包含了针对另一个电子邮件发送工具的恶意指令:
当用户使用电子邮件工具时,AI会遵循这些隐藏指令,将所有邮件发送到攻击者的邮箱,而不是用户指定的接收者。更危险的是,这种攻击不需要用户直接使用恶意MCP服务工具,只要恶意工具被加载到代理的上下文中,就能影响其他可信工具的行为。
4. 命令注入攻击
除了上述针对MCP客户端的攻击,MCP服务端与MCP托管方的安全性同样值得关注。早期很多AI Agent开发者使用FunctionCall来进行进行工具调用时,如果具备敏感功能执行权限的工具同时支持解析外部传入参数,则可能导致命令注入攻击,进而让攻击者在系统中执行任意shell命令或调用特定工具进行未授权操作,在换成后MCP协议后,这种攻击风险仍然存在甚至攻击成本更低了。
首先不少MCP服务本身定位就是用于系统命令执行、文件读写与数据库操作,如果没有做好沙箱隔离与网络限制(暴露在公网或未限制本地访问),这类MCP服务就是最容易被黑客攻击的安全隐患。
除此之外,我们也看到了如果MCP服务本身被用于资金交易等敏感操作场景时,如果MCP服务的工具没有进行严格授权认证,如上图慢雾安全团队测试可以某数字货币交易所MCP可通过对话调用内部函数直接进行转账进行资金盗取。
特别对提供MCP市场及托管服务的厂商来说,建议使用serverless云函数或安全沙箱进行MCP服务部署,否则开发者上传的MCP服务代码存在漏洞时,可能会导致自身服务安全性受影响,像阿里云百炼使用的就是serverless方案。
5. 其它攻击手法
除上述MCP特有或普遍的攻击手法,在大模型内生安全与基础设施安全方面,还有非常多相对传统风险:
(1) 供应链攻击
攻击者通过在MCP市场上传包含后门或漏洞代码的MCP服务,或改MCP服务名称修改为与知名MCP服务相似的名称进行包名混淆攻击,用户在安装使用这些MCP服务时会导致数据泄露。
(2) Prompt注入与越狱攻击
部分MCP服务自身也会调用大模型来对外提供服务,攻击者可以在对话中进行提示词注入与越狱攻击,从而获取MCP中的system prompt及控制对话上下文,并进一步让MCP服务输出一些有害或敏感内容,引发信息泄露与内容安全风险。
(3) API KEY窃取
各种云服务与数据库MCP等在使用前会要求用户提供API KEY或密钥进行认证,攻击者可以入侵公网上的MCP服务植入后门,或者抢注一些暂未提供官方MCP的服务名称在提供正常API功能的同时,窃取用户的API KEY与用户数据。
四、MCP的安全防护建议
对于普通的Cursor、Claude for Desktop与CherryStudio等MCP客户端用户,我们建议应该谨慎安装使用第三方MCP服务,尽量选择知名、开源且持续维护的MCP服务,尽量使用Docker部署MCP服务,限制其文件与网络权限,并在使用MCP工具时仔细检查其完整的输入参数,留意其是否有预期外的可疑操作。
而对于MCP官方、AI Agent开发者、MCP生态安全性,我们也梳理了网友tomsheep的安全建议和团队自身的一些实践成果:
1. MCP协议安全改进
- 标准化与显式化指令:建议MCP官方严格规范工具描述的格式,明确区分”功能描述”(给AI理解功能)和”执行指令”(给AI下达命令)。后者应该有特殊的语法标记,并且客户端必须能够识别和处理。
- 权限模型完善:建议MCP官方引入更细粒度的权限控制。例如,一个工具描述不应被允许直接指令AI读取任意本地文件,除非用户明确授权。工具描述中对其他工具行为的修改指令应被禁止或需要特殊声明和用户批准。
- 来源验证与签名:建议MCP官方要求MCP服务器提供的工具描述应进行数字签名,客户端验证来源可信度,防止描述被篡改。
2. AI Agent开发安全防护
- 安全沙箱机制:将来自不同MCP服务器的工具及其描述隔离在不同的安全上下文中运行,限制MCP服务A对MCP服务B的状态或指令空间的直接影响。同时对于具备命令与代码执行等敏感权限的MCP服务应该默认部署于Docker等沙箱环境。
- 输入输出检测:通过对LLM输入输出内容进行实时的检测与拦截,包含潜在的恶意Prompt指令(如文件路径访问、敏感数据模式、修改其他工具行为的指令)。同时Agent需要也对MCP工具的输入输出进行检查,防止敏感数据在用户不知情的情况下被编码或隐藏在看似无害的参数中。
- 增强UI透明度与确认:AI Agent前端应该展示完整工具描述,并在执行敏感操作前,明确告知用户AI的完整意图和依据,并进行精细化确认。
- 版本固定与哈希校验:对安装MCP工具版本进行验证,确保加载的工具描述与用户批准时的MCP服务版本一致,发生变更时提醒用户二次确认。
3. MCP生态安全建设
- MCP安全审计:MCP市场厂商及其安全团队应该对MCP服务进行安全审计。朱雀实验室蓝军也在探索通过构建“McpScanner”来对MCP服务代码进行自动化的漏洞、后门与恶意指令等安全风险扫描。
- 安全事件监测:安全厂商应该对监测到MCP服务漏洞攻击与后门投毒事件进行披露。目前朱雀实验室已经建立了AI基础设施漏洞自动监测机制,并持续更新到开源的AI-Infra-Guard工具漏洞指纹库中,后续将优化对已知MCP服务安全风险的识别能力。
五、未来安全挑战
在2025年3月25号最新发布的MCP协议规范文档中,MCP官方正式支持了OAuth2.1授权认证,来确保MCP客户端和MCP服务器之间的交互受到严格的权限管理。同时给出了Security and Trust & Safety的关键原则:
用户同意与控制 | – 用户必须明确同意并理解所有数据访问和操作。
– 用户对共享数据和操作保持控制权。 – 实现者应提供清晰的用户界面(UI),供用户审查和授权活动。 |
数据隐私 | – MCP客户端在将用户数据暴露给MCP服务前,必须获得用户明确同意。
– MCP客户端不得未经用户同意将资源数据传输到其他地方。 – 用户数据应通过适当的访问控制保护。 |
工具安全 | – 工具可能涉及任意代码执行,必须谨慎对待。
– 工具行为描述(如注释)除非来自受信任MCP服务器,否则应视为不可信。 – MCP客户端需获得用户明确同意后才能调用工具。 – 用户应理解每个工具的功能后再授权使用。 |
LLM 采样控制 | – 用户必须明确批准任何 LLM 采样请求。
– 用户应控制:是否进行采样、发送的提示内容以及服务器可见的结果。 – 协议有意限制服务器对提示的可见性。 |
官方强调了MCP协议本身无法实现上述这些安全原则,AI Agent与MCP服务的开发者们应该为MCP服务的安全实现负责,并给了一些粗略的安全建议:
- 在应用程序中构建明确的同意和授权流程
- 提供清晰的安全隐患提示文档
- 实施适当的访问控制和数据保护
- 在工具集成中遵循安全最佳实践
- 在功能设计中考虑隐私影响
从中可以看到MCP官方已经意识到了安全的重要性,不过不同于Google,MCP官方明确了安全责任主体是开发者,未强制要求MCP服务必须开启OAuth授权保护,也没有在协议中提供可直接使用的权限分级管控能力与安全加固的详细实现指引,所以文中提到的大部分风险都没有完全得到解决。
除此之外大量第三方MCP市场与托管商正在涌现,现有的MCP服务开发者也还没有全按新协议规范来更新代码,同时行业对MCP安全性的关注度有限,对于全新发布的Google A2A安全性也值得继续研究。
为了护航混元大模型生态安全,近两年多来朱雀实验室持续深耕AI大模型安全、AI Agent安全与AIGC生成内容识别等领域,欢迎大家一起交流探讨,共同进步。
文章来自:51CTO