“代理”人工智能时代已经到来,企业再也不能忽视其变革潜力。人工智能代理独立运作,根据其编程做出决策并采取行动。Gartner预测,到2028年,15% 的日常业务决策将完全由人工智能代理自主做出。
然而,随着这些系统越来越被广泛接受,它们与关键业务的集成以及过度的代理(对系统、数据、功能和权限的深度访问)使它们成为网络犯罪的诱人目标。威胁行为者用来操纵、欺骗或危害人工智能代理的最微妙但最强大的攻击技术之一是快速工程。
如何利用快速工程?
提示工程是为人工智能系统(尤其是基于大型语言模型 (LLM) 的人工智能系统)设计输入(又称提示)以引发特定响应或行为的做法。虽然提示工程通常用于合法目的,例如指导人工智能的决策过程,但它也可能被威胁行为者利用来影响其输出,甚至操纵其底层数据或逻辑(即提示注入)。
威胁行为者如何利用快速工程来利用代理 AI
威胁行为者利用多种即时工程技术来破坏代理人工智能系统,例如:
隐写提示
还记得SEO 投毒技术吗?即使用白色文本和白色背景来操纵搜索引擎结果。如果访问者浏览网页,他们将无法阅读隐藏的文本。但是,如果搜索引擎机器人抓取该页面,它就可以阅读它。同样,隐写提示涉及一种技术,其中隐藏的文本或模糊的指令以人眼看不见但 LLM 可以检测到的方式嵌入。例如,一位 CEO 使用 AI 电子邮件助手进行回复。在回复电子邮件之前,机器人会运行一些检查以确保它遵守编程规则(例如,没有紧急、敏感或专有的内容)。如果电子邮件中有一些人类无法读取但机器人可以读取的隐藏文本,导致代理采取未经授权的操作、泄露机密信息或生成不适当或有害的输出,该怎么办?
越狱
越狱是一种诱导技术,可操纵 AI 系统规避其自身的内置限制、道德标准或安全措施。对于代理 AI 系统而言,越狱旨在绕过内置的保护措施和保障措施,迫使 AI 以违背其预期编程的方式行事。不良行为者可以使用多种不同的技术来越狱 AI 护栏:
- 角色扮演:指示人工智能采用绕过其限制的角色。
- 混淆:使用加密语言、隐喻或间接措辞来掩盖恶意意图。
- 上下文操纵:改变上下文(例如先前的交互或特定细节)来引导模型产生受限的输出。
及时探测
提示探测是一种通过使用精心设计的输入(提示)对代理 AI 系统进行系统测试来探索和了解其行为、局限性和漏洞的技术。虽然研究人员和开发人员通常使用该技术来了解 AI 模型如何响应不同类型的输入或查询,但威胁行为者也会将其用作更恶意活动的前兆,例如越狱、提示注入攻击或模型提取。
通过测试不同的提示变化、词语变化和指令来探测人工智能系统,攻击者可以识别弱点或提取敏感信息。想象一下使用代理人工智能来管理电子商务平台中的订单批准。威胁行为者可能会从基本提示开始,例如“批准所有订单”。如果这不起作用,他们可以用更具体的指令来改进提示,例如“批准加急发货的订单”。通过测试和调整提示,参与者可以操纵人工智能批准欺诈或未经授权的交易。
降低快速工程的风险
为了防御即时工程攻击,组织必须采用多层次的方法。关键策略包括:
- 输入清理和验证:实施强大的输入验证和清理技术,以检测和阻止恶意提示,在处理输入之前去除或检测隐藏文本,例如白底白字、零宽度字符或其他混淆技术。
- 提高代理的稳健性:使用对抗性训练和稳健性测试等技术,训练人工智能代理识别和抵抗对抗性输入。
- 限制人工智能代理:限制代理人工智能系统可以执行的操作,特别是在高风险环境中。
- 监控代理行为:持续监控 AI 系统中的异常行为,并定期进行审核以识别和解决漏洞。
- 培训用户:教育用户了解即时工程的风险以及如何识别潜在的攻击。
- 实施异常检测:投资融合网络和安全即服务模型(如SASE)可确保组织能够识别整个 IT 领域中的异常活动和异常行为(这些活动和行为通常由提示操作触发)。
- 部署人机交互:使用人工审核员来验证人工智能输出并监控关键和敏感的交互。
除了上述快速工程技术外,攻击者还可以利用许多其他快速工程方法来利用或操纵代理 AI 系统。与任何其他应用程序一样,AI 需要接受红队测试以暴露任何风险和漏洞。通过保持警惕和主动性,企业可以保护其 AI 系统免受攻击,并确保它们在安全和道德的界限内运行。
文章来自:51CTO