随着更多的LLM变成多模态模型,图像正成为攻击者可以依赖的最新威胁途径,以绕过和重新定义护栏。基于图像的攻击严重程度不一,有的是简单的命令,有的是比较复杂的攻击场景(造成工业破坏和散布广泛的错误信息是目的)。

OpenAI新的GPT-4V版本支持图像上传后,带来了一条全新的攻击途径,使大型语言模型(LLM)容易受到多模态注入图像攻击。攻击者可以在图像中嵌入命令、恶意脚本和代码,随后模型会遵从行事。

多模态提示注入图像攻击可以泄露数据、重定向查询、生成错误信息,并执行更复杂的脚本以重新定义LLM如何解释数据。它们可以改变LLM的用途,使其忽略之前设置的安全护栏,执行可能危及企业组织的命令,从而构成从欺诈到操作破坏的各种威胁。

虽然所有已采用LLM作为工作流程一部分的企业都面临险境,但那些依赖LLM来分析和分类图像作为其业务核心一部分的企业面临最大的风险。使用各种技术的攻击者可以迅速改变解释和分类图像的方式,因错误信息而酿成更混乱的结果。

一旦LLM的提示被覆盖,它对恶意命令和执行脚本更加视而不见的可能性就会变得更大。通过在上传到LLM的一系列图像中嵌入命令,攻击者可以实施欺诈和操作破坏,同时促进社会工程攻击。

图像是LLM无法防御的攻击途径

由于LLM在其处理过程中没有数据清理这个步骤,因此每个图像都是可信赖的,就像在没有对每个数据集、应用程序或资源进行访问控制的情况下,任由身份在网络上自由漫游很危险,上传到LLM中的图像同样很危险。

拥有私有LLM的企业必须采用最小特权访问作为一个核心网络安全策略。

Simon Willison在最近的一篇博文(https://simonwillison.net/2023/Oct/14/multi-modal-prompt-injection/)中详细解释了为什么GPT-4V是提示注入攻击的主要途径,并表示LLM从根本上来说很容易上当受骗。

Willison展示了提示注入如何能劫持Auto-GPT之类的自主人工智能代理。他解释了一个简单的视觉提示注入如何从嵌入在单单一个图像中的命令开始,随后变成了一起可视化提示注入渗透攻击。

BDO英国公司的数据分析和人工智能高级经理Paul Ekwere表示:“提示注入攻击对LLM的安全性和可靠性构成了严重威胁,尤其是处理图像或视频的基于视觉的模型。这些模型被广泛应用于人脸识别、自动驾驶、医疗诊断和监控等各个领域。”

OpenAI还没有拿出对付多模态提示注入图像攻击的解决方案——用户和企业只能靠自己。英伟达开发者网站上的一篇博文(https://developer.nvidia.com/blog/mitigating-stored-prompt-injection-attacks-against-llm-applications/)提供了规范性指导,包括对所有数据存储和系统强制执行最小权限访问。

多模态提示注入图像攻击的工作原理

多模态提示注入攻击利用了GPT-4V处理视觉图像方面的漏洞,以执行未被检测到的恶意命令,GPT-4V依靠视觉转换编码器将图像转换成潜在空间表示,图像和文本数据被结合起来以生成响应。

模型没有在编码之前对视觉输入进行清洗的方法。攻击者可以嵌入任意数量的命令,GPT-4会认为它们是合法的命令。自动对私有LLM进行多模态提示注入攻击的攻击者不会被注意到。

遏制注入图像攻击

令人不安的是,图像这条未受防护的攻击途径的问题在于,攻击者可能会使LLM训练的数据随着时间的推移变得不那么可信,数据保真度也会渐渐降低。

最近的一篇研究论文(https://arxiv.org/pdf/2306.05499.pdf)提供了关于LLM如何更好地保护自己免受提示注入攻击的指导方针,为了确定风险的程度和潜在的解决方案,一组研究人员试图确定攻击在渗入整合LLM的应用程序方面的有效性。研究小组发现,31个整合了LLM的应用程序容易受到注入的影响。

该研究论文就遏制注入图像攻击提出了以下建议:

1. 改进用户输入的清洁和验证

对于在私有LLM方面奉行标准化的企业来说,身份访问管理(IAM)和最小特权访问是基本配置。LLM提供商需要考虑如何在传递图像数据进行处理之前先进行更全面的清洁。

2. 改进平台架构,将用户输入与系统逻辑分离

目的应该是消除用户输入直接影响LLM代码和数据的风险。任何图像提示都需要加以处理,以免影响内部逻辑或工作流程。

3. 采用多阶段处理工作流程,以识别恶意攻击

创建一个多阶段流程以尽早捕获基于图像的攻击,这有助于管理这条威胁途径。

4. 定制防止越狱的防御提示

越狱是一种常见的提示工程技术,用于误导LLM执行非法行为,将提示附加到看起来恶意的图像输入中有助于保护LLM。然而研究人员警告说,高级攻击仍然可以绕过这种方法。

一种势头迅猛的威胁

随着更多的LLM变成多模态模型,图像正成为攻击者可以依赖的最新威胁途径,以绕过和重新定义护栏。基于图像的攻击严重程度不一,有的是简单的命令,有的是比较复杂的攻击场景(造成工业破坏和散布广泛的错误信息是目的)。

文章翻译自:https://venturebeat.com/security/why-gpt-4-is-vulnerable-to-multimodal-prompt-injection-image-attacks/如若转载,请注明原文地址

Loading

作者 yinhua

发表回复