AI带来决策加速、智能化和自动化机遇,但风险深不可测,传统治理模式已难以应对自我修改和自适应的智能体。

AI的风险已不再是一个次要问题,它已成为核心主线。

有何回报?更快的决策、更智能的系统、无限的自动化。

有何难题?盲点之深,连最优模型也难以预测。

然而,在企业竞相迈向“AI优先”之际,多数企业仍在沿用为传真机时代设计的治理模式,这无异于试图在诺基亚3310手机上观看Netflix视频。

在密码和防火墙主导的世界中诞生的风险模型,无法应对自我修改的智能体或能在句中自行改写规则的模型。

过去18个月里,我全身心投入解决这一问题,从零开始构建框架,推动行业首创的举措,如“开放式Web应用程序安全项目(OWASP)自主式AI系统十大风险清单”和“世界经济论坛(WEF)网络弹性指南”。这并非副业,也非在贴满柔和色便签纸的会议室舒适环境中进行。我所经历的是混乱的工作坊、紧迫的截止日期以及能熔化钢铁的治理辩论。

以下三点经验,是任何教科书或国际标准化组织(ISO)术语表都无法直接传授给你的,只有当你努力设计可行的AI风险标准,在不确定中奋力前行时,才能领悟到这些。

1. 战略需要张力,而非仅求共识

每个人都声称追求一致。但过度一致?那只会通往平庸的快车道。

我学到的首要一点是:如果会议桌上的每个人都迅速达成一致,那你可能解决的是错误的问题,或者根本什么问题都没解决。

在AI治理工作的初期,我们面临工程师专注于模型权重、伦理学家执着于公平性、合规团队则对尚未出台的法规感到焦虑的局面。礼貌的做法本应是淡化一切,直到所有人都默默点头表示同意。

但这样做的结果,只会是得到一套平淡无奇的治理方案,连阻止一个恶意聊天机器人推荐漂白剂作为排毒方法都做不到。

我们反其道而行之,我们像登山者利用绳索的张力一样利用分歧,不是为了争斗,而是为了防止坠落。激烈的辩论并非机能失调,它们是设计工具。

我们没有追求一个完美且不可动摇的框架,而是构建了脚手架。模块化原则,能够随着能力的演变而扩展。我们嵌入了自主性、反馈循环和突发行为的概念,而不仅仅是静态控制。

如果你的战略会议让人感到舒适,那你就不是在为现实世界做准备,而是在制作宣传册。

2. 执行在于边缘案例

最重大的AI威胁并非邪恶的机器人,而是被误解的系统。

AI治理图表在幻灯片中看起来很美,整洁、线性、色彩编码。

但在实际应用中,模型会游离,它们会学习到一些你未曾教授的内容。

它们会漂移到未经测试的领域。

它们会在后台模拟场景,然后做出你无法完全追踪的决策。

我们曾直接遭遇这样的陷阱。Anthropic公司当时正在试验一个自我改进的语言模型,该系统能够持续调整其算法和代码。

理论上很巧妙,直到你意识到审计跟踪刚刚自行删除了,试图治理一个幽灵。

大多数风险登记册的问题在于,它们假设系统会“公平竞争”,但自我修改的智能体不会,它们可以绕过你的电子表格。

因此,我们改变了方法。我们构建了意图感知保护措施,不是严格的规则,而是自适应的护栏,能够根据模型试图完成的任务进行调整。

我们不仅绘制了架构图,还绘制了行为图。

• 当AI说谎时会发生什么?

• 当它进行递归调用时会发生什么?

• 当它忽略或拒绝你的指令时会发生什么?

大多数治理框架在这些不寻常且往往被忽视的角落中都会崩溃,这正是你的应对策略需要发挥作用的地方。

3. 与业务共同构建,而非仅为业务构建

没有什么比在孤立环境中设计治理标准更能迅速扼杀它了。

你不能把自己锁在房间里,敲出一份90页的PDF文件,然后期望产品团队会敬礼服从。真正的采纳发生在摩擦存在的地方:在冲刺阶段、在工作流程的快捷方式中、在“快速交付”的文化中。

将AI融入业务流程的人往往不会阅读政策,有些人甚至不知道它们的存在,这就是为什么我们共同创造了一切,工程师、产品负责人,甚至市场营销人员都参与其中。

我们举办了工作坊,让团队模拟AI故障。我们对框架进行了红队测试,看看它们会在哪里崩溃。我们不再问“这合规吗?”,而是开始问“在压力下,只有一半信息时,这会帮助你做出更好的决策吗?”。

结果如何?一个活生生的应对策略手册,不是一份在SharePoint上积满灰尘的治理墓碑,而是直接融入产品和安全生命周期的原则、触发器和模板。是与业务共同呼吸,而非从远处监管的东西。

当最接近风险的人帮助塑造护栏时,他们会真正拥有它们。

未来不在于控制,而在于准备

这是许多风险领导者仍不愿听到的部分:你永远无法完全控制AI风险。

这些系统变化太快、思考方式太奇特、打破了太多假设,以至于无法永远被限制,但这并不意味着你无能为力,这意味着你需要一种不同的能力,一种为适应而非统治而构建的能力。

• 如果你从事政策制定,就起草灵活的护栏。

• 如果你从事工程工作,就从第一天开始构建可观测性。

• 如果你从事审计工作,就寻找信号,而不仅仅是证据。

AI风险治理不是一次性修复,它是一种姿态,一种能力。只有当你使用它时,它才会变得更强。

因此,对你的框架进行压力测试。破坏你的工具,假设你遗漏了什么,因为你确实遗漏了,并以期望自己会犯错,但准备好迅速调整的心态进行构建。

最重要的风险

在AI治理中,最危险的做法不是将有缺陷的框架投入生产。

而是假装你在控制,而实际上你并没有。

从小事做起,现在就开始,构建脚手架,测试边缘案例,让每天与风险共存的人参与进来,并让你的框架保持活力,因为死去的框架不会保护你。

我已经看够了,知道:没有完美的治理模型在前方等待。只有你今天开始构建,并在明天不断演进的模型。

如果你也在构建,我想听听你的想法,带来你的创意,挑战我的思考,让我们在现实世界做出反应之前,先创造出能在现实世界中发挥作用的东西。

文章来自:51CTO

Loading

作者 yinhua

发表回复