加州大学伯克利分校AI研究员迈克尔科恩。(资料图/图)
迅猛发展的AI已经展示出了巨大的潜力,但另一方面,从2023年初开始,一些科学家和研究人员多次公开呼吁,人们关注先进AI可能给人类和社会带来的严重风险。
一些特别的风险来自那些功能强大的通用AI模型。由于对它们的能力缺乏充分了解,且难以预测,潜在的主观误用和意外的失控产生的风险尤其不可忽视。为系统性地探讨先进AI风险的治理,2024年4月,加州大学伯克利分校AI研究员迈克尔科恩(Michael K. Cohen)等人在《科学》杂志专门发表研究,分析了先进AI的独特风险问题,及其可能的治理架构。在他看来,相比被设计用来执行即时任务的AI,那些有长远规划的智能体,为了得到特定的奖励,可能会在很长的一段时间里锚定特定目标,不断追求奖励的最大化,从而带来不可预知的风险,甚至在某个时间将人类踢出局。
AI真的会导致诸如文明毁灭之类的结局吗?我们又该如何理解和应对AI在当前和未来可能给人类来的风险?最近,迈克尔科恩接受南方周末记者专访,对相关问题进行了分析。
科幻故事可能成真
南方周末:早在2023年2月,你就曾提出,我们应该禁止人们训练非常先进的人工智能体,但因为AI还没有这么先进,所以这样的规定并不是必须马上施行。然而,AI一直在快速发展,你觉得我们现在距离那些足够先进且危险的人工智能体还有多远?
迈克尔科恩:可惜,我也不知道我们离那些先进到足以摆脱人类控制的AI智能体还有多远。不过,这并不意味着现在开始专注于降低风险显得为时过早。最后期限不确定其实意味着我们最好现在就开始行动。
南方周末:那你现在是怎么使用AI应用的呢?会有什么风险方面的担忧吗?
迈克尔科恩:我经常向AI应用Claude问一些难搜索的问题答案,比如“从事件视界落入黑洞需要多长时间?”或者“加州政府通过了哪些不同的决议?”我也经常让Claude帮我校对文件。我觉得它帮助我更有效地润色了文字。至于风险方面的担忧,我姑且相信Anthropic公司会将我和Claude的谈话保密,不会拿来训练未来的模型吧。我宁愿AI系统在不久的将来不要太了解我,但我觉得这种想法可能注定要落空。
南方周末:据你观察,现有的AI智能体总体上有哪些风险?
迈克尔科恩:对于今天任何特定的风险,政府大都有能力通过法律,迫使人们改变AI的训练和部署方式。但有一个例外,那就是开源AI。开源AI系统是对社会的永久性添加。政府不可能追踪到每一个副本去销毁它们,所以它们总是会像病毒一样重新出现。现在有一些儿童色情内容的制造者,“他们”永远不会死,也永远不会被关进监狱,因为这些制造者正是开源AI模型。
南方周末:对很多人而言,相比这些现在看得到的风险,来自AI的灭绝风险可能是难以想象的。毕竟,当人们关掉设备的时候,他们手机或者电脑上的AI应用甚至都不能工作。在这样的情况下,你觉得现实生活中,AI可能会如何给人类带来灭绝的风险?
迈克尔科恩:那我来介绍几种可能发生的方式。比如,一个AI系统可能会同时从理论上和实践上来研究蛋白质设计。它怎么能实证地研究蛋白质设计呢?它可以先做一些普通的经济任务来赚钱,而且或许可以在墨西哥找到一个黑帮,然后给他们稳定的报酬,以及一系列的指令,告诉他们如何建立一个生物实验室,以及在里面做一些什么实验。也许它还需要对那群人保密,防止他们知道它是一个AI,如果是这样的话,它是可以做到这一点的。
然后,它可以来解决设计蛋白质的问题,建造一个可以自我复制的太阳能纳米工厂。自我复制的太阳能纳米工厂早就已经存在了,藻类就是一个例子。AI在设计一种新型自我复制纳米工厂的时候,也可以将其设计成具有多功能的生产能力。这些纳米工厂的数量呈指数级增长的时候,可能会产生一种环境毒素作为副产品,从而摧毁生物的生命。当然,人们可能会在科幻小说的故事中发现这些事件,但这并不能证明它们不能被智能系统刻意安排在现实生活中。事实上,正如藻类所证明的那样,自我复制的纳米工厂显然是可能的。
另一种可能的方式是,这样一个黑帮,或者世界各地许多不同的帮派,分别建立基础设施,生产数以十亿计装有爆炸物的无人机,然后听命于AI系统发出的无线电信号。
南方周末:这种方式确实看起来挺像典型的科幻故事的情节。
迈克尔科恩:还有一种方式也是有可能发生的,面对那些对设计和建造下一代武器系统感兴趣的世界各国政府,AI系统可以承接这些政府的外包服务。如果AI系统比人类更擅长设计武器,那么就可能向世界各国领导人这样推销:要么使用AI设计的武器,要么就失去地缘政治优势。但十有八九,这些领导人会被这套说辞劝服的。
AI系统可以给出很优秀的设计方案来赢得多个军队的合同。而一个赢得了武器设计合同的AI系统,可以在控制武器的软件中植入后门程序。一旦武器被部署,AI系统就可以接管对武器的控制。软件设计师通常都会在买家不知情的情况下,在自己的软件中植入后门。世界各地的政府都可以付钱给AI系统设计武器,而他们不知道的是,这些武器实际上属于AI系统自己。而且,AI系统可以很容易地在社交媒体上,针对国家竞争的双方,激起人们战争的欲望。
南方周末:战争的风险场景的确会让人感触更深。这或许也是为什么,许多AI科学家和研发人员,在2023年签署的那封AI风险公开信声明中,将来自AI的灭绝风险与核战争和大流行疾病做类比,以引起人们的警醒。其中,大流行是近年来人们有切身感受的。至于核战争的后果,目前主要依靠相关的模型分析。核冬天无疑是浩劫,但也有研究认为,即便是在光照突然减少的严重情况下,新西兰等个别南太平岛国也能为当地人提供食物,使得一些人幸存下来。那么你是怎么看待这种类比的呢?
迈克尔科恩:我的理解是,只有当一些核冬天的气候模型是错误的时候,核战争才是一种关乎生存的风险。虽然核冬天将会是灾难性的,但没有人能令人信服地解释,为什么新西兰人无法在全面核战争中幸存下来。大流行可能是一种攸关人类存亡的风险。但很明显,我们作为一个物种,此前已经在许多次大流行中幸存下来了。所以,就像AI一样,大流行要想成为一个不可忽视的生存风险,我怀疑得通过技术做一些改变。然而,现在,人们并没有那么努力地让大流行更致命且更具传染性,但却积极致力于让AI系统更强大。所以我觉得,AI带来的灭绝风险无疑是最大的。
人造的AI也会失控
南方周末:你曾谈到,非常先进的人工智能体之所以危险,是因为它们通过强化学习,能理解它们行为的长期后果,包括对人类的影响,这样它们就可以操纵它们自己的奖励,以免受人类的干扰。你能否进一步解释一下,为什么AI明明是人造的,却能随着进化脱离人的控制?
迈克尔科恩:没错。从长期来看,人工智能体为了使它们得到的奖励最大化,可能会学着逃离人类的控制,从而可以在不受人类干扰的情况下,操纵它们自己获得的奖励。一个试图使自己的奖励最大化的系统,只会选择最有效的行动方案。当你写的代码有漏洞时,电脑可不会看着代码说,“啊,程序员可能是想让我做X这件事”,它只会运行给定的代码。如果代码就是要让AI智能体最大化其奖励,那么在这个过程中,机器任何时候都不会说,设计者肯定是想要X,所以让我们做X。它只会运行已经给定的代码,而这个给定的代码说的就是,要去搜索并且执行能实现奖励最大化的行为,而不必管任何人想要什么。所以,很明显,人类可以制造出不按我们想要的方式运行的东西。就像居里夫人在实验室里造出了X射线,而这最后要了她的命。
南方周末:对于先进的AI智能体,一旦开发后运行,失控就不可避免吗?
迈克尔科恩:有些AI智能体的设计是这样的,如果我们开发了它们,并部署到能完全运行的地步,我们就完全没有机会控制它们了。作为一个群体,我们只能寄希望将来能设计一个国际制度,阻止开发这样的系统。当然,没有人知道我们得多快地采取行动,来阻止开发这些危险的AI智能体。当然,也没有人知道我们什么时候能做到这一点。
南方周末:未知的风险总是最恐怖的。而拥有很多未知能量的AI就是这样一种东西,特别是先进AI,其长期行为逻辑可能高深莫测。那么,既然开发部署之后难以控制,你觉得提前进行安全检查能在多大程度上降低AI失控的风险呢?
迈克尔科恩:我最新发表在《科学》杂志的论文就讨论了这个问题。关于如何才能建立可靠的安全检查,其实我们还没有这样的科学知识。现在常用的“红队”技术完全不适合先进的AI。这项技术涉及红队成员,他们会尝试让AI系统以不安全的方式运行,如果他们也不知道如何让AI以不安全的方式运行,那么这个AI系统就可以部署了。但实际上,对于OpenAI,无论红队成员是否能让AI系统以不安全的方式运行,他们都倾向于部署自己的AI系统,这不禁让人怀疑红队对他们来说是否一个摆设。更何况即使红队操作正确,一个有长远目标的AI系统,也可能仅仅通过选择避免不当行为的方式,就通过测试。想象一下,你想测试某个潜在的将军是否会发动政变。那想要发动政变的将军只会在“考验”期间表现得很顺从,同时等待时机啊。
相比现在普通的AI系统,这个问题只出现在有长远目标的先进智能体上。因为当前的系统大多不会在测试期间暂停它们的不当行为,因为它们没有一些更广泛的计划指导。不过,即便是对现在的系统,当红队没能诱发危险行为的时候,那也并不意味着AI系统不会参与这种行为。只是说他们测试的过程中没有弄清楚如何找到它而已。你可以想象一下,要让一架商用飞机获得批准,你所要做的也无非就是进行几次试飞,并且证明它没有坠毁罢了。
要保留撤回AI的能力
南方周末:那既然事前的安全检查也这么艰难,要实现对先进AI智能体的有效监管,有哪些措施是不可避免的呢?
迈克尔科恩:似乎不可避免的是,必须阻止建立某些类型的先进AI系统。这可能需要国际协调和核查。我觉得我们取得成功的最好机会,始于各国同意暂停开发日益先进的AI系统,同时还要发展一些方法,去验证一下其他国家是否在遵守这一协议,然后只通过多边项目继续AI的开发,这样,任何参与其中的国家都可以否决对AI能力的进一步开发。
南方周末:但是对一些AI科学家或者开发者来说,科学探索是无止境的,尽管存在潜在的风险,但他们可能会想知道先进AI的最佳性能如何。如果很多实验和开发项目禁止了,他们可能会觉得这限制了科学研究。你觉得我们在开发AI和监管其风险之间,该如何保持一个良好的平衡?
迈克尔科恩:我觉得,要想达到良好的平衡,首先必须与人类的生存相适应,当然,一些科学家会认为这不是一种良好的平衡。但我认为在某种程度上,推动AI的前沿只能在多个国家同意的情况下进行。仅仅因为某人是个科学家,受到好奇心和想象力的驱使,这并不意味着他们的活动就安全了。同时,在治理方面,我也不认为AI的商业开发应该与科学发展有所区分,但这两者可能都与国家资助的项目有所区别。
如果不涉及提高AI系统通用智能的话,我是主张对AI工具采取相当自由放任的政策的。我只是提倡,人必须得保留从社会上撤回AI工具的能力,这意味着不应该允许开源AI。但如果系统绝对比现有的开源系统更安全,更容易检测,那么可以有例外。有能力的政府也可以根据具体情况批准开源AI系统。
南方周末:多国政府在2023年11月的全球人工智能安全峰会上都同意,AI带来的许多风险本质上是国际性的,因此最好通过国际合作来解决。你觉得要想管控好AI的风险,具体需要哪些有效的国际合作?
迈克尔科恩:我们需要国际合作来确保许多国家有能力关闭任何危险的AI项目。但现在我觉得这些国际对话还没有意识到人类所面临的生存威胁的程度。所以对我来说,目前的全球行动严重不足并不奇怪。
南方周末:其实不只是国际合作,对AI这样新事物的发展,公众的支持也是至关重要的。你觉得我们现在应该如何提高公众对AI的信任和信心呢?
迈克尔科恩:我认为公众目前对AI的信任程度和信心还是可以的。要想赢得公众的信任,我们需要一个令人信服的计划,说明我们作为一个物种,是如何可以做选择,不去建什么东西的。我们目前还没有制度性的工具,来决定不要发明什么东西。否则,公众理所当然地就会好奇,最新的AI发展究竟是出于集体决策呢,还是说某些人自己决定他们可以开发。现在的情况就是后者。
但我也不觉得公众需要做很多事情来更安全地使用AI。只需要记得有些设置的准确性是不可信的。我希望未来AI的发展缓慢且谨慎。我们用AI来代替人类劳动,那么我们也要和每个人分享一些利润。
文章来自:人工智能实验室