在千行百业中,金融业一贯是新技术的早期采用者。无论是在数字化水平,还是在关于产业AI化的探索上,都走在了前列。因此,金融业也被视为生成式AI应用落地的潜力股。
然而,我们也应该清醒地认识到,生成式AI目前仍处于起步阶段,其在金融领域的广泛应用还需要时间的沉淀。
此外,大语言模型在实际生产环境中还面临着诸多挑战。例如,引入这些模型后,金融机构能从中获得多大的经济利益,其投资回报率是否明确,以及如何有效解决大模型可能产生的幻觉问题,确保模型在产业应用的最后一环能够顺利落地,都是亟待解决的关键问题。
此次AIGC实战派特别邀请了恒生电子首席科学家白硕来聊一聊生成式AI在金融行业落地的那些事儿。
白硕认为,金融业是拥抱AI最积极的行业之一,也是有实力将其做深做精的行业。然而一体两面,不可忽视的是,鉴于其业务性质,金融业对风险因素极度厌恶。同时,应用生成式AI需要成本投入,包括购置算力和进行持续预训练,全面铺开仍然需要时间。金融机构和AI服务提供者需要联合共创和试错,才能践行价值、提升体验。
论点先导:
- 金融行业乐于拥抱 AI。但金融业天性谨慎,极度厌恶新技术带来的风险因素。
- 真正能够落地并满足刚需的场景需要时间打磨,不是马上就能实现的。
- 你担心模型会“说错话”,究其根本就表明你对它的技术成熟度是不那么信任的。
- 要保证大模型输出内容的可控,主要有三种模式:内嵌、外挂、上传。
- 一是长文本,一是多模态,只有这两个能力不断发展,才能更好地满足我们的场景需求。
- 不建议广大中小金融机构去自建大模型或者自训大模型。
- 针对多任务支持,采用适中规模参数模型,但可以用多块卡多部署几套,满足高并发需求。
- 未来大模型发展是否能在“大力出奇迹”之外走出另一条路,值得期待。
(为了表述更为流畅,以下采访内容做了部分文本整理)
一、让子弹再飞一会儿:真正能落地并满足刚需的场景仍需时间打磨
AIGC实战派:当前金融行业中生成式AI的整体应用程度如何?
白硕:金融行业是拥抱新技术最积极的行业之一。一方面,它的人才结构和业务本身的数字化水平较高,这决定了其有足够动力来拥抱和落地新技术。
但另一方面,金融业天然谨慎,极度厌恶新技术带来的风险因素。这是由金融业务本身(属性)所决定的。它希望在落地过程中能够远离风险、控制风险。如果新技术面临一些诸如合规、政治正确、误导用户的风险,那么这个行业会试图尽量排除这些因素。
因此,我们可以看到:首先这个行业有利于创新技术的发展。只要这些技术能够带来价值,那么金融业会是不错的值得深耕的土壤。但同时也要慎重考虑风险因素,如果没有特别落到实处的解决方案,新技术的应用也不会有很快的节奏。
另外,在与金融机构的同仁们交流中,我们发现,还有不可忽视的一点是:他们想拥抱AI,但是使用AI的成本并不便宜,尤其是购置算力和对模型进行量身定制的成本。有些非常有实力的金融机构还需要自己进行持续的预训练。模型越大,需要的算力支持越高,这是大家不得不考虑的成本因素。
从落地的顺序来看,一开始大家可能会去找比较容易落地的场景试水,但这一块不一定是刚需。真正能够落地并满足刚需的场景需要时间打磨,不是马上就能实现的。
目前,我认为我们应该认识到AI的价值。局部已经开始使用AI,个别业务可能会先试先行,但全面铺开并翻新IT架构还需要时间。需要金融机构和我们这样的AI服务提供者之间的共创和试错,才能打磨出既刚需又能带来价值、提升体验的场景。可以让子弹再飞一会儿。
AIGC 实战派:在您看来,当前对生成式AI落地构成挑战的因素中,技术因素更多还是非技术因素更多?
白硕:说到底,都是技术因素。为什么这么说呢?你担心模型会“说错话”,对它是否会“胡言乱语”没有把握,归根结底就表明你对它的技术的成熟度是不那么信任的。
你担心它误导你的客户,那这就说明它确实有一定的出错的概率,有一定的产生幻觉的可能。但是如果AI技术足够成熟,那么这些担心都不会是问题。
大家可能会从各个不同的方面对大模型及其应用存疑。我们行业老大也非常直白地提到过——输入怕泄密,输出怕违规。
“输入怕泄密”,就是指金融机构给大模型上传数据,这个环节万一出现泄密怎么办?不该被大模型知道的数据如果“出狱”了那就会造成问题。“输出怕违规”,就是指大模型生成的内容超过了我们的可控范围,输出了不该说的话,也非常令人担心。
这种不放心的深层原因还是对新技术没有信任到那个程度,技术本身也没有发展到让行业信任的那个程度。所以我个人判断,这本质上是技术问题。当然,如果长远来说,我们相信技术一定会不断地发展,按照目前技术迭代的节奏,未来这些担心都不会是太大的问题。
不过我们也不可能坐等未来。那么,当下我们该怎么办呢?
实际上,我们可以做一些事情。比如,使用一些强化的手段,去跟金融业务需求对齐,这是大模型训练中需要解决的问题之一。另外,设置好“防线”,让大模型去使用有充分来源的、可以控制的内容,如果它想输出一个数据,那么我们要求这个数据是有出处的、可检验的。
我们可以在大模型的个别部位加上“铠甲”让其强壮起来,另外一些部位加上大模型外挂等手段去构筑“防线”,以此规避我们担心的问题。这些都是可以暂时采取的策略。当前的应对之策和长远的技术发展,我认为两者是需要兼顾的。
二、为大模型设置“护栏”:长文本和多模态能力成为关键
AIGC实战派:如今大模型还不能完全满足金融业对于可解释性和可追溯性的要求。如果要让它真正落地,需要遵循哪些原则?
白硕:从实战的角度看,是有一些办法去绕开它的短处的。在现阶段,首先,在我们自己也并非内行的领域,可以请教专家来设置“禁区”,由专家提供相应的实例和标准,把这些标准变成可训练的,然后通过训练强化大模型,以便让大模型拥有这种对齐的能力。
其次,放眼整个架构,我们还要更专注大模型的生态。我们要让大模型的生态是更可控的。因为在很多的时候,我们不采用大模型本身提供的数据,只利用它的语言理解能力。大模型的语言理解能力是很过关的,但是它把握事实的能力不过关,我们要尽量扬长避短,比如用金融机构信得过的数据库、文档库、FAQ来产生输出内容。
那怎么样控制大模型能够忠实地产生这些输出呢?这里面就不得不提另一个技术问题。实际上,当我们把这些信得过的数据作为外挂的话,那我们能够借大模型力的地方就比较少了,靠检索本身的能力一般来说是不够的。虽然现在有 RAG(检索增强生成)技术,但是这与大模型自身由训练获得的语言理解能力相比,也是有差距的。
这里实际上分三种模式。一是内嵌,就是把数据训练到大模型里边去。但是缺点在于,它就固化了、过时了,无法使用最新的数据;二是外挂,就像之前提到的,外挂可以保证内容的准确性,其风险是相对可控的。但是要找到最准确的内容来回答问题依然存在门槛,因为离开大模型去做这件事就显得不够“聪明” ;三是上传,就是把可靠的内容上传给大模型,让大模型就这个内容来回答问题,让大模型的能力也得到充分发挥,同时也能够比较精准地命中可控的数据和话术,然后更好地去服务客户。
就第三种模式来说,问题在于必须要上传一个文档。
如果这个文档很大,大模型能不能全吃得下?在大模型发展的初期,窗口上下文比较有限,如果是很大的文档上传给它,它也吃不下。再比如这个文档的对象比较丰富,除了纯文本以外,还有图表、表格、图片等等数据信息,这又牵涉到多模态的能力。
所以一是长文本,一是多模态,只有这两个能力在不断发展,才能更好地满足我们的实际场景需求,生成命中率高且精准可控的内容。如此一来,我们的生成式 AI 应用质量也会更高,用户体验也会更好。令人欣慰的是,在技术发展过程中,我们已经可以很清晰地看到发展脉络,的确就是在朝这个方向前进。
三、为应用找一条出路:在私有部署的限定条件将大模型能力发挥到极致
AIGC实战派:金融机构如何量体裁衣,进行大模型选型?
白硕:首先我个人强烈不建议广大中小金融机构去自建大模型或者自训大模型。这个肯定不是出路,因为大模型卷得厉害,而且是重资产投入。无论算力投入、人才投入、技术投入、数据投入,一般的玩家是玩不起的,而且也没有必要去跟大家卷这个赛道。
那么出路在哪里呢?拿别人的模型,按自己的任务类型做精调,跟自己的数据资源、场景资源去做深度的适配,这才是出路。
我觉得我们恒生电子做对的一件事情,就是帮我们的金融机构客户去真正地建场景、建应用。同时把大模型选型带来的影响尽量规避到最低,尤其在很多只能做私有化部署的场景中。我们希望在私有部署这样的限定条件下将大模型的能力做到天花板,这是我们现在正在做的事情。
AIGC 实战派:追问一下,具体选型时有没有参照的标准?
白硕:用参数体量来说的话,就是50B到100B之间。这个区间内的大模型,其语言理解能力、通用知识储备,和其规模本身所需要的算力(尤其在不做训练只做推理的情况下)部署的成本之间存在一个比较好的平衡。
到了50B,即500亿参数,大模型就会出现“涌现”现象。所以你要让它的智能稍微看得过去一点,那最好要到这样一个量级,让模型不至于太笨。但如果更高的话,达到1000亿以上,那可能我们部署的成本又要吃不消了。当然这是在一定要私有部署的必要条件下,我们觉得比较好的平衡点是上限1000亿,下限500亿。
另外大模型选型,我们也不建议过于多元化。我们需要模型的多元化来弥补各个模型的短板,但是过于多元化的话是有问题的,选型本身还是要相对聚焦,把握住几个特长方向,各展所长,一般确定两三个就可以了。
还有针对多任务支持,并不意味着一定要用大参数模型,依然采用适中规模参数模型,但可以用多块卡多部署几套,不同的任务用不同的卡去支持,以此来保证高并发的需求。
四、未来之钥:“大力出奇迹”之外,或许会诞生另一条路
AIGC实战派:未来几年内,生成式AI将会如何改变金融服务的传统形态和格局?
白硕:这个其实是很难预测的。站在大模型产品的研发一线,我们也需要一定的对相关需求的洞察能力和一定程度的预判,但是这个预判还是有限的,我们看不了太远。从我们对技术本身发展的预判来看,如果大模型的长文本能力和多模态能力不断提升的话,那我们现有的对大模型的一些判断是会改观的。
现在很多人说大模型会产生幻觉,甚至会一本正经胡说八道,那么当文本足够长,所掌握的数据类型足够丰富的时候,这种不可控的观感也会随之变化,随着技术迭代,很多你最初嘲笑的东西也会变成你需要仰视的东西。
我相信,大模型整个生态的变化对我们业务生态来说,主要会产生正面的促进作用。比如,之前业务人员需要求助 IT部门才能做到的事情,如今通过大模型应用就做到了。这是最直观的一个例子,把业务解放出来,降低对IT的依赖,很多零碎的、即时的、没有沉淀价值的需求,就不值得把它再变成一个应用。这是我们近几年内就很可能发生的一些事情。
再把目光放远一点,如今很多服务是以产品形态出现的,甚至是以个性化定制的方式出现的。未来我们可能更多地将能力封装起来,以可调用的 API呈现,用户通过自然语言就可以实现驱动。虽然看起来有点遥远,但我相信这一图景最终也会实现。
最后,纵观目前大模型的发展路径,“大力出奇迹”的路线目前还是占了上风。但是代价在于,我们需要不断地去堆叠算力。但这条道路继续发展下去,也未必是我们乐见的。是否会有不耗费这么大算力,但智能水平更上一层楼的大模型出现,也是我们所期待的。如果真能取得突破,没有了算力成本的顾忌,无疑将成为金融业实现大模型应用的巨大推手。