一、金融智能进入大模型时代
1. 大模型在金融行业的应用正不断拓展
大模型在金融场景中究竟发挥了怎样的作用呢?当我们提到大模型的应用时,往往首先想到的是对话系统或摘要系统。实际上,在这一代大模型中,其主要的提升并不在于彻底改变产品形态,而是在两个方面取得了显著的进步:一方面是语言理解能力的增强;另一方面是随着 ChatGPT 等模型的出现,模型在表达能力上有了颠覆性的进步。
早期 AI 领域流行一句话:“有多少人工就有多少智能”。当时的智能客服或对话系统的一个显著特点是,即使用户提出十个不同的问题,得到的回答也可能是一样的。在现今的大模型支持下,即使面对同一类问题的不同表述,只要适当调整 temperature 参数,模型也能给出多样化的灵活回答。这种变化直接提升了人机交互的体验。结合数字人技术的应用,不仅改善了用户体验,还为数据入口带来了革新性的变化。
正如我们所展示的冰山图所示,尽管表面上看似只是出现了新的对话系统或类似产品,但实际上,深入使用这些产品后会发现,其情感交互和文本对话的体验已大为改观,用户更愿意花时间与机器人进行交流。这一点在银行、保险、证券等行业得到了广泛应用,覆盖了产品设计、市场营销、风险控制及客户服务等多个方面。特别是在内部效率提升方面,大模型的应用效果尤为显著。
2. 领域大模型分类理解
这里借用华为的一张分类图来阐述对领域大模型的理解,该分类方式具有一定的代表性。如图所示,模型分为 L0、L1、L2 几个层级,分别代表基础大模型、行业大模型和场景模型。
基础模型通常具备通用能力,类似于人类在对话过程中需要进行思维、逻辑梳理和知识储备。这类基础模型或底座拥有极高的参数量,能够提供多种综合能力。
行业大模型融合了更多垂直领域的专业知识,例如金融、医疗、保险、工业产业等多个领域。许多服务提供商如华为、阿里等,会将基础模型(L0)与稍加定制的基础模型(L1)区分开来,这样做有一个显著的好处:在服务于不同的下游应用企业时,可以进行更加灵活的适配。下游企业可以通过使用自身的垂直领域数据进行大规模的增量预训练,从而实现特定的领域模型效果。
有一些垂直领域的机构如果希望自主建立大模型能力,可能会选择将 L0 和 L1 共同训练成一个整合模型。这样做的优势在于,可以在成本控制和训练模型的迭代效率上达到更高的水平。
基于这些基础模型,企业还可以根据自身需求构建针对具体场景的模型。模型在应用上更为专业化,回答也更加聚焦。
3. 领域大模型的构建必要性
在过去的半年到一年时间里,我们一直在思考一个问题:垂直领域模型的必要性是否真的那么高?或者说,是否只需基于通用模型进行一定的微调(Fine-Tuning,简称 FT)或知识增强,就能实现类似领域模型的效果?
我们的思考如下:这一代大模型在推理过程中普遍采用的是解码方式,即自回归的输出模式。在这种模式下,模型对下一个词的预测是基于前面文本内容来进行的。同样,这些预测词的选择依据是在训练过程中形成的词汇间相关性以及文本内容相关性所构成的概率分布。
例如有人提问:“杠杆怎么用?”在不考虑特定领域的通用场景下,我们通常会认为这里的“杠杆”是指物理中的杠杆原理,即用于撬动重物的工具。在这种情况下,下一个可能出现的词语可能是“找寻”,或者是“支点”,因为用户可能在询问如何找到一个支点或将杠杆架设起来。因此,在这种通用场景下的文本分布可能会倾向于这些与物理杠杆相关的词汇。
如果提问者面对的是一个金融领域的模型,那么“杠杆”这个词更有可能被理解为一个金融专业术语。在这种情况下,模型在生成概率分布时,可能会优先考虑提示用户需要谨慎对待投资,并且在进行买入操作时应增加保证金以确保杠杆使用的安全性。
通过这个例子,我们可以更好地理解垂直领域模型与通用大模型之间的差异:在输出过程中,它们的思考模式和上下文理解会有明显的不同。
也许有人会说,是不是可以通过现有的检索增强(RAG)方法,利用一些代理(agent)来解决这类专业名词的领域问题。的确,随着检索增强技术的不断发展和丰富,它已经能够处理大部分金融专业名词的针对性回答。
但是需要注意的是,在进行微调或是知识增强的过程中,推理成本相对较高。当使用 RAG 技术时,每次调用都会占用较多的 tokens,并且带来较高的性能开销。如果对于“杠杆”这类基础的金融术语也需要通过 RAG 进行增强,那么整体的推理成本和时效性将会大幅增加,进而给系统带来较大的压力。因此,我们认为垂直领域的专用大模型仍然是很有存在意义的。
二、大模型在金融落地场景与解决思路
在进行了基础内容的介绍之后,让我们进一步探讨大模型在金融场景中的落地情况及其面临的挑战。
1. 行业痛点:随着金融场景逐渐铺开,风险伴随而生
大模型在金融场景中的应用正逐渐普及。无论是企业自主构建的大模型,还是结合第三方开源模型开发的系统,抑或是利用商用模型创建自有服务,大模型的应用都在不断扩展。但是,与此同时,伴随着大模型的广泛应用,一些必然的风险也开始显现。
包括伊隆·马斯克在内的多位人士,都表达了对大模型未来发展可能带来的风险的关注。这些风险主要包括两方面:一是大模型是否会取代人类,占据大量工作岗位;二是当大模型采用强化学习技术并专注于单一目标时,如果没有适当的管控措施,是否会为了达成目标而不惜伤害人类。这样的风险确实存在,但目前来看,现有大模型距离引发这类风险仍有较长的距离。
今天我们讨论的风险主要集中在金融场景下的应用。
在实施过程中,金融行业由于受到监管限制,加之多年来金融机构多集中于业务场景的应用,导致其在技术和基础设施方面的投入产出比可能不及业务场景来得直观和高效。因此,相较于互联网行业,金融行业的基础设施建设和支持相对较弱,普遍存在着硬件层面算力资源不足的问题。许多金融机构正在重新构建算力基础,在这一过程中,必须充分考虑算力的稳定性和持续性保障问题。
在软件层面上,同样需要提供更为完善的设施和工具链。以往,许多金融机构通过购买现成软件的方式来构建其软件体系。在大模型逐渐渗透并改变整个软件生态系统和服务基础设施的过程中,涉及了大量的融合服务。因此在基础设施建设的落地过程中,存在着一定的效率风险。在可解释性方面,确保系统的可解释性对于维持金融机构的健康、安全与合规运营至关重要。大模型,尤其是神经网络模型,通常被认为是一种较为“黑盒”的模型。这里所说的“黑盒”并非指神经网络的原理难以理解,事实上,随着各种可视化工具的推出,神经网络的原理已经变得较为易于理解。然而,问题在于模型在推理过程中的每一步决策如何保证透明和可解释,这一点目前仍然较为欠缺。
在金融领域,特别需要关注的是输出的真实性和可靠性。我们知道,不同行业的模型容错率是有差异的。例如,在自动驾驶和医疗领域,如果 AI 做出错误决策,可能会危及生命安全。在金融场景中,如果模型在策略解读或投资教育内容的传递过程中产生错误,很容易误导用户,进而导致实际的资金损失。在金融领域,确保信息的真实性和安全性是至关重要的,这也是 T1 和 T2 级别团队所重点关注的内容。
金融领域的合规要求极为严格,这在一定程度上对创新提出了更高的要求。我们往往需要在遵循严格合规标准的同时推进创新,这就好比是“带着镣铐跳舞”。一方面,我们必须以最高标准确保整体的合规性;另一方面,我们还需在创新上不断取得突破。
2. 金融智能服务可信增强框架
围绕这些典型问题,我们构建了一套解决方案框架。首要考虑的是如何真正提升 AI 的可信度。我们的认识是,要实现可信的大模型,不仅仅是在一两个方面增加透明度,而是需要在多个维度上进行持续的努力。这样才能使 AI 真正获得广大客户的接受与信任。具体而言,这至少涉及五个维度:透明性、公平性、可解释性、可靠性和隐私保护。
透明性:是 AI 系统的基础之一,应让用户能够充分理解系统是如何做出特定决策的。例如,在医疗诊断中,如果 AI 系统提供了一种治疗方案,无论是医生还是患者,都应该能够了解到这些建议背后的逻辑和数据依据。
公平性:在 AI 的决策过程中,应当直接避免任何形式的偏见和歧视,因为这些偏见和歧视不仅会影响用户体验,还会在未来对用户的决策判断上产生不正确的导向。为此,在这一过程中,需要采用更多元化且均衡的数据集,以提高模型的整体公平性。
可解释性:近年来,这一概念也被频繁提及。如何提升 AI 系统的可解释性,使其能够被用户充分理解,是一个重要议题。以金融领域为例,如果用户申请贷款被 AI 系统拒绝,申请人有权并且也有需要了解被拒的具体原因。
可靠性:可靠性则涵盖了 AI 系统在各种应用场景中,从算力到模型层面,均需提供高效且稳定的保障。这其中包括系统的鲁棒性以及抵御外部特定攻击的能力。例如,在自动驾驶场景中,必须确保模型的决策服务在任何时候都能够正常运行,因此鲁棒性是一个至关重要的环节。
数据隐私性:在金融领域中,需要确保从模型训练到推理整个过程中的数据隐私性。
我们认为要提升大模型的服务质量,必要从这五个维度出发进行思考。围绕这五个维度,我们在算力、数据、模型及应用层面分别构建不同的能力,以增强各个维度的表现。这一过程中涉及众多具体的服务和应用能力,接下来将概述每一层可能会涉及的工作内容。
3. 算力层-稳定高速算力网络
首先是算力层,需要在性能、稳定性和鲁棒性方面进行增强。当前,在组网设计过程中,仅仅依靠硬件设备是不足以解决问题的。特别是要保障最基本的基线要求,即确保在模型训练及模型回滚训练过程中出现问题时,能够迅速恢复模型服务。在推理过程中,考虑到每天可能出现硬件故障的情况,如何在部分硬件失效时仍能保证服务的持续稳定性,是需要解决的问题。这就涉及到数据网络层、存储网络以及管理网络等多个层面的工作,并且这些层面之间存在着紧密的联系。
4. 数据层-完整的数据治理与管理体系
在数据层面上,我们经常提到一句话:数据决定了整个 AI 系统的上限,而算法则决定了 AI 服务的下限。因此,在数据层面的构建过程中,我们投入了大量的人力资源。其中,大部分人力主要用于数据的质量控制,包括数据清洗和除错等工作。我们还通过结合 AI 与人力的方式,实现了 7×24 小时不间断的数据质量监控。
这里的数据质量包含两个主要部分,首先是非结构化数据的生成。非结构化数据的生成对于后续的检索以及 API 服务等方面起着决定性的作用,我们会确保数据的准确性接近 100%。
在处理金融数据时,虽然数据从领域细分来看属于金融范畴,但金融行业本身的研究对象却涵盖了多个领域,如自动驾驶、教育、工业等。在这些领域的投融资方向上,涉及各个领域的数据。在金融数据的储备和准备方面,我们首先需要确保数据的覆盖面既全面又完整。
正如前面提到的,为了保证数据的精准性,我们需要投入大量的人力和模型进行多重校验。在数据储备方面,无论是基础原始资讯内容,还是来自公众号等渠道的信息,我们都会使用分类和质量评估模型对其进行评分。在训练过程中,我们会优先选用评分较高的数据来提升模型的质量和应用效果。
在数据的实时性、稳定可靠性以及专业性方面,我们引入了专家和投研专业人员来辅助数据生产和标注工作。这是非常关键的一步,尤其是在微调过程中,数据的专业性要求极高。普通标注人员往往难以达到这样的专业标准,需要领域专家来完成这部分的标注和处理工作。
5. 模型层-提升人工智能抗风险的技术能力
在模型层面,我们围绕可靠性进行了大量的理论与实践研究,实现了诸多突破。重点研究方向包括鲁棒性增强、公平性保障以及可解释性增强技术。这些内容在前面已有详细的阐述,这里不再过多赘述,仅介绍一下可解释性方面的工作。
可解释性的目标主要有两点:
- 第一是对从特征到预测结果之间的因果关系进行解释,也就是说,对于大模型的输出结果,我们需要能够判断哪些特征和参数权重对最终的模型输出产生了直接影响。
- 第二是对模型输出结果的置信度进行评估。我们都知道,大模型存在所谓的“幻觉”问题,而不仅仅是大模型,实际上人类也时常会遇到类似的问题。这种幻觉的本质在于,有时候我们并不清楚自己的回答可能存在错误,但出于某种直觉,我们会认为自己的回答是在某本书上或某篇论文中看到过的,因而自信满满。而在另一些情况下,我们可能是听别人提起过,或者隐约记得曾经听说过某个说法,这时我们对自己的回答就没有那么自信了。因此,我们希望大模型在输出答案的同时,能够提供对这个答案的置信度,表明其回答是否有充分的依据,这也是科学研究中的一个重要目标。
可解释性可以从不同维度来细分为多个研究方向:
- 前置或后置:包括在模型结构构建过程中提升可解释性,以及在模型训练完成后,在工程阶段提升模型的可解释性。
- 全局可解释性或局部可解释性:全局可解释性指的是整个网络参数的可解释性,而局部可解释性则是针对模型的输入输出两端提升其可解释性。例如,有一些如 SHAP(SHapley Additive exPlanations)和 LIME(Local Interpretable Model-agnostic Explanations)这样的模型,能够实现局部可解释性的目标。LIME 这类可解释性方法的基本原理是通过拟合一个简单的模型来解释复杂模型的行为,这是常用的提升模型可解释性的方法之一。
- 可解释性有不同的表现方式:包括从模型中提取特定的逻辑规则,并将这些规则展示出来,以及展示隐藏语义和其他属性等方式,来提升模型的可解释性。
7. 模型可解释性-白盒 transformer 路线
另一个方向是港大马毅老师提出的白盒 Transformer 路线。这一模型的核心思想是在设计层面改变 Transformer 架构,希望每一层都能够通过数学公式进行解读和解释。我们一直在持续跟进这一方向的研究,从早期的版本到现在的 CRATE-α,其间进行了大量的迭代和优化。尤其是在早期的 CRATE 版本中,我们发现其处理语料和训练样本的规模非常有限,而到了 CRATE-α 阶段,这一能力已经有了显著的提升。
我们看好这一方向的原因在于,目前大家如果自行训练过大模型,就会知道在调参和模型结构选择上,通常需要大量的人力和计算资源来进行反复的实验。虽然我们会用许多科学实验方法不断尝试,但如果未来的模型能够在结构上实现更高的可解释性,甚至可以用数学公式证明其合理性,那么在训练、调参乃至设计出更高效、更有用的模型方面,都将得到极大的帮助。
8. 应用层-逐渐告别幻觉,RAG 家族逐渐充实
在应用层面上,有多种方法来缓解“幻觉”问题。从 ChatGPT 问世至今,我们已经看到幻觉问题得到了很大程度的缓解。无论是之前提到的使用 PPO(Proximal Policy Optimization,近端策略优化)方法,还是通过 SFT(Supervised Fine-Tuning,监督微调)过程,都已经处理了许多幻觉问题。特别是在现阶段,我们认为检索增强(RAG)技术是应对幻觉问题最直接有效的方法之一。RAG 技术也在不断地发展中,早期的 RAG 主要通过 embedding 方式将文档向量化并存储到向量数据库中,在推理过程中,通过查找与用户问题相似的内容来获取相关知识。
这里有一个比较典型的问题,特别是在金融场景下,许多用户的问题与已有答案的相似度较高,或者答案中的文本彼此之间也有很高的相似性。这样一来,使用 embedding 方法时,究竟应该匹配哪一个答案就变得不明确了,这导致了召回效果不佳。在经过一段时间并发现了这一问题后,出现了许多 RAG 的变体。例如,如果大家之前有过个性化推荐系统经验,就会知道这类系统通常有一个典型的架构:从召回、精排到重排序的过程。类似地,我们也尝试用多种方式来对用户的问题进行处理,比如对用户的问题进行不同程度的改写,然后采用不同的检索方式在向量数据库中寻找相应的答案。另外,也可以通过不同的索引来查找不同的答案。这样一来,我们可以首先尽可能多地找出潜在的答案,再利用相关的算法进行更精准的匹配,确定用户的问题在当前场景下与知识库中的哪一个答案最为契合。
近期备受关注的一个研究方向是 GraphRAG。在金融场景下,我们拥有大量的金融知识图谱和产业链关系数据,包括股票、基金以及股票与资讯之间都有着强关联。传统的检索方式往往容易忽略这些实体和事件之间的关联性,通过 GraphRAG 能够较好地解决实体关系相关性的问题,提升问答类任务的能力。然而,没有一种方法能够解决所有问题,尽管 GraphRAG 在回答问题时表现得更为精细和有条理,但其性能相较于之前的基础 RAG、多路 RAG 有着数倍的差距,并且在 token 占用方面,也是传统方法的数倍甚至近十倍。当然,我们相信随着技术的发展和工程能力的提升,这种应用方式将会有更好的解决方案来克服性能瓶颈。
我们得出另一个认知:当前许多技术的迭代更新并不意味着完全推翻之前的所有技术,不同的 RAG 在不同的应用场景中都有其存在的价值和适用性。在技术积累的过程中,我们会保留这些历史迭代中产生的各种能力。针对不同的应用场景,匹配合适的技术能力和策略,这一点非常重要。
三、可信金融大模型落地应用成果
最后一部分,将分享在具体场景中如何应用上述可信能力以及消除幻觉的能力。
1. 金融行业痛点:信息爆炸与信息不对称带来的低效决策
我们都知道,在金融行业中,信息爆炸和信息不对称长期存在,这些问题导致了低效的决策。这其中包括信息的存储、管理和搜索等方面。提升这些能力可以帮助缓解由信息爆炸和信息不对称所带来的问题。
2. 智能提效-金融大模型实践
围绕这些金融领域的瓶颈问题,我们自主研发了“东方财富妙想”大模型。该模型基于东方财富多年积累的数据资产和数据沉淀,构建了强大的算力能力,并专门针对金融场景进行了一系列的突破和优化。
在这个过程中,我们进行了大量的调研分析,以确定当前大模型的语言理解和表述能力能够在哪些金融场景中实现直接的突破。比较典型的应用是在投资顾问和投资研究方向上。因为在大量的金融信息服务场景中,大模型可能在绩效上最直接地为投资机构、专业投资人以及散户投资者带来帮助。
这实际上涵盖了面向企业和面向消费者的两个方向。对于企业用户(To B),我们可以在投研的深度上帮助研究员在数据处理和研究效率上实现大幅提升。而对于个人用户(To C),在日常炒股过程中,用户每天会接触到大量的投资类新闻和公告,但实际上很少有人愿意阅读这些公告,更不用说能够完全理解它们的内容。
3. 金融业智能化生态赋能投研场景
通过大模型降低用户阅读金融信息的门槛,成为一个非常必要且重要的应用。我们通过大模型助力数据的深入分析,满足研究需求,贯穿整个投研过程,提升各个环节的效率和效果。
接下来将通过一些具体案例,详细讲解金融场景下当前实践落地的情况。
4. AI 搜索与问答
AI 搜索功能在过去可能只能直接找到一篇现成的文章。而现在,我们的 AI 搜索,以“黑神话:悟空”这样的搜索为例,即使是针对通用领域的查询,也不再需要像以前那样每天整理大量内容,并将这些内容处理入库后才能进行检索。如今,借助大模型的方式,不仅能快速检索出通用领域的相关信息,还能对检索到的内容进行重点摘要和提炼,带来了更好的检索体验。
还有典型的问答功能,这类问答更多地被用作信息服务的交互入口。下一代应用程序的颠覆性特点在于,许多金融数据原本在东方财富 APP 中就已经存在,但这些数据的访问入口可能较深。而在现阶段,通过大模型的支持,用户可以通过交互式的方式快速定位到这些原本隐藏较深的数据和信息,从而极大地提高了信息获取的效率。
5. AI 文档助手
文档助手功能,对于专业的投研人员尤其有用,因为他们每天需要阅读和解析大量的文档。大模型的辅助可以显著减少投研人员的阅读负担,帮助他们更高效地处理信息。
6. AI 研报助手
当然,这并不意味着获取的内容减少了,而是通过提升观点提炼的能力,特别是核心观点的提炼能力,来减轻工作负担。例如,一个研究员每天可能需要阅读七八十到上百篇的研究报告,这通常会占用半天的时间。现在,我们可以通过大模型将多篇研究报告中的核心观点进行提炼,并生成目录导航。这样一来,专业的研究员能够更快地定位到报告中的关键信息。
研报的关键在于其所提供的增量信息。很多时候,各大头部券商发布的报告中,80% 的观点可能是相似的,而真正有价值的往往是那些差异化、新增的信息,这些信息带来的附加值更高。因此,我们的大模型不仅会提炼出报告中的共同点,还会识别并提取出增量信息。同时,为了增强模型的可信度,我们会对提取出的内容进行原文追溯,确保能够找到这些信息的具体来源,无论是哪篇文章、研究报告还是公告。
从以上几个例子中,大家不难看出,尽管我们都是围绕研报助手这一核心能力进行建设,但在背后的不同子能力中,都大量应用了大模型的理解和表达能力。这在以前构建自然语言处理(NLP)服务时几乎是不可想象的。过去,搭建这样一个复杂的系统可能需要半年甚至更长时间,每项能力都需要单独准备样本并进行单独训练。而现在,通过微调和检索增强的方式,可以快速适配各种具体的能力。
7. AI 债券资讯
除此之外,还有面向金融机构的债券分析。我们围绕各类公告和资讯,可以快速形成标签服务,包括各种理解、总结和归纳的能力。
8. AI 智能选股诊股
AI 智能选股诊股,这对于炒股人员或投资人员来说是一项福利。例如,可以询问模型“3D 打印现在很火,哪些股票未来可能会从中受益?”类似地,对于《黑神话:悟空》这样的热点话题,我们也可以询问它可能影响哪些股票或相关概念。如果大家看好这一方向,也可以参考大模型提供的分析结论,这些结论会从基本面、技术面和消息面等多个角度提供客观数据支持。
9. 产品形态-Choice 数据-下一代智能金融终端
以上就是我们对模型在金融领域的实践应用,目前这些功能已在我们的 Choice 服务终端上全面上线。该服务终端不仅是一个平台,它还包括了 APP、PC 端可安装的客户端、量化接口以及 API 等多种信息服务和输出方式。感兴趣的同仁可以关注我们的平台。这个平台不仅服务于金融行业,对于有投资需求或产研需求的用户也同样适用,甚至可用于学术论文写作。
想要了解更多关于东方财富 AI 相关的前沿技术突破、产品进展及最新资讯,欢迎关注“东方财富 AI”公众号,这里会第一时间分享相关信息。谢谢大家。
四、问答环节
Q1:金融领域中大模型落地最有效的场景到底是什么?是否还是 RAG 一类的应用?
A1:最有效的应用还是在投研和投顾这两个方向。包括前面提到的,如何用相对通俗的信息表述方式针对不同人群的需求进行信息输出和解读,以进行投资者教育。另一个方向是投研,特别是在提高投资研究效率方面。每天有大量的信用信息、公告和研究报告,将这些信息进行整合、重点信息精准提炼和抽取,是我们看到比较多且有效落地的一些方向。
Q2:请问这个模型是如何实现识别投研报告中的差异化信息的?
A2:从技术实现的角度来说,无论是哪种模型或能力,最终都会使用一些提示语(prompt)来引导大模型解决具体问题。这些提示语针对不同的任务会有不同的优化。例如,如果要处理增量信息或差异化信息的识别,通常会遵循这样的步骤来设计相应的提示语。如果 prompt 能够解决问题,那当然是通过提示语工程来优化提示语,以达到更准确的效率。如果提示语解决不了问题,那么我们会考虑使用微调的方法。如果微调也无法解决问题,那么可能需要检查预训练语料是否存在某些问题。我们通常会以一种从低成本到高成本的方式,逐层解决问题,以提升整体效果。