对话微众银行杨强:AI发展的下一站——联邦学习

对话微众银行杨强:AI发展的下一站——联邦学习

当前,实体经济数字化转型进入深水区,数据安全日渐成为关系国家安全和发展、关系广大人民群众切身利益的重要议题。这一议题也是人工智能领域“隐私计算”的重要研究范畴。以联邦学习为代表的隐私计算正在成为解决数据安全与开放共享之间矛盾的重要技术路径。联邦学习技术目前进展如何?能否成为推动人工智能产业应用深化、数据要素流通、数据价值释放的关键技术?在金融领域的应用进展如何?

联邦学习FATE(FederatedAI Technology Enabler)开源社区技术指导委员会主席、微众银行首席人工智能官杨强教授及团队近年持续对联邦学习的理论进行了拓展,提出“可信联邦学习”概念,并探索解决近年来隐私计算和联邦学习发展和应用中面临的安全、效率、性能三者均衡的问题。近期,他的团队与上海交通大学、中山大学等机构联合撰写的《联邦学习中隐私与模型性能没有免费午餐定理》《FedCG: 联邦条件对抗生成网络》《FedIPR:联邦学习模型所属权验证》多篇论文被IJCAI 2022、TPAMI 2022、ACM TIST国际人工智能顶级学术期刊和顶级学术会议收录发表。

“微众银行已服务数以亿计的用户,这背后离不开金融科技的支持。其中,联邦学习技术已探索应用于反欺诈、营销、风控等很多场景。”11月14日,杨强在接受经济观察网记者专访时表示,像大数据、AI或者区块链都是技术名词,联邦学习也是这样一个技术名词,但它的一个特性是可以让AI变得更可以实现落地。

应用于提升风控能力的潜力

经济观察网:联邦学习在金融领域有哪些应用场景?

杨强:我们是联邦学习的初始探索者之一,也是第一批“吃螃蟹”的人。

联邦学习的主要目的是让数据可用不可见。在多方合作、汇集多个数据源的前提下,运用联邦学习可以把模型给建好,让数据发挥价值,不仅能够保护每一个数据源方的隐私和数据安全,还在符合《数据安全法》等法律法规和政策的规范下,促进大规模数据要素的流通。

大数据和人工智能等技术已嵌入微众银行业务的诸多服务和产品中,联邦学习已有很多应用领域的探索,比如反欺诈和风控。

借助联邦学习技术,我们可以在保证用户隐私信息、企业的数据安全以及企业的数据所有权与控制权的前提下,融合银行、电商、运营商、政务等多元数据,实现跨行业、跨机构的反欺诈体系建设。基于金融行为、消费行为、通信行为、社交行为等特征,构建针对不同细分金融反欺诈业务场景的专有模型,通过跨行业、跨机构的多样性欺诈数据特征互补,从而提升金融行业的整体反欺诈能力。

在信贷风控领域,信审过程需要调用不同的数据接口,因此存在着信贷审核成本高昂的情况;此外,银行等金融机构在面对中小微企业的信贷需求时,缺乏企业经营情况等有效数据,难以解决中小微企业融资难、融资贵、融资慢的难题。

通过应用联邦学习机制,能够在确保数据提供方数据安全以及隐私保护的前提下,为银行融汇企业经营数据、税务数据、工商数据、支付数据等多源信息,丰富建模特征体系,共同提升模型的有效性,为解决中小微企业信贷评审数据稀缺、不全面、历史信息沉淀不足等问题提供新的思路。此外,采用联邦学习等隐私计算技术还可将风险前置,帮助金融机构过滤信贷黑名单客户。

安全可靠成首要技术要求

经济观察网:能否介绍下你们团队最新的科研成果?

杨强:近年来,人工智能(AI)取得了长足发展,智能化的人机协同成为发展趋势。如果能够了解AI对决策的判断,实现理解、信任、管理AI的目标,人们将更有信心全方位地应用AI。

在此背景下,发展可解释、可扩展、安全可靠的AI显得至关重要。可解释性就如同医生需要向病人解释病因,才能提供可理解的诊断结果和治疗措施。发展安全可靠的AI的首要任务,是人类能够理解AI技术的基本原理、自动决策的机制,以应对潜在风险及准备防范措施。在实际情况中,核心AI算法尤其是深度学习算法通常运行在类似于“黑盒”中的工作模式,其运行结果需要辅以合理的解释为人类所理解和信任。

同样,各国现行的条例法规要求人工智能系统必须在监管合规的条件下开发、运行和使用。因此,发展“可解释AI”具有重要的理论意义与现实意义。首先,“可解释AI”可帮助用户建立对AI系统的信任,防止因为算法的黑盒特性做出有偏见的结论,促进算法的公平性;其次,它可以满足监管机构的合规要求,促进AI公平、稳健、安全发展。

基于在金融领域的实践,微众银行已经在智能服务、智能营销、联邦学习等方面获得一系列的探索成果。在联邦学习领域,根据清华大学发布的《联邦学习全球研究与应用趋势报告(2022)》统计显示,全球高被引论文领先的机构依次是谷歌、卡内基·梅隆大学、北京邮电大学及微众银行。从论文发布及高被引用论文数量、全球专利受理量及开源框架热度等几个方面来看,中国与美国正在引领全球联邦学习发展。

在我们看来,当前隐私计算最大的瓶颈是如何能够既保证安全,又能够让系统能够运行。在《联邦学习中隐私与模型性能没有免费午餐定理》中,我们提出了隐私与模型性能的“No-free-lunch安全-收益恒定”定律,利用该定律可实现可信联邦学习的安全、性能、效率三者的协调,在实现更高质量的隐私保护的同时,既不牺牲数据安全保护,也不致使模型性能和学习效率的大幅下降。有效运用该定律能够量化分析隐私计算各种技术保护方案的优劣,进一步优化隐私保护算法设计。

当前手机等智能终端已可以为用户提供个性化服务,用户搜索越多,个性化程度就越高,我们如何保证在本地的搜索数据不泄露给服务器的状态下也能得到个性化服务?这几乎是所有人都关心的问题。这在金融业务面临的问题是,金融机构如何在营销中保证数据不出用户的手机和服务器,同时也能做到精准营销?论文《FedCG:利用条件生成对抗网络在联邦学习中保护隐私并保持模型性能》就给出了答案。FedCG的目的是保护数据隐私,同时保持有竞争力的模型性能。FedCG将每个客户的本地网络分解为一个私有特征提取器和一个公共分类器,并将特征提取器保持在本地以保护隐私。它与服务器共享客户端的生成器,以聚合共享知识,从而提高客户端本地分类网络的性能。实验表明,FedCG具有高水平的隐私保护能力,并且可以实现有竞争力的模型性能。

论文《FedIPR: 联邦学习模型所属权验证》是从算法、协议、安全等多个角度出发,就联邦学习模型知识产权保护问题,提出了名为“FedIPR”的联邦学习模型版权保护框架。该框架解决了模型所有权验证在联邦学习中的两大挑战:一、亟需解决多水印冲突问题。特别是对于基于特征的水印,对于不同的客户是否可以有一个通用的解决方案来嵌入他们的私人指定水印。二、亟需解决性能问题。水印的稳健性表明模型水印是否能在联邦学习模型各种训练策略中适用,以及是否能抵御各种去除水印的攻击。

经济观察网:我们看到近年人工智能的落地情况进展并不快,联邦学习和人工智能是什么关系?未来联邦学习的应用空间有多大?

杨强:像大数据、AI以及区块链都是技术名词,联邦学习也可以被认为是这样一个技术名词,但是它有一个特性,可以让AI变得更加可以被实现落地。

很多传统的AI,如AlphaGo或者ImageNet,都是基于一个中央服务器上存有所有的数据。但在AI落地的时候,却遇到了很大的挑战。现实中的数据存在千千万万个智能终端上,如服务器、手机,大家并不愿意把数据贡献出来、迁移到一个中央服务器上,将数据加以融合、训练。

联邦学习就是解决该挑战的好办法。它可以为AI打造一个通路,这样你既可以训练所要的模型,又可以保护隐私,不用将原始数据运到一个中央服务器。同理,对大数据的应用,也越来越多的在往联邦化的方向走。所以我们可以把联邦学习看作是AI发展的下一站,也可以看作是大数据技术发展的下一站。

联邦学习的市场空间应该是很广泛的,不仅在金融业,现在已经在很多工业、商业上广泛扎根。数据是数字化社会的血液,如果数据不流通,就失去了活性。数据流通就会有交易,需要数据确权,包括确定数据是归属于谁、产生者是谁、责任人是谁。数据和资金、劳动、技术等要素的重要区别,就在于其价值和应用背景。

在我个人看来,未来的计算一定是数据的计算,在“管道”里跑的不只是数据,还可能是模型。未来,整个人工智能行业和大数据行业的升级迭代,都离不开联邦学习,包括模型的交流、组合、更新迭代、认证、审计等。所以,未来联邦学习在整个数字化生态中都将起到至关重要的作用。

Loading

作者 yinhua