《个人信息保护法》促金融机构规范数据共享 隐私计算如何构筑数据“合规交互”新体系
2021年11月,《个人信息保护法》(下称《个保法》)正式施行,给银行等金融机构数据交流带来了新挑战。
“银行机构之间直接分享彼此用户数据联合建模,肯定是行不通的。”一位银行IT部门负责人向记者直言。过去一年,隐私计算技术在银行机构之间迅速普及,金融机构在严格遵守《个保法》相关规定的前提下,不断通过脱敏数据的深度挖掘,持续完善自身的风控体系与精准营销模型。
所谓隐私计算,主要由差分隐私、同态加密、多方安全计算、零知识证明、可信执行环境、联邦学习等技术组成,即在相关个人数据不流出银行等金融机构端的情况下,由双方提供大量脱敏化、结构化数据,凭借各自的大数据分析能力进一步完善用户画像,从而助力彼此提升信贷风控与精准营销效率。
“隐私计算技术的核心,就是银行、持牌消费金融机构等在不知道客户具体敏感信息的情况下,使用大数据分析等技术,对这些脱敏化、结构化数据进行比较验证,结合自身对客户消费行为、消费特征的数据积累与洞察,从而判断出脱敏化、结构化数据背后的客户是谁。”上述银行IT部门负责人告诉记者。目前,他们与某些持牌消费金融机构的隐私计算技术合作初见成效,尽管无法获取某些客户的敏感信息,但通过隐私计算技术,仍能精准掌握不同类型客群的消费行为、消费特征与风控重点,优化信贷风控模型,逾期率较去年有明显下降。
多方安全计算缘何“受青睐”?
21世纪经济报道记者了解到,随着《个保法》的实施,当前隐私计算技术在金融机构的主要应用,主要体现在两大场景:
一是联合风控,即银行、持牌消费金融机构通过融合多个机构数据,解决单个金融机构数据量有限,但又不能无序交换个人隐私数据等问题。此外,越来越多银行与持牌消费金融机构还在积极探索整合其他行业数据,在各方原始数据不出库的前提下建立风控模型,形成多维度的数据分析,持续提升风控质量。目前,隐私计算在信息核验环节,可以实现多方黑名单数据共享,银行等金融机构可以对骗贷、诈骗等行为的黑名单用户进行匿踪查询,提升信息查询的安全可信程度。
二是联合营销。目前,银行、持牌消费金融机构正积极借助政务、通信运营商、互联网平台等外部数据,在不输出原始数据的基础上,且满足《个保法》相关个人数据保护的要求下,实现更精准的用户客群分类,制定更精准的营销策略。目前比较流行的做法,是银行结合电商、政务等平台提供的消费、出行等数据,更精准地识别目标客户,拓展理财或信贷业务。
马上消费副总经理兼首席信息官蒋宁告诉记者,当前持牌消费金融公司风控业务主要面临两大痛点:一是随着业务条线不断丰富,风控部门面临数据维度缺乏、数据量不足等问题,客户留存的数据日益难以满足风控需求;二是当借助外部数据优化风控模型时,由于数据安全保护要求,机构之间的数据融合壁垒较高,数据交互难度很大。
“针对上述痛点,我们研发基于隐私计算的多方安全计算平台,在充分满足《个保法》相关个人隐私数据保护规定的情况下,融合多方数据开展联合分析,实现风控模型性能的持续优化提升。”蒋宁向记者透露,在具体实践过程中,马上消费正积极探索联合工商、税务、社保、互联网平台等多维度数据,优化提升风控模型效果,即在多方不共享数据的前提下,先确认共有的交集用户,再对共有样本的原始数据进行特征加工,进而在满足隐私保护的前提下融合多方特征,构建逻辑回归算法和XGBoost算法,最终优化信贷用户评分卡模型。
他指出,相比单独建模,目前马上消费通过隐私计算技术构建的风控模型预测指标提升了5%-10%,可以更准确识别风险。
记者多方了解到,在隐私计算技术实际应用过程中,不少银行还面临技术路线抉择难题。
多位银行IT部门人士告诉记者,目前他们主要选择多方安全计算技术,即在各方不泄露各自输入数据的前提下,多方协同进行数据分析处理,将数据处理结果广泛应用在联合统计、联合查询、联合建模、联合预测等金融场景。
究其原因,多方安全计算技术通用性与安全性相对较高,且技术路线相对成熟,尽管这项技术对计算与网络资源的要求也相当高,但多数银行认为目前他们的IT能力与业务需求,足以应对多方安全计算的网络资源要求。
相比而言,不少银行对联邦学习与可信执行环境等技术仍持观望态度。这背后,是这两项全新的隐私计算技术在通用性、硬件支持等方面未能达到银行要求。
以联邦学习为例,尽管联邦学习(Federated Learning,FL)可以实现在各方机器学习原始数据不出库的情况下,通过对数据的加密流通与处理来完成多方机器学习模型训练,且AI人工智能学习模型训练与预测效果颇佳,但由于它的通用性相对较差,目前不少银行仍然不愿过多引入这项技术。
可信执行环境(Trusted Execution Environment,TEE)则通过在中央处理器中构建一个安全的区域,保证区域内的程序和数据的机密性和完整性。尽管这项技术通用性颇高且计算性能不错,但由于它需要高度信任的硬件厂商,且目前某些芯片硬件供应“遇阻”,众多银行也不敢轻易尝试。
蒋宁表示,基于上述考量,马上消费决定构建基于开源软件框架打造的多方安全计算平台,先确保技术相对自主可控,再根据金融行业标准进行研发,有助于金融平台的互联互通,进而形成标准化的功能应用。
“我们的做法,是让这个多方安全计算平台采用分布式架构,实现技术能力与应用服务的解耦,支持自定义算法,既能有效满足《个保法》对个人数据规范采集使用的要求,又能更好地满足多元业务场景的需求。此外,这个多方安全计算平台还将逐步促进马上消费与众多合作方开展安全合规的数据合作,为亿级注册用户提供安全可靠的信贷服务。”他指出。
隐私计算普及的四大新挑战
记者了解到,尽管隐私计算技术的普及,很大程度解决《个保法》要求下的金融机构之间数据交流合规问题,但隐私计算技术在安全、性能、互联互通等方面仍存在不小挑战。
首先,隐私计算技术的安全性有待于进一步提升。由于隐私计算涉及的算法多样,但其安全基础通常都会设定一些假设,以此为基础进行安全算法设计。比如假设多方计算的各参与方都严格遵守协议流程、假设各参与方之间不产生共谋、假设硬件提供商完全可信等。但在实际情况下,这些假设未必都成立。与此同时,隐私计算技术在产品化过程中,不可避免会产生系统安全风险,由于隐私计算产品的安全要求较高,系统安全薄弱环节将最易被攻击。
其次,隐私计算技术应用仍需更大的计算和通信负载。目前,大规模应用隐私计算普遍面临计算和网络负载的限制。例如通过隐私计算联合建模的耗时是传统机器学习的数十倍甚至数百倍,且隐私计算意味着多方同步计算,某一方计算或通信资源的瓶颈将直接限制整个计算平台的性能。
第三,各方安全共识仍难以形成。隐私计算实际是让多个参与方在安全共识下开展多方计算。但是,参与者很难直观验证各方的安全性,当前也缺少隐私计算安全分级标准,实际应用场景下的各方安全共识通常难以达成。
第四,不同产品之间很难互联互通。每一个隐私计算应用方都面临着与不同机构多方计算的问题,但各方部署的隐私计算平台可能基于特定的算法和设计实现,平台间很难完成信息的交互,导致重复建设和成本浪费。因此互联互通正成为隐私计算技术普及所面临的最大挑战。
蒋宁告诉记者,目前众多银行与持牌消费金融机构都在加大隐私计算技术软硬件研发投入,力争尽早解决上述挑战。其中包括通过软硬件优化加速提升隐私计算可用性,促进隐私计算与区块链、同态加密、差分隐私等多种技术互相融合,推动隐私计算行业生态的融合发展等。
“可以预见的是,隐私计算将成为金融行业数字化转型的关键一环,助力构建更加开放的金融生态,促进中国金融行业高质量发展。”蒋宁指出。
记者还获悉,为了促进隐私计算技术在联合风控建模与精准营销等金融场景获得更好的应用成效,越来越多银行正加大与隐私计算技术研发平台的技术合作。目前,银行要么直接采购隐私计算技术产品或解决方案,从而实现基于《个保法》规定的数据共享交流分析操作,要么付费获取这些隐私计算技术研发平台的数据流通服务。
一位股份制银行IT部门人士向记者透露,此前他们也曾考虑第二种操作模式,因为后者的使用成本相对较低,但管理层再三权衡,认为第一种操作模式更能令银行符合《个保法》相关要求。
据毕马威KPMG《隐私计算行业研究报告》预测,随着越来越多银行、持牌消费金融机构等金融机构积极引入隐私计算技术,三年后这项技术服务营收或将达到100亿-200亿元人民币。
(21世纪经济报道记者 陈植 上海报道 统筹:马春园)
主管单位:中国反腐败司法研究中心
主办单位:企业廉洁合规研究基地
学术支持:湘潭大学纪检监察研究院
技术支持:湖南红网新媒科技发展有限公司