《移动支付网》作者方方:“你不属于我,我也不属于你,但我们可以一起创造属于彼此的价值。”
你输入A,智能手机自动联想到B、C、d,对于已经构建了一个安卓王国并占据大规模市场份额的谷歌来说,这原本是一件小事。然而,随着2018年《欧洲通用数据保护条例GDPR》的正式出台,安卓移动设备被法国数据保护监督机构——信息与自由国家委员会(CNIL)处以罚款。CNIL认为,由于用户创建了账户,谷歌可以从Gmail、YouTube和谷歌搜索等20多项服务中收集用户的个人数据,这些内容的使用不符合谷歌隐私政策和使用条款中的内容通知。CNIL认为,谷歌不仅违反了透明原则和提供信息的义务,也违反了为个性化广告处理提供法律依据的义务。这意味着谷歌无法像以前那样容易地从Android移动设备上获取用户信息。
数据不能移动,必须留在用户的设备里,但是必须把数据放在一起分析,让输入法等服务更加智能。联邦学习就是在这样的需求背景下提出并应用的。2019年,谷歌发表了论文《迈向规模化联邦学习:系统设计》,介绍了联邦学习的设计理念、存在的挑战和解决方案。本文描述了全球首个基于TensorFlow的产品级、大规模、可扩展的移动终端联邦学习系统,揭示了Google如何在大量Android移动设备上运行联邦平均算法,而不是像传统方式那样通过数据传输进行集中建模操作。
联合学习,“用分散数据训练集中模型”
假设一些用户的移动终端上有与模型训练相关的数据,来解决我们需要解决的问题。比如,谷歌需要让Android设备的虚拟键盘Gboard根据用户已经输入并使用的词语,智能推荐相关词语和表达;比如微众银行,需要综合利用分散在不同机构的税务、司法、交易数据,为缺乏PBOC征信的长尾客户提供风控决策依据。
这些移动终端会在用户停止使用设备并充电连接WIFI网络的晚上举手申请模特培训。
此时,将选择一些移动设备来接收训练模型。谷歌称,“在移动端用本地用户数据完成训练,并将训练结果而不是用户数据发回服务器,只需要几分钟的时间”。
不仅是局部训练,后期还要对训练结果不断迭代测试。因为每一个移动终端都参与其中,所以测试和迭代的效率非常高,模型训练结果的质量会在短时间内得到很大的提升。
安全聚合,防止隐私信息被攻击者截获。
如前所述,联合学习的模型训练是在移动终端上单独进行的,这就要求所有参与训练的移动终端都必须从模型所有者那里获得最新版本的模型。只有当所有参与的移动终端基于相同的最新版本的模型训练本地数据时,才能保证反馈模型更新有效。同样,模型更新必须在聚合后同步到下一轮模型训练参与终端。
在联邦学习的攻击实验中,已经证明攻击者可以从移动终端的模型更新中计算出相应的原始数据,进而获取终端用户的隐私信息。为了提高安全防护能力,Google使用了TensorFlow加密机器学习框架TF加密技术,并增加了安全聚合器。让移动终端不要直接把训练好的模型更新反馈给模型所有者,而是先反馈给安全聚合器,安全聚合器把所有的更新进行整合,然后整体发送给模型所有者。
加密算法,给敏感信息的安全保护加了几把锁。
目前在联邦学习领域,Google主要推广TensorFlow Federated(TFF)开源框架,但缺乏安全加密算子的开放实现。微众银行主推Federated AI Technology Enabler(FATE)开源框架,使用的主要加密技术是同态加密。其中,同态加密算法经历了部分he (phe)、分级he (lhe)和完全he (fhe)三个技术演进阶段。
1.部分he (phe)
部分同态加密技术于1976年首次提出。它的优点是容易实现,缺点是只支持加法或乘法。典型的例子有RSA乘法同态加密算法和Paillier加法同态加密算法。在水平联邦学习中,多方可以使用这种部分同态加密算法(PHE)对中间结果或模型进行加密,避免直接发送明文的风险。
下面,以RSA非对称加密算法为例说明工作原理。首先,接收方生成一对公钥和私钥,并将公钥发送给发送方。发送方用收到的公钥加密数据,然后将其传输给接收方,最后接收方用私钥解密加密的数据。RSA算法具体的数学计算原理是欧拉函数和费马大定理。第一步,随机选取两个素数P和Q,计算P和Q的乘积,转换成二进制数N,因为RSA算法的安全性取决于大整数分解的难度,也就是说密钥越长越难破解,所以N越大越好。目前能支持的最大N是4096位。第二步,求n的欧拉函数值M,即M=(P-1)*(Q-1)。第三步,求与m互质且小于m的整数e,第四步,求模逆整数d,使d和e的乘积除以m的余数为1。通过以上四个步骤,得到公钥E和私钥D。加密过程中,通过计算明文X的e(公钥)次方,除以n,余数Y就是加密后的密文。解密过程中,通过计算密文Y的d(私钥)次方,除以n,余数X就是解密后的明文。
2.夷平何(LHE)
分层同态加密技术主要是解决同时支持加法和乘法的问题,但缺点是计算次数有限。典型的例子是BGN加密算法,它可以支持一乘一加,是部分同态加密的升级方案。
3.全同态加密(FHE)
同态加密技术可以支持密文的无限任意计算,不再局限于只有一次加法和乘法。但目前效率还很低,还不能真正应用于大规模计算。但是,算法的效率在不断提高。最近国内一个理想的测试数据显示,训练一个数据规模为40万样本,200个特征数的logistic回归模型,需要1000多分钟。未来,随着算法效率的不断提高,分层同态加密(LHE)和全同态加密(FHE)将在垂直联邦学习和联邦迁移学习领域得到更广泛的应用。
联邦学习的三种模式
联邦学习主要包括三种类型:横向联邦学习、纵向联邦学习和联邦迁移学习。
1.横向联邦学习
横向联邦学习的经典案例是Google使用不同移动终端的数据作为样本。由于各个终端的数据具有相同的特征空,即与虚拟键盘Gboard应用相关的操作行为数据,因此可以形成横向的整体学习和联合训练模式。
2.垂直联邦学习
纵向联邦学习的经典案例是微众银行结合税务部门数据提升小微金融风控模型的案例。由于微众银行和税务部门会对部分相同的客户提供不同的服务,可以以这些客户的纳税人识别号为桥梁,将发票数据与银行原有的客户信息结合起来,扩大数据维度,完善授信模型,从而为更多的小微企业提供授信,解决传统小微企业中样本数据不足、样本好坏区分度不够、偏离正态分布等问题。
目前,微众银行已联合平安科技、招商金融科技、腾讯研究院、电子商务与电子支付国家工程实验室、鹏程实验室、云计算与大数据研究院共同倡导联邦学习,并于今年4月联合发布了《联邦学习v2.0白皮书》。
3.联邦移民学习
联邦转移学习的经典案例是第四范式利用小额信贷数据训练的模型,转移到大额贷款中学习大额贷款的营销模型或风控模型。联合迁移学习中使用的数据与用户维度和特性空维度的重叠程度较低。联邦迁移学习主要依靠机器学习中的迁移学习算法,对分散的小规模样本数据进行联合建模,建立业务和AI模型的闭环,继续迭代优化。但是,目前由于迁移学习算法和同态加密算法还没有达到一定的技术成熟度,联邦迁移学习还处于探索和应用阶段。
参考资料:
联邦学习中的公平资源分配
https://arxiv.org/pdf/1905.10497v1.pdf
匹配平均的联邦学习
https://arxiv.org/abs/2002.06440
来自分散数据的深度网络的通信高效学习
https://arxiv.org/abs/1602.05629
联邦学习的进展和存在的问题
https://arxiv.org/pdf/1912.04977.pdf
作者简介:多年科技、金融从业人员。有信息安全规划、数据安全管理、技术创新咨询、基础架构设计等领域的工作经验,现就职于某股份制银行信息技术部。关注金融科技、信息安全、互联网金融等相关知识领域。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"数据不动价值动,数据治理如何使数据价值持续释放":http://www.guoyinggangguan.com/xedk/197648.html。
微信扫描二维码关注官方微信
▲长按图片识别二维码

