中国联邦学习「五大流派」
导语:花开五朵,各表一枝。
联邦学习作为新一代人工智能基础技术,正在渗透到AI商用瓶颈的根源,通过解决数据隐私与数据孤岛问题,重塑金融、医疗、城市安防等领域。
近两年,在杨强教授等世界级专家的联合推动下,国内外诸多科技巨头,均已开始搭建联邦学习的研究与应用团队。
三年时间过去,国内已经出现联邦学习、共享智能、知识联邦、联邦智能和异步联邦学习等多个相关研究方向。
花开五朵,各表一枝。
今天,雷锋网(公众号:雷锋网)《AI金融评论》将对这五大方向进行详细梳理,一览国内联邦学习发展现状。
微众银行与联邦学习
联邦学习从某种程度上讲,与微众银行挂上了等号。
联邦学习这一研究分支,正是在微众银行首席人工智能官杨强教授团队和其领导的IEEE联邦学习标准制定委员会的推动下,成为当今全球人工智能产学两界最受关注的领域之一。
今年4月,微众银行人工智能部、电子商务与电子支付国家工程实验室(中国银联)、鹏城实验室、平安科技、腾讯研究院、中国信通院云大所、招商金融科技等多家企业和机构联合推出《联邦学习白皮书V2.0》。
在白皮书中,联邦学习的最新定义是:在进行机器学习的过程中,各参与方可借助其他方数据进行联合建模。各方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。
联邦学习也根据数据集用户特征和样本的不同重叠情况,分为了横向联邦学习(即特征重叠较多)、纵向联邦学习(即样本重叠较多)和联邦迁移学习(样本、特征都重叠较少)。
应用实例方面,披露了联邦学习在车险定价、信贷风控、销量预测、视觉安防、辅助诊断、隐私保护广告和自动驾驶方面的解决方案。
2018年,在杨强教授的带领下,微众银行正式开展了联邦学习研究,内部投入百余人,打造了一个覆盖技术上下游的联邦学习团队,包含研究、学术、研发、商业、行业应用等多个细分队伍。
在过往发表的多篇论文中,微众AI团队介绍了联邦学习思路下针对有安全需求的有监督学习、强化学习、决策树的具体方法,包括安全的联邦迁移学习、联邦强化学习以及 SecureBoost 安全树模型。
杨强教授也曾在雷锋网公开课上,以“联邦学习前沿的研究与应用”为题,全面详尽地讲解了联邦学习如何直面数据孤岛和隐私保护的双重挑战。(课程全文与视频回顾,已在公众号《AI金融评论》发布)
微众AI团队透露,他们已申请100+项相关专利,牵头推进IEEE联邦学习国际标准与联邦学习国家标准制定。
2018年10月,微众银行AI团队向IEEE标准协会提交了关于建立联邦学习标准的提案——「Guide forArchitectural Framework and Application of Federated Machine Learning」(联邦学习基础架构与应用标准),并于2018年12月获批。
值得一提的是,微众银行还在2019年2月开源了联邦学习框架FATE,这也是全球首个工业级联邦学习开源框架。业界中主要的联邦学习框架,除了FATE以外,目前还有谷歌开源的TensorFlow Federated,和百度开源的PaddleFL。
之所以称FATE为「工业级」,在于它能够解决包括计算架构可并行、信息交互可审计、接口清晰可扩展在内的三个工业应用常见问题。
FATE项目不仅提供了20多个联邦学习算法组件、比如 LR、GBDT、CNN 等,覆盖常规商业应用场景的建模需求,还特别提供了一站式联邦模型服务解决方案,涵盖联邦特征工程、模型评估、在线推理等。
更重要的是,它给开发者提供了实现联邦学习算法和系统的范本,大部分传统算法都可以经过一定改造适配到联邦学习框架中来。
通过项目开源,对相关机构进行 AI 赋能,提升机构自身的建模技术和能力,为工业界人员快速开发应用提供一种简洁有效的解决方案,支持在多场景下的开拓和应用采用联合共建、平台服务等方式进行解决方案落地。
团队也表示,它具备较强易用性,传统建模知识和经验都可以复用,用户体验上和传统建模差异较小。“所提供的FATE-Board建模可视化功能,极大提升了联邦建模过程的交互体验,也有效缓解建模技术人员的缺乏现状。”
杨强透露称,微众也与VMWare深度合作、深度绑定,推出了KubeFATE系统,帮助用户更好地在Cloud上面进行应用。
目前这一开源框架已在信贷风控、客户权益定价、监管科技等领域推动应用落地。微众银行联邦学习开源平台FATE技术负责人范涛也在雷锋网公开课上,就FATE的实际应用、联邦学习的跨组织多方联合建模等技术重点进行分享。
除了借助开源平台打造技术开放生态,微众AI团队也发起了一个旨在开发和推广安全和用户隐私保护下的 AI 技术及其应用的项目「联邦学习生态」(FedAI Ecosystem)。项目在确保数据安全及用户隐私的前提下,建立基于联邦学习的 AI 技术生态,使得各行业更充分发挥数据价值,推动垂直领域案例落地。
在微众看来,联邦学习不仅具有加速AI创新发展、保障隐私信息和数据安全的公共价值;从商业层面上看,联邦系统更是一个“共同富裕”的策略,能带动跨领域的企业级数据合作,催生基于联合建模的新业态和模式。
蚂蚁金服与共享智能
为了机构与自身信息协同等业务问题,蚂蚁金服从2016年开始投入到共享智能的研究中。在调研了差分隐私、矩阵变换等多种方案之后,蚂蚁金服确定了目前的技术方向。
当前,业界解决隐私泄露和数据滥用的数据共享技术路线主要有两条。一条是基于硬件可信执行环境(TEE:Trusted Execution Environment)技术的可信计算,另一条是基于密码学的多方安全计算(MPC:Multi-party Computation)。
一些基于上述路线的解决方案也随之出现,比如隐私保护机器学习PPML、联邦学习、竞合学习、可信机器学习等,不同解决方案采用的技术路线也相互有所重叠。
蚂蚁金服集团共享智能部总经理周俊在接受InfoQ采访时表示,蚂蚁金服提出的共享智能(又称:共享机器学习)就是结合了TEE与MPC两条路线,同时结合蚂蚁的自身业务场景特性,聚焦于金融行业的应用。
他总结,“共享智能的概念,或者说理念,是希望在多方参与且各数据提供方与平台方互不信任的场景下,能够聚合多方信息进行分析和机器学习,并确保各参与方的隐私不被泄漏,信息不被滥用。”
对于共享智能与联邦学习的差异,周俊指出,联邦学习的架构是由一台中心服务器和多个计算节点构成,中心服务器会参与到整个计算过程,因此不适用于一些不需要中心服务器节点的应用场景。
联邦学习要求原始数据不能出域,这也限制了其可以使用的技术方案;而共享智能是从问题出发,解决方案中不仅包含有类似联邦学习的有中心服务器参与计算的模式,也包含完全去中心化的方案,还有基于TEE的共享学习方案。
蚂蚁的共享智能,可以按照TEE和MPC两条路线来理解。
基于TEE的共享学习,底层使用Intel的SGX技术,并可兼容其它TEE实现,但传统的集群化方案在SGX上无法工作,蚂蚁金服为此设计了全新分布式在线服务基本框架。
在模型训练阶段,除了基于自研的训练框架支持了LR和GBDT的训练外,蚂蚁金服还借助于LibOS Occlum(蚂蚁主导开发,已开源)和自研的分布式组网系统,成功将原生Xgboost移植到SGX内,并支持多方数据融合和分布式训练。目前,蚂蚁金服正在利用这套方案进行TensorFlow框架的迁移。
基于MPC的共享学习框架则分为安全技术层、基础算子层,和安全机器学习算法,已支持包括LR、GBDT、DNN等头部算法,后续一方面会继续根据业务需求补充更多的算法,同时也会为各种算子提供更多的技术实现方案,以应对不同的业务场景。
更多共享智能的技术细节,周俊将会在本周六(9号)晚上八点做客雷锋网公开课,详解数据处理、模型训练预测到推荐/风控等技术突破,并分享共享智能在工业界等真实场景应用案例的落地经验与挑战。
周俊表示,随着技术和用户心智的同步发展,共享智能的大规模落地将会很快发生,而最先受益的,是数据驱动的、并且对隐私保护有强需求的金融科技和医疗科技行业。
目前,蚂蚁金服已经在智能信贷领域的多家机构落地了标杆型业务场景。同时,牵头在推进共享智能的行业标准、联盟标准、国家标准以及IEEE、ITU-T等国际标准。
今年3月,由蚂蚁金服牵头制定的共享智能联盟标准,即《共享学习系统技术要求》,在AIIA联盟(中国人工智能产业发展联盟)正式发布。该标准由蚂蚁金服与中国联通、中国信通院、中国电信、阿里巴巴集团、北京大学、中和农信、百度以及云从科技共同制定。
在国际标准方面上,蚂蚁金服已在HOE、ITOT进行标准的建立;在国内的CCSA(中国通信标准化协会)进行了标准的立项;在AIOSS(中国人工智能开源软件发展联盟)的标准已进入报批稿阶段。
平安科技与联邦智能
联邦学习在平安科技落地生根之后,逐渐形成了以联邦学习为龙头、为核心,依托联邦数据部落,实现具备隐私保护的联邦推理,以联邦激励机制为纽带所形成的AI新生态,也就是联邦智能。研发团队由平安科技副总工程师、联邦学习技术部总经理王健宗带领。
王健宗在做客雷锋网《联邦学习公开课》时介绍称,联邦数据部落是要把每一个数据孤岛部落化,以此纳入联邦合作的体系中来。
首先是对来自个人或企业终端的本地数据进行预处理,其次对训练数据特征化处理,再对联邦数据部落中的数据进行质量评估,这也是形成联邦激励机制评价指标的重要步骤。
联邦数据部落依据数据量级、数据有效性、数据信息密度、数据真实性等评价指标,对参与联邦学习训练的数据进行质量评估。同时也起到了数据监测与评估量化的作用。
联邦推理,则是一个隐私与安全的链路过程,试图让模型在应用环节也能起到保护数据隐私的作用。
他强调,联邦激励机制是一个综合性的闭环学习机制,实际上也融入宏观经济、管理范畴的一些概念。在平安科技的联邦智能生态中,它所表征的是对贡献度与收益的评估机制。
“在数据资产化的背景下,联邦企业所贡献的数据量级如果足够大,且质量好,会直接为联合模型带来效果增益,而这一效果提升也会映射到参与联邦的本地模型上,并为企业带来实际的价值与收益。我们会以此量化这一过程中涉及的贡献度。”王健宗表示。
在联邦智能体系的基础上,平安科技打造了蜂巢平台。
平台支持传统的统计学习以及深度学习的模型,比如逻辑回归、线性回归、树模型等。在整个模型训练过程中,对梯度进行非对称加密,整合梯度和参数优化、更新模型。最后加密原始传输数据,实现推理结果。
目前,蜂巢平台的产品定位是服务于营销、获客、定价、风控、智慧城市和智慧医疗。
同盾科技与知识联邦
同盾科技同样是从2018年起着手研发联邦学习,2019年开始搭建知识联邦的雏形,由同盾科技人工智能研究院院长李晓林牵头研发工作。
知识联邦,被定义为统一的安全多方应用框架,它支持安全多方查询、安全多方计算、安全多方学习、安全多方推理等多种联邦应用。本月初,同盾科技也发布了《知识联邦白皮书》,将知识联邦的全貌详细展露。
同盾科技人工智能研究院深度学习首席专家李宏宇表示,知识联邦在借鉴一些相关技术的同时,也具备一定的独创性,尤其是在认知层和知识层联邦都是自主创新的。
以下这张表格也更简单直接地体现了知识联邦与其它技术领域之间的关系:
对于知识联邦与联邦学习的区别和联系,李宏宇指出,联邦学习更关注的是联合建模训练过程,知识联邦关注的是通过联邦创建或应用提取有价值的知识,其联邦的目的可能是建模、预测、计算、推理。知识联邦不仅仅是面向学习,还包括安全的多方计算和知识推理。
因此,在同盾的定义里,联邦学习是知识联邦的一个子集,专注于数据分布的联合建模;知识联邦关注的是安全的数据到知识的全生命周期的知识创造、管理和使用及其监管。
白皮书指出,除了按数据特点、对象类型分类,知识联邦还可以通过联邦阶段进行分类:
-
信息层通过安全多方计算在密文空间上直接进行计算或学习,进而提取或发现知识;
-
模型层联邦与传统的联邦学习相似,基于模型加密交互共创知识,并实现知识共享;
-
认知层对同/异构数据进行认知学习之后进行集成或多模态融合,进而生成复杂的知识网络;
-
知识层对分布的知识进一步学习提炼,实现基于知识的表达推理及智能决策。
李宏宇在雷锋网《联邦学习公开课》上介绍称,基于知识联邦理论体系,同盾科技推出了工业级应用产品智邦平台(iBond),通过建立相应的任务联盟,解决不同应用场景需求。未来平台也将推进联邦数据安全交换标准的建立。
目前,知识联邦的主要应用场景也集中在金融、保险、政务和医疗等行业。
京东数科与异步联邦学习
联邦学习在京东数科手中,则长成了异步联邦学习这棵大树,构筑成全新的数据协同产业应用生态。目前,异步联邦学习由京东数科AI实验室首席科学家薄列峰、金融科技事业部技术部智能数据负责人王知博等人带队研发。
王知博在接受InfoQ采访时表示,京东数科的联邦学习之路目前已经历以下两个阶段:
第一个阶段,搭建一站式联邦学习建模平台,统一管理数据源与模型全生命周期,降低联邦学习模型开发成本、提高开发效率。
第二个阶段,服务业务落地。目前,联邦学习在信贷风控、智能营销等方向均有一定应用,并在实践中逐步验证效果。
异步联邦学习技术首先在金融场景落地,助力京东数科与合作机构共建大数据风控模型。目前京东数科已经构建行业级的联合建模解决方案。
目前,其联邦学习技术已经在雄安新区“块数据平台”项目中得到了应用,让交通、规划、环保等各个部门打破数据孤岛,更高效地沟通、协同,推动城市“新基建”进入新阶段。
近日,京东数科还宣布成立产业AI中心,继续推动异步联邦学习的发展。
在应用方面,未来重点是深耕金融业务场景,以智能信贷风控为例,需要建立联邦安全联盟,通过合理的生态机制,引入更多的参与方,从而更全面的刻画用户,从而提升模型效果,有效识别信用风险,提升业务收益。
京东数科AI实验室首席科学家薄列峰表示,异步联邦算法在金融领域得到验证后,也在智能城市领域解决了重量级难题。
例如在雄安新区智能城市建设中,为保证全量多模态的城市数据能够实时汇聚、融合、应用,“基于联邦学习的数字网关”技术使得数据不出库的前提下,实现城市各部门数据的融合,这一技术也与异步联邦算法有着异曲同工之处。
联邦学习(微众银行)、知识联邦和联邦智能都已在四月《金融联邦学习公开课》系列,由各自团队的领军人物或研发主力带来分享。
今晚八点,本系列正式启动第二轮,蚂蚁金服将披露共享智能更多技术细节。后续将有来自腾讯CSIG、京东数科、百度、富数科技等企业的技术高管,进一步「拆解」联邦学习。
扫码关注「 AI金融评论 」,进群收看课程直播,和往期课程全部回放。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。