近期,平安科技副总工程师、联邦学习技术部总经理、资深人工智能总监王健宗博士做客雷锋网AI金融评论公开课,以“联邦智能加速AI落地”为题,全面详尽地讲解了联邦智能如何直面数据困境,解决AI落地难题。
关注微信公众号 AI金融评论 ,在公众号聊天框回复“听课”,进群可收看本节课程视频回放。
以下是王健宗博士演讲全文与精选问答内容:
我今天的演讲主要分为四个部分。
首先我会解释一下,过去这些年我在人工智能行业中遇到的一些数据困境,也是实际上人工智能普遍会遇到的一些问题。
第二,我将自己这些年的思考提炼成联邦智能这样一个理念,希望借由这个理念来重塑数据生态。
第三,将给大家汇报一下,我们这些年在联邦智能方面的一些应用和实践工作。
最后,我会简短地展望一下未来联邦智能的未来发展。
距离我第一次听到大数据已经将近10年时间。大数据发展到今天,实际上是因为有移动互联网,包括云计算的驱动,助力数据海量发展,也推动了我们目前以深度学习技术为核心的这一波人工智能的浪潮。
从2019年开始,我们常常会遇到一些人工智能难以落地的难题,或者在应用模式上没有普适性,或者AI产品在通用性不够等问题,这些问题是伴随着这一波AI技术的革命、革新逐步暴露出来的。
数据作为核心的资产,无法共享时,会形成一个个数据孤岛,阻碍AI落地。各行各业实际上都存在数据壁垒,如何来突破这一块,让AI生态能够更好地发展,是现在所有的AI人想解决的问题。
对于数据来说,第一个问题是数据孤岛,第二个问题是对于数据的隐私保护。全球都在对数据使用做出各种各样的限制,对于一些隐私数据的使用规范,已经有了很明确的法律层面的界定。实际上这也是数据资产化的一种趋势。
我们国家一直以来都非常重视数据安全、网络安全。近年来相继出台了《网络安全法》等各种各样的信息保护法,我所从事的金融行业,像金融标准委员会等,也对数据有相关规定。
未来的趋势是,法律会越来越严。趋严之后,大家对数据的使用也会越来越规范。
我从事的金融行业金融在做AI建模的过程中,有很多数据合作的需求。因为,模型本身从冷启动开始的时候就需要一些数据,对于这些数据需要关心它的来源是什么?它的安全性是什么?它是否能够让我能够合法合规地使用?
如果数据不安全、不合规,我相信没有公司愿意在这样的大环境下铤而走险去使用。
在目前法律趋严的情况下,大家对数据使用方面也是需要特别地小心。去年,国家层面对爬虫进行过一波整治。实际上,爬虫存在很明显地在没有经过用户允许的情况下滥用数据的行为,这是国家严令禁止的。
2020年4月9日,国务院在构建要素市场化配置机制的意见当中,首次把数据和土地、劳动力、资本、技术等作为要素,明确提出来,就加强数据整合、安全保护,制定出这样一个数据隐私的制度。
我觉得培养对数据隐私保护,及合法合规使用数据的意识,是非常重要的,希望大家能够重视起来。
接下来,我会从传统AI技术模式出发分析一些瓶颈或者限制出现的原因。实际上,传统的AI技术必须从海量的数据中学习或者挖掘一些相关的特征,利用数学理论,去拟合一个数学模型,找到输入和输出的对应关系,比如深度学习中训练网络的权重和偏置,模型效果与数据量级、质量、以及数据的真实性等有着密切的关系。
科技头部公司有着成熟的技术和产品,数据渠道和来源较为广泛。
而对小型或初创公司来说,与数据信息具有强依赖关系的技术模式,使其不能突破数据瓶颈,无法实现商业化落地。另外,传统的数据合作方式,仍存在周期冗长、流程繁琐等问题。
这一技术模式使个人几乎无法参与到AI产品的迭代中,用户不能从他们的设备、位置等方面收集个人数据来完成功能优化。
怎样打破数据的困境?如何在保护隐私的情况下,让个人端和商业端共赢,实现全行业共同的增益?
我尝试给出一个答案——联邦智能,这是我经过长时间思考和多次改版提出来的理论体系。
联邦智能以联邦学习为龙头、为核心,依托联邦数据部落,实现具备隐私保护的联邦推理,以联邦激励机制为纽带所形成的一整个AI新生态或者新常态。
解决之道:联邦智能重塑数据生态
这里展示的是联邦智能的架构关系图,其构成部分包括:联邦学习、联邦推理、联邦数据部落,以及贯穿于整个框架体系中的联邦激励机制。
首先,我将对联邦数据部落做下简要介绍。在大数据时代,业界存在诸多与数据存储相关的表现形式,如:数据库、云存储等等。
那么我们在这里为什么会提出数据部落?实际上,每个数据可以定义为单位个体,它们之间相互独立,但又信息相通,具有合作的关联属性,因此我们将这些数据单元的集合,称之为数据部落。
在部落中,既有来自各行各业的数据,又有来自各种端和设备的数据。
我们的初衷,是希望部落之间能够达成数据不出本地的一种合作机制。大家能够把自己的数据贡献出来,共同去完成建模过程。
在这一过程中,大致会包含数据过滤、数据对齐,以及一些特征信息的聚合等内容。在联邦学习这一联合建模的过程中,机器学习、深度学习均有参与,不过就目前来讲,还仍未出现一个“All in One”的通用解决方案。
我们联邦数据部落中的数据信息,通过联邦学习,最终会形成联邦模型,而这一模型会反哺各行各业,包括:智慧金融、智慧城市、智慧医疗等各种场景。
实际上,我们的联邦模型还能提供联邦推理这一服务应用。其中,联邦推理是基于加密方式完成推理计算的,这一过程无需上传任何相关设备存储的明文数据,或者是个人隐私数据,从而保证了数据的安全和隐私性。
整个系统会融入有联邦激励机制。我们设计激励机制的初衷,是希望这一机制能够保证各联合方既能作为贡献者,又能成为受益人,以此激励在这一生态中的合伙人可以做好促进联邦智能生态往繁荣方向发展。关于联邦激励机制的相关工作,我们将在后面展开介绍。
实际上,联邦学习是一种加密的分布式机器学习技术。传统的分布式机器学习技术在数据分布上是一致的,但在联邦学习中所表现的是数据独立且分布不同。
在联邦学习过程中,会考虑很多的底层技术,如多显卡加速计算的线程分配、参数交换机制等,这里面我们就需要着重考虑基于加密方式的隐私保护问题。
如上图“联邦学习系统”所示,它本质上是基于本地数据的本地训练,云端会发布相应的初始模型,并联合各方由本地发起训练,共同完成模型构建过程。
联邦学习机制是允许跨行业的,同时可以跨B端和C端。目前来看,国内B端市场对联邦学习表现有非常强烈的需求意向,特别像金融行业,由于国家对金融数据有着严格管控,使得联邦学习在智能金融场景的应用会比其他行业更为前沿。
联邦学习的优势主要包括以下四点:
1、数据本地化使得数据本身不会泄露到外部,能够完全满足用户隐私保护的需求。
2、从算力上我们可以做好边端的计算下沉。特别在5G时代来临后,限制参数交换速度的网络瓶颈会被逐步打破,从而更好地加速联合训练。
3、在联邦建模过程当中,可以实时进行基于加密机制下的参数交换,实现原始数据不泄露,这种无数据直接交互和传输方式也符合政策与法律法规要求。
4、我们可以确保参与各方的身份和地位是相同的。通过设计的激励机制,使得大家有益于参与联合训练过程,从而更好地维护联邦智能生态。另外,联邦学习将更有利于数据相对弱势的一方,并最终实现共同增益。
我们提到的联邦数据部落,是要把每一个数据孤岛部落化,以此纳入联邦合作的体系中来。
对于整个数据部落来说,例如IOT数据、医疗数据、个人手机数据以及各个行业数据,这些原始数据实际上是互不相通的,没有任何数据流转通道。
其中,我们会对各方间的数据获取渠道进行加锁设置。当数据合作方加入到部落中后,实际上存在一些工作,具体表现为如下三点:
1、首先我会提供一些相关的标准化工具,在原始不交换的基础上,对来自个人或企业终端的本地数据进行预处理,比如针对缺失数据、重复数据、偏离数据的数据清洗、数据降噪、数据降噪等工作。
实际上,我们的目标是在大家达成协议的基础上,能够选择联合终端中高质量的数据进行去中心化的本地训练。
2、为了使用与某项业务场景相关的数据,我们需要做出特征标记与筛选。
因此,“联邦数据部落”会对训练数据进行特征化处理,包括:数据分类、特征标记、数据聚合等方式,使其有针对性的发起训练。
3、我们会对联邦数据部落中的数据进行质量评估,这也是形成联邦激励机制评价指标的重要步骤。
联邦数据部落依据数据量级、数据有效性、数据信息密度、数据真实性等评价指标,对参与联邦学习训练的数据进行质量评估。同时也起到了数据监测与评估量化的作用。
在联邦推理中,我们希望模型在应用环节也能起到保护数据隐私的作用。
以声纹识别为例,它属于生物特征的一种,并在一定程度上是极其重要的隐私信息。在我从事多年的声纹项目中发现,声纹特征是具有抗时变性的,短期内它不会随着年龄的增长而发改变。
在传统的声纹推理模式中,服务会将用户端输入的语音直接传送至云端的声纹平台与引擎中,经过前置的语音预处理,如静音消除、截幅检测等。
由i-Vector/d-Vector/x-Vector声纹模型提取出高维的特征向量,再根据PLDA打分与两两比对,最终完成说话人身份确认。
比较典型的应用包括:声纹门禁、声纹锁、电话平台声纹核身。另外,还包括1:N情况下的声纹识别,即说话人辨别,以上是以声纹为例的传统推理过程。
如果我们不上传本地语音数据将如何实现这一推理过程?
实际上,我们会在本地用户端内置一个自主开发的蜂巢系统中的插件,它会在保留原始声纹信息的基础上,利用混沌算法对语音信号进行加密,并形成如白噪声类似的密文流信号。在经过一系列处理后,插件会生成公钥,并连同处理语音一同传送至云端。
这个公钥的作用是什么?是为了确保在云端推理过程中数据始终保持隐私性。最后,我们会将推理加密结果返回至边端后,由边端解密后直接获取到真实结果。
整个推理过程,是一个隐私与安全的链路过程,我们的原始语音与信息始终没有泄露。
联邦激励机制是一个综合性的闭环学习机制,实际上我们也融入宏观经济、管理范畴的一些概念。在我们的联邦智能生态中,它所表征的是对贡献度与收益的评估机制。
在数据资产化的背景下,联邦企业所贡献的数据量级如果足够大,且质量好,会直接为联合模型带来效果增益,而这一效果提升也会映射到参与联邦的本地模型上,并为企业带来实际的价值与收益。我们会以此量化这一过程中涉及的贡献度。
同时我们发现,在这一良性激励的带动下会吸引更多的人来更新生态,最终形成贡献与收益的动态平衡,这也是联邦激励机制的整个闭环过程。
在联邦激励机制下,支付对象包括联邦数据部落与联邦结算中心。在联邦数据部落中,一部分成员即是数据贡献者,也有应用需求,可以说既是生产者,也是消费者。
而另一部分成员,只会提供数据支持,如大数据公司。在联邦结算中心中,流向它的我们称为用户支付。
这一支付评估额维度是依据联邦部落数据的本身价值,包括现有贡献价值和未来价值,以及联邦启动的初始资金和联邦后的实际效益,同时其中也会包含一些梯度定价策略。
另一方面,从联邦结算中心流出的是激励支付,它会依据各联邦成员的数据量级、数据质量以及数据成本进行激励性结算支付。
在这一闭环的流转下,我们将希望吸引更多的人参与到联邦激励中,同时大家也可以从中获得收益。
联邦智能的应用实践
我在平安打造了一个蜂巢平台,顾名思义,很多蜜蜂通过外出采蜜,在蜂巢形成蜜的共享。打破数据孤岛,挖掘数据价值,这个在金融行业是非常重要的。
我2015年回国加入平安之后,就做大数据和AI的工作,从开始就深刻感受到金融的行业对于数据的使用合规的一些监管方面的高压。
因为本身金融数据很纯净,在座任何人都会有一些收入数据、股票交易数据等,对于任何人来说,这些数据都是绝密的,非常重要的。
国家以前是一行三会,现在是一行两会,因为银保监会合并了。银保集团合并之后,数据的管理实际上是更加的严格。
在企业里面,不管是什么企业,只要数据没办法集中,工作就很难开展。
我们在平台的设计上是遵循金融的标准,同时也支持国密。
如图所示,整个过程里面实现智能的联邦的协作,实现数据的安全得理,实现多方的隐私训练,能够实现可信的机器学习,并且也有可视化一些服务。整个过程中,数据不会上传到服务器,保证数据的安全性。
整个平台里面,因为本身平安集团现在也是一个综合性的集团,蜂巢能够提供智慧金融、智慧城市、智慧医疗商用级的一站式解决方案,希望能够激活数据价值。这是我们整个平台的使命。
我们的目标是跨企业、跨数据、跨境领域,实现整个大数据AI生态。平台的核心就是构建围绕联邦学习、联邦数据部落、联邦推理、联邦激励机制为核心的联邦智能生态。
产品适用范围包括像训练隐私、敏感数据,同时借鉴了我们之前在自动化机器学习上的一些经验,在底层进行加速,包括在底层通讯层的优化等等,也包括现在我们在加解密这一块的尝试,希望这个平台能同时满足B端和C端的需求。
蜂巢平台的技术框架,是支持联邦智能原生的。如图所示,底层的数据部分我不再赘述了,在整个系统里面我们都把它看成数据部落。
在数据部落里面,有几个功能模块,包括数据预处理、数据特征化、数据质量的评估、这些我们在技术上都会做一些实现。
平台支持传统的统计学习以及深度学习的模型,比如逻辑回归、线性回归、树模型等。在整个模型训练过程中,对梯度进行非对称加密,整合梯度和参数优化、更新模型。
在推理这一块,我们会把原始的传输的数据进行加密,最终实现推理结果。
我们的产品定位是服务于营销、获客、定价、风控、智慧城市和智慧医疗。同时,整个团队在联邦学习技术上也有一定的科研成果,包括专利和论文。
举个例子,银保监会和证监会数据是绝对不能打通的。所以说对传统的数据,如图左边所示,比方说出本地联合建模,这种方式可以在实验环境做一做,但在真实数据上,这种方法行不通,因为政策法规是不允许的。
我们用联邦学习建模方式做了对比实验,发现联邦学习可以提升模型效果。金融领域,大部分的场景是纵向联邦学习,横向市场主要在移动端。
我们还有包括医疗的影像数据这一块的实践经验。
过去,我做医疗影像建模是非常困难的,我们训练好一个模型之后,要把模型布到物理机上,并搬到我们在贵州一个医院去。
这个过程非常辛苦,并且这个模型还不能轻易更新,除非通过“人肉”的方式,拿着硬盘去更新。因为医疗服务器不能联网,病人的片子是非常隐私的。
有了联邦学习之后,通过联邦学习的方式,比方说像新冠肺炎这样的一些读片数据,在不出本地的情况下,也能实现一整个的新冠肺炎检测模型的优化。
也可以把新冠肺炎的模型分享给别人,现在国际疫情形势下,我们可以给到国外。这些都是可以用联邦学习做的一些工作。
实际上我们在联邦推理和怎么样保证大家实现一个安全或者可信的环境也可以做很多工作。我很高兴地看到,现在联邦学习每天都在推陈出新,相关的合作和应用越来越多,这也是我们所有联邦学习的从业者非常乐意看到的一个局面。
目前,联邦智能的关注度很高,其内部的需求是非常旺盛的。我们也希望大家无论是在训练、推理、还是数据部落的构建、使用方面都能有联邦智能的理念和意识。在金融领域、智能家居、车联网等拓展领域上都能看到一些公司在布局联邦智能。
同时,联邦学习标准也在逐步落地。我们希望大家能够共同打造联邦学习的生态,使各行各业能充分发挥其价值,使更多的垂直行业能够落地。
Q1:联邦数据部落和联合建模有什么区别?
王健宗:它们属于联邦学习不同的层面。联邦数据部落,实际上是联合建模之前的数据准备、数据评估等工作。做好数据准备后才会考虑联合建模。联合建模是联邦学习中的重要部分。
这里我再补充讲一下联邦推理,它是在已有模型的基础上实现的。在数据隐私安全的背景下,联邦推理的趋势是非常明显的,联邦推理的初衷是希望保证隐私数据不泄露。在未来,将会有更多的AI模型引入联邦学习,使得模型更加可靠和安全。
Q2:联邦推理和传统推理只是有加、解密的区别吗?
王健宗:我觉得不仅仅是加解密的区别。首先,如果对于推理结果只是加解密的话,不需要做任何信息片段的处理,只需要上传推理结果和公钥,最终返回私钥。
但是联邦推理不是这样,比如在语音应用的场景下,联邦推理会对语音做一些处理工作,如截幅、降噪、加白噪音,甚至混淆等等。这些不仅是加解密,而是做到数据的混沌,把数据混沌化,以保证上传的数据不被破解。这也是联邦推理和传统推理的本质区别。
Q3:数据平台很多,联邦主要是聚焦在哪些方面?
王健宗:我们联邦的整个平台,包括蜂巢平台是兼容目前很多数据平台的。我们现在是支持Spark和Hadoop的,并且也支持一些传统的非结构化数据。
实际上,大家可以将我们理解为数据平台的增强版本,我们能够兼容传统的数据平台,并且通过一些构建后,底层架构能够兼容各种结构化、非结构化的数据。为了做好联邦学习,我们已经做了一些处理和改进。
Q4:从论文到商业落地中间差了多长时间?有哪些工程的事情要做?
王健宗:虽然好论文应该是来自实际问题,是对实际存在问题的解答,但也会有很多好的论文涉及理论上的创新。从理论到商业落地的周期可能长则数年,短则一到两年。
在我现在做的蜂巢平台里面,我发现一个很实际的问题:传输过程非常慢,因为传输涉及到加密解密过程。这个时候我们就可以做一些实际工作。
比如:首先可以在通讯的时候,在网络编码层中加入一些AI训练过程的加速方法,其次是探索加解密方面是不是有更好的一些算法等。
Q5:蜂巢平台的相关资料很少,如何能够了解与学习?
王健宗:蜂巢平台在设计的时候,我希望它可以作为一个成熟的产品面世。在整个平安这一综合金融体系下,关于蜂巢平台要做的工作是非常多的,如先前列举的银行、证券的案例。
实际上,关于互联网数据也有诸多工作要做,包括来自平安在做智慧城市、智慧医疗方面的数据,是有很多的开发空间。蜂巢平台天然具备联邦智能的架构,并逐步面向市场提供服务。
在后续的工作中,如果我们内部做到足够好,将会进行开源,我觉得这也是未来蜂巢平台的一个发展趋势。相关资料我在很多公开场合都有讲到,大家如果有兴趣,可以共同来探讨、优化蜂巢平台。
Q6:企业场景除金融行业之外,是否还有其他典型案例?联邦学习计算资源如何计费?
王健宗:在过去几年,我一直在做联邦学习,并认知到,只要你有数据,就会存在可以应用的场景。
最近,我们在探讨一些智慧城市的应用。同时发现,在社会治理结构方面存在参差不齐的现象。诸如政府社保、企业投资风控等,都是需要专业的应用模型。
我们在制定解决过程中,很多数据包括政府里面的财务数据都是不互通的,所以我们的平台可能会有应用机会。
关于如何计费,我们在联邦激励中设计有支付机制,另外就是基于企业AI本身的分配模式。
Q7:蜂巢平台对标的竞品是什么?
王健宗:平安的联邦学习平台起步较早,在初期还没有相关的可以对标的竞品,在产品设计初期我以加速AI落地为目标,期望打造一个能够完全自主可控、自主研发的企业级联邦智能平台,赋能人工智能各领域。
经过长时间的沉淀,目前是个天然自适应于联邦智能生态的AI平台产品,它不仅仅具备联邦学习的能力,还引入AutoML理念,汇集了流程自动化、自动数据增强、分布式加速、自动模型压缩、自动调参、自动搭建网络等自动化机器学习尖端技术。
同时,蜂巢的设计严格参照国家金融标准委员会、国家保密标准等国内外相关标准和规范,确保蜂巢能够具备普适性、通用性和鲁棒性。
雷锋网雷锋网雷锋网