放假通知

方滨兴:破解数据要素流动与隐私保护相冲突的局

时间:2023-01-12

微信图片_20230112093713.jpg

方滨兴,中国电子信息产业集团有限公司首席科学家,中国工程院院士,中国中文信息学会理事长、中国标准化协会网络与信息安全技术委员会主席、中国网络空间安全人才教育联盟理事长、中国网络空间新兴技术安全创新联盟理事长。曾任北京邮电大学校长、国家计算机网络应急处理技术协调中心主任、中国网络空间安全协会理事长;先后担任过中国互联网协会、中国通信学会、中国计算机学会副理事长。先后获国家科技进步一、二等奖六次,省部级奖十余次,完成著作五本,文章四百余篇。目前主要从事社交网络、网络靶场、网络空间新技术安全(如云安全)等研究工作,同时从事网络空间安全人才教育方面的工作。

记者:如何平衡数据要素流动与数据隐私保护之间的关系?

方滨兴:数据已成为国家战略资源和关键生产要素,随着数字经济时代的到来,建设安全可控的数据开放平台,培育数据交易市场成为当务之急。为此,国家提出推进政府数据开放共享,加快推动各地区各部门间数据共享交换、公共数据开放和数据资源有效流动。但是,数据安全关乎国家安全、商业机密及个人隐私,需要处理好数据开放利用与隐私保护之间的关系。我们看到,国家相继出台了《数据安全法》《个人隐私保护法》等法规政策,要求在加快培育数据要素市场的同时,还要对数据进行分类分级的安全保护,实现数据安全与数据开放利用并重。

实现数据安全与数据开放利用并重,其实质是多目标优化的问题,用简单的最优目标的求解方法很难达到,需要在数据要素流动和数据安全之间建立一种平衡。从数据流动和计算模式两个技术维度可以形成四大类的解决方案。

一是,在集中计算模式下实现“数据可用不可见”。典型技术如李凤华教授提出的隐私计算,通过隐私泄露代价和概率的计算模型来求得所接受的计算方法与保护结果。

二是,在协同计算模式下实现“数据可用不可见”。典型技术如姚期智院士提出的安全多方计算,允许多个数据所有者在互不信任的情况下进行协同计算,然后输出计算结果。常见如混淆电路、不经意传输,同态加密等协同计算技术。

三是,在协同计算模式下实现“数据不动程序动”。数据不流通的情况下需要算法程序流动,典型技术如杨强教授提出的联邦学习,主要是采取联邦学习框架,将集体学习算法程序分散到各数据拥有方,然后再将训练参数传回来以实现数据利用。

四是,我们提出的在集中计算模式下实现“数据不动程序动”。其基本思想是要构造一个可信的执行环境,即通过构建“模型加工厂”为数据开放利用提供一种可用于加工模型的安全可控分析平台,保留所有权释放使用权,实现隐私保护与数据流动共存的最优目标。

记者:模型加工厂如何实现“保留所有权释放使用权”?

方滨兴:数据开放利用需要依赖与数据无关第三方,而且高度依赖数据管理部门(模型加工厂)的可信。比如政府部门拥有大量数据,但是因不具备计算平台而无法实现数据挖掘利用,数据红利迟迟无法释放。将数据放到拥有计算能力的可信机构中,让程序动起来成为必然选择。

首先,核心方法——数据不动程序动。采用网络靶场技术构建一个可信计算平台(模型加工厂),使得外部程序可以在平台上运行,隐私数据以只具有中间特征的裸数据的形式放在该平台中。在通过数据沙箱完成程序调试后,由摆渡过来的外部程序对裸数据进行模型加工,程序所有者(客户)与程序本身完全脱离,不再能通过操控程序来直接看到数据。

第二,关键手段——分享价值不分享数据。采取防水堡等信息过滤技术,确保外部程序在可信计算平台中运算后,向外输出只能是参数之类的宏观信息,而非微观的隐私数据,由此确保该可信计算平台仅仅以模型加工厂的形式提供服务,而不会将隐私数据泄露出去。

第三,辅助模式——数据可用不可见。可信计算平台在支持用户数据调试期间,对外提供置换数据供使用者测试并调试。使用者根据所提供的经过变换的样本数据进行潜在价值的挖掘分析,以便确定从平台数据中能够生成什么样的模型,进而判断是否要进入模型加工厂进行数据挖掘。

第四,扩展模式——保留所有权释放使用权。可信计算平台可提供远程控制模式,让数据的所有者来远程决定可以向谁赋予数据使用权。例如,通过加密网关所有者可将提交的数据加密,所有者授权后才能自动解密读出,以此达到数据所有者只交易使用权不交易所有权的目的。

至此,模型加工场形成了数据治理的4个核心要素:“数据不动程序动”“数据可用不可见”“只分享价值不分享数据”和“保留数据所有权,释放使用权”。同时,通过设置数据授权管理机制等,实现“保留所有权、交易使用权”,让平台里的内部人员不会随便把数据拿走,管理者也不能随意动数据,实现对全量数据(裸数据)的安全加工。而且可信计算环境也包括人员可控,能够通过技术手段落实责任制。

2021年,“中国网民网络安全感满意度调查”共获得了两百多万份的调查信息,每份调查含有两百多项数据,这些数据因涉及到个人信息而不能公开,但在这两百多万份的信息中隐藏着网民上网规律、对网络社会的感知、对网络状态认可情况等有价值信息需要挖掘。我们基于鹏城云脑构建了AI靶场(模型加工场),将调查数据以可信方式托管到鹏城云脑上,来支持数据不动程序动的人工智能模型挖掘模式。通过组织“2021年数据挖掘和人工智能建模大赛”,基于模型加工场安全开放来自广东省的全国网络安全满意度调查数据,共有127支队伍报名参赛,最终挖掘出真实有价值的增进网民网络安全满意度的数据模型。同理,各个城市的数据治理也可以依托央企、国企、政府部门来示范构造自己的模型加工厂,吸引数据拥有者使用模型加工场,对外开放数据,促进数据要素流动和价值生成。

记者:除了通过可信计算平台交易数据使用权之外,通过网络安全保险来转移数据安全风险正方兴未艾,对此您怎么看?

方滨兴:网络安全风险的解决路径有两种,一种是风险缓解,一种是风险转移。企业在购买网络安全产品时会自觉关注投资回报,即建设投入与预期收益要成比例,通常会选择具有平均价格水平的产品来抵御基础网络安全风险,实现风险缓解。但当边际收益开始降低时,企业面对残余风险,即使意识到也很难有动力去投入增量建设成本。此时,可以选择通过购买网络安全保险的方式转移残余风险。

由于网络勒索攻击事件的频发和欧盟《通用数据保护法案》(GDPR)等法律条例的正式生效,2020年以来,国际网络安全保险市场规模呈明显增长趋势。随着我国《网络安全法》《数据安全法》《个人信息保护法》陆续出台和实施,较完善的数据安全法律体系为在网络安全领域引入保险机制,解决我国网络安全风险问题,提高网络安全风险治理能力打开了窗口期。2021年7月,工信部发布《网络安全产业高质量发展三年行动计划(2021-2023年)(征求意见稿)》提出,要“探索开展网络安全保险。面向电信和互联网、工业互联网、车联网等领域,开展网络安全保险服务试点。加快网络安全保险政策引导和标准制定,通过网络安全保险服务监控风险敞口,鼓励企业构建并完善自身网络安全风险管理体系,强化网络安全风险应对能力”。对数据开放利用与数据安全保护而言,网络安全保险可作为可信计算平台的有益补充,一方面可通过发展网络安全保险,转移数据安全风险;另一方面,建立交易数据使用权的可信计算平台,保留数据所有权,释放数据使用权。最终,共同助力构建新型网络安全生态,赋能数字经济的崛起与发展。