数据使用的负外部性及数据要素监管

本文原载于《金融时报》2021年3月29日-11版

党的十九届四中全会正式把数据作为国家新兴基础性战略资源列为生产要素。如何培育一个符合我国国情的数据要素市场引发各界高度关注,隐私计算行业也因此迎来飞速发展机遇。目前社会各界对数据要素化的认识,大多聚焦于实现数据安全融合与数据交易流通带来的巨大价值,往往忽略了数据大规模使用可能带来的潜在风险,尤其是其负外部性。本文拟从数据使用的负外部性说起,探讨数据要素监管的必要性,以及合理选择隐私计算技术方案对数据要素监管的重要性。

一、有必要对数据使用的负外部性进行监管

负外部性(Negative Externalities,也称负面外部性)是指在无管制的状态下,个人或企业不必完全承担其行为带来的社会成本。例如化工企业把污水排放到河流中、烟民在公共场所抽烟、廉价雇佣童工等等。这些行为在给己方带来利益或满足的同时,都对他人或社会带来不同程度的负面影响,但行为方却不必完全承担这种负面影响的后果或成本,因而构成了负外部性。

社会化的数据使用,存在着巨大的负外部性。我们可以看到,拥有数据的组织能够获得大量的经济收益,但是收益带来了多大的负外部性,目前并没有精确的度量和举证方式。数据的负外部性主要表现在:

1.数据在使用中可能会泄露个体的信息隐私或集体机密,侵犯他人的权利或集体(国家)利益;

2.使用数据的群体相对减少了其他群体的选择权。比如, 基于个人数据画像产生的个性化推荐相对削弱了非应用群体和产品的选择权和被选择权

3.大规模使用大数据/人工智能技术的潜在社会和经济风险尚未完全清晰,即使这种风险事件已经发生,受害者也很难举证是大数据/人工智能造成的伤害,政府也较难强制相关行为人来弥补这种伤害。大规模的数据使用如果不被监管,则无法对其负外部性进行管控。

数据监管的目的就是防范和管控数据使用的负外部性。由于数据使用方一般只关注自身的利益和成本,如果没有合理的制度来约束数据使用对他方或社会造成的负面影响,很可能会因此给他人或社会带来伤害或损失。这里的他方可以是自然人(比如个人敏感信息被滥用),可能是社会(比如大数据杀熟)、也可能是国家利益(比如危及国家安全的数据被泄露)。因此,在数据要素化的制度设计过程中,必须要高度重视数据使用的负外部性风险。如同缺乏对环境污染的监控与惩治就不可能有“绿水青山”一样,国家必须对数据使用的负外部性进行有效管控,保障数据要素市场的健康发展和社会福祉不因此受损。

我们可以借鉴人类社会对于其他要素的负外部性进行治理的丰富经验,通过相关的约束把外部性的问题内部化。主要包括:

1.通过立法划定行为边界,由政府对非法和违规的行为严加惩治,但又不干预正常的社会或经济行为;例如通过《劳动法》对劳动力市场进行约束和规范,但具体的雇佣行为由各劳动者和用人单位自行约定。这种情况多存在于政府有直接的手段来监督当事人的行为,使违规和违法行为较难隐匿。

2.通过税收、产权分配等经济手段,将有关经济行为造成的社会成本直接纳入到相关主体的行为成本范畴,实现个体成本与社会成本的匹配;例如为补偿自然资源开采而征收的自然资源开采税、为 “绿水青山”而成立的全国碳排放权交易等。

3.在法律划定的行为红线之内,通过在一定程度上集中监管交易行为的方式,对可能出现的违规和违法行为进行集中的监测和管控,例如规定公开发行的股权交易必须在证券交易所进行等等。然而,对于数据这种具有特殊属性的生产要素,监管也需要全新的技术思路。

二、数据要素监管需要对监管友好的技术架构

随着大数据和人工智能技术的成熟,数据的主要使用对象已经由人变为计算机,对数据要素的管理也必然需要采用新的技术手段。

当前,社会各方对数据使用风险的认识已较为清晰,主要是信息泄露和数据滥用。隐私计算(包括基于密码学的多方计算、基于明文的数据脱敏、差分隐私和联邦学习等)由于它的“数据可用不可见”技术特性,在旺盛的数据融合计算需求的推动下近年来开始蓬勃发展,并被寄予赋能数据要素交易流通的厚望。隐私计算技术的基本功能,是在充分实现数据价值挖掘的同时,保护数据提供方的数据安全,做到“可用不可见”,然而对于数据要素外部性的考量,我们认为可监管性,也是隐私计算技术的必要组成部分。

坚持把“科技向善”的价值观根植于隐私计算技术架构设计和应用。技术是中性的,以人民大众的利益为出发点和落脚点,才能实现隐私计算技术为全社会服务的目标。实践表明,新技术是否具备可被监管的创新初宗和设计架构,是检验其是否能够服务于广大人民群众的根本利益、是否符合社会主义核心价值观的“试金石”。如同区块链技术,不可监管的代币发行被视为非法金融活动,而监管友好的区块链则能推动构建现代可信体系。充分考虑监管需求而设计的隐私计算架构,才能在发挥数据“可用不可见”技术优势的基础上,有效防范和管控数据融合使用的负外部性风险。

以 “管理中心化、信任去中心化”作为数据融合使用体系的顶层设计。数据要素市场将是一个庞大的、复杂的、多元化的市场。在这个市场的培育过程中,应该使用一种便于管理的分布式代理计算架构,实现物理上的分布和逻辑上的集中相统一,有机地把数据安全和管理效率融为一体。“信任去中心化”是指分布式的隐私计算平台和多方数据物理汇聚相比,具有打破单点信任和分布式高安全性等基础优势,减少了数据集中带来的信息安全和经济风险;“管理中心化”是指所有计算任务由计算平台统一进行调配管理,最优化运行和管理效率。但更重要的是,通过中心化的管理,在数据使用中可以引入监管的机制,采用完全可记录、可验证、可追溯、可审计、可解释的技术架构,做到数据使用可监管,不仅保护数据提供方的数据安全,同时提供了分析和监管数据要素外部性的基础设施。

三、直连模式的隐私计算让数据监管成为难题

当前,产业界热衷于讨论比较各种隐私计算技术的特点和优劣,例如多方计算、联邦学习、可信计算等。技术自身的属性是客观的,技术架构是人为设计的;不同的底层逻辑和设计意图必然带来应用上的巨大差异。认真讨论和仔细鉴别不同的技术架构背后数据使用的模式差异,对它们相应的负外部性风险作出前瞻性判断,才能有效防范和管控数据使用的负外部性风险。

隐私计算技术在设计过程中,主要有两种技术架构:一种是各数据提供方相互直接连接的直连模式,另一种是使用代理计算的平台模式。它们的底层逻辑差异决定了这两种数据融合使用模式的可监管性差异。

在直连模式中,各数据提供方自行扮演计算方角色,数据使用在各数据方之间形成一对一直接连接的闭环,无法为外界提供集中审计和监管的功能。这个问题是由直连模式的技术架构造成的,因此即使具备存证功能也无法解决可监管性问题。

在代理计算的平台模式中,各参与方不直接参与计算,而是由一组“实现去中心化,管理中心化”的服务器代理执行计算协议,不仅保障数据“可用不可见”,而且做到了“可控可监管”,多台代理服务器交予多个不同控制方,由此形成一个去中心化的信任机制。在代理计算服务器权限之上,往往设置一个具备公信力的管理方,担任“中心化管理”的角色。代理计算平台上发生所有的操作都由区块链或公信的数据库进行记录存证,以便追溯审计。

在直连模式下,第三方很难发现和监督数据融合使用中的负外部性风险,特别是万一这种隐私计算模式被不法分子非法利用,将放大以下两方面的负外部性:一是数据交易方打着隐私计算的幌子,暗地里进行明文数据交易,直接侵害个人信息隐私或企业商业秘密;二是两方或多方数据虽然以“可用不可见”的方式进行融合使用,但任何其他方无法有效得知有关数据的具体用法用途。因为无法有效对直连模式进行监管,这种模式很难符合对数据融合使用的负外部性进行有效防范和管控的要求。

直连模式的隐私计算,在技术架构方面的特性使政府和社会无法对数据融合使用带来的个人隐私保护、国家数据安全和有意规避监管等负外部性实施有效的监督和管控,广泛地使用可能会导致数据要素市场建设初期的“虚假繁荣”和过后“一地鸡毛”的尴尬局面,值得社会各方高度关注。

作者:徐葳、杨祖艳

(徐葳,清华大学交叉信息研究院长聘副教授,清华大学金融科技研究院副院长兼区块链研究中心主任;杨祖艳,华控清交信息科技(北京)有限公司高级战略总监)

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )