国家信息中心大数据发展部:全国一体化大数据中心引领下超大规模数据要素市场的体系架构与推进路径

党中央、国务院高度重视数据要素市场的培育。随着全国一体化大数据中心建设的推进,我国构建超大规模数据要素市场的先天优势逐步具备。梳理了国内外数据要素市场发展现状及我国数据要素市场发展存在的不充分不平衡等问题,分析了原始数据、脱敏数据、模型化数据、人工智能化数据等四种层次的数据要素形态特征,将全社会范围内数据要素的流动路径划分为数据共享、数据开放、数据交易三类,构建了包括技术层、数据层、政策层等的数据要素体系架构,探讨了全国一体化大数据中心具体支撑数据要素市场培育的四条技术路径,最后从加快数据资源化、资产化、资本化、全球化以及强化数据立法和监管等五个方面提出了配套政策建议。

 

33a177be22c84b1da8aee55ac7210625

国家信息中心大数据发展部“一带一路”官网运行处处长 王璟璇

 

“数据”成为新生产要素,与劳动、资本、技术、土地一起构成新经济范式,全球从工业经济时代迈入数字经济时代。重视和利用数据要素的价值,已经成为社会各界的广泛共识和世界各国的重大战略抉择。数据要素市场是将尚未完全由市场配置的数据要素转向由市场配置的动态过程,目的是形成以市场为根本调配机制,实现数据流动的价值或数据在流动中产生价值。

党中央、国务院高度重视数据要素市场的培育。2020年12月,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合发布《关于加快构建全国一体化大数据中心协同创新体系的指导意见》,指出以深化数据要素市场化配置改革为核心,加快构建全国一体化大数据中心协同创新体系。未来,从数据规模和量级看,一体化大数据中心所处理数据将是巨量的,其作为支撑数据流通与交易的基础设施,对我国构建全球领先的超大规模数据市场将起到重要支撑与推动作用。

一、国内外数据要素市场的发展现状

近年来,随着全球各国鼓励和推动数据要素市场建设,国内外均涌现出一批有一定影响力的数据交易市场。总体来看,国内外现有数据交易平台以API接口、数据包、人工智能工具、数据定制等产品为主,交易的数据覆盖脱敏数据、模型化数据和智能化数据。部分平台还提供数据加工、数据应用、解决方案、数据质量评价、行业报告等产品和服务。

(一)总体发展情况

国外数据交易平台自2008年前后开始起步,发展至今,既有美国的BDEX、Ifochimps、Mashape、RapidAPI等综合性数据交易中心,也有很多专注细分领域的数据交易商,如位置数据领域的Factual,经济金融领域的Quandl、Qlik Data market,工业数据领域的GE Predix、德国弗劳恩霍夫协会工业数据空间IDS项目,个人数据领域的DataCoup、Personal等。除专业数据交易平台外,近年来,国外很多IT头部企业依托自身庞大的云服务和数据资源体系,也在构建各自的数据交易平台,以此作为打造数据要素流通生态的核心抓手。较为知名的如亚马逊AWS Data Exchange、谷歌云、微软Azure Marketplace、LinkedIn Fliptop平台、Twitter Gnip平台、富士通Data Plaza、Oracle Data Cloud等。目前,国外数据交易机构采取完全市场化模式,数据交易产品主要集中在消费者行为趋势、位置动态、商业财务信息、人口健康信息、医保理赔记录等领域。

国内方面,2015年8月,国务院印发《促进大数据发展行动纲要》,提出引导培育大数据交易市场。2016年12月,工业和信息化部印发的《大数据产业发展规划(2016-2020)年》中强调,要“鼓励数据交易发展”。在政策的积极指引下,国内大数据产业链雏形初步形成,交易需求大增,各类大数据交易中心如雨后春笋般在全国各地成立。国内大数据交易机构起步于2015年,据课题组调研,截至2019年底,已有近80家大数据交易平台投入运营,较为知名的如贵阳大数据交易所、上海数据交易中心、华东江苏大数据交易中心、中原大数据交易中心、优易数据网等。除上述专业数据交易平台之外,与国外类似,国内IT头部企业亦在构建各自的数据交易平台,如:阿里云、腾讯云、百度云各自旗下的API市场,以及京东万象、浪潮天元等[2]。课题组研究发现,国内所交易的数据产品以“粗放式”为主,相似度高,开发程度及附加值较低。数据主要来自少数主流数据供应商,如大型互联网企业、运营商,以及各产业头部企业等。

(二)数据要素市场不平衡不充分问题较为突出

当前,我国数据要素市场发展不平衡不充分问题较为突出,主要表现在以下三个方面:

第一,从总量上看,当前我国数据要素市场场内交易发育不充分、场外交易乱象频发问题比较突出。据课题组调研,目前我国数据交易平台普遍规模较小,超过50%的数据交易平台年流量低于50笔,大量处于停运或半停运状态,大量数据需求只能通过场外数据“灰市”甚至“黑市”完成交易。特别是大量互联网企业广泛收集个人身份信息,并进一步关联归集社交、生活、购物、出行等数据作为用户“精准画像”依据,这些数据一旦被泄露,就会成为“暗网”和数据“黑市”中的热门交易产品。近年来,涉及千万量级的用户隐私数据泄露事件已经不下数十起,主要来自“内鬼”盗卖和黑客两大渠道。

第二,从结构上看,数据要素市场部门壁垒、区域壁垒和产业壁垒依然突出。在政府层面,政务数据开放的动力机制尚未很好建立。政府数据开放刚刚起步,全国开放数据集规模仅为美国的约11%,企业生产经营数据中来自政府的仅占7%。在区域层面,各地政府牵头组建的数据交易中心同质化竞争严重,且往往受限于区域壁垒,服务半径很小,如武汉一度同时存在华中、长江、东湖三个数据交易中心。由于缺乏统一的数据要素市场交易规则和有效定价机制,导致每个交易平台都只是独立的小市场,阻碍规模化发展,服务能力不足,严重缺乏公信力。在行业层面, 近年来互联网公司阵营划分界限逐步明晰,垄断现象开始凸显,形成“阿里系”“腾讯系”“百度系”等数据共享阵营,彼此之间数据壁垒森严,阿里数加、京东万象、腾讯大数据、百度AI交易平台等头部企业交易生态体系彼此竞争激烈,阻碍了数据要素市场的一体化步伐。

第三,从实际运行看,支撑数据要素流通的交易要件体系尚未有效建立。数据尚不具备作为一种生产要素所必须的商品化、资产化机制,无法界定权属、无法有效定价、无法可信流通,企业获取政府数据、政府获取企业数据或企业之间交换数据,均存在巨大障碍。

在确权层面,数据作为一种虚拟环境物品,其权利体系的构成与界定与传统现实物品差异很大,数据权属生成具有主体多元、过程多变的特点,且同时存在国家主权、产权和人格权三种确权视角[3-5],彼此之间难以通约,需要对传统民事权利体系理论进行扩充和完善。目前,全球数据立法规制主要包括欧(隐私权导向)美(财产权导向)两大体系,前者对数据过度保护,数据产业发展活力不够;后者则片面强调市场规则,个人隐私难以保障。我国数据确权原则尚不清晰,导致政府和产业无所适从,缺位、越位、错位现象时有发生。

在定价层面,不同于大多数商品“先了解后使用”的模式,多数数据产品的了解过程与使用过程重叠,导致数据可用性无法事先确定[6],买卖双方对于数据价值的评估存在“双向不确定性”[7],再加上数据具有高固定成本低边际成本[8],产权不清[9],来源多样、管理复杂和结构多变[10]等特征,使得数据要素定价难度远大于其他产品。目前,大量零散的数据交易定价均为针对特定应用场景的非标准化定价,缺乏统一的数据定价规则。

在流通层面,缺乏权威、统一的数据可信流通基础环境,数据交易双方信任机制难以有效建立。在交易事前阶段,由于当前绝大多数交易均依靠“点对点”场外交易方式,缺乏针对交易对手方和数据产品的评估体系,数据质量难保障,脏数据、假数据随处可见。在交易事后阶段,对于交易双方而言,数据“买定离手”,如果缺乏可信的交易第三方监管,一方将数据移交另一方后,彼此均很难控制对方的数据使用流向,因此建立信任关系十分困难。

二、数据要素市场的要素特征与构成

我国人口众多,经济主体数量庞大,数据应用领先全球,未来数据总规模及增速将为全球首屈一指,构建全球领先的超大规模数据市场先天优势已经具备。党的十九届四中全会首次增列数据作为生产要素,有助于我国实现超大规模数据和超大规模市场的优势双重叠加,抢抓数字经济全球竞争新赛道优先权[11]。作为生产要素,数据具有区别于土地、资本等传统生产要素的特点。培育超大规模数据要素市场,有必要厘清要素对象的特征、流动规律,从而构建相对健全的体系架构。

(一)数据要素的四层次形态

数据是事实或观察的结果,是对客观事物的逻辑归纳。数据按照结构,可分为结构化数据、非结构化数据和半结构化数据;按照反映事物的本体,可划分为自然人、法人、车辆、物品、地点、事件等。国家强调建立生产要素由市场评价贡献、按贡献决定报酬的机制,因此,在数据要素市场建设中,应当更注重数据所传递的价值和数据开发加工的层次。在传统信息理论中,根据加工情况通常将信息分为零次信息、一次信息、二次信息、三次信息。在此理论上,郭春芳[12]按照加工处理深度不同,将大数据信息服务分为零次大数据信息服务、一次大数据信息服务、二次大数据信息服务、三次大数据信息服务。按照信息和数据开发层次分类的原则,在国家政策文件中也得到了呼应,《关于加快构建全国一体化大数据中心协同创新体系的指导意见》(以下简称《指导意见》)明确指出,要“完善覆盖原始数据、脱敏处理数据、模型化数据和人工智能化数据等不同数据开发层级的新型大数据综合交易机制”。

按照《指导意见》要求,参照信息理论对信息价值的分类,在未来数据要素市场建设中,按照流通、交易数据要素的价值深度,可明确为四种要素形态(参见表1):一是原始数据(0阶数据),即通过物理传感器、网络爬虫、问卷调查等途径获取的未经处理、加工、开发的原始信号数据,零次数据是对目标观察、跟踪和记录的结果,例如气象领域的高空卫星原始信号、网络领域的网络流量数据包等。二是脱敏数据(1阶数据),即为便于数据流通,确保数据安全和隐私保护,需要将原始数据中敏感或涉及隐私的数据进行脱敏处理后形成的数据。前两种要素形态都是数据本身。三是模型化数据(2阶数据),如互联网企业用于精准营销的用户画像“标签”,其本身也是一种数据,但需要在原始数据基础上结合用户需求进行模型化开发,要素形态是“数据+服务”。四是人工智能化数据(3阶数据),即在前三层数据之上结合机器学习等技术形成的智能化能力,比如人脸识别、语言识别等,其主要依托海量数据实现,要素形态则是服务。

640-47

此外,由于数据本身难以脱离其依托的软硬件基础环境独立存在,在实际运行中,数据流通与硬件(算力)和软件(算法)密不可分,特别是二阶和三阶的数据交易流通场景实际上是“数据+算法+算力”的综合体流通。

(二)数据要素流动的三条基本路径

要素流动是经济活动向一体化发展的体现[13]。经济学中对于生产要素流动的研究起源自国际贸易中的绝对优势和相对优势理论,并逐步延伸到区域和产业间的要素流动问题[14]。卡斯特尔斯认为[15],信息和通信技术的高度发达将改变实体经济的空间概念,世界经济将由“地点空间”(space of place)转向“流动空间”(space of flows),后者就是跨越广大领域而建立起功能性链接。路紫[16]认为,信息通信能够将遥远地方的节点和城市中心联系在一起,使得基于数据、信息和知识连接构成网络城市。与传统要素相比,数据要素流动具有明显的跨时空性,空间距离的远近不再是首要影响因素,有必要从数据本身的特性出发思考数据要素流动问题。潘泰利将数据要素的流动路径划分为数据共享、数据开放、数据交易三类[17]。基于此,结合我国国情,可以将全社会范围内数据要素的流动路径划分为数据共享、数据开放、数据交易三类。

一是数据共享,即政府内部各部门为开展业务需要而进行的数据资源共享。在我国,作为要素流动路径,数据共享的提出要明显早于数据开放和数据交易。2002年,中共中央办公厅、国务院办公厅发布《国家信息化领导小组关于我国电子政务建设指导意见》,明确提出加强政府间数据资源共享的任务。数据共享不直接产生数据的商业价值,但数据要素的流动有效支撑了政府有关部门全面掌握社会经济运行现状、规律、问题,支持政府更好发挥经济调控、市场监管、社会管理、公共服务作用,社会效益明显。

二是数据开放,即政府数据面向全社会的开放。数据开放行动起源于欧美。但欧美国家目前采取不同开放政策,美国将政府数据看作公共物品,向社会免费开放,而欧洲则采取补偿模式,政府在开放数据时可收取一定费用[18]。目前,我国总体沿用美国的免费数据开放模式,也有部分研究者探讨了政府数据面向社会提供增值收费服务的可能模式[19]。

三是数据交易。相比前两者,数据交易是影响数据要素参与分配的关键流动路径。其具体场景应包括三个部分:其一是实现公共数据普惠化开放的基础上,探索面向特定对象的增值化服务。2021年3月,《第十四个五年规划和2035年远景目标纲要》明确指出,要“开展政府数据授权运营试点,鼓励第三方深化对公共数据的挖掘利用”;其二是政府采购社会化数据,弥补政府数据的不足;其三是市场化主体之间的数据交易。当前,国内外数据要素市场的建设基本以数据交易为核心。

广义而言,这三条数据流动路径都会对经济社会发展产生促进作用,因此都应当纳入数据要素市场体系的范畴之中,目前中央相关文件也基本上秉持这一观点。狭义而言,当前需要推动建设的数据要素市场,则是上述三条路径中的第三条,即需要发生交易结算场景的专门性服务场所。

(三)数据要素市场的体系架构

数据要素市场旨在实现数据要素的市场化配置。从这个市场构成看,首先核心是汇集海量数据要素,特别是政府数据、企业数据,形成要素生态。其次,搭建促进数据要素流动的硬件(算力)和软件(算法)环境,结合当前数据要素市场存在的普遍问题,需在底层技术路径上构建数据资源调度、数据可信流通、数据综合治理、数据安全防护等技术体系,为数据要素市场的运转提供基础设施支撑。再次,数据要素市场化配置需要建立在明确的数据产权、交易机制、定价机制、分配机制、监管机制、法律范围等保障制度基础上。因此,在设计顶层政策框架时,要进一步完善数据公共属性的权属安排,建立经济激励驱动的财税金融制度和立法监管体系。政策制度层、数据层和技术层都应当纳入数据要素市场体系的范畴之中,构建完善的数据要素流通的交易要件(参见图1)。

640-48

三、依托全国一体化大数据中心,构建超大规模数据要素市场新基座

2020年12月,《关于加快构建全国一体化大数据中心协同创新体系的指导意见》指出,全国一体化大数据中心的功能包括完善数据流通共性支撑平台,优化数据要素流通环境,牵引带动数据加工分析、流通交易、软硬件研发制造等大数据产业生态集聚发展。

可以说,全国一体化大数据中心是培育超大规模数据要素市场的技术层“基座”,作为新型基础设施为数据要素市场培育提供强有力的技术支撑。

按照规划,目前全国一体化大数据中心由“数网”“数纽”“数链”“数脑”和“数盾”构成,其中“数网”和“数纽”主要是对各类数据中心和云计算资源进行统筹和调度,为数据要素的底层流动提供软硬件保障;“数链”是推动数据流通融合的重要环节,其作用是在对数据资源进行组织加工的基础上打造数字供应链体系以满足跨主体数据流通和综合治理需求,包括数据组织关联、数据可信流通、数据质量评估等模块;“数脑”主要是应用导向,为政府治理和产业发展提供决策支持;“数盾”则是为整个全国一体化大数据中心提供可信安全计算存储环境,形成核心关键环节的自主可控能力。

面对超大规模数据要素市场培育的实际需求,全国一体化大数据中心作为“新基座”,其五大模块将分别为数据要素市场提供以下四方面支撑(参见图2)。

640-49

(一)优化数据要素算力资源调度

算力是数据要素发挥价值的基础和引擎。从区域分布看,当前我国算力资源分布总体呈现“东部不足、西部过剩”的不平衡局面。按照全国一体化大数据中心的建设要求,“数网”和“数纽”的建设将推动国家算力资源空间布局优化配置,推进各区域数字基础设施和应用空间布局优化,打通国内数据要素循环,促进自由流通、按需配置、有效共享数据要素市场的形成。

从技术层面看,有以下两个方面:一是推动枢纽节点间建设数据中心直连网络,扩容通信带宽,降低数据传输时延,支持引导东部地区非实时算力需求向西部转移,构建超大规模数据要素市场的新型基础设施支撑体系,帮助中西部地区依托数据中心就地发展偏劳动密集型的数据加工产业,将“瓦特”产业转化为“比特”产业,形成以数据为纽带的东中西协调发展新格局;二是建设算力资源统一监测调度平台,对异构软硬件资源进行逐一适配、统一整合,实现软硬件基础设施资源的统一管理、统一分配、统一部署、统一监控,为各地政府和社会企业提供按需获取的云计算、跨域跨网信息共享交换、多级异构云平台协同调度能力,实现数据要素的高效流转和联通共用。

(二)创造数据要素可信流通环境

相比于组织内部的数据流通,组织之间的壁垒是一块沉睡数据的集聚地,尤其是政企间数据的共享流通还处于起步阶段,距离全面激发数据潜在价值仍有一定差距。全国一体化大数据中心的建设,能够解决如下两个方面的问题:

第一,建立适配不同保密要求场景的统一数据要素流通环境(参见图3)。在低保密场景下,基于“明文数据共享交换+数据沙箱”技术,实现数据“阅后即焚”;在中保密场景下,构建以密文数据交换为主的多方安全计算环境,实现数据“可用不可见”;在高保密场景下,建立以联邦学习为主的联合建模环境,实现“数据不出门”。

640-50

第二,构建覆盖事前事中事后各环节的信任配套设施。在事前阶段,基于区块链、算法黑箱审查、CA认证、时间戳、数字签名等技术,构建覆盖交易法人、交易对象、交易过程、交易合同的数据公证体系,解决数据交易权责法律边界问题;在事中阶段,建立基于区块链的政企可信数据联盟,构建数据授权存证、数据溯源和数据完整性检测系统,打造安全可控、有活力的数据流通生态,实现数据要素按需取用、精准调度、规定用途用量;在事后阶段,充分发挥社会信用体系在实现数据可信流通方面的关键作用,强化数据流通交易全流程的信用监管,培育多层次市场需求,形成立体化可信交易网络,从而更好地激发数据要素市场活力。

(三)构建数据要素综合治理体系

尽管我国各地数字政府和智慧城市建设已经初具规模,但距离实现大数据支撑、全景式呈现、扁平化指挥、科学化决策要求还有一定差距。长期以来,可以用于支持决策的信息未能及时收集、筛选、汇聚、整合、处理和加工,无数可用、用而不准、准而不深现象较为突出,“用数据说话、用数据决策、用数据管理、用数据创新”的治理机制尚未完全建立。面对这一问题,“数脑”建设将促进各级各类政府数据和社会数据实现统一规划、统一管理,倒逼数据要素的标准化稽查、清洗、去重、校验和修复,建立起数据要素质量综合评估体系,进而实现数据要素的价值化、资产化。

从数据治理和定价的角度看,在数据要素形态中,0阶和1阶数据可沿用传统的信息产品定价模式,采用协议定价、按次定价等方式实现价格生成。2阶和3阶属于数据服务定价,可采用收益定价模式,在清晰界定数据用途用量基础上,按照不同数据提供方对总体模型改进的贡献度,并结合数据质量和数据成本评估等形成价格信号,各类市场交易主体通过区块链共识算法实现博弈定价。

(四)搭建数据要素安全防护体系

数据安全是“人治”与“机治”协同的过程,“人治”依靠建立信息安全相关的规章制度和管理标准进行约束,“机治”则依靠技术手段实现访问控制、权限管理等功能。在全国一体化大数据中心体系中,通过风险识别与防护技术、数据脱敏技术、数据安全合规性评估认证、数据加密保护机制等实现对数据要素的安全保障。例如,通过敏感数据抽取、规则匹配、数据转换、任务调度、任务状态监控等技术,加强数据流转过程的数据脱敏、加密,实现全流程安全漏洞监控;再如对数据开展分类分级管理,面向多元化数据交易场景,按照数据价值、内容敏感度、影响和分发范围对数据进行敏感级别划分,构建数据权限管控体系。

四、推进超大规模数据要素市场建设的配套政策建议

数据要素市场的建立,是加速数据要素流通、合理化数据资源配置的先决条件。全国一体化大数据中心为超大规模数据要素市场构建提供了强有力的基础设施支撑,同时一体化大数据中心协同创新体系的构建,也离不开完善的数据要素市场环境,两者相辅相成。未来在推进全国一体化大数据中心建设过程中,还需要协同解决以下几项配套政策,助力超大规模数据要素市场的加快培育。

一是筑牢“数据资源化”平台和机制支撑。依托全国一体化大数据中心体系建设,超前规划建设数据要素新型基础设施体系,在京津冀、粤港澳、长三角、成渝等基础条件较好的地区建设一批区域大数据中心,策划实施“东数西算”“南数北算”等跨区域数据资源调度体系,畅通数据可信流通通道。在机制层面,加快推动政企数据平台对接,探索形成政企数据融合的标准规范和对接机制,加速全社会各类数据融合。

二是完善“数据资产化”机制设计。加快“国家-区域-省”三级数据资产交易市场体系建设,规范引导互联网头部企业数据交易生态,探索场外交易信息披露和场内交易标准规范相结合的引导机制,完善事前主体登记、数据确权,事中交易撮合、报价磋商,事后可信流通、争议仲裁的数据资产交易要件体系。

三是建立“数据资本化”财税金融政策。超前研究建立全球领先的数据资本化财税金融政策体系,探索 “数据出让金”制度,推动地方政府从“土地财政”逐步转向“数据财政”良性模式,探索企业共享公共数据的税收抵扣政策,完善适应数据资本化的配套金融政策。

四是加快推动“数据全球化”要素流通体系。积极探索“数据特区”模式,鼓励深圳中国特色社会主义先行示范区、海南自贸区(港)、中新(重庆)战略性互联互通示范等特定区域制度创新,加快离岸数据中心和全球数据港建设,培育形成全球数据要素生态体系,有力支撑对外开放和跨国企业业务开展中的跨境数据需求。

五是强化数据立法和监管配套机制设计。在顶层机制方面,依托促进大数据发展部际联席会议等,建立强有力的数据要素统筹管理机制。在确权立法方面,探索与欧美不同的“第三条道路”,在承认保护隐私权和财产权基础上,强化数据公共品属性,确立个人、企业、政府三边确权体系和技术框架。在监管创新方面,坚持放开事前审批与强化事中事后监管并重,实现正面引导清单、负面禁止清单和第三方机构认证评级相结合,强化多主体协同和线上线下联动治理。在风险防范方面,完善数据市场风险预警和应急处置,探索面向头部企业的数据安全备案机制,切实强化数据安全和数据隐私保护。

来源:《电子政务》2021年第6期

王璟璇,窦悦,黄倩倩,等. 全国一体化大数据中心引领下超大规模数据要素市场的体系架构与推进路径[J]. 电子政务,2021(06): 20-28.

11-13_215914-63

作者简介:

王璟璇(1984—),女,博士,副研究员,国家信息中心大数据发展部“一带一路”官网运行处处长,研究方向为大数据分析、对外传播。

窦悦(1989—),女,助理研究员,北京大学信息管理系博士研究生,研究方向为数据服务、数据治理。

黄倩倩(1993—),女,研究实习员,研究方向为机器学习、数据治理。

童楠楠(1989—),女,助理研究员,国家信息中心大数据发展部规划与应用处副处长,中国人民大学信息资源管理学院博士研究生,研究方向为信息分析、数字治理。

*基金项目:国家社会科学基金青年项目“使用大数据方法开展社会政策评估的探索性研究”(项目编号:18CSH018);国家社会科学基金青年项目“‘一带一路’对外传播话语体系建构研究”(项目编号:18CXW007)。

【END】

为您推荐

发表回复