▶价值互联网阶段(2014年至今),核心需求是知识构建,关键问题是如何在不可信的网络上交换可信数据以形成知识。数字经济以数字化的数据作为关键生产要素,用以产生信息、知识和创造价值。然而,不可信网络中的数据交换存在以下问题:一是数据安全无法保障,数据侵权、数据泄露等现象频发,引发相关个体、企业对数据安全的担忧,导致数据的过度保护,阻碍数据的流通;二是数据真实性难以保证,伪造数据、劣质数据层出不穷,数据使用者难以依托互联网数据构建有价值的知识成果,导致无效的数据挖掘,阻碍数据应用的发展;三是数据价值分配缺乏合理性,互联网平台利用优质创作内容吸引非创作用户流量、实现快速变现,但用户无法通过自身产生的内容数据获得合法收益,导致用户的消极情绪,阻碍数据的持续产出。
因此,探索新的规范和协议,保障数据安全、真实并实现数据价值的合理分配,达成数据的可信交换,是价值互联网阶段的主要任务。区块链技术是满足可信数据交换的关键技术之一,也是融合加密技术、共识机制及图灵完备的智能合约语言的可信计算平台,将通过维护不可篡改的分布式账本,支撑价值互联网中可信化要求的新的基础设施构建。同时,为解决上述数据安全、可信及价值分配等问题,区块链技术还需完善并融合承载数据治理规则和数据要素利用的数据互操作技术,在弥合网络碎片和连通数据孤岛的基础上,保障数据全生命周期的可信、可用、可管、可控。
第一,互联网发展新阶段数据互操作至关重要。互联网发展新阶段,数据与应用解耦成为关键特征。信息化进程从数字化、网络化发展到智能化阶段,数据与应用的关系随之发生变化。在数字化阶段,由于互联网技术还没有普及,数据和应用在用户本地,用户对数据具有完全的控制权。随着数据产生速率的持续提升和应用模式的不断创新,数据交换成为基本需求,直接推动了互联网的诞生。同时,数字化数据的传输容量和传输速度需求进一步推动了网络技术的发展。在网络化阶段,互联网服务的发展催生了数据和应用均在网络云端的新模式。互联网服务为人们生活带来极大便利,但也导致了用户数据完全由云服务提供者掌握,用户逐渐失去了数据的控制权。互联网平台作为数据的实际控制者和数据价值的直接受益者,承担起数据安全、可信、可控的全部责任。
然而,互联网平台仅是数据全生命周期的一个参与者,目前数据收益分配机制不利于数据产业生态的健康可持续发展。在智能化阶段,数据和应用解耦成为必然趋势。在《数据安全法》和《个人信息保护法》等相关法律法规相继出台促使数据合规及治理要求越来越高的同时,终端计算能力也随着数字技术和网络技术的发展逐步提升,隐私数据和重要数据以相关方可选择的方式存储于安全、可信、可控的数据自治空间中,应用服务提供方在经过相关方许可的前提下,“按需使用”获取数据,以进一步提供服务。同时,建立数据价值分配机制,也可以使用户依靠生产数据获取持续收益。
互联网数据互操作是用于解决数据跨域互联互通和交换共享的互联网基础技术,秉持“数据不离域,可用不可见”的基本原则,驱动数据应用从“数据中台”到“数据中枢”模式的转变。一方面,由TCP/IP、HTTP/HTML、DNS等协议构成的传统互联网基础技术,作为连接互联网物理基础设施、支撑互联网多样化应用的关键技术,因未考虑数据权属和保护问题,造成数据访问受控于网站,难以满足数据与应用解耦模式下可信数据交换的要求,制约了数据要素的流动和价值释放;另一方面,传统以“数据中台”为基本模式的跨域数据交换,因存在一个收集原始数据的集中平台,导致数据需从本地可控存储流向集中的不可控第三方平台,同样造成数据安全可信保障的困难。
因此,数据互操作技术需从保护数据安全及权属的角度出发,基于已有的互联网基础技术,构建应用与数据之间的“桥梁”;避免数据的离域,用“数据中枢”的新型模式替换“数据中台”的传统模式,用跨域数据索引与确权替代传统数据中心存储数据的方式,在归还数据管理与授权的基础上,实现对互联网数据资源的定位,在保障数据权属的前提下安全交换数据,为数据与应用解耦后的数据高效利用夯实基础。
第二,数据互操作技术支持数据跨域互联互通。数据互操作技术需贯穿数据采集、传输、存储、计算、应用、消亡的数据全生命周期,支持发现和定位数据资源,并在保障数据权属和促进数据可信的前提下实现数据资源安全交换。数据互操作需解决标识确权、认证授权和安全交换三大关键问题,并支撑数据标识体系、数据确权体系、身份认证体系、访问授权体系、分级分类体系、算法管理体系构建。
其中,统一标准的标识体系为数据建立全球唯一标识索引,形成共享和交换数据信息的纽带,使得产生的数据能被发现、需要的数据能被找到;统一标准的确权体系,明确数据权属,保障数据持有者、加工者、经营者等各方的合法权益;统一标准的认证体系,确保身份的唯一性和不可伪造性,为数据的跨域使用提供分布式身份认证能力,打破因无法认证操作者而拒绝数据跨域使用的现状;统一标识的授权体系,仅允许经授权后的数据访问,以保障数据可控,保证数据互操作流程的安全性和合法性,减轻个人、企业等对数据侵权进一步引发的数据泄露等问题的担忧;统一标准的分类分级体系,以依据核心数据、重要数据、一般数据构成的分级框架和公共个人维度、公共管理维度、信息传播维度、行业领域维度的分类规则,形成具体可操作、可执行的数据分类分级标准,保障数据跨域互操作过程的合规性;统一标准的算法管理体系,对可信算法统一管理和认证,以结合现有的隐私保护技术,在不离域的前提下实现科学数据的价值释放。
数据互操作技术的“互操作”需要做到与现有技术向后兼容的数据互联互通。因此,以标识为基础,发挥已有互联网基础技术的能力和优势进一步推动技术演进,是数据互操作技术的主要实现思路。从最初以地址标识为基础的路由系统,到以名字标识为基础的域名系统,支撑数据交换、信息共享的历史要求虽已完成,但已难以适应当前知识构建和价值交换的要求,因而一种以泛在标识为基础的数据标识系统的产生成为必然。
当前,域名及域名系统是互联网关键资源的核心连接点,它基于对IP地址等资源的关联和映射,不仅将全球的网站连接在一起,更是成为全球互联网的中枢神经系统。实现全球的数据连接,构建数字经济的中枢神经系统,要实现从DNS(域名系统)到DIS(数据互操作系统)的演进。需要强调的是,数据互操作技术要实现向后兼容,以符合互联网统一标准的方式发现和定位数据资源,并在保障数据权属和促进数据可信的前提下实现数据资源的安全交换,而不是自建体系。这既是互联网基础技术创新的趋势,也是数据治理落地实施的保障,更是数字经济发展对数据基础设施的要求。
数据互操作技术是数据基础设施构建的核心技术。在本质上,数据互操作技术是一套实现数据交换的机制设计,包含标识确权、认证授权、安全交换三个核心步骤,其中标识确权和认证授权对应了数据交换确权和行权的过程,明确了数据提供方的权利和义务,即负有保证数据内容真实可靠、安全合规的义务,同时也享有根据数据的实际价值、需求程度、数据质量获得收益分配的权利;而安全交换则对应于数据交换过程的安全性。此外,数据互操作系统承载了基于此系统实现的每一笔数据交换的真实记录。就技术定位而言,数据互操作实现了对从采集传输到应用消亡的数据全生命周期的监管。数据互操作是数据基础设施的底层技术架构,数据基础设施应包含的其他功能,如数据内容审核、任务资源分配等,都能够基于这一底层机制和技术架构向上构建。
在未来,数据基础设施的内涵与功能将随着现实数据需求与数据治理实践的变化而不断丰富,但围绕每一次数据交换的实现思路与方向是基本不变的。就具体功能而言,明确数据权属以及保障交换安全本身属于“控制”的具体内涵,其中,明确的数据权属配合真实的交换记录为数据治理提供依据。数据互操作系统能够与数据治理规则相容,从数据流通的底层架构中为数据治理留出操作窗口,对数据治理手段进行数字化赋能,使其不再独立于技术系统与平台之外。
数据基础设施助力数字技术迭代升级。大数据、云计算、区块链、物联网、人工智能等数字技术作用于数据生命周期的部分环节甚至全流程,数字技术的迭代升级与数据互联互通息息相关。以人工智能技术为例,机器学习中的神经网络是大型语言类模型出现之前,人工智能技术中应用最为广泛的门类,能够较好地解决图像识别、声音识别等问题,并应用于人脸识别门禁卡、无人驾驶汽车等领域。神经网络技术理念的提出最早可以追溯到McCulloch and Pitts(1943),上世纪六十年代曾经历了技术理论的繁荣发展期,但是神经网络技术直到2010年才开始大规模普及应用,算力基础设施不健全与数据资源匮乏是其中的主要限制因素。
同样,算力基础设施与丰富的数据资源支撑了ChatGPT等大型语言类人工智能模型的构建。一方面,ChatGPT等大型语言类模型的发展高度依赖于高知识密度数据的积累,而“数据孤岛”问题的凸显,难以有效支撑人工智能技术及其应用的发展,这就需要数据基础设施为人工智能技术的发展提供丰富的高知识密度数据;另一方面,ChatGPT等大型语言类人工智能模型的发展隐含一定治理风险,呼唤数据基础设施在数据资源体系大循环中扮演总体控制的角色。
扫一扫加好友咨询