国际数据治理研究述评
2024-10-16门伟莉刘义强
摘要:对国际数据治理的概念、研究力量和研究主题进行对比分析,认为国际数据治理研究主题主要集中在数据治理概念框架研究、数据治理范围研究、数据治理流程研究和数据治理有效性验证4个方面,中国数据治理研究主题主要集中在国际经验介绍与分析、国内大数据相关政策文件分析、领域数据治理实践经验、数据治理技术、数据治理框架研究等方面。文章最后对国内外研究成果时间分布、研究力量分布、研究主题分布和研究的深度及广度进行对比,从研究主体、数据治理利益相关者研究、数据治理规则及研究结论的普适性等方面的相关研究趋势作简要述评,为国内数据治理的政策储备和治理规则研究奠定前期基础。
关键词:数据治理;对比研究;发展述评
中图分类号:G353.1
文献标志码:A
0 引言
随着云计算、大数据、物联网(IoT)等技术的普及,数据生成的速度和规模达到了前所未有的水平。信息技术的迅猛进步与数字化转型的全面加速,使得数据成了除人力、实物、财务、技术、知识产权和关系外的另外一种重要资源;然而,伴随而来的是数据量爆炸性增长带来的管理困境,以及数据安全、隐私保护、质量控制等多重挑战。
2015年以来,中国政府先后发布了《国务院办公厅运用大数据加强对市场主体服务和监管的若干意见》《促进大数据发展行动纲要》《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》《大数据产业发展规划(2016-2020年)》《科学数据管理办法》《三部门关于加强绿色数据中心建设的指导意见》和《关于公布支撑疫情防控和复T复产复课大数据产品和解决方案名单》等政策文件,在将数据治理明确上升为国家战略的前提下,积极推进数据治理相关政策的落地。2015年,欧盟委员会提出16项单一数字市场关键因素,其中包括“建立数据经济”。2017年,习近平总书记在中共中央政治局就实施国家大数据战略进行第二次集体学习时强调“应该审时度势、精心谋划、超前布局、力争主动,实施国家大数据战略,加快建设数字中国”“要加强国际数据治理政策储备和治理规则研究,提出中国方案”。在此背景下,数据治理作为确保数据资产价值最大化、风险最小化的关键机制,其重要性日益凸显。全球范围内不断收紧的数据保护法规,加之跨组织、跨界数据共享与合作的需求剧增,促使数据治理研究成为学术界与实业界共同关注的焦点。
文章旨在通过系统性述评,探讨数据治理领域的最新进展、现存问题与未来趋势,为相关研究提供理论支撑与实践指导。
1 数据治理概念辨析
随着信息技术和数据技术的进一步发展,尤其是在数据感知和采集(物联网技术、社交媒体)、数据存储与处理(分布式数据存储与处理)、数据分析(数据挖掘、统计分析、自然语言处理和机器学习)和数据可视化(虚拟现实和增强现实)方面的迅猛发展,处理大量、非结构化、实时、低价值密度的数据成为可能。
到目前为止,“数据治理”一词尚未形成一个统一标准的定义。国际数据管理协会(The Associ-ation,DAMA)和国际数据治理研究所(The Data Gov-ernance Institute,DGI)等权威机构提出的定义具有一定的代表性和权威性。国家标准《信息技术大数据术语》(GB/T 35295-2017)中将数据治理的定义为对数据进行处置、格式化和规范化的过程。数据治理是数据和数据系统管理的基本要素,数据治理涉及对数据全生命周期的管理,无论数据处于静态、动态、未完成状态还是交易状态。
2国内外研究现状
2.1 国内外研究力量对比
通过对Web of Science数据库和CNKI数据库中收录的“数据治理”有关文献进行初步统计分析,得到下结论:从学者国籍来看,美国、英国、中国、澳大利亚、加拿大、德国、荷兰、意大利、加拿大、西班牙和英国是发文量前10的国家,中国学者参与的研究成果数量占全球10.98%,仅次于美国(27.10%)和英国(15.25%)。从研究主题的学科分布来看,国内外研究主题的学科分布既有交叉也有区别。国际研究主要集中在经济学、环境科学、公共行政、计算机科学、医药卫生和地理学等领域;国内研究主要集中在计算机科学、公共管理、金融学、教育学、.T商管理、电气_T程和新闻传播学等。国际数据治理相关领域国内外研究成果数量对比情况见图1。
2.2 国际数据治理研究主题分布
国际研究主题主要集中在数据治理概念框架、数据治理范围、数据治理流程和数据治理有效性4个方面。
2.2.1 数据治理概念框架研究
数据治理包括但不限于数据所有权和管理权限,决策权限等内容的界定。其中,对数据的所有权进行认定是国际数据治理相关领域公认的难题之一…,Abraham等[2]J通过分析2001-2019年期间发表的145篇研究论文和出版物,提出基于数据治理流程、数据治理范围和数据治理结果的框架模型,该模型中涉及到数据主体范围、数据范围和数据所有者范围,如图2所示。另外,Yin等[3]学者认为,数据治理应是一个可持续的T程,也是一个可以持续改进的过程,其发展应适应法律和法规等数据内部和外部环境的变化。
2.2.2数据治理范围研究
涉及组织内部与外部数据的使用方法,跨领域、跨境数据流动的治理,基于组织的一对一、一对多或多对多数据共享与复用,数据孤岛解构及数据内在价值进行量化评估和数据质量评估体系的构建等方面。如何对组织内部和外部数据形成的不同数据生态系统进行治理,是目前研究的一个热点。如针对基于云计算[4]、工作平台、动态业务网络络[5]、供应链、区块链[6]和机构间数据合作形成的不同数据,采取不同的数据治理策略和治理规则。数据治理机制在维持数据治理控制权方面的作用,如何通过元数据等促进不同机构之间数据的共享、复用和互操作,促进跨领域、跨境数据流动和数据孤岛解构等方面都至关重要。
另外,数据质量成为影响决策质量的关键因素之_[7],如何对数据价值和数据质量进行评估越来越成为一个现实问题。随之而来的,如何兼顾数据质量与隐私敏感信息保护,也是目前的研究重点[8]。
2.2.3数据治理流程研究
数据治理主要包括行业、企业或组织文化对数据治理体系的影响,为提高数据治理效率和有效性,对数据使用和处理流程中不同影响因素分别进行研究。研究认为,在设计数据治理结构和治理内容时,不仅要对实施效果进行事前评估外,还应充分考虑组织或机构所处的特定环境、行业特点、组织规模和组织文化。Brous等[9]认为数据治理是一项复杂的T作,每个组织或机构都应具有自己的数据治理机构和治理流程,不能采取“一刀切”的方法。一般数据治理应遵循4个原则:具有数据管理组织、确保数据管理与业务需求一致、确保数据合规(遵从行业对数据治理活动的监督)、对数据治理和使用达成共识。
2.2.4数据治理有效性验证
数据治理主要涉及数据治理机制、数据治理范围和数据治理流程对行业、企业或组织运行效率的影响,数据治理工作与组织战略目标相关性研究等。由于目前还没有通过数据治理显著提高组织运行绩效的案例,因此,当前的研究多集中在数据治理与组织绩效间接关系和间接测度,无法将数据治理和价值创造直接关联在一起[10]|,如果组织过多的受政府意志影响,或采用过于复杂的数据治理机制,往往会出现数据用户规避数据治理机制的现象,更不利于此类现象的开展[11]。
2.3 国内数据治理研究主题分布
国内相关研究主要集中在国际经验介绍与分析、大数据相关政策文件分析、领域数据治理研究、数据治理技术和实践经验研究等方面。
2.3.1 国际经验介绍与分析
主要集中在对美国、加拿大、英国等国家政务数据治理机制和通用教育数据资源的治理体系和治理框架等内容进行介绍。如王正青和但金凤[12]、许晓东等[13]、黄璜[14]、谭必勇和刘芮[15]、谭必勇和陈艳[16]以美国肯塔基州、华盛顿州高校,美国联邦政府,加拿大联邦政府和英国政府为例,介绍教育数据和政务数据治理过程中应注重建设法律与政策相互配合支持的体制机制,具有风险防范功能的审计系统和保障治理价值实现的服务体系。
2.3.2 国内大数据相关政策文件分析
主要涉及对国内大数据、数据管理和数据治理现骨干的政策文件进行解读和对比分析,从政策源头探索国内数据治理T作的特点。如刘彬芳等[17]通过对国内24份政府数据治理政策文件样本的87个内容分析单元进行政策文本量化分析。研究发现国内有关大数据时代政府数据治理政策多数集中于中观层次,宏观层次的政策内容较少,从政策工具视角来看,供给面、环境面和需求面的政策内容较为均衡。
2.3.3领域数据治理经验
包括医学健康数据治理、教育数据治理、城市数据治理、石油工程、政府数据治理。如常朝娣和陈敏”s|就大环境下医疗健康数据治理方法展开论述,认为医疗大数据治理T作应以原则为驱动,以核心指标为实施目标,以大数据等相关技术为支撑。陈万球和石惠絮[19]认为在城市数据治理过程中,数据的收集、存储、分析和使用中也会存在“数据失真”“数据风险”和“数据依赖”等数据异化现象;刘顺春[20]对“共享中国石油”工程中数据治理体系做了研究,该体系包括生产运行共享中心、专家共享中心和服务共享中心;张翔[21]认为地方政府目前面临“管制型政府”向“服务型政府”再向“精准型政府”的转变,具有存量数据治理和增量数据治理双重压力。另有高校数据治理[22]、高校图书馆数据治理[23]等研究。
2.3.4数据治理技术
主要包括大数据技术、数据安全策略、数据的开放获取、共享和复用等技术方案。如王利亚等[24]针对现有健康医疗数据治理中数据来源的多样、存在大量非结构化信息且融合壁垒高等问题,探索基于元数据可追溯的健康医疗大数据治理方法;任晨鑫和董辉[25]通过分析视频数据治理的关键技术、重点应用等为公安用户设计了一套白下而上的视频数据应用模式,辅助公安网内部置信人员信息和数据的相互认证;王文杰[26]就开源大数据治理和安全软件展开综述,分别讨论了Apache Falcon、ApacheAtlas、Apache Ranger等安全开源框架。
3 国内外研究水平和发展趋势述评
3.1 国内外研究水平述评
3.1.1研究时间和研究力量的分布
数据治理作为一个快速发展的领域,其研究成果的时间分布和研究力量分布均体现出一定的国内外差异。从发表时间来看,国内外数据治理研究成果都处于快速上升阶段,按照文献增长规律,该领域正处于快速发展阶段。不久的将来,将会有数量更多、研究主题更丰富、研究力量更壮大的研究成果出现。国际数据治理的研究起步相对较早,尤其是在信息技术发达的国家和地区,如北美和欧洲。白20世纪末至21世纪初,随着信息技术的爆发式增长,数据治理开始受到重视,相关研究文献逐渐增多。进入21世纪第2个10年后,随着大数据、云计算的兴起,数据治理的研究热度显著上升,特别是在数据安全、隐私保护、数据质量等领域。近年来,国际上对数据治理的研究不断深化,更加关注技术应用的创新、数据治理的自动化与智能化,以及全球数据治理框架的构建。相较于国际,国内数据治理的研究起步稍晚,但发展迅速。特别是近十年,随着国家对数字经济的重视和相关政策的出台,数据治理成为学术界和业界的热门话题。尤其是自2015年以来,随着《促进大数据发展行动纲要》等政策文件的发布,国内数据治理的研究成果快速增长,特别是在数据安全法、个人信息保护法等相关法律法规的制定与实施背景下,数据治理的研究深度和广度都有显著提升。
国际上数据治理的研究力量分布在多所知名大学、研究机构及跨国企业中,尤其在美国、英国、德国等地的研究机构和大学,拥有较强的研究团队。这些机构不仅在理论研究方面有深厚积累,也在实际应用层面与企业紧密合作,推动研究成果的落地转化。国际数据治理研究所(DGI)等专业组织也在推动全球数据治理标准与最佳实践的交流与推广。在中国,数据治理的研究力量主要集中在一些顶尖高校、国家研究机构及大型互联网企业和金融机构。随着国家政策的支持,越来越多的科研单位成立了专门的数据科学与大数据技术研究部门,聚焦于数据治理的本土化应用、行业标准制定和技术研发。同时,行业协会和学会也在推动数据治理理论与实践的结合,通过举办论坛、研讨会等形式,促进了研究力量的交流与合作。
3.1.2研究主题的分布
国内外数据治理研究主题存在明显的不同,且国内研究明显处于国际相关研究的跟跑阶段。国际数据治理研究主题主要集中在数据治理概念框架、数据治理范围、数据治理流程和数据治理有效性等方面。国内相关研究主要集中在国际经验介绍与分析、大数据相关政策文件分析、领域数据治理实践经验、数据治理技术等方面,其中数据治理技术重点研究大数据技术、数据标准、数据算法、平台建设、数据存储成本治理等方面。
国际研究在理论框架和技术创新上领先,而国内研究在响应政策法规、行业应用实践方面更为活跃,两者都重视理论与实践的结合。国际研究受全球法规环境影响,更侧重于数据跨境流动的合规性;国内研究则更关注符合本国特色的法规遵从和政策导向。国际研究覆盖广泛,但在行业应用上更侧重于跨国公司和高度监管行业;国内研究则紧密联系国家发展战略,重点关注智慧城市、政务服务等领域的应用。国内外数据治理相关研究均关注技术创新,但国际研究可能更倾向于前沿技术的探索与应用,国内则在适应国情和行业需求的技术应用上更为突出。另外,由于行业数据和政务具有一定的保密性,国内的数据治理处于实践应用先于理论研究的状态。
3.1.3研究内容的深度和广度
在数据治理领域,国内外的研究既有共同之处也存在差异,这些差异反映了不同地区在法律环境、技术发展、行业实践和学术传统上的多样性。
国际上关于数据治理的研究通常覆盖更为广泛的领域,涉及跨文化的比较分析、跨国数据流动的法规遵从性,以及全球数据治理政策的对比。这些研究往往更侧重于全球视角下的数据治理框架、国际合作机制,以及国际标准和最佳实践的推广。国际研究还倾向于探索新兴技术和趋势,如AI在数据治理中的应用,以及它们对全球数据生态系统的影响。而中国在数据治理研究方面的广度体现在对国家政策、法律法规的响应与解读,以及与数字经济、智慧城市等国家战略紧密相关的实践探索。国内研究特别关注数据安全法、个人信息保护法等国内法律法规的具体实施,以及如何在各级政府和企业中推进数据治理体系的建设。此外,国内研究也关注行业特定的数据治理需求和解决方案,如金融、医疗行业的数据治理实践。
在深度上,国际研究往往更注重理论与模型的创新,如数据治理成熟度模型的深化、数据伦理框架的构建,以及对数据价值最大化策略的经济学分析。此外,对数据隐私保护、数据主权等议题的研究也较为深入,特别是在法律和伦理层面的探讨。国际研究倾向于通过实证分析和案例研究,深入挖掘数据治理在具体场景下的挑战与对策。国内数据治理研究在深度上则侧重于适应中国国情的法律框架和政策体系的构建,以及如何在快速数字化转型中解决数据治理的实际问题。这包括对数据生命周期管理、数据质量控制、数据共享与开放等具体操作层面的研究。国内学者也深入分析了数据治理在提升政府服务效能、驱动产业升级等方面的作用,以及如何通过技术手段利用大数据分析、人工智能等提升数据治理效能。
总而言之,国外数据治理在关注数据治理框架、数据范围、数据治理流程和数据治理有效性的同时,也强调多元主体协同治理和深度融合的重要性。数据治理组织结构业务流程、管理方式、法律法规及伦理规范均呈现多样化的治理特征和多维度的治理路径,已经逐渐形成一个完整的体系[27]。但国内相关研究还处于起步阶段,缺乏多学科融合和跨机构协同合作的治理规则。目前数据治理还缺少公众参与,公民参与的数据治理也将是国内数据治理的难点和重点。
3.2 国内外发展趋势述评
数据治理作为全球关注的热点,其发展趋势在国内外呈现出一些共同特点,同时也存在一些基于不同背景和条件下的差异。
在相似性方面,首先,在研究主体上,随着各国启动数据治理工程,各国将涌现新的数据治理研究主体,跨机构、跨境协作的数据治理研究主体也将快速发展,逐渐形成一个多元主体参与的研究领域。其次,在数据治理利益相关者研究上,法律顾问、数据架构师、数据管理员和数据平台或数据处理所有者等都将被纳入研究范围,以还原数据治理的真实社会环境;公民参与的数据治理也将成为人口大国的研究重点,这将有力地促进相关实证研究和跨学科、跨机构协同合作的数据治理规则研究。再次,在数据治理规则和相关研究上,将呈现分行业、分领域、分组织的分类研究态势。对数据质量、数据价值进行评估,在兼顾数据质量与隐私敏感信息保护的同时,提高数据治理效率。随着数据治理成功案例的涌现,数据治理有效性的实证研究也将更便于开展。最后,在研究结论的普适性方面,目前的研究在研究结论的可重复性和可概括性方面还存在局限[28]。随着数据治理研究规模的扩大,研究结论的普适性将作为研究重点之一,具有一定代表性的公司作为数据治理样本数据进行定量研究或统计学研究,都将成为可能。
在差异性方面,首先,国内外在数据治理的法律框架和政策导向上存在差异。例如,中国更加强调数据本地化存储和处理,而欧美国家则更多关注数据跨境流动的自由与监管平衡。其次,不同国家和地区因经济结构和行业发展水平不同,数据治理在各行业的实践重点也有所区别。例如,中国在智慧城市、数字政务领域的数据治理实践较为突出,而欧美可能更侧重于金融、医疗等行业的数据治理。再次,在技术应用成熟度方面,虽然技术应用是全球趋势,但具体技术的成熟度和普及率在不同国家和地区有别。最后,在数据治理成熟度方面,国际上部分发达国家的数据治理成熟度较高,已进入持续优化和创新阶段;而发展中国家包括中国某些领域,可能还在建立健全数据治理体系的初期或中期阶段,正加速追赶。
综上所述,数据治理的国内外发展趋势在研究主体、利益相关者、数据治理规则、研究结论的普适性等方面具有相同的特点,但在具体实施路径、政策法规环境、行业重点及技术应用的成熟度上展现出了各自的特色和侧重点。
4结语
文章对国内外数据治理的概念演变、研究主题进行综合对比分析,并对国内外研究发展水平和研究趋势的简要述评,具有一定的理论意义和应用价值。在理论上,可扩展国际数据治理研究视角。为提出数据治理的中国视角,提高中国数据治理理论研究水平进行研究储备,为进一步研究做铺垫;通过调研和深度总结国际数据治理规则现状,依据中国国情提出中国举措,为提升中国在全球数据治理规则制定中的话语权贡献一份力量。在实践上,可探索中国数据治理规则和治理方案。围绕保障国家数据主权和数据安全,对国际数据治理相关主体、政策和规则研究开展调研,对比国内数据治理现状,提出国际数据治理的中国方案提供前期思考。
[1]Vilminko-Heikkinen R.Pekkola S. Changes in roles, re-sponsibilities andownership in organizing master data management[J]. Intemational Joumal of Information Man- agement.2019.47:76-87.
[2] Abraham R,Schneider J,Vom Brocke J. Data govemance: A conceptual framework, structured review. and research agenda[J]. Intemational Journal of Information Manage- ment.2019.49:424-438.
[3] Yin C D,Jia H.Gao L,et al. Comparative analysis of da- to management system[C]//Proceedings of the 2016 6th Intemational Conference on Machinery. Materials,Envi- ronment Biotechnology and Computer Atlamtis Press, 2016 : 919-923.
[4] Cheng G M,Li Y.Gao Z W.et al. Cloud data gover- nance maturity model[C]//Proceedings of the Second In- ternational Couference on Intemet of' things,Data and Cloud Computing Intemational Conference on Software Engineering and Service Science. Publication History, 2017:1-10.
[5] 'rhuraisingham B. Secure sensor information management and mining[Jl. IEEE Signal Processing MaUwKuXteIwKuV80/P+AJoRQ==gazine,2004,21 (3):14-19.
[5] 宋俊典,戴炳荣,蒋丽雯,等.基于区块链的数据治理协同方法[J].计算机应用.2018.38 ( 9 ) :2500-2506.
[7] Kim H Y,Cho J S. Data Govemance F'ramework for Big Data Implementation with a Case of Korea[Cy/ 2017 lEEE International Congress on Big Data(BigData Con-gress). NEW YORK,2017:384-391.
[81 Zuckerberg B,Bonter D N,Hochachka W M,et al. Climat- ic constraints on wintering bird distributions are modi- fied by urbanization and weather[J]. Joumal of Animal Ecology,2011,80(2):403-413.
[91 Brous P,Janssen M,Vilminko-Heikkinen R. Coordinating decision- making in data management activities:A sys- tematic review of data governance principles[C]//Elec- tronic Government. Lecture Notes in Computer Science, 2016:115-125.
[10l Danielsen F. Local participation in natural resource moni- toring:A characterization of approaches[J]. Conservation Biology,2009,23( 1):31-42.
[11] Cappa F,Rosso F,Giustiniano L,et al.Nudging and citi-zen sclence: rrhe effectiveness of feedback in energy-demand management[J]. Joumal of Environmental Man-agement,2020.269,11075.
【12]王正青,但金凤,大数据时代教育大数据治理架构与关键领域:以美国肯塔基州、华盛顿州与马里兰州为例[J]现代教育技术,2019,29(2):5-11.
113]许晓东,彭娴,周可,美国通用教育数据标准对我国高等教育数据治理的启示[J]高等工程教育研究,2019 (1):103-108.
[14]黄璜,美国联邦政府数据治理:政策与结构【J].中国行政管理,2017( 8):47-56.
115]谭必勇,刘芮,英国政府数据治理体系及其对我国的启示:走向“善治”[J].信息资源管理学报,2020,10(5):55-65.
【16]谭必勇,陈艳,加拿大联邦政府数据治理框架分析及其对我国的启示[J].电子政务,2019(1):11-19.
117]刘彬芳,魏玮,安小米,大数据时代政府数据治理的政策分析[J].情报杂志,2019,38(1):142-147+141.
【18]常朝娣,陈敏,大数据时代医疗健康数据治理方法研究[J]中国数字医学,2016,11(9):2-5.
[19]陈万球,石惠絮,大数据时代城市治理:数据异化与数据治理[J].湖南师范大学社会科学学报,2015,44(5):126-130.
[20]刘顺春,“共享中国石油”中的数据治理体系研究[J]北京石油管理干部学院学报,2019,26(6):21-29.
[21]张翔,“复式转型”:地方政府大数据治理改革的逻辑分析[J].中国行政管理,2018(12):37-41.
[22]彭雪涛,美国高校数据治理及其借鉴[J].电化教育研究,2017,38(6):76-81.
[23]包冬梅,范颖捷,李鸣,高校图书馆数据治理及其框架[J]图书情报工作,2015,59(18):134-141.
[24]王利亚,邱航,陈若雅,基于元数据可追溯性的健康医疗大数据治理方法及可视化呈现【J】.中国卫生信息管理杂志,2019,16(6):661-666.
[25]任晨鑫,董辉,基于视频数据治理技术的视频资源应用新模式探索[J].中国安全防范技术与应用,2019(6):24-27。
[26]王文杰,胡柏青,刘驰,开源大数据治理与安全软件综述[J].信息网络安全,2017(5):28-36.
[27]安小米,宋懿,郭明军,等,政府大数据治理规则体系构建研究构想J].图书情报T作,2018,62(9):14-20.
[28] Lee J,Kao H,Yang S H. Service innovation and smartanalytics for industrY 4.0 and big data environment[J].Procedia CIRP.2014,16:3-8.
A Review of International Data Governance Research
MEN WeiliI,LIU Yiqiang2
(l.China University of Political Science and Law,Beijing 100088. China 2.China Grinm Group Corporation Limited, Beijing 100088. China)
Abslracl: A comparative study is conducted on the concepLs, research strengths, and research topics of inLerna-tional data governance. It is believed that the research topics of internaLional data governance mainly focus on fouraspects: research on the conceptual framework of data governance, research on the scope of data governance, researchon data governance processes. and validation of data governance effectiveness. The research lopics of China's datagovernance mainly focus on the introduction and analysis of international experience. analysis of domestic big datarelated policy documents six aspects: domain data governance. data governance technology, research on data gover-nance frameworks, and research on practical experience in data governance. At the end of the article. a comparisonis made between the depth and breadth of research at home and abroad, and a brief review is made on the researchtrends from the perspectives of research subjects, stakeholder research on data governance, data governance rules,ancl the universality of related research and conclusions. This lays a preliminary foundation for the policy reservesand governance rules research of data governance in China.
Key words: data governance; comparative research; development review