APP下载

标准数字化热点技术识别及演变分析研究

2025-01-24李想黄佳姚启明

标准科学 2025年1期
关键词:文献计量研究热点

关键词:标准数字化;SMART标准;文献计量;研究热点

DOI编码:10.3969/j.issn.1674-5698.2025.01.004

随着经济社会数字化进程的不断推进,标准的数字化转型已成为标准化自身发展的必然趋势[1]。为了形成切实有效的标准数字化解决方案,国际标准化组织(ISO)于2019年提出SMART(Standards Machine Applicable,Readable andTransferable)标准概念,以机器可读为方向推动标准数字化工作[2]。2021年,我国颁布《国家标准化发展纲要》,提出发展机器可读标准和开源标准,推动标准化工作向数字化、网络化和智能化转型[3]。“标准数字化”已然成为专家学者关注的研究焦点。

近年来国内学者围绕标准数字化开展了一系列综述研究,例如:刘曦泽等[1]从标准数字化的表现形态、研制模式和社会影响等方面分析了其未来发展趋势。汪烁等[4]介绍了国内外标准数字化转型的相关工作,并重点论述了机器可读标准分级模型以及语义互操作和信息模型等重要技术。徐晓东[5]提出标准数字化对引领数字经济转型、强化信息技术共享、促进产业效率提升和增强国际竞争力具有重要作用。张亮[6]分析了国际电工委员会(IEC)标准数字化的发展路径并提出我国标准数字化发展的建议。狄矢聪[7]围绕发展阶段、技术创新、应用场景、监管治理、政策保障和国际合作等6个方面,提出了对未来标准数字化转型发展的建议。张嵩等[8]指出国内关于标准数字化的研究工作主要集中于标准内容语义识别、知识图谱和数字化标准系统建设等3方面。

通过分析发现,上述研究大多对标准数字化的发展现状和未来趋势进行分析总结,而对标准数字化技术的相关研究较为缺乏。标准数字化不仅在于标准存在形式的“数字化”,还表现为标准化方法的数字化,利用数字化技术推动标准化工作生命周期的全过程发展[9]。为此,本文利用CiteSpace等软件构建我国标准数字化技术领域的可视化知识网络图谱,以识别标准数字化领域的关键技术簇和热点技术,分析其演变关系并探索研究趋势,以期为后续相关研究提供借鉴和参考。

1 数据收集和筛选

本文基于数字经济七大产业,结合“ 标准数字化”背景确定检索关键词,包括:“标准数字化”“物联网”“大数据”“人工智能”“云计算”“区块链”和“工业互联网”;在中国知网(CNKI)数据库选取发表于2015-2022年的核心期刊论文,共检索到文献418篇;剔除与主题不相关论文后得到221篇文献,具体检索流程如图1所示。

2 热点技术识别与演变分析

2.1 研究方法

文献计量法是一种以文献外部特征为研究对象的量化分析方法,它利用统计学方法对数据信息进行描述、评价和预测,从而概括其统计规律,进一步解释文献的数据特征和变化规律并分析其原因[10]。CiteSpace是一款基于文献计量的系统化建模软件,从文献中挖掘具有价值的核心术语,通过科学制图程序对领域结构、动态模式进行可视化分析,捕获研究主题的前沿趋势[11]。本文基于中国知网(CNKI)数据库,选取2015-2022年标准数字化技术领域的核心文献,利用CiteSpace的聚类分析及Burst算法等提取及梳理领域关键技术,并基于“SMART”标准揭示标准数字化技术领域的研究现状和演变过程。

2.2 热点技术识别

关键词是文献思想与内容的精准概括,其频次、中介中心性、聚类及突现度是4个重要分析指标[12]。本文基于检索文献的相关信息,从上述4个指标分析标准数字化进程中的热点技术及其应用。

2.2.1 关键词频次及中介中心性分析

关键词频次表征领域的受关注度,而中介中心性体现内容的重要程度[13]。基于检索到的221篇文献,本文利用CiteSpace软件绘制出关键词共现图谱,如图2A所示。该图谱共包括319个节点,358条连线。其中,频次较高的关键词包括:元数据(42次)、区块链(34次)、人工智能(28次)、大数据(24次)、标准(20次)、物联网(17次)、关联数据(13次)、数据治理(10次)、云计算(10次)。另一方面,中介中心性反映关键词在网络中的连接作用,中介中心性数值越大说明其连接的关键词信息越多,在网络中的枢纽作用也越强[14]。如图2A所示,元数据(0.43)、区块链(0.30)、标准(0.29)、大数据(0.27)、人工智能(0.16)、物联网(0.11)有较高的中介中心性,这表明上述关键词在标准数字化研究领域中起到桥梁中介的作用,是该领域的研究重点。

2.2.2 聚类分析

关键词聚类揭示了领域的主要研究方向[10]。通过对221篇文献进行关键词聚类得到7个标准数字化技术类别,如图2B所示,分别为“元数据”“大数据”“人工智能”“区块链”“物联网”“云计算”和“关联数据”,其中聚类模块值Q为0.7655gt;0.5,聚类平均轮廓值S为0.9394gt;0.7,表明聚类结果具有较高可信度。同时本文将上述技术归纳为5个技术簇,分别是人工智能、大数据、物联网、云计算和区块链(元数据和关联数据均属于大数据技术),具体分析如下。

(1)人工智能:“人工智能”是通过计算机程序来呈现人类智能的技术。人工智能技术将海量的标准文本转化成可自由使用的动态知识网络,通过构建标准知识“本体”来实现“人-机”或“机-机”对标准知识的使用与理解[1]。在标准数字化领域,人工智能技术主要通过自然语言处理(NLP)、机器学习、深度学习、可视化处理等来实现标准内容知识的提取、分类与表达[15]。

(2)大数据:“大数据技术”指的是用于处理、分析和管理大规模数据集的技术和工具。大数据技术主要包括大数据深度挖掘和大数据智能分析。在标准数字化领域,针对标准知识主题发现、篇章结构识别、用户智能推荐、学科交叉融合、中医临床等应用场景,大数据技术通过光学字符识别技术(OCR)、数据字典、映射技术、信息抽取、数据挖掘等形式,为用户提供用标分析服务,解决标准数据分散等问题。

(3)物联网:“物联网”是提供信息感知、信息传输、信息处理等服务的基础设施,以感知技术和网络通信技术为主要手段实现人、机、物的泛在连接[16]。目前,在标准数字化领域,物联网技术主要结合大数据对收集的数据进行挖掘,经定位感应技术、互联网技术、通信技术等实现信息间的有效交互,利用以太网、语义网、爬虫技术、DLOUFSI语料库等实现数据资源分析和共享,从而完成标准数据的智能化管理。

(4)云计算:“云计算”是面向密集型数据、超大容量存储和超大规模计算的新型计算模式[17]。在标准数字化领域中,主要经过云计算、边缘计算等方式实现对标准数据采集、处理、推理和比对,通过建设云平台实现标准数据的应用及反馈等。

(5)区块链:“区块链”是一个共享数据库,点对点分布式技术、存储加密技术、全文转录技术、共识机制、智能合约等是其主要技术。在标准数字化领域,区块链技术利用数据汇聚和交换实现快速高效地传输数据,解决标准数据统一、共享以及可追溯等问题。五大技术簇在标准数字化领域的应用见表1。

2.2.3 关键词突现分析

突现词表示在某段时期内词频显著增加的关键词,反映了该领域在特定时期内的研究热点[18]。本文利用Burst算法对关键词进行突现分析,得到突现度较高的10个关键词(如图3所示)。由图3可知,“物联网”“人工智能”的突现强度较高,分别为3.59和2.78;“可视化”(2017-2022年)的时间跨度最长;“物联网”出现时间最早,而“可视化”“云平台”“人工智能”“区块链”和“数据共享”的突现时间较近,表明这5个关键词是标准数字化领域近年来的研究热点。

2.3 热点技术演变分析

ISO根据标准与机器的交互程度将“ SMART ”标准发展划分为5 级[ 36,37 ](如图4 所示)。本文根据检索到的文献信息,结合“SMART”标准的发展历程将国内标准数字化技术演变过程分为3个阶段(如图5所示):探索阶段(2015年前)、萌芽阶段(2015-2018年)和发展阶段(2019年至今)。具体分析如下。

(1)探索阶段(2015年前)

2015年前,国内对标准数字化已有了初步探索,主要通过统一数据形式(如:元数据等)对标准信息进行统一编码,然后录入数据库实现标准检索。例如:张元胤等[ 38 ]于2001年采用Servlet+JDBC技术建立中文汽车数字化标准Web数据库系统;2013年,河北省标准化研究院开发了标准结构化加工工具,初步实现全文标准结构化的自动抽取和指标结构化人工标准抽取[39]。

(2)萌芽阶段(2015-2018年)

1)人工智能:在该阶段,标记语言、自然语言处理等是人工智能应用于标准数字化的主要技术。通过主流的标记语言XML 、超文本标记语言(HTML)、JSON等实现标准内容的结构化,构建通用的标准信息模型解释各个标准对象间关系和属性,再利用自然语义处理技术抽取结构化标准文件中的重要概念(第2级)。例如:2016年,丁恒等[4 0 ]用X M L实现标准文献数据的语义再结构化,并采用自然语言处理技术抽取标准文献中的内容。

2)大数据:大数据技术主要通过对标准文本的结构化处理,在海量数据中进行关联分析,其中OCR技术、数据字典被广泛应用于标准数字化领域。OCR 技术将标准电子文本转换为可编辑的数字化文本,实现对输入字符的特征信息进行储备知识调用(第2级)。例如:2015年,计雄飞等[41]利用OCR对标准资源库中的全部标准影印件进行全文识别,组建标准全文数据库。数据字典通过对标准数据构建编码、名称、上下级从属关系等属性列表,实现对标准内容的实时在线查询、管理和应用(第2级);王健等[26]在2018年提出构建军事数据字典实现军事数据标准化。

3)物联网:Java、Python、语义网、以太网和爬虫技术等是该阶段物联网在标准数字化领域的主要应用,主要通过Java、Python等开发软件识别标准文件和搭建标准数据存储系统(第2级)。例如:南京标准研究院通过语义网、以太网等形式,依托爬虫技术实现标准信息的传输,并提出用FTP对标准数据进行文档转存[42]。

4)云计算:云技术通过使用云计算、边缘计算等方式对标准数据进行分析处理(第2级)。通过云存储、海量数据分布存储技术将标准语言存储在数据库(第2级)。例如:卢小宾等[33]于2018年利用云存储、分布式存储对智慧图书馆标准数据进行管理。

(3)发展阶段(2019年至今)

1)人工智能:在此阶段,机器学习、深度学习和知识图谱是人工智能应用于标准数字化的主要技术。机器学习通过对标准文献进行知识组织和挖掘,利用分类模型对标准信息进行归类和词性标注以实现机器可读(第2级)。深度学习主要通过卷积神经网络等方法准确获取标准文本信息并实现高效筛选和提取(第3级)[8]。例如:2020年上海“206”系统运用深度神经网络模型和OCR技术对证据标准等进行机器学习与深度挖掘以嵌入公检法三机关的刑事办案系统[43];南京云问网络技术有限公司于2022年采用CNN-BILSTM-CRF模型完成标准文献条款的抽取[21]。知识图谱通过构建“实体-关系-属性”三元组关系,直观表达标准条款间的内在关系(第4级)。例如:王一禾等[44]于2022年利用知识图谱对标准进行机器可读转换以解释标准条款间内在关系;同年航空行业[22]构建了航空领域标准知识图谱,从而实现系统准确理解访问需求、匹配访问对象并给予回复。

2)大数据:在此阶段,深度挖掘、关联分析和大数据智能分析是大数据应用于标准数字化的主要技术。运用大数据关联分析、分类分析、特异群组挖掘和孤立点挖掘等对标准数据进行深度挖掘和分析,实现标准数据与应用产业的融合和共享(第3级)。中国标准化研究院[27]于2018年通过对档案数据进行深度挖掘和关联分析,获取标准档案数据间的内在关联以实现标准比对。利用大数据智能分析,融合自然语言处理和机器学习等技术完成标准海量数据的提取(第4级)。例如:2022年张嵩等[8]结合智能检索、可视化等技术,实现航天企业内部卓越标准体系的动态运营;同年,中国电力科学研究院结合大数据和自然语言处理提出电力智能推荐和电力标准指标检索系统[45]。

3)物联网:在此阶段,数据库、通信技术、感应技术和智能传感是物联网应用于标准数字化的主要技术。数据库可以实现标准由“机器阅读”向“机器理解”转变,按照需求直接快速获取标准内容,并实现对标准关键指标的深度揭示、技术指标的提取和比对(第3级)。例如:2020年吕美茜[46]提出在民用飞机燃油系统建立标准信息数据库和标准检索系统,实现根据应用场景对标准内容的选择性访问。2022年张嵩等[8]构建航天企业标准资源数据库,实现各级各类标准智能检索。此外,利用通信技术和感应技术实现标准数据的不间断传输和不同系统间的互联互通(第4级)。例如:2023年陈心怡等[47 ]基于IOT 协议、智能传感技术(5G)和无线网络通信协议,使用方可通过自动问答或智能推送获取所需的标准内容。

4)云计算:云平台和海量数据管理技术是此阶段云计算应用于标准数字化主要技术。一方面,通过搭建云平台将标准数据上传到云端(第3级),例如:南京电子技术研究所于2020年使用云平台对气象雷达的标准主要条款进行场景验证与评估,并依据结果反向修订[48]。另一方面,通过海量数据管理技术对标准数据进行管理(第4级)。例如:2022年,中国航空工业集团有限公司依托标准智能化云平台,实现标准数字化智能检索和主动推送,利用仿真技术对标准关键条款和指标进行数字化在线验证[34]。

5)区块链:分布式存储、共识机制、智能合约是区块链在此阶段应用于标准数字化的主要技术。通过上述技术对标准数据信息进行加密、分析、识别和确认[28],实现标准文本溯源对比分析,从而不断优化内容的访问和处理方式(第4级)。例如:陈勇等[35]于2021年建议基于区块链技术构建电子文件管理系统标准体系。

3 未来发展趋势

(1)标准知识表达方式多元化

随着数字技术的发展,自然语言技术将不再是标准知识表达的唯一方式,未来或使用机器语言表达标准内容,即将标准转化为计算机可以理解和执行的指令代码,以便计算机更好地驱动和应用标准。此外,未来标准内容也将以文本和数据共存的形式出现,标准的知识表达方式会更加多元化。

(2)多技术融合推动标准运用智能化

未来,多种技术融合推动标准运用智能化。例如:通过机器学习和智能算法,实现标准的自动化解析、应用和更新;物联网和传感器技术的联合使用,可以实时收集和监测生产过程、环境参数等数据,实现标准要求的自动检测、控制和反馈;语义识别、知识图谱等技术融合实现标准的快速检索、智能推送和机器编译等。

(3)标准数字化应用场景广泛化

未来,标准数字化的应用场景将更加广泛。例如:通过标准数字化开展金融智能化交易、自动化理赔等服务;通过标准数字化实现电力标准的智能问答、智能推荐以及智能决策等;标准数字化用于智慧医疗机构的管理和医疗设备的设计生产,提高信息管理和医疗器械等的安全性。

4结论

本文基于2015-2022年发表的“标准数字化”技术相关的研究文献,运用CiteSpace等软件进行文献计量分析,得到下述结论。

(1)通过关键词频次、中介中心性、聚类及突现分析,揭示标准数字化的五大关键技术簇为:“人工智能”“大数据”“物联网”“云计算”“区块链”。

(2)结合“SMART”标准发展历程,我国标准数字化关键技术的演变可分为探索期(2015年前)、萌芽期(2015-2018年)和发展期(2019年至今)3个阶段。

(3)未来,标准数字化的发展促使标准知识表达方式更加多元化,标准运用更加智能化以及标准的应用场景也将更广泛。

猜你喜欢

文献计量研究热点
基于文献计量的数据素养及其教育领域研究态势分析
国内电子商务学术研究进展分析
我国医学数字图书馆研究的文献计量分析
我国职业教育师资研究热点可视化分析
近五年我国职业教育研究热点综析及未来展望
国内外智库研究态势知识图谱对比分析
国内外政府信息公开研究的脉络、流派与趋势
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于知识图谱的智慧教育研究热点与趋势分析
自闭症谱系障碍儿童的教育干预