中国知网文献共被引方法及实证研究

2023-08-31冉从敬李旺谢真强

现代情报 2023年9期

冉从敬　李旺　谢真强

关键词：中国知网；共被引分析；智慧医疗；ＣｉｔｅＳｐａｃｅ

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２３．０９．０１３

〔中图分类号〕Ｇ２５０.２〔文献标识码〕Ａ〔文章编号〕１００８－０８２１（２０２３）０９－０１５４－１１

１９７３年，美国情报学家ＳｍａｌｌＨ［１］首次提出了文献共被引（Ｃｏ－ｃｉｔａｔｉｏｎ）的概念，作为测度文献间关系程度的一种研究方法。而后随着研究的逐渐深入，ＷｈｉｔｅＨＤ等［２］在１９８１年将文献共被引拓展至作者与期刊层面，形成了作者共被引分析（ＡｕｔｈｏｒＣｏ－ｃｉｔａｔｉｏｎＡｎａｌｙｓｉｓ，ＡＣＡ）与期刊共被引分析（Ｊｏｕｒ?ｎａｌＣｏ－ｃｉｔａｔｉｏｎＡｎａｌｙｓｉｓ）的研究方法。随着科学知识图谱的兴起，其一直是科学计量学、知识计量学领域的一种重要的研究方法与研究手段，基于学者的不断摸索，共被引分析与科学知识图谱相结合，分析结果逐渐被可视化的展示出来。科学知识图谱是以知识域（ＫｎｏｗｌｅｄｇｅＤｏｍａｉｎ）为对象，显示科学知识发展进程与结构关系的一种图像［３］。科学知识图谱这一概念在２００３年美国国家科学院举行的研讨会中被第一次提出，而后随着科学技术的发展，学者将科学知识图谱这一概念与技术相融合，从而衍生了各类知识图谱绘制工具。在众多可视化软件中，由美国Ｄｒｅｘｅｌ大学陈超美研发的ＣｉｔｅＳｐａｃｅ由于其绘制图譜信息量大，图谱美观，可以从多个层面为学者提供研究视角而广受欢迎。随着ＣｉｔｅＳｐａｃｅ工具的普及，国内外产生了许多关于应用ＣｉｔｅＳｐａｃｅ及其知识图谱的学术论文。国外学者如ＪａｙａｎｔｈａＷＭ等［４］通过Ｓｃｏｐｕｓ数据库检索了１９７０—２０１９年关于享乐价格模型的相关文献，而后使用ＣｉｔｅＳｐａｃｅ软件对数据进行分析和可视化；ＲａｗａｔＫＳ等［５］运用ＣｉｔｅＳｐａｃｅ分析了２０１１—２０２０年在教育领域使用ＩＣＴ发表的文献的科学计量特征；Ｗｉｄｚｉｅｗｉｃｚ－ＲｚｏńｃａＫ等［６］通过ＷＯＳ数据库检索了１９９６—２０１８年关于ＰＭ结合水研究领域的相关文献，并使用ＣｉｔｅＳｐａｃｅ软件可以确定测量气溶胶结合水的过去趋势和未来可能的方向。国内学者如陈晓玲等［７］以ＷＯＳ数据库中ＳＣＩ－Ｅ、ＳＳＣＩ、ＣＰＳＩ三大核心数据库收录为数据来源，运用ＣｉｔｅＳｐａｃｅ分析了２０１２—２０１６年东北三省的研究热点和学科趋势；花龙雪等［８］以中国知网收录的“过程挖掘” 领域相关文献为样本，运用ＶＯＳｖｉｅｗｅｒ和ＣｉｔｅＳｐａｃｅ两款软件对文献特征、热点主题和前沿趋势进行分析；李灵芝等［９］运用ＣｉｔｅＳｐａｃｅ针对ＷＯＳ数据库中基础设施韧性评估核心文献展开文献分布、共现分析、共被引分析等计量分析并得出结论。

分析已有研究发现，国内外多数学者均运用ＣｉｔｅＳｐａｃｅ对ＷＯＳ数据库与ＣＳＳＣＩ等数据库的论文进行共被引分析，而针对中国知网ＣＮＫＩ数据库时仅仅是进行了关键词分析，较少运用ＣｉｔｅＳｐａｃｅ针对ＣＮＫＩ数据库文献进行文献共被引分析、作者共被引分析与期刊共被引分析。即便现有的极少数学者进行了相关研究，也是通过手动下载参考文献并导入对应文章的方式来实现［１０－１１］。通过下载最新版ＣｉｔｅＳｐａｃｅ６.２.３并分析发现，当前版本可以对ＷＯＳ数据库与ＣＳＳＣＩ等数据库下载的文献数据进行共被引分析、关键词共现分析、作者耦合与机构耦合分析等，帮助相关研究者探究某一研究领域的研究热点、研究前沿、知识基础、主要作者和机构等，预测某一研究领域的未来发展走向。但是将ＣＮＫＩ数据库导出的文献数据导入ＣｉｔｅＳｐａｃｅ中进行分析时，只能进行关键词共现分析、作者共现分析与机构共现分析等，无法进行文献共被引分析，从而导致相关学者无法在ＣＮＫＩ的海量文献资源中找到高被引论文、高被引期刊与高被引作者，一定程度上阻碍了相关学者鉴别领域学科共同体，不利于学者归纳相关领域的学科范式。针对上述情况，本文通过分析发现，ＣＮＫＩ数据库导出的题录数据不包含参考文献，进而无法对其进行共被引分析，这导致研究者在进行中文文献共被引分析时只能基于ＣＳＳＣＩ数据库来完成。对于一些自然科学学科来说，ＣＳＳＣＩ数据库所包含的数据量有限，检索逻辑较为单一，数据导出流程较为繁琐，这不仅降低了研究效率，还无法得出更加精准的研究结果。基于此，为了提升相关研究者的研究效率，探索共被引分析的新渠道，更加广泛地剖析学科知识领域的研究热点、前沿与趋势，本文尝试提出一种基于ＣｉｔｅＳｐａｃｅ的ＣＮＫＩ文献共被引分析方法，旨在实现对ＣＮＫＩ数据库的文献共被引分析、作者共被引分析与期刊共被引分析，为相关研究者提供新的共被引分析思路。本研究不仅将扩宽学者的研究渠道，还有助于提升相关学者的研究效率，因而具有一定现实意义。

１研究设计

通过前期ＣｉｔｅＳｐａｃｅ的使用经验并阅读相关文献资料，可获知当运用ＣｉｔｅＳｐａｃｅ对ＣＮＫＩ文献数据进行关键词分析时，通用步骤是在ＣＮＫＩ中检索文献，导出Ｒｅｆｗｏｒｋｓ格式，而后将数据导入到ＣｉｔｅＳｐａｃｅ中将其转换为与从ＷＯＳ文献数据库中下载到的“全纪录与参考文献” 一致的纯文本形式。由此可见，ＣｉｔｅＳｐａｃｅ在进行分析时并不对数据库进行限制，而是对数据文本格式有特定限制。因此，只要文献数据格式符合软件要求，那么就可以对ＣＮＫＩ数据库文本进行共被引分析。为了实现这一设想，本文需要解决如下问题：ＣＮＫＩ参考文献获取、参考文献的数据文本格式构建与参考文献写入方式构建。本文所使用编程语言为Ｐｙｔｈｏｎ，具体研究步骤如图１所示。

１.１参考文献获取

当使用ＣＮＫＩ检索文献时，在确定检索条件后开始检索，随后便会显示检索条件下的所有文献；当点开文献后，可以看到该论文的标题、摘要等信息。而在引文网络中，便可以看到参考文献的详细信息。当点击该篇文章时，可以获取参考文献所属文章的ＵＲＬ，通过对ＵＲＬ进行解析，可获取参考文献的基本信息。由于ＣＮＫＩ数据库中少量文献存在参考文献缺失和无法显示的现象，所以需要通过引文网络中的“期刊” 字段来确定该文献是否有参考文献，返回结果为Ｔｒｕｅ则爬取参考文献信息，返回结果为Ｆａｌｓｅ则循环结束。由于ＣＮＫＩ的参考文献只显示１０条，所以本文使用Ｌｅｎ（）函数来判断是否存在下一页参考文献，如不存在则终止循环，如存在则读取下一页的参考文献信息。最后，结合ＵＲＬ解析出的参考文献标题、文献类型标志、作者、所属期刊，以及期刊的年、卷、期、页等信息，爬取特定主题下论文的参考文献，将其储存在Ｔｅｘｔ文档中。

１.２参考文献数据文本构建

通过阅读文献可知，国内外相关领域学者多使用ＷＯＳ数据库来进行文献共被引分析，其重要因素为ＷＯＳ数据库可以导出“全纪录与参考文献”的纯文本形式，该文本格式主要包含的因素如图２所示。

由图２可知，ＷＯＳ数据库“全纪录与参考文献” 纯文本格式主要包含ＰＴ（出版物类型）、ＡＵ（文献作者）、ＡＦ（作者全名）、ＴＩ（文献标题）、ＳＯ（出版物名称）、ＤＴ（文献类型）、ＡＢ（摘要）、Ｃ１（作者地址）与ＣＲ（参考文献）等关键信息。正因为有了这些信息，ＣｉｔｅＳｐａｃｅ才可以对相关文献数据进行关键词分析、共被引分析等操作。当使用ＣｉｔｅＳｐａｃｅ对ＣＮＫＩ数据库文献进行分析时，最基本的操作是在ＣＮＫＩ数据库中选中文献并导出Ｒｅｆ?ｗｏｒｋｓ格式。由于ＣｉｔｅＳｐａｃｅ对文献数据名称有特殊要求，所以需要将导出的文献数据命名为ｄｏｗｎｌｏａｄ＿ＸＸ的形式才可以被ＣｉｔｅＳｐａｃｅ所识别，而后通过Ｄａｔａ＞Ｉｍｐｏｒｔ／Ｅｘｐｏｒｔ→ＣＮＫＩ→ＦｏｒｍａｔＣｏｎｖｅｒｓｉｏｎ等操作对ＣＮＫＩ数据进行转换。转换后的文本格式如图３所示。

由图３可知，ＣＮＫＩ数据库下载的数据经过ＣｉｔｅＳｐａｃｅ转换后的格式与ＷＯＳ的“全纪录与参考文献” 纯文本数据格式基本相同，唯一的差别是ＣＮＫＩ转换后文本的ＣＲ为空值。产生这一现象的原因是ＣＮＫＩ数据库尚未开放参考文献导出权限，这也就解释了ＣｉｔｅＳｐａｃｅ无法对ＣＮＫＩ数据库导出的数据进行文献共被引分析的原因。由此笔者断定，只要将ＣＮＫＩ转换后数据文本中的ＣＲ字段按照ＷＯＳ中ＣＲ字段的文本格式进行补全，那么ＣｉｔｅＳｐａｃｅ便可以识别ＣＮＫＩ数据文本的ＣＲ字段，从而完成对ＣＮＫＩ文本数据的共被引分析。

通过观察ＷＯＳ “全纪录与参考文献” 纯文本格式中的ＣＲ字段本文可以得知，其参考文献的基本格式为“作者、发文年份、期刊、ｖ、ｐ、ＤＯＩ”等字段，并且每个字段后均有１个空格与半角符号的逗号，而ＣＲ字段后的参考文献第一作者处空１个空格，其他参考文献作者处均空３个空格。同时，通过使用ＣｉｔｅＳｐａｃｅ发现，数据可视化主要展示的是对应参考文献的作者、发文年份与期刊信息，而后面的ｖ、ｐ、ＤＯＩ可以忽略不计。但为了保证ＣｉｔｅＳｐａｃｅ可以顺利读取本文添加后的数据文本格式，本文把ｖ、ｐ、ＤＯＩ３个数据设定１个固定的内容，即： “Ｖ６，ＤＯＩ１０.１１８６／ｓ４０１６８－０１８－０４７０－ｚ”，ＣＲ的最终格式确定为“作者，发文年份，期刊，Ｖ６，ＤＯＩ１０.１１８６／ｓ４０１６８－０１８－０４７０－ｚ”。因此，在写入参考文献时，按照上述格式写入即可。

１.３参考文献写入

通过前文的分析，本文确定了参考文献写入的基本格式。由于每篇论文都有多条参考文献，并且在进行共被引分析时所需数据量巨大，如果采取手动写入方式，则需要耗费大量的时间，因而本文借助Ｐｙｔｈｏｎ自编代码完成参考文献的重写与写入。

１.３.１参考文献重写

在将参考文献写入ＣＮＫＩ并转换为文档之前，需要对前期获取的特定主题下相关论文的参考文献进行拆分重写。本文将从ＣＮＫＩ上获取的参考文献格式设置为“［序号］文献主要责任者．文献题名［文献类型标志］．连续出版物题名（其他题名信息），年，卷（期）：页码．”，而在进行参考文献重写时需要作者、期刊、年份这３个字段。同时，本文观察发现上述３个字段均以符号“．” 进行分割，因此将“作者” 定义为“Ｎａｍｅ”，则Ｎａｍｅ的提取方式为“Ｎａｍｅ＝ｒｅｆ．ｓｐｌｉｔ（‘．）［１］．ｓｐｌｉｔ（‘，）［０］．ｓｔｒｉｐ（）”；将“年份” 定义为Ｙｅａｒ，则Ｙｅａｒ的提取方式为“Ｙｅａｒ＝ｒｅｆ．ｓｐｌｉｔ（‘．）［－１］．ｓｐｌｉｔ（‘（）［０］．ｓｔｒｉｐ（）”；将“期刊” 定义为“Ａｒｔｉｃｌｅ”，则Ａｒｔｉｃｌｅ的提取方式为“Ａｒｔｉｃｌｅ＝ｒｅｆ．ｓｐｌｉｔ（‘．）［２］．ｓｔｒｉｐ（）”。在完成上述数据的提取后，分别获得了文献的“Ｎａｍｅ” “Ｙｅａｒ” 与“Ａｒｔｉｃｌｅ” 字段数据。最后结合前文确定的ＣＲ格式“作者，发文年份，期刊，Ｖ６，ＤＯＩ１０.１１８６／ｓ４０１６８－０１８－０４７０－ｚ”，运用“ｅｆ１＝‘ｎａｍｅ＋，‘＋ｙｅａｒ＋，‘＋Ａｒｔｉｃｌｅ＋，Ｖ６，ＤＯＩ１０.１１８６／ｓ４０１６８－０１８－０４７０－ｚ” 完成字符串拼接，從而实现Ｐｙｔｈｏｎ参考文献自动重写［１２］。

１.３.２参考文献写入

通过前文准备工作，本文通过爬虫程序获取了特定主题下相关论文的参考文献，确定了参考文献重写格式并通过Ｐｙｔｈｏｎ代码进行实现。参考文献重写后，本文以文献标题为文件名，文件内容为参考文献的所有参考文献重写后的内容，而后通过下列代码来读取所有参考文献重写后的文献信息并返回字典结果：

完成文本写入后，会生成ＷＯＳ格式的数据文本“ｄｏｗｎｌｏａｄ．ＣＮＫＩ”。此处需要强调的是，该文本已经是系统可以识别的文档，无需再通过ｄａｔａ－ｉｍ?ｐｏｒｔ－ＷＯＳ－ＲｅｍｏｖｅＤｕｐｌｉｃａｔｅｓ进行文本转换。如果进行该操作就会造成数据缺失，从而导致实验失败，所以只需将“ｄｏｗｎｌｏａｄ．ＣＮＫＩ” 存放到ＣｉｔｅＳｐａｃｅ的ｄａｔａ中直接进行文献共被引分析即可。

２中国知网文献共被引方法实证

２.１数据来源与预处理

随着智慧城市、智慧社区相关概念与技术的普及，智慧医疗一词也逐渐走入了大众的视野。而早在２００９年，国际商业机器公司（ＩＢＭ）就提出了“智慧地球” （ＳｍａｒｔＰｌａｎｅｔ）战略概念，智慧医疗成为其战略下的六大领域之一。随着ＩＢＭ大中华区软件集团与ＩＢＭ中国开发中心ＣＤＬ共同宣布成立“ＩＢＭ医疗行业解决方案实验室”， “智慧医疗” 在中国落地有了切实可行的方案和实践。自２００９年以来，中国智慧医疗建设投资规模也逐年递增，且随着医养护一体进程不断加快，构建旨在打造健康档案区域医疗信息共享平台的智慧医疗，对传统医疗生态圈在国家宏观政策、行业信息化战略、微观技术变革、资源创新融合等方面都有着重要意义［１３］。智慧医疗作为一个与“互联网＋医疗健康”正加速相关的创新服务模式，不仅仅关注于解决医改难题，更在一定程度上决定着“智慧城市” “健康中国” 的战略实施。

智慧医疗的主要实现方式为通过打造全社区健康档案的医疗信息平台，利用先进的物联网技术，实现患者与医疗设备、医疗机构、医务人员之间的互动交流，从而逐步实现信息化资源共享，达成更加智能的服务体系。当前，随着人工智能、传感技术等高科技技术在医疗领域的广泛应用，国内外智慧医疗的建设水平已经逐步加深，并在一定程度上实现了医疗服务智能化［１４］，并有望在不久的将来达到医疗服务智慧化水平，从而从根本上解决“看病难、看病贵” 等关键问题，做到真正的“人人健康，健康人人”。新冠肺炎疫情是中华人民共和国成立以来传播速度最快、感染范围最广、防控难度最大的重大突发公共卫生事件。在疫情发生的过程中，随着感染人数的剧增，部分地区医疗系统几近崩溃，医疗资源不足、寻医问药困难、检测诊断治疗滞后等问题频繁发生，给医疗机构带来前所未有的压力。在传统医疗服务模式难以满足患者和大众在疫情期间医疗需求的同时，以５Ｇ网络、区域联合平台、大数据ＡＩ技术、互联网医院等为代表的新兴科技先后落地到疫情防控之中，发挥了新科技优势，贡献了前所未有的力量［１５－１７］，这也导致了学者对“智慧医疗” 领域兴趣倍增，相关研究呈现井喷式发展。图４为２０１０—２０２０年智慧医疗领域研究文献增长图。分析图４可知，２０１０—２０２０年相关学者在“智慧医疗” 领域发文数量总体呈现上升趋势，说明在近５年相关学者对该领域的关注度有增无减。尤其是新冠疫情期间，发文量呈现直线上升趋势，并且研究愈发深入，这表明当前及今后智慧医疗的相关研究结论对该领域的深入探讨具有一定借鉴意义。

作为一项被管理部门和社会公众普遍重视的议题， “智慧医疗” 在学界也拥有着一定的相关研究文献。然而，笔者通過文献调研发现，国内相关学者较少对智慧医疗领域的相关文献进行文献计量研究，而对智慧医疗领域的相关文献进行共被引分析则是少之又少。为了验证本研究方法的实用性，厘清智慧医疗领域的近五年的共被引情况，本研究结合前文的研究思路，选取ＣＮＫＩ数据库中“智慧医疗” 领域相关文献作为实证数据，对其进行文献共被引分析，厘清该领域下文献共被引、作者共被引与期刊共被引情况，帮助相关学者鉴别领域学科共同体与归纳相关领域的学科范式，从而为后疫情时代的常态化疫情防控提供实现路径的参考。

本研究选择ＣＮＫＩ期刊数据库作为数据来源，跨库来源选择“期刊、硕士、博士”，将检索主题设置为“智慧医疗”，检索时间设置为２０１０年１月１日—２０２０年１２月３１日。通过上述检索条件，合计检索到２５２８条文献数据，其中学术期刊文献数据２２４２条，硕士论文文献数据２７２条，博士论文文献数据１４条。将上述文献导出为Ｒｅｆｗｏｒｋｓ文本格式，并使用本文提出的参考文献重写与写入方法对上述数据进行预处理，最终得到本文的研究数据。

２.２国内智慧医疗领域文献共被引分析

图５显示了ＣＮＫＩ数据库下“智慧医疗” 的文献共被引网络，表１列出了被引频次大于２０的文献信息。从图５与表１可以得知，在“智慧医疗”领域的研究文献中，相关作者更倾向于引用综述“智慧医疗” 领域理论沿革、厘清“智慧医疗” 领域发展路径与剖析“智慧医疗” 领域发展现状的相关论文来进行理论综述。如学者项高悦等［１８］撰写的《我国智慧医疗建设的现状及发展趋势探究》一文被相关学者广泛引用，该文总结了近几年的“智慧医疗” 领域文献及相关研究成果，阐述智慧医疗的概念、发展现状，分析智慧医疗的发展前景及存在问题，并提出相关建议，为智慧医疗的进一步研究提供参考。再如学者宫芳芳等［１９］撰写的《我国智慧医疗建设初探》一文就智慧医疗的概念、主要内容、发展动态进行系统的研究探讨，指出智慧医疗建设中应注意的问题，并对我国全面推进智慧医疗建设提出建议，该研究也在一定程度上促进了相关领域理论研究的进一步深化。此外，图５与表１也显示被引频次较高的文献多集中于２０１３—２０１６年，产生这一现象的原因是此时“智慧医疗”领域相关研究处于理论研究向实践研究转型的阶段，论文发表数量快速增长。同时，由于前期相关理论研究已经相当充实，其中不乏有研究视野相当前沿的论文产生，研究视角不局限于理论研究，慢慢向“智慧医疗大数据” “人工智能与智慧医疗”等方向迈进，从而促使高被引现象的产生。由此可见，２０１３—２０１６年的相关研究为“智慧医疗” 领域的蓬勃发展提供了强大的理论基础。

２.３国内智慧医疗领域作者共被引分析

２.４国内智慧医疗领域期刊共被引分析

学术期刊是学术传播的重要纽带与载体，也是学术研究的基础，是发文质量的象征［２３］。图７显示了ＣＮＫＩ数据库下“智慧医疗” 的期刊共被引网络，表３列出了被引频次大于５０的期刊信息。由图７可知，收录“智慧医疗” 相关研究的期刊主要集中在医学信息、医院管理等相关领域，可见在此期间， “智慧医疗” 相关研究的学科交叉现象还不是很明显，但是该领域的相关研究已经和计算机、信息管理与数字化领域有了交叉趋势。节点大小代表该期刊共被引次数［２４］，图７显示节点最大的是《医学信息学杂志》，其出现频次为１９１次。这表明相比于其他医学期刊，《医学信息学杂志》刊出的论文阅读受众面更广，更受广大学者所青睐，从侧面也反映出该期刊比较倾向于收录“智慧医疗” 领域相关文献，使得该期刊逐步形成了“智慧医疗” 领域研究集聚效应。如果有学者想对“智慧医疗” 领域进行纵深探索或者有兴趣了解“智慧医疗” 领域前沿动态，可优先阅读该期刊文献。与此同时，《中国数字医学》《中国医院管理》《中国卫生信息管理杂志》《中国全科医学》与《中国医院》这５本期刊的被引频次均超过１００，且其中介中心性相对较高，也可作为读者或学者了解“智慧医疗” 领域的优质期刊。

２.５实证研究结论

综上所述，２０１０—２０２０年，相关学者在“智慧医疗” 领域发文数量总体呈现上升趋势，可见国内对“智慧医疗” 的学术探索由理论研究逐步向实践探索深化。通过运用本文提出的方法对中国知网“智慧医疗” 领域进行文献共被引分析可获得如下结论：

１）通过文献共被引分析可以发现， “智慧医疗” 领域文献对理论探索论文引用频次相对较高，且引用的论文发文年度多集中于２０１３—２０１６年。可见，国内针对“智慧医疗” 的研究仍旧处于起步阶段，且研究较多聚焦于理论探索，针对实践应用方面的研究有待加强。

２）通过作者共被引分析可以发现，聚焦于“智慧医疗” 相关研究多为医学领域学者，计算机领域学者也略有涉猎，但是占比较低。如果可以促进医学领域学者与计算机、大数据、人工智能等领域研究者深度合作，那么该领域研究层次将会实现质的飞跃。

３）通过期刊共被引分析可以发现， “智慧医疗” 领域研究者在文献阅读时更倾向于阅读和“智慧医疗” 研究相关的医学类期刊，而对与“智慧医疗” 相关的技术类期刊、管理类期刊等关注度较低。这也侧面反映发表在医学类期刊上的“智慧医疗” 相关文献研究层次更深、研究视角更广、研究成果更加前沿，从而吸引了大量学者阅读与引用，进一步促进了领域的深度发展。

通过上述的实证分析表明，本文所提出的中国知网文献共被引分析的方法，不仅可以实现对中国知网文献数据进行共被引分析，厘清中国知网数据库中某领域的高被引论文、高被引作者与高被引期刊，而且也可剖析出文献之间的联系是否密切，从而为相关研究者开展学术研究提供参考与借鉴。与此同时，该方法的提出也拓宽了国内学者进行共被引分析的渠道，创新了文献共被引分析的研究方法，为相关研究者提供了新的共被引分析思路。本文所研究设计的方法在提升相关研究者的研究效率、探索共被引分析的新渠道，对更加广泛地剖析学科知识领域发展及其研究热点、前沿与趋势等方面具有一定现实意义。

３总结与展望

当前，由于ＣＮＫＩ数据库题录数据并未包含参考文献，导致无法借助ＣｉｔｅＳｐａｃｅ对ＣＮＫＩ文献进行文献共被引分析、作者共被引分析与期刊共被引分析，一定程度上影响了基于ＣＮＫＩ数据库文献开展文献计量分析的效率和深度。本文从文献共被引分析的角度出发，对中国知网文献共被引分析进行了探索，创新性地通过修改数据文本格式来实现中国知网文献的共被引分析。針对数据获取与文献清洗的复杂性工作，本文采用Ｐｙｔｈｏｎ代码实现参考文献数据格式重写和写入的快速处理，极大提高了研究效率，为学者基于共被引分析剖析其他学术领域研究现状提供了新思路。该方法核心步骤包括：

①运用Ｐｙｔｈｏｎ自编爬虫程序自动获取了中国知网“智慧医疗” 领域文献的参考文献，并将其写入ｔｅｘｔ文档中； ②通过将ＷＯＳ数据库与中国知网数据库下载的数据文本格式进行对比，提取文本特征，构建ＣｉｔｅＳｐａｃｅ可识别的参考文献格式； ③通过自编Ｐｙｔｈｏｎ代码对中国知网下载的数据进行批量重写，并将重写后的数据批量写入到通过ＣｉｔｅＳｐａｃｅ转换后的Ｒｅｆｗｏｒｋ格式文档中，实现了基于ＣｉｔｅＳｐａｃｅ的中国知网文献共被引分析。以国内“智慧医疗” 领域文献数据的实证分析验证了本文所提出方法的适用性，提供了基于ＣＮＫＩ文献数据开展文献共被引分析的渠道。

需要说明的是，由于ＣＮＫＩ数据库存在反爬机制，导致采用本方法获取参考文献时需要使用手动更新ＵＲＬ，与从ＣＳＳＣＩ数据库与ＷＯＳ数据库快速实现数据导出相比具有一定的工作量要求，数据搜集的效率仍然有待提高。同时，由于ＣＮＫＩ中某些文献的引文网络中没有参考文献字段，导致无法基于自编程序获取该文献的参考文献，从而使得该文献无法进行分析，存在数据缺失现象。后续研究将优化数据获取算法，提高数据搜集效率，思考更加自动化的获取参考文献方式，从而提高研究效率；同时探索更加合理的参考文献获取方式，避免数据缺失的现象发生。