大数据环境下学位论文价值挖掘与知识服务
——以安徽建筑大学为例
2023-10-18赵磊,陈颖,马洁
赵 磊,陈 颖,马 洁
(安徽建筑大学 图书馆,安徽 合肥 230601)
0 引言
学位论文是为申请某一学位而撰写的研究性论文,是衡量学校教育教学质量的一项重要抓手,是科技论文的重要构成成分。其中:硕士学位论文表明作者具有从事科学研究工作或独立担负专门技术工作的能力,对于所研究的课题具有新的见解;博士学位论文要求对所研究的课题提出创造性的研究成果,具有较高的学术价值和一定的独创性[1]。硕士和博士学位论文的学术性、原创性、新颖性、灰色性、实用性决定了学位论文具有重要的信息资源价值。
现代学位制度的发源地在德国。19世纪初期,德国就产生了学位论文,随后欧美等西方国家相继建立现代学位制度。我国民国时期产生了少量学位论文,例如燕京大学学位论文[2]。1978年研究生招生制度恢复以后,学位论文数量进入正常产出阶段,且呈上升趋势发展。20世纪80年代开始,我国开始大规模收集整理学位论文。21世纪初,开始了学位论文电子化进程,同时随着信息化技术发展,学位论文数据库建设开始起步。万方数据知识服务平台的《中国学位论文全文数据库》收录始于1980年,学位论文年增35余万篇。知网的《中国博士学位论文全文数据库》收录全国500余家博士培养单位的博士学位论文,占我国博士学位培养单位的99%,数量达到40余万篇。《中国优秀硕士学位论文全文数据库》收录全国800余家硕士培养单位的硕士学位论文,“一流大学”“一流学科”建设高校学位论文覆盖率达到100%,数量达到480余万篇,最早可回溯至1984年。
学位论文作为一种文献记录载体,具有重要的存储意义和流通、使用价值。目前,国内“双一流”高校均已实现了对学位论文的纸本存储和电子文档的提交建库,并且实行了纸本借阅和数据库开放阅览[3]。但是,对于学位论文内容的深度挖掘及增值服务鲜有报道。这一现象引起了学界的关注和重视。2023年4月,全球最大的学位论文数据库服务商ProQuest公司在浙江绍兴举办了“PQDT学位论文价值挖掘与服务创新研讨会”,与会专家和学者就学位论文的利用情况指出问题、分析原因,并展示了案例。本文结合安徽建筑大学学位论文纸本存阅、学位论文数据库建设情况,分析如何利用数据挖掘技术增值学位论文知识服务。
1 学位论文数据库建设现状及存在问题
安徽建筑大学在学位论文纸本收割和数据库建设方面比较规范。从招收第一届硕士研究生起,图书馆就着手启动学位论文收集工作,系统、全面地收割、加工、保存了纸本及电子版论文,并拟定了《学位论文提交流程及注意事项》《安徽建筑大学图书馆关于研究生学位论文提交、保存和使用办法》等规章制度,来规范学生的论文提交行为和提交质量。电子版学位论文数据库支撑平台经历了清华同方TPI系统、上业学位论文管理系统、杭州迈达学位论文管理系统3个阶段。随着系统不断升级,平台功能越来越完善,论文提交速度、准确程度、审核速度和一次性通过率均有了显著提升。但是对比国内高校,特别是“双一流”高校图书馆学位论文馆藏、空间布局、资源利用等情况,学校学位论文的管理还存在诸多提升空间,特别是学位论文文献资源的知识深度挖掘还存在空白。本文在分析国内学位论文管理工作的基础上,结合学校研究生学位论文特点及工作实际,探讨研究生学位论文资源建设及利用问题。
1.1 纸本学位论文管理
毕业生提交的纸本学位论文存放在工具书阅览室专辟书柜,与参考工具书共享存储空间,由于空间限制,未设立独立的学位论文阅览室。学位论文按照年代开架排放,允许用户阅览,提供1/3页面复制服务,不允许出借。从利用情况来看,纸本论文用户阅读、复制、使用量不大。原因是用户偏向于更便捷的学位论文数据库等数字化、电子化形式的应用方式。从图书馆发展前景考虑,纸本学位论文可以不作为文献主要利用方式,但因为是高校的一项知识产出,纸本论文还是有必要的保留价值。建议将纸本学位论文规范加工、标引、著录后,转向以收藏为主,将其作为一项文献资源保障方式和高校的有形资产进行建设,而将学位论文管理和利用工作重心向学位论文数字化、电子化方向转移。
1.2 涉密论文管理
涉密论文管理是学位论文管理工作中一项重要组成部分。《中华人民共和国保守国家秘密法》《科学技术保密规定》均对涉密学位论文的单独管理提出了相关要求[1]。对于高校研究生毕业论文,密级为内部的论文,是指与准备申请专利或技术转让科研项目相关的论文;密级为秘密、机密的论文是指论文背景源于保密科研项目、课题或内容涉及其他更高级别国家秘密的论文。目前,国内教育界对于涉密论文的定级、存档、解密等工作出台了一些指导性文件。各研究生培养单位在指导性文件的基础上,规范本单位的涉密论文管理工作。
赵海燕等[4]在《“双一流”高校图书馆学位论文资源建设与服务调查分析》一文中对42所“双一流”高校图书馆论文收藏范围进行了调研,结果显示北京大学图书馆和清华大学图书馆明确规定不必向图书馆提交涉密学位论文电子版,极少部分高校图书馆收藏涉密学位论文,但态度审慎、要求严格。尚博等[1]在《高校涉密学位论文管理存在的问题及对策》一文中对国内11所重点高校涉密论文的管理情况进行了调查,显示涉密论文在保管机制、密级认定、管理模式、涉密人员职责等方面均还具有较大的进步空间。
安徽建筑大学在研究生论文搜集工作之始,就非常重视涉密论文的管理工作,要求涉密论文需开具证明,导师、研究生培养机构、校学术委员会签字才能产生效力,并开辟专门存储室对涉密论文闭架存储。电子版学位论文存档但不对外访问,待保密期过自动开放。涉密人员每年严格按照国家保密局要求进行继续教育学习和考核,更新知识储备,提高政治站位。目前,工作中需要提升的地方在于要在学校层面针对论文涉密问题制定一套完整的指导方案,实现对涉密论文课题选题立项、开题、实验室数据保密与管理,毕业论文撰写、答辩、论文上缴等各流程的全方位闭环管理。另外,由于互联网的开放和国际局势的剧烈变化,涉密内容的界定会更加困难和严格,导师和研究生也需要进行必要的保密观教育,提高对研究内容涉密界定的鉴别力和敏锐度。
1.3 学位论文文献资源的利用
学位论文是研究者最新科研成果和前沿思想的展现,特别是硕博论文中的研究方法、研究数据都具有极大创新性,代表着各科研领域学术研究的最新水平,有很高的资源利用价值。但调查显示,学位论文在科学研究论文的引文中所占比例不到1%,利用率很低[5]。通过调研采访,安徽建筑大学学位论文的利用情况存在同样问题。学位论文收缴数量从最初的每年40余篇,到2023年增长至每年700余篇,增长率达到90%以上。按照学校“十四五规划”,在“十四五”末,研究生规模将达到并保持在每年1 500余人次,学位论文产生和收缴数量仍呈稳步增长态势。与之对应的形势是学位论文的利用率增长缓慢。2010年至今,学校自建学位论文数据库检索量为7 118计次,浏览量为4 994计次,全文访问量为5 339计次,但是下载量仅为2 213计次。在中国知网以检索式“作者单位=安徽建筑工业学院OR安徽建筑大学”检索学位论文,最早记录年份2010年的论文总下载数为27 941计次,篇均下载数为607.41,但是篇均被引数仅为9.8,下载被引比只有0.02。2010—2022年,下载被引比一直维持在0.02,篇均被引数在5.6~9.8。学生借阅学位论文的主要用途是分析导师所指导的已毕业研究生做同类课题的研究方法、研究思路等,或仅是参考学位论文的撰写格式,对内容的研究学习不多。学位论文是一类重要的文献资源,论文对课题的研究深入且极富创新性,理应有较高的参考价值,较低的利用率对学位论文的使用价值造成了资源的极大浪费,图书馆在学位论文的管理中,不能仅仅局限于采集、整理、存放这些学术资源,还要为论文资源的利用提供服务。在学位论文管理工作中,学科馆员或学位论文数据库建设工作者可以利用以下切实可行的推广宣传办法,以提高学位论文资源的利用率。(1)联合研究生院、团委等部门,甄选出当年优秀毕业论文,在读书周或优质服务月期间开展优秀学位论文专题推荐、优秀学位论文导读等活动。通过优秀学位论文展示,使准毕业生或考研备考生提前感知学位论文的选题、格式、规范和内容框架,心中形成学位论文撰写的初步印象。在举办活动的同时,乐学好学氛围的营造对校园思想文化建设也是一种隐性的引领和促进。(2)将已建学位论文数据库和本馆发现系统以及移动终端设备兼容,实现一站式知识元检索和泛在知识环境服务,提高学位论文的曝光度,增大查中率。(3)将学位论文作为导师学术成果的一部分构成内容,纳入本校机构知识库建设,通过全方位、多维度的导师教学、科研评价及成果展示,为学校其他科研人员、科研团队及在校学生提供学习、科研服务支持。(4)遴选历届毕业论文的徽派建筑内容专题、建筑节能内容专题和智能建筑内容专题,充实图书馆的3个重点建设特色库。借助特色数据库的广泛传播力,间接提高学位论文的用户可见度。
2 学位论文数据库数据挖掘与知识服务对策与建议
在信息化、智能化社会,人们获取信息的渠道呈现多元化、便捷化特点。作为信息储存的巨大载体部门,图书馆的信息服务更要顺应时代潮流,与时俱进,借助现代化、智能化的手段和方式对储存巨大体量的信息进行深度数据挖掘,采用多种形式进行知识服务。学位论文文献资源的揭示和知识服务要守正创新。与此同时,以学位论文数据库建设为契机,开拓学位论文内容知识服务和学科服务的耦合模式也为图书馆的服务工作提供了一种创新性的工作形式。
2.1 基于内容的知识深度挖掘
内容是论文的核心与根基,部分研究人员对特定时间域和特定专业进行了选题内容的分析[6-7],研究范围限定的是某单一机构。在此种分析方法的基础上,还可以拓展其他分析方式。基于多源数据和文献计量分析等方法,对学位论文研究领域、合作趋势等进行分析,并与国内外其他同行业院校进行对标分析。通过学术文献的各种特征指标及引证关系,对对标机构的相关学科科研现状与学科发展趋势进行客观对比,绘制数据图表,形成分析报告,从而为学校学科发展和高水平学科建设提供参考。
2.2 基于论文文本信息的人才挖掘
除论文内容的分析挖掘外,基于论文文本信息的组织与关联,还可以揭示导师、学生之间的学术强度,揭示合作单位的紧密度,分析学科传承演变规律,服务于特定领域的人才挖掘。例如,在学位论文的作者简介、致谢等部分,会揭示论文完成人求学期间的科研成果、求学经历,提及导师、实验室同仁等关联关系。以学位论文的作者简介、致谢等著录段为起始点信息,借助于Springer、ScienceDirect、SCI、知网、万方、维普等国内外知名数据库深度挖掘,刻画论文完成人的科研路径,展现论文完成人学术圈层,完成学者画像,助力于人才发现。
2.3 研究前沿热点分析
学位论文的选题均为该学科领域的前沿热点问题,一份完整的学位论文会对该领域进行详实的文献综述,并在此基础上提出新的理论观点或新的实践路径。相比于期刊文献,学位论文的内容涵盖更加丰富,实验数据、实验路径和实验结果阐述更加精细。针对学校高峰学科、重点建设实验室、重点专业、重点研究领域、重点建设博士点和硕士点进行基于学位论文的学科研究热点分析、实验方法汇总、师生研究成果ESI高被引论文统计、学科高品质期刊推送和解读等服务。从不同维度析出各学科领域的研究热点、研究前沿、研究方法,为各个专业研究生选题提供参考借鉴。
2.4 服务馆内文献资源建设
自建学位论文数据库属于馆内特色文献资源的一部分,采用文献计量学方法,通过对高峰学科、重点学科、重点专业研究生学位论文的引文数量、引文文献类型、语种分布、年代分布、引文主题等进行统计分析,探讨高峰学科、重点学科、重点专业研究生利用文献的规律和特点。利用馆藏资源分析平台,通过与馆藏文献资源对比,剖析馆藏文献资源的保障率和利用率,为图书馆馆藏文献资源建设提供数据支撑和切实保障,并在数据分析基础上提出相应改革措施和建议。
2.5 开题文献推荐与指导服务
在研究生准备学位论文开题阶段,可以针对其论文选题推荐必读文献、经典文献,或根据论文框架及开题报告等推荐参考文献,并运用相关的文献分析软件或工具创建知识图谱,为学生开题梳理文献脉络;利用文献计量分析方法及分析工具,深度挖掘学科信息资源,为学生提供基于研究主题和专业方向的学科文献资源推荐与订阅服务,或与需求用户一起分析课题,制定检索策略,实现嵌入式学科服务。通过图书馆丰富的国内外电子资源进行全面检索,完成文献调研报告。
2.6 论文撰写、学术规范等相关信息素养教育
学位论文的写作是高校人才培养的重要环节之一,学位论文的质量是培养单位人才培养效果的具体表现。论文的规范写作是研究生必备的基本技能,通过专题讲座、论文写作指导课程、网上教学、空中课堂等方式对研究生的科技论文撰写技巧、格式要求、行为规范进行信息素养教育,系统讲述《学术论文编写规则》《学位论文编写规则》《国际单位制及其应用》《参考文献著录规则》《标点符号用法》《科技书刊的章节编号方法》等论文撰写中需要遵守的规范规则,提高研究生论文撰写水平和写作质量。
2.7 科技论文及文献综述常用写作工具的学习与培养。
“工欲善其事,必先利其器”,借助优秀的文献写作辅助工具、文献管理软件、文献分析工具等,可以大大提高写作效率与写作水平。借助强大的数据分析能力,计算机还可以完成人脑很难驾驭的任务,例如聚类分析、大批量关键词提取等。聚类分析、文献脉络分析、文献主题词分析等是撰写综述类文献强有力的研究方法。图书馆可以开展可视化文献分析软件如科睿唯安InCites、ESI、爱思唯尔SciVa、CiteSpace可视化文献分析、VOSviewer,数据统计软件SPSS,常用文献写作工具如科睿唯安Endnote、中国知网研学系统、笔杆网智能写作平台等各种工具的推介、教学和指导,从而提高学生的写作水平和文献研究效率。
3 结语
学位论文的学术性、原创性、新颖性、实用性等特征,决定了其巨大的资源利用价值。借助文献计量、主题分析、聚类分析等方法对其进行内容深度挖掘,并与学科服务、机构知识库建设、前沿热点分析、馆藏资源建设等服务项目无障碍融合,是实现学位论文知识服务的最有效利用途径。随着我国从“制造强国”向“智造强国”迈进,高等学校和科研院所的科学研究创新性要求使得学位论文的原创性特征愈加显著,对学位论文数据库的内容挖掘与知识服务具有重要的学术意义和现实应用价值。