网络爬虫技术在科研成果管理中的应用研究
2020-06-08唐绍华
摘 要:为规范科研成果管理流程,减少科研管理人员工作量,提高科研成果审核的及时性和准确性,设计了基于网络爬虫技术的科研成果真实性验证算法,根据设计的算法,采用Python语言编写程序,爬取了科研成果网络数据,与湖南工程职业技术学院2019年度科研成果数据进行了比对,从匹配的结果来看,网络爬虫技术能有效实现科研成果的真实性验证,为科研成果管理的数字化、自动化、智能化提供了技术支撑。
关键词:网络爬虫;科研成果;自动化
Abstract:In order to standardize the management process of scientific research achievements,reduce the workload of scientific research management personnel,and improve the timeliness and accuracy of scientific research achievement audit,the authenticity verification algorithm of scientific research achievement based on web crawler technology is designed. According to the designed algorithm,the program is written in Python language,and the network data of scientific research achievement are crawled and compared with the data of scientific research achievement of Hunan Vocational College of Engineering in 2019,from the matching results,the web crawler technology can effectively realize the authenticity verification of scientific research achievement,and provide technical support for the digitization,automation and intellectualization of scientific research achievement managements.
Keywords:web crawler;scientific research achievements;automation
0 引 言
近年來,我院立项的科研项目,获得的科研成果越来越多,科研领域越来越广泛。但长期以来,我院的科研管理工作依然停留在传统的数字化管理阶段,科研成果汇总后以简单的Excel文档形式存储在科研处,科研论文、专著及论文的真实性验证需要科研秘书人工到门户网站逐条进行查询,工作量大,为减轻科研秘书的工作量,规范科研成果管理流程,实现科研成果管理的数字化、信息化、智能化,有必要建设我院智慧科研成果管理服务平台。
1 平台需求分析
科研成果管理平台的用户角色包括教职工,二级学院及处室科研秘书,学校科研处秘书。教职工主要实现科研成果的登记,二级学院及处室科研秘书主要实现本部门教职工科研成果的审核,学校科研处秘书主要实现全校教职工科研成果的审核,具体功能需求为:
(1)教职工登录系统后可以添加、删除、修改、查看个人的科研成果;
(2)二级学院及处室科研秘书登录系统后可以添加、删除、修改、查看个人的科研成果和审核本部门的科研成果;
(3)二级学院及处室科研秘书登录系统后可以添加、删除、修改、查看个人的科研成果并对全校的科研成果进行自动化初审。学校科研秘书登录系统后可以添加、删除、修改、查看个人的科研成果并对全校的科研成果进行自动化复审;
(4)科研成果包括论文、专利、专著、立项课题、论文获奖等信息,所有科研成果能根据基础数据设置的参数自动生成奖励信息,并对个人奖励进行统计汇总;
(5)系统能自动生成个人业绩,二级学院及处室科研业绩、学校科研业绩相关图表,供教职工个人、二级部门领导、学校领导查看;
(6)系统能按指定条件查询生成可视化科研成果纵向对比分析图,供校领导查阅;
(7)系统能自动从网上爬取其他同类高校的科研数据,生成横向对比可视化图表,供校领导查看。
2 平台功能模块设计
根据平台需求,对智慧科研成果管理平台的功能模块进行了设计,平台主要包括基础数据设置、科研业绩考核、科研成果管理、智能决策管理、系统管理5个模块,具体设计如图1所示。
其中科研成果登管理系统的核心模块,主要实现科研论文、专利、专著、立项课题及获奖论文的管理和维护。科研业绩考核模块包括个人业绩查看、学院业绩查看、学校业绩查看。智能决策模块主要实现历年学校论文发表及立项课题的数据分析,学校历年发表论文及立项课题情况与同类高校发表论文及立项课题情况的横向对比分析。
3 平台网络爬虫需求
科研成果登记后,二级学院及处室科研秘书需对本部门所有教职工的科研成果进行初审,验证科研成果的真实性,学校科研处秘书需要对全校教职工的科研成果进行复审,验证科研成果的真实性,传统方法需要科研秘书人工访问科研成果查新网站,逐条比对教职工登记的科研成果,工作量大,工作效率低。
为减轻科研秘书的工作量,提高科研成果审核的及时性和准确性,提高科研成果管理效率,有必要引入网络爬虫技术来爬取网络数据,再将爬取的网络数据与教职工登记的科研成果数据进行比对,来实现科研成果的自动化验证。
4 网络爬虫技术的应用
4.1 爬虫技术
Scrapy爬虫技术主要包括爬虫,项目管道。爬取网络数据时,先要获取需要爬取的URL链接,再从URL链接中找到访问URL请求头,并将请求头内容封装合适的存储结构。请求头发送请求给爬虫程序,爬虫程序执行完后,将处理后响应内容提交给项目管道,最后通过项目管道来执行具体的数据操作。
4.2 科研成果自动审核关键算法描述
构建网络爬虫先需要寻找目标相关网络,从相关网络上获取有价值的网页内容;然后分析所获取的网页内容,并提取有用数据,在将数据存储到数据结构中,最后利用数据结构展示或进一步处理,具体程序流程如图2所示。
先读取数据表中数据,将数据保存在内存中,循环判断是否是最后一条数据,如果不是,开始爬取数据,并提取爬取到的有用数据,再判断爬取的数据与数据库数据是否匹配,如果匹配成功,则修改数据表中审核字段标志为“已审核”,否则继续循环判断是否是数据表中最后一条数据,如果是,则退出循环。
4.3 核心代码解析
匹配URL地址数据用到Scrapy爬虫,首先在爬虫的方法里面获取数据表中数据,数据存入data,关键代码为:
其中parse_detail为获取数据源方法,获取数据后,要与数据库中数据进行匹配,如果匹配成功,再修改审核标志,如果匹配不成功,则不修改审核标志。
5 運行效果
通过网络爬虫技术,将爬取的数据与数据表中登记的数据进行对比,如果匹配成功,则修改数据表中审核字段为已审核,运行效果如图3所示。
在图3中,可以看到审核标志已经修改为“已审核”,有效减少了科研成果管理人员的工作量,提升了高校的信息资源建设效率。
6 结 论
根据高校科研成果管理流程对智慧科研管理平台进行了需求分析,设计了智慧科研管理平台功能模块,探索了网络爬虫技术在科研成果真实性验证中的应用,实现了科研成果的自动化审核,在规范科研成果管理的同时,为智慧科研成果管理的自动化、智能化建设提供了有力的支撑。
参考文献:
[1] 曾丽英.基于SSM框架的高校科研管理系统设计与实现 [D].南昌:南昌航空大学,2019.
[2] 李志刚.山大商院科研成果管理系统设计与实现 [D].大连:大连理工大学,2018.
[3] 安素青.基于web的高等学校科研管理系统的设计与实现 [D].青岛:青岛大学,2018.
[4] 余帆.云南财经大学科研管理系统设计与实现 [D].济南:山东大学,2018.
[5] 严秋萍.高校科研创新服务平台设计与实现 [D].长沙:湖南大学,2018.
[6] 李宛泽.曲靖师范学院科研成果管理系统的设计与实现 [D].济南:山东大学,2017.
[7] 张素珍,单振芳,白增山.基于网络备份的科技成果管理系统设计与实现 [J].电脑知识与技术,2017,13(27):62-63+88.
[8] 詹杨.高职院校教科研信息管理系统的设计与实现 [J].襄阳职业技术学院学报,2017,16(1):84-87.
[9] 廖清远,杨小燕.基于多客户端的高职院校科研管理系统设计与实现 [J].电脑编程技巧与维护,2016(24):66-67+75.
作者简介:唐绍华(1980.10—),男,汉族,湖南常宁人,教师,副教授,工程师,硕士,研究方向:职业技术教育、软件架构设计、企业信息化。