APP下载

基于知识图谱的科研档案信息资源挖掘
——以湖南省农业科技计划项目档案为例

2021-07-22李文媛黄晓林

兰台世界 2021年7期
关键词:标引湖南省科技

李文媛 黄晓林 饶 笛

科研档案是在科研活动和管理过程中形成的,具有保存价值的文字、图表、数据、图像、音(视)频等各种形式的原始记录,是国家档案的重要组成部分,其内容丰富、形式多样,有重要的存史、凭证、资政、育人等价值。

通过文献调研发现,档案信息资源挖掘的研究主要集中在挖掘策略和方法,对档案具体内容信息的挖掘分析较少。例如,王兰成等论述了档案社会化媒体信息研究框架以及内容挖掘的研究方法[1];张倩对高校学术档案数据来源进行分析研究并提出了构建高校学术档案大数据知识资源库的步骤[2];杨来青则是基于大数据技术提出档案信息资源挖掘策略与方法[3]。

知识图谱广泛用于信息挖掘研究,它是现实世界中根据实体间关系相互连接起来所形成的一种网络结构,主要是用图形的方式直观地呈现学科或领域知识的各种联系[4]。其在档案学领域的应用研究主要体现在展示研究进展与演化趋势,识别知识基础、研究热点与研究前沿,识别核心作者群及其之间的互引关系,识别核心国家、机构及其之间的合作情况[5]等档案学文献的研究,以及构建科研档案管理知识图谱[6]等,应用于档案本身信息的挖掘研究较少。因此,本文将利用知识图谱的方法对科研档案的内容信息进行挖掘分析,验证该方法应用于档案内容信息挖掘的可行性,进一步发挥科研档案对科研管理工作的决策参考作用。

一、数据来源及处理方法

科技计划项目档案是科研档案的主要组成,是科技计划项目管理活动的原始记录。湖南是农业大省,现代农业技术是《湖南省“十三五”科技创新规划》构建的十大领域产业技术创新链(以下简称十大领域)之一。挖掘农业科技计划项目档案的内容信息对于了解湖南省农业领域科学研究现状具有重要意义。

本研究数据来源于湖南省级科技计划项目档案。为了使信息分析更加准确和有针对性,在进行数据处理前,对选取的数据进行了必要的人工清洗和数据标引。(1)数据筛选。以2016—2018年湖南省重大专项和重点研发计划项目为范围,共选取得到农业领域科技计划项目档案信息408条。(2)规范化处理。对项目承担单位、项目类型等字段的全称、简称并存和不一致等情况按照统一标准进行规范化处理。(3)数据标引。根据项目承担单位所处市州、机构类型等对其进行属地人工标引;按照十大领域的分类,对项目所属产业和重点细分产业进行标引。

本研究使用的数据处理工具主要有:分词处理采用python语言环境下的jieba分词工具包,词频分析采用BibExcel,复杂网络数据可视化采用Gephi,部分基础性数据整理使用Excel软件及VBA语言。

二、湖南省农业科研现状分析

1.研究地域分布。科研项目所属地域分布统计可反映各地区研究力量强弱。根据项目承担单位所在地,对每个项目所属行政区域进行标引,并利用该标引对项目进行地域分布统计(见表1)。由表1可见,长沙市科研单位承担项目数量以279个遥遥领先,占比高达68.38%,其余市(州)项目承担数量则仅有十几或几个。可知,长沙作为高校和科研机构集中的省会城市,研究力量基础雄厚,其在农业产业方向上的研发能力远高于其他地市。

表1 湖南省农业科技计划项目所属区域统计分析

2.研究机构分布。项目承担单位的分布统计可以反映从事该产业研究的主体和主力。根据项目承担单位机构性质,对每个项目进行标引,并利用该标引对项目进行机构类型统计(见表2)。统计发现,高等院校、企业和科研机构承担项目分别为141、153、100个,分别占比34.56%、37.5%和24.51%,说明开展农业研究的机构分布较为平衡,其中企业承担项目数量最多,表明企业作为科技创新的主体作用在农业产业中得到充分展现。

表2 湖南农业科技计划项目承担单位机构性质分布

为进一步了解各机构性质的研究情况,对各项目承担单位承担项目的数量分别进行统计。统计发现,项目承担单位共有210个,承担3个及以上项目的单位共计有25家(见表3),15家单位有2个项目,170家单位有1个项目。由表可见,承担3个以上项目的单位几乎均为高等院校或科研机构。其中,高等院校有10个,承担项目127个;科研机构14个,承担项目76个。综合分析表2、表3发现,尽管在农业研究领域中企业的主体地位已经确立,但是集中优势不强,其研究力量仍然集中在以湖南农业大学、中南林业科技大学等农林专业为重点的高校,以及湖南省林业科学院、湖南省蔬菜研究所、湖南杂交水稻研究中心等与农业产业相关的科研机构。究其原因,笔者认为,高校和科研机构拥有更专业、更集中的科研团队和科研人员,研究资源更加丰富。企业以盈利为目的,更加注重投入和产出,农业研究周期较长,而中小企业经费有限,精力有限,更专注于本企业核心产品的研究。

表3 承担3个及以上农业科技计划项目的单位

3.研究热点分布。一般情况下,立项资金支持反映项目的重要程度,项目所获资金支持越多说明项目越重要。因此,对立项资金的分析可以反映立项的侧重点和研究的热点。以立项金额大小为基础形成的项目研究热点分布见图1。表4是2016—2018年获支持经费排名前10位的湖南省农业科技计划项目。

图1 湖南省农业科技计划项目研究热点分布

表4 获得财政资金支持排名前10位的湖南省农业科技计划项目

由图1可知,湖南省农业产业研究热点主要集中在以下几个方向:(1)作物新品种选育及栽培技术。该方向是湖南省农业研究的最重要主题,其中水稻栽培育种研究是重中之重,猕猴桃、食用菌、西瓜、花卉、药材等特色农产品也得到较多关注,这与湖南是以水稻为主的粮食大省、杂交水稻发源地、种质资源丰富等省情相符。这也表明,近年来湖南省农业产业研究方向符合提高种业自主创新能力、确保粮食安全的国家战略。(2)特色农产品及其加工。农产品精深加工对增加农产品附加值、提高农业生产效益具有重要意义。湖南省农产品精深加工研究突出生态绿色和本地化,在具体农产品上主要包括粮油、绿色蔬菜、柑橘等特色水果、黑茶等地方茶叶、中药材、竹木林产等方面。(3)农业生态环境修复。该方向的研究主要集中在土壤污染修复、生态养殖和废弃物综合利用等方面,这符合湖南是有色金属之乡,重金属污染严重,亟待治理修复的省情,同时也说明了湖南对农村生态环境的关注度较高,粗放的农业生产方式正在向绿色农业转变。(4)智能化农机装备开发及推广。智能农机装备能够有效提高农业生产效率,推动现代农业发展。湖南省是农业大省、机械制造强省、信息技术也有一定的基础,这些均为湖南省智能农机开发和推广提供了一定的便利条件。同时,从表4中也可以看出,10个获得较多财政资金支持的项目中有6个涉及种植业、2个养殖业、1个农业信息技术、1个农业先进装备。这说明种植业仍然是湖南省农业的主业;养殖业、农业信息技术、农业装备等方向有一定研究,但研究力量相对较弱;种植业中除水稻外,油茶、茶叶、中药材、食用菌等特色农产品的相关研究也得到较多支持。

4.产业融合研究现状。为分析湖南省农业一二三产业融合情况,本文以十大领域和其重点细分产业为标准,对湖南省农业科技计划项目档案进行产业标引,标引内容包括项目所属产业(见下页表5)和重点细分产业(见下页表6),标引时考虑项目所属产业和重点细分产业交叉情况。由表5(见下页)和图2(见下页)可知,近年来,湖南省农业科技计划项目中与其他产业存在交叉融合的研究,数量占比已达28.67%,说明湖南省现代农业与其他产业存在一定程度的交叉融合。

表5 湖南省农业科技计划项目与其他产业融合情况

湖南省现代农业产业与其他产业交叉融合的研究现状主要有以下特征:(1)与“资源利用和环保”交叉融合研究最多,占比已达55.6%。结合图2和对项目的梳理分析可知,在细分产业中,农产品质量安全与环保装备制造与服务业联系最为紧密,69.6%农产品质量安全的项目与环保装备制造与服务业相关,另有16%的项目与城市矿产开发利用有关,大多数为环境污染治理修复、生态养殖、废弃物利用、生态保护等问题的研究,说明在农产品质量安全方面的研究主要集中在环保方面。(2)与人口健康、新一代信息技术、高端装备制造和现代服务业都有一定的交叉融合研究。与人口健康和高端装备制造的产业融合研究相对集中,分别集中在中药材的培育种植和智能农机装备研制,即细分产业中的现代林业与现代中药、农机装备与智能制造装备的融合研究;与信息技术产业融合则是在物联网、电商平台、大数据等智慧农业经营和智能高效设施研发,涉及物联网、移动互联网、北斗导航、智能硬件及配套等细分产业;与现代服务业的融合研究则不多,仅有农业产品推广和科技特派员技能提升等。(3)现代农业内重点细分产业研究热度差异明显。由表6和图2还可发现,在其重点细分产业中,蔬菜果茶和现代林业等高值农产品的培育种植是研究热点,特别是蔬菜果茶占比已达21%。其次是畜禽水产、粮食油料等传统农业研究。这与湖南省是粮食大省,名优茶品较多,以及油茶油菜种植、畜禽水产养殖、中药材种植、竹木加工有一定特色等省情相符。

表6 湖南省农业科技计划项目在农业重点细分产业分布情况

图2 湖南省农业科技计划项目在各重点细分产业中的分布情况

三、结论

综上所述,通过对农业科技计划项目档案的挖掘,分析了湖南省“十三五”期间农业领域科学研究现状,结果表明:在地域上,长沙市是农业科技计划项目的承担主力;企业的农业科技创新主体地位明显,但是高校和科研机构仍是研究的重要角色;作物新品种选育及栽培技术是研究重点,特色农产品及其加工、农业生态环境修复与治理、智能农机装备开发与推广等方向也是研究热点;现代农业与其他产业存在一定程度的交叉融合研究,主要集中在与环保产业的融合研究,在细分产业上现代林业与现代中药、农机装备与智能制造装备的融合研究较多。

单独的科研档案蕴含的信息是零散、独立的,主要能体现其存史、凭证的价值。而大量的科研档案信息,通过各种研究方法进行数据挖掘和分析,可以反映科学研究分布、趋势、热点等情况,从而更好地发挥科研档案的资政作用。由上述分析过程和结果可以看出,知识图谱的方法在科研档案信息资源挖掘分析中,能够有效地对科研项目的基础数据进行聚合归类,反映科研项目的区域分布、机构分布、研究热点分布及产业融合等现状特点,体现科研项目布局的倾向性,为政策评价和政策建议提供信息支持。

猜你喜欢

标引湖南省科技
中医古籍医案知识元标引方法的思考及对策
湖南省军区幼儿园
湖南省第一次工农代表大会何时何地召开
作者书写关键词须知
湖南省怀化市通联站订户展示之窗
湖南省艺术创作规划审稿会
科技助我来看云
科技在线
科技在线
科技在线