APP下载

科技报告中的知识发现研究

2017-11-14

图书馆界 2017年5期
关键词:语义关联报告

(常州信息职业技术学院图书馆,江苏 常州 213164)

科技报告中的知识发现研究

(常州信息职业技术学院图书馆,江苏 常州 213164)

科技报告作为国家重要的战略性资源,其蕴含的知识内容具有极大的科研价值。科研活动相关要素、科技报告主题内容、科技报告使用记录及科技报告与其他资源的集成关联都是科技报告中知识发现的研究内容。通过语义组织关联数据,构建多维度、多层次的科技报告体系实现科技报告中的知识发现,确保科技报告价值的深度挖掘。

科技报告;知识发现;语义组织

自2014年3月国家科技报告服务系统正式上线运行后,科技报告的共享及应用日渐进入更多的社会公众和专业人员的视线。随着全国性的“大众创业、万众创新”浪潮的开展,以及智库建设的蓬勃发展,对科技报告中的知识挖掘、知识发现研究越显重要性。科技报告作为一种重要的科技信息资源,其对知识的创造和知识的应用有着重要的应用价值,所以,其形成、收集、在线浏览和检索只是科技报告利用的起点,更为重要的是科技报告价值的深度挖掘和有效利用。这不仅关系到科技报告制度建设的意义和价值,更关系到科技报告作为战略性资源的价值发挥。

1 科技报告中知识发现的内涵及意义

科技报告中的知识发现是指全方位应用各类知识组织工具,对大量科技报告知识资源进行采集加工、知识要素描述、标注,通过主题链接、本体链接、交叉链接等多种模式建立起科技报告之间、科技报告与其他科技资源之间、知识元、科研实体、知识要素之间的多重关联,进而满足不同人员多层次、多样化的知识服务要求。

科技报告本身是一种高度知识含量的知识产品,对科技报告的学科主题进行知识发现研究,不仅可检测和发现某一学科主题的研究热点、演化特点、前沿态势和发展水平,为相关部门制定和优化科技规划项目提供课题指南和参考,为社会公众快速了解某一学科领域国家的科技投入和产出状况提供途径。还可通过学科主题内在的知识关联分析和揭示,将关联知识集成反馈给使用者,在启迪使用者思维和灵感的同时,减轻使用者的认知负担,节省其时间成本,且可为其后续研究提供可靠的智力支撑。还可通过知识“黏结剂”的特性黏结科学研究群体,促进形成各种科学活动群体,便于群体成员开展科研交流,避开重复研究,加快科研进程和科研产出。

再者,充分进行科技报告知识关联的研究和利用,促进科技报告从文献组织向知识组织转型,不仅可实现科技报告价值的提升和发挥,促进服务自主创新,还可提高科技报告管理人员的知识服务能力,通过知识集成和关联分析,为用户提供高层次的知识服务,提升公共科技资源服务形象。

最后,进行科技报告发现研究,有助推动国家科技报告服务系统的功能完善。目前,我国上线的国家科技报告服务系统仍有些问题需改进,如开放程度不高,被网络搜索引擎索引的程度较低;服务颗粒度过大,缺少基于事物本身的细颗粒度服务,通常以一本科技报告为单元,用户若要获取所需的知识,还需对科技报告做进一步阅读才能定位到他们所需知识;集成度不高,未能充分揭示知识之间的内在联系,不便于用户一站式获取所需知识。

2 科技报告中知识发现的内容

2.1 科研活动相关要素的知识发现

科技报告与其他文献资源相比,著录时相对要求内容较多、较完善,包含大量的科研活动相关要素,即科研活动的基本信息和科研实体相关信息,如科研人员组成及概况、项目/课题名称、项目/课题起止日期、科研计划类别、科研项目承担单位、科技报告馆藏信息等。通过上述科技报告外部特征的要素统计分析,可了解科研项目的地区分布、机构分布、部门分布、人员分布等,还便于对科研活动进行全面评估,利于发现核心和优秀研究人员及团队。

2.2 科技报告主题内容的知识发现

科技报告中主题内容的知识发现是科技报告知识发现研究的主要内容,包括三个层面:一是学科领域层面的知识发现,二是学科主题层面的知识发现,三是知识元层面的知识发现。学科领域的知识发现是指通过学科分类体系对科技报告进行学科领域的划分和统计,分析哪些学科领域研究相对薄弱,哪些学科领域研究相对活跃,不同学科领域研究情况的变化如何,不同学科领域的科学研究交叉情况如何等,进行形成分析报告,为科研主管部门制定和优选学科领域课题资助提供决策依据和参考。

学科主题层面的知识发现是指通过学科主题挖掘,发现哪些主题研究相对薄弱,哪些主题研究相对活跃,某一主题现有研究状态如何、未来发展趋势如何、如何演变,同一学科不同主题之间的关联性如何等,进而发现某一学科主题研究的技术成果,结合社会经济发展所需的重大技术和薄弱技术,助力科研人员识别技术发展的新趋势、发现研究中的新问题,为科研人员后续研究提供导向,为科研管理部门优选资助研究主题提供智慧参考。

科技报告中的图表、数据、参数、公式、产品技术等都是显著的知识要素,对其进行知识发现研究,即通过知识本体等工具对科技报告中的知识要素进行标引和著录,形成知识地图、知识节点、知识网络图等,进而厘清某一知识元的发展脉络,预测知识元研究热点,实现隐形知识的显性化等,为科研人员进行探索性知识研究提供知识颗粒度细小化服务和知识智力支撑。

2.3 科技报告使用记录的知识发现

科技报告使用记录的知识发现利于掌握和了解科技报告的利用情况和用户需求及满意度情况。通过对注册用户的数量、科技报告网站访问记录、收藏和下载频次、访问时间等进行统计分析,研究科技报告的使用状况,预测科技报告的社会效益和经济效益。通过对网络注册用户的评论、自定义标签、讨论交流记录等数据内容的分析,研究用户行为、需求特点,进而知晓用户关注热点,掌握用户使用习惯和需求内容,了解用户存疑和使用期望及满意度,发现核心用户群体,利于科技报告服务系统的进一步完善,利于发现科研价值大的科技报告内容,利于从用户角度发现研究热点形成科技报告知识的拓扑结构,进而与前面从知识元方面形成的知识拓扑结构进行对比分析。目前,我国已上线使用的国家科技报告服务系统还未开展用户讨论交流的相关应用实践。美国的国家技术信息服务局(NTIS)在高级用户范围内实现了在线笔记管理、用户评论等功能,这些将为我国科技报告社会网络管理提供借鉴。

2.4 科技报告与其他资源的集成关联和知识发现

将科技报告与期刊论文、会议论文、专利等科技文献进行语义关联,利用不同资源的不同特点,如科技报告描述科研活动过程、结果,期刊论文和会议论文相对侧重理论问题的探讨,专利侧重技术产品的研发等。进行科技报告与期刊论文、会议论文和专利等科技文献的集成关联,从整体上对科研要素进行统计分析、对比分析,利于全面深入掌握整个科研活动的过程与产出。对几大类不同科技文献进行粗颗粒度(如文摘)、中颗粒度(如章节)、细颗粒度(如知识单元)的主题关联知识发现,实现不同科技资源之间的学科领域层面、主题内容层面和知识元层面的对接。也可通过用户搭建不同科技资源之间的链接,即同一用户利用同一账号访问不同科技资源,产生不同的访问记录和评论、交流信息等,针对这类数据挖掘和分析从用户角度发现用户对不同资源的利用偏好、对不同资源的情感依赖、不同资源的关注热点等。

3 科技报告中知识发现的实现

知识的有效组织是知识发现的起点和基点,为确保科技报告价值的深度挖掘,可以以科技报告的数据为对象,选取关联数据,以语义网技术实现科技报告的多维度聚合,从而构建一个相互关联、多维度、多层次的科技报告资源体系,并与其他资源建立广泛的语义互联,从而实现科技报告的知识发现。

3.1 科技报告语义组织框架设计

根据关联数据是语义网的最佳实践,进行关联数据的语义组织,建立不同数据之间的关联,形成集概念主题、知识内容为一体的科技报告资源集,为用户方便快捷利用科技报告创造平台和便利条件。

(1)资源数据层:包括按内部主题特征分类的科技报告数据库和按外部特征分类的科技报告数据库,如科研人员数据库、机构数据库、项目数据库等。

(2)语义描述层:基于概念模型进行科技报告的语义描述。可细分为:1)主题元素,描述说明科技报告的内容主题,如标题、关键词、摘要等;2)管理元素,描述科技报告的管理数据,如密级、页码等;3)作者元素,记录科技报告的撰写者及其参与者信息,如第一作者、第二作者等;4)项目元素,描述科技报告所属的科研计划或科研项目类型;5)机构元素,描述科研项目承担单位及参与单位的信息,如中科院、北京大学等。

(3)语义关联层:关联数据是语义网的最佳实践,基于唯一标识符的多维关联方法进行资源间的语义互联,实现人员的关联、主题的关联、机构的关联、项目的关联,以及以上元素之间的相互关联。

(4)语义服务层:基于SPARQL进行关联数据的浏览、检索,以及其他应用。

3.2 科技报告语义组织的实现步骤

第一步,确定关联组织范围。在以科技报告题录数据,如人员、机构、项目等为主要组织对象时,还需考虑用户的利用需求及使用习惯增设组织元素,如“关键词”“主题词”“题名”等作为具体关联对象,使关联组织范围尽可能大些,这样可避免无关联的产生。

第二步,进行语义描述。通过复用或创建相关规范词汇集或本体,如主题词表、分类表等,实现科技报告的规范化语义描述。如“题目:Title”规范化描述为“dc:title”,“作者:author”规范化描述为“foaf:maker”,“项目/课题名称:project”规范化描述为“swrc:project”,“项目/课题承担单位:organization”规范化描述为“foaf:Organization”。规范化的语义描述为语义关联降低或减少障碍。

第三步,建立数据之间的动态关联。数据发布是数据关联的前提和基础。数据的发布模式目前有静态发布、批量存储、调用时生成、事后转换(D2R)等方式。而D2R自动生成的关联数据,其URI(统一资源定位符)并不是严格意义上的唯一,而是D2R自动分配的。为了实现科技报告与其他资源有效的语义链接,尽可能地复用已有的、成熟的、通用的各类本体语言,如DC、FOAF、SWRC等,以实现表内关联的链接、表间关系的链接以及数据库之间关系的链接。

第四步,提供接口服务。不仅能支持用户利用SPARQL语言进行数据库检索,还能让用户进行基于html的浏览、关联数据的浏览等,以满足不同用户对科技报告的多样化需求。

在具体的语义组织工作中,还需注意以下问题:1)D2R发布的关联数据并没实现真正有效的语义关联,必须对自动产生的映射文件进行改写,建立实际关联;2)SPARQL语言虽然可以实现各类关系的挖掘,如合作著者的查询,但是其前提是必须将各类资源关联数据之间的链接进行有效的关联;3)空白节点问题。在数据的动态关联和科技报告与其他科技资源的关联中,对没有全部定义命名域的URI,会有空链,即空白节点。在语义关联组织中,要尽量避免这种情况。

4 结 语

科技报告作为重要的战略新兴资源,蕴含极大的科研价值,尤其是对科研过程的描述、对失败教训的记录成为科技报告独有的特色与价值。通过对科技报告中所蕴含的科研要素知识、科研主题内容以及科技报告的使用数据进行分析与挖掘,将极大可能地发现科技报告中蕴藏的知识金块,进而助力科研创新和知识创新。然而,目前我国科技报告制度建立不久,关于科技报告的知识发现研究相对较少,上线两年的国家科技报告服务系统还有不少待完善的地方,如缺少科技报告多颗粒度的规范化表示,缺少用户评论、标注、在线交流功能,缺少用户使用记录的档案管理,缺少科技报告与其他科技资源之间的引文链接、主题链接、科研实体链接、知识要素链接等。这些问题希望能引起业界专业人员的关注,使其成为研究内容和研究热点,助推科技报告服务系统的日趋完善和服务能力的提升。

[1]贺德方.科技报告的内涵、作用与管理机制[J].情报学报,2014(8):788—792.

[2]陈传夫,代钰珠,曾建勋.科技报告开发利用与知识产权问题研究[J].情报学报,2014(8):793—799.

[3]国家科技报告服务系统[EB/OL].[2016-3-28]http:∥www.nstrs.cn/index2.aspx.

[4]吕元智.基于关联数据的电子政务信息资源语义组织研究[J].图书情报工作,2012(21):143—146,150.

[5]夏翠娟,刘 炜,赵 亮,等.关联数据发布技术及其实现——以Drupal为例[J].中国图书馆学报,2012(1):49—57.

G255

文献识别码

B

1005-6041(2017)05-0082-03

2017-05-05

袁 艳(1975—),女,硕士,馆员,常州信息职业技术学院图书馆。

猜你喜欢

语义关联报告
韩国语“容入-离析”关系表达及认知语义解释
奇趣搭配
拼一拼
智趣
报告
报告
报告
试论棋例裁决难点——无关联①