APP下载

面向大学生创新实践活动的图书馆大数据服务探析

2017-07-09何胜吴智勤冯新翎赵小荣柳益君

江苏理工学院学报 2017年2期

何胜 吴智勤 冯新翎 赵小荣 柳益君

摘 要: 大数据背景下,如何基于图书馆海量电子资源为大学生创新实践活动提供高效的数据服务,从而培养大学生创新能力、提高创新实践质量是高校教学科研领域值得研究的问题。着重从数据服务角度分析了大学生创新实践存在的问题,针对性提出包括构建创新知识库、开发大数据分析平台和提供个性化服务的图书馆大数据服务方案,以应对当前大数据环境下大学生创新实践所面临的挑战。

关键词: 创新实践活动;高校图书馆大数据;语义网;关联数据

中图分类号:G252.0 文献标识码:A 文章编号:2095-7394(2017)02-0064-04

2012年,教育部发布《关于做好“本科教学工程” 国家级大学生创新创业训练计划实施工作的通知》,鼓励在校大学生积极参与创新实践活动,这对于树立当代大学生创新意识、培养创新能力具有重要意义[1]。近年来,大学生创新实践能力日益成为衡量高校教学水平的关键指标之一。

在以创新训练基金项目和学科竞赛为主要形式的大学生创新实践活动中,信息收集和整合、数据处理和分析以及项目成果的总结和凝炼是各类创新实践过程的主要环节,其中各类数据资源的精准查找和高效利用成为影响创新实践质量和创新成果水平的重要因素。

当前,随着互联网、云计算和物联网等信息技术的发展,支撑大学生创新实践活动的各类数据资源呈现数据量大、形式多样、增长迅速以及价值密度低的大数据特征,给创新实践活动带来巨大挑战[2,3]。由于高校图书馆具有丰富的图书资源和数据资源,因而在大学生创新实践活动中担任不可或缺的角色[4]。大数据环境下如何基于图书馆资源,为大学生创新实践活动提供有力支持值得深入研究。

1 大学生创新实践活动及其面临的困境

1.1 创新实践活动主要形式

创新实践活动主要包括“创新训练基金项目”和“科技创新与学科竞赛”两种。前者是指在高校教师指导下,由学生担任主持人,组建团队,申报并完成相关领域的科研和创新项目,一般会划拨一定的科研经费,以资助团队进行项目调研、论文发表、软件制作、专利申请以及结题报告撰写等相关科研活动,目前有各级(国家级、省级和校级等)各类(重点项目、一般项目和指导性项目等)实践创新训练计划基金项目可供申报;后者是指各种面向大学生科技创新的学科竞赛,影响较大的有全国大学生数学建模竞赛、“挑战杯” 课外学术科技作品竞赛、电子设计竞赛等。创新实践活动对于大学生创新性思维的锻炼,创新意识和创新能力的培养都具有积极作用。

1.2 创新活动面临的困境分析

无论是创新基金项目还是学科竞赛,从创新实践的过程来看,一般可以归纳为选题、执行和成果总结阶段。

1.2.1创新实践的选题阶段

选题需要结合团队的知识结构和研究方向,依据当前学科发展的动态,研究热点等选择合适的创新题目。对于创新基金项目而言,需要对包括互联网资源在内的本学科海量数据资源进行调查研究,找到既契合团队研究兴趣,又有创新意义,且能达到预期目标的研究内容并提炼出题目;对于学科竞赛,尽管很多情况下已经给定题目,但需要从海量数据资源中找到与本次竞赛选题相关的创新思路或技术路线,有时还需要分析历年选题并加以总结和分析,从中获得启发或感悟。本阶段面临的主要挑战是如何从快速增长的海量资源中,找到与创新选题密切相关的知识以及可供学科竞赛参考的案例。

1.2.2创新实践的执行阶段

本阶段必须针对课题的研究目标并紧密围绕研究内容开展创新活动,需要从研究内容中及时发现新的问题、具体分析并加以解决。创新团队面临的问题包括: (1)“信息过载”问题。虽然从互联网或相关资源数据库(如中国知网或万方等数据库)中能检索到海量的信息和知识,但与课题密切相关,对创新实践具有直接启发意义的高价值资源常常隐藏其中难以发现,在信息过载時代如何实现对海量数据的精准查询?(2)创新型知识的深度挖掘问题。在资源精准检索的基础上,创新团队如何对相关资源的有效分析,以发现创新型的知识?(3)知识直观呈现问题。如何清晰显示所发现的知识之间的关联关系和演化脉络,以帮助创新团队深刻理解知识体系,洞察隐含规律和拓展创新思路?

1.2.3创新成果的总结阶段

创新成果一般以论文、专利、软件著作权和结题报告等形式呈现。期刊论文的标准格式和写作规范、专利和软件著作权的范例和模板以及结题报告的撰写规则等需要查阅大量的资料,在此基础上,创新团队需要将实践成果进行系统总结和理论提高后,才能形成有价值的学术文献。在此阶段,由于大学生不熟悉各类型创新成果的撰写规范和行文思路以及不善于对创新成果进行理论总结和提炼升华,从而影响创新实践成果的最终质量和水平。

2 基于图书馆大数据服务的创新实践活动对策分析

针对大学生创新实践过程中的三个阶段面临的挑战,提出以图书馆大数据服务为核心内容的应对方案,包括三个部分,如图1所示,首先通过构建创新知识库以支持创新实践选题,然后基于创新知识库搭建大数据挖掘和分析平台为创新进程提供保障与服务,最后图书馆学科馆员利用平台以个性化服务的方式帮助创新团队进行创新成果的总结和提高。

2.1 构建创新知识库辅助创新实践选题

创新知识库是大学生创新实践活动过程中用于检索和查询的数据库。在创新实践选题阶段,及时、精准获取创新实践活动相关的历史研究资料、当前研究动态和研究前沿非常重要。大数据环境下,需要从包括互联网资源,各数据库商的电子资源以及图书资源等多来源,多格式的数据中获取信息,并有效融合构建成为统一的结构化知识库,以供检索和查询。

近年来兴起的语义网[5](Semantic Web)和关联数据技术[6](Linked Open Data,LOD)为数据的融合和检索提供了强大的技术支撑。语义网技术由万维网联盟W3C提出,以图(Graph)为数据结构描述现实世界中的实体和链接关系。数据关联技术以语义网为基础,基于资源描述框架[7](Resource Description Framework,RDF)的组建规则, 将各种异构的数据库有机链接起来,构建成语义关联的大数据。数据关联技术能够有效消除数据库中的冗余信息,并适合快速查询和精准检索。

创新素材收集和创新知识整合。创新知识库的数据来源包括学科专业数据库、在线百科、Web页面等。学科专业数据库是指通过签约方式(如中国知网、万方)获得使用权限的数据库,或者各图书馆自建的专业数据库(如本科生、研究生的毕业论文库,或通过网络爬虫实时爬取并结构化的专利库、各类学科竞赛的历年题库和解答等);在线百科是由相关领域专家编辑并反复完善而构建起来的有一定权威的知识库,库中包含大量结构化的学科知识,如百度百科、维基百科等;Web页面数据来源于互联网网页,包括文本、图片及音视频等海量信息(如各类创新实践项目的官方网页,学科竞赛相关报道等)。由于上述数据的多源、异构以及收集过程中难以避免的错误,这些数据一定程度上含有噪音,容易出现冗余或缺失。需要使用相关技术和工具(如Extraction Transformation and Loading,抽取、转化和装载工具)检查数据并除去数据中所有明显的重复、错误和不一致[8],完成数据清洗。

2.2 开发大数据挖掘和分析平台以服务创新实践进程

大数据挖掘和分析是指基于数据挖掘算法或工具等信息手段从创新知识库中产生新的知识,是知识创新的主要手段。在大学生创新实践活动中,可以将当前关注的某个问题(如创新项目的某个算法或概念,学科竞赛的某个知识点等)抽象成实体,通过相关算法(如聚类算法和关联规则算法等)将创新知识库中的关系密切的实体挖掘出来。在语义搜索时,除了展示所“关注”实体的搜索结果之外,还推荐与该实体关系密切的所有其它实体,并在检索结果页面上展现;同时给出数据分析结果,例如提供创新实践所涉及的“同类算法”、“同类概念”或“同类知识点”的“算法引用频度”、“概念的演化历程”、“知识点被访问的统计结果”等一系列分析结论,供创新团队选择或参考。

开发创新实践服务平台为创新执行阶段提供服务。为方便创新团队进行大数据挖掘和分析,建立创新平台的软件系统,提供“知识检索”、“数据挖掘和知识问答”和“知识可视化”功能以应对“信息过载”、 “知识挖掘”和“知识直观呈现”问题。在“知识检索”服务中,当输入查询词(实体)后,搜索引擎识别其中涉及到的知识实体或属性,按重要性高低在界面上展现与查询实体相关的知识卡片;“数据挖掘和知识问答”服务首先应用数据挖掘算法产生创新型知识并存入知识库,然后针对用户提供的查询语句(问题),在准确理解用户的问题基础上,将语句按语义划分为分词,并以分词为查询关键词检索知识库,为用户提供唯一精确的答案而非海量的网页链接列表;最后“知识可视化”通过导航功能显示知识实体之间的动态联系,为用户理解知识来源、知识流动和知识汇聚过程以及开展创新性思维提供直观界面视图。

2.3 开展个性化服务提炼创新成果

依托大数据挖掘和分析服务平台,学科馆员利用其学科知识背景,结合创新实践活动的需求通过平台查询和知识问答,为团队提供个性化服务。在创新成果总结阶段,图书馆员依托平台,对课题中的研究成果及时查新,如提供相关期刊的刊文风格、投稿指南;提供专利和软件著作权的撰写模板,总结以往申报材料的成功经验和撰写要领;在项目结题报告或学科竞赛报告中提供包括成果创新点和创新思路的提炼等方面的咨询等个性化服务,进一步提升创新成果的质量。

3 结语

基于语义网构建创新知识库辅助选题,通过具有“知识检索”、“数据挖掘和知识问答”和“知识可视化”功能的大数据分析平台服务于创新实践进程,以及图书馆员提供个性化服务以提高创新质量的方案,能有效缓解当前大数据环境下大学生创新实践面临的困境,提升高校创新实践的质量和水平。

参考文献:

[1] 教育部关于做好“本科教学工程”国家级大学生创新创业训练计划实施工作的通知 (教高函[2012]5号) [EB/OL].(2012-02-22)[2016-10-26].http://news.xinhuanet.com/edu/2012-03/12 /c_122823222.htm.

[2] 何胜, 熊太纯, 周冰,等. 高校图书馆大数据服务现实困境与应用模式分析[J]. 图书情报工作, 2015, 59(22):50-55.

[3] 苏新宁. 大数据时代数字图书馆面临的机遇和挑战[J]. 中国图书馆学报, 2015, 41(6):4-12.

[4] 陆太宁. 融入创新实践活动培养学生创新力-论高校图书馆培养大学生创新能力的切入点与着力点[J]. 现代情报, 2013, 33(8):136-139.

[5] Semantic Web architecture[EB/OL].(2001-05-14)[2016-10-26].http:/ ww w.w3.org/2000/Talks/1206-xml2k-tbl/.

[6] 關联开放数据[EB/OL].[2016-10-26].http://linkeddata.org/.

[7] RDF 1.1 Concepts and Abstract Syntax[EB/OL].[2016-10-26].http://www.w3.org/TR/2014/REC-rdf11-concepts-2014

0225/.

[8] 王元卓, 靳小龙, 程学旗. 网络大数据:现状与展望[J]. 计算机学报, 2013, 36(6):1 125-1 138.

Research on Students Innovation Practice Activity Oriented Big Data Service Scheme of University Libraries

HE Sheng1,3 ,WU Zhi-qing2 ,FENG Xin-ling1,3 ,ZHAO Xiao-rong1,3 ,LIU Yi-jun1,3

(1.School of Computer Engineering, Jiangsu University of Technology, Changzhou 213001,China;2.Jiangsu University of Technology Library, Changzhou 213001,Chian;3.Key Laboratory of Cloud Computing & Intelligent Information Processing of Changzhou City, Changzhou 213001,China)

Abstract: It is a subject worth being studied in the fields of university teaching and research to provide efficient data service for students innovation practice activity based on amass electronic resources of university libraries. The paper analyzes mainly current dilemma of data service of innovation practice process, and a big data service scheme of university libraries is put forward which include three components of innovation knowledge base, analysis platform development of big data and supply of personalized services. The scheme can respond the challenges of students innovation practice activity under big data background.

Key words: innovation practice activity;big data of university libraries;semantic web; linked open data

責任编辑 孙学通