基于移动图书馆平台的知识挖掘研究
2019-08-29孔庆祝
孔庆祝
(泰州职业技术学院 图书馆,江苏 泰州 225300)
1 知识挖掘组成要素
1.1 数据集成
在逻辑或物理上将不同来源、格式、特点性质的数据的关系与实体提炼出来集中后,在逻辑上或物理上有机地集中,经关联和聚合处理后成为统一定义的标准的数据并加以存贮,这也是应对纷繁冗余大数据的有效方式。数据仓库、联邦数据库和基于中间件模型等方法都是目前较好的数据集成手段。面对清洗数据保证质量与粒度过细难免过滤有效信息矛盾,需要仔细考量,在质与量之间寻找一个最佳结合点,权衡利弊[1]。
1.2 数据存储
大数据时代的数据量是单机存贮难以承受的,再想依靠传统结构化存储模式显然不合适了,并且实际数据处理过程往往都由几种数据存储方式混合使用,采用分布式存储方式就是自然而然的事。分布式存储的典型代表有NoSQL(Not Only SQL)和Hadoop。NoSQL 泛指非关系型数据库,这类数据库存储数据的是键值对,因此不存在固定的结构,元组中的字段可以不同,根据需要可以调整元组键值对。Hadoop 由数据库(Cassandra)、数据处理(MapReduce)及文件系统(HDFS)等模块组成,它是从模仿GFS(Google File System)、MapReduce 开始不断发展成为现在的大数据处理平台的,甚至在业内Hadoop已经成为大数据处理的首选工具。
1.3 数据分析
大数据处理中最关键的业务就是数据分析,它包含分类和聚类量方面的功能。但是现有的聚分类技术,在应对大数据的超高维度问题时,常常显得力不从心。EM、SVM、k-means、决策树等经典算法都很难满足应用大数据分析的需要。就连Google 最早采用的应用于批处理大数据处理的计算模型MapReduce,处理超高维度分聚类计算时由于自身局限也不得不加以改进算法,调整自己的计算模型。知识挖掘的组合方法由训练数据确定一组基分类器,通过对多个分类器的结果聚集使得性能上远超单个分类器。大数据中数据特点就是种类多、体量大、干扰强,最终可能导致分析结果的波动性大,组合方法较好地解决了分类器不够稳定的问题,通过训练数据构建一组基分类器,在聚集多个分类器获得更好的性能,更重要的是,组合方法在并行处理比较方便,这就为提高大数据分类时训练和测试速度奠定了基础。组合多个分类器的方法有装袋和提升,装袋又称自助聚集,受训练数据过分拟合的影响较小,它首先随机抽样组成若干训练集,各训练集数据构建各自基分类器,通过这些分类器对测试样本的类别进行投票,根据最终得票最高的类别判定该样本的类别;提升与装袋思路有所不同,它通过对所有训练数据赋予权重值来实现样本分布的自适应处理,典型的提升方法Adaboost 操作是这样的,首先赋予各训练数据相同的选取概率权重,在抽取训练数据构建首个分类器后,对误分类数据的选取概率权重适当增加,接下来按新的概率重新抽取训练数据,组建分类器,依据最终的需要确定迭代次数,不断重复这一过程迭代得到若干分类器,最终的输出结果通过分类器的加权投票得出。当然,提升也有其局限,由于对误分类数据关注过大,分类模型中存在数据过分拟合的风险。总体而言,无论是装袋还是提升比单个模型都大大提高了准确率,只不过提升在准确率提高方面功能更加强大而己。
1.4 语义处理
语义处理技术主要功能就是辅助机器,增强机器对数据的理解,从而提高各种知识挖掘算法的语义化能力的一种方法。它在对现有人工智能、自然语言处理、Web 技术等技术方法整合的基础上,汇总生成语义知识库,在进行深层的数据分析时,通过增强语义理解减少知识挖掘的耗损,从而提高运算的效率和性能。语义处理的基础是语义知识,很多机构为此构建了很多语义知识库,像中英文的知网HowNet,英文语义知识库词网WordNet、FrameNet等等都是业内知名的语义知识库。这些语义知识库规范化和标准化都比较高,但由于成本高昂,更新就不够及时,很多现代新的词汇都未收录。有鉴于此,有学者从大数据理念自动构建语义知识获得灵感,通过收录不同来源的词语对象,结合各种词语关系形成具有语义关联的语义知识库,这种新语义知识库较以往的语义知识库效率更高、成本更低、更新速度更快,又足以支持语义处理。比如,从谷歌、百度、维基或其他网络中的海量数据中抽取语义知识,结合基于统计合计规则的方法进行重组,由于网络数据通常含有人工标注、结构化程度较高的语义信息,这样我们在抽取语义知识时效率将大大提升,语义表达也会更加清晰明确,这样因语义稀疏带来的分析性能损失问题就会得到有效控制。这对我们处理短文本尤其是微博、论坛等的知识挖掘有重要意义。
1.5 可视化知识挖掘
所谓可视化知识挖掘就是将知识挖掘的结果以图形或表格的形式直观显示出来。在海量数据的环境中,挖掘结果之间往往具有极其复杂关联关系,这就大大影响了数据可视化的效果。社会网络总是复杂和多向链接的,尽管有可视化的网络结构图的辅助,多数用户仍不容易挖掘出自己感兴趣特征。知识数据可视化、挖掘结果与过程可视化和人机交互是可视化知识挖掘的三个组成部分。可视化知识挖掘是通过用户可视、交互地方式进行知识挖掘的一种方法,在图形图表的辅助,用户实际上对具体的数据分析有所了解甚至是参与,只不过这种参与离不开交互式的数据分析过程引导,并且程度上也不可能太深入,毕竟太过深入的知识挖掘用户缺乏理解。但在分析过程中通过数据立方体、趋势图、标签云等图形图标等可视化方式,确实增加了让用户对分析过程和结果理解,再加上人机交互,这对用户定制处理任务,理解挖掘结果也是很帮助的,限制社会图中节点的数量,显示用户指定的高权重节点就是知识挖掘中用户参与互动的具体实例。
2 具体实践
我馆移动平台是在超星数字图书馆基础上开发的,依靠数据分析、数据仓储、知识挖掘、文献计量学模型等相关技术,完成了本地馆藏和超星网络资源数据库群的资源整合,初步建立起本地资源数据库、汇文图书馆系统、超星远程资源库等复杂异构数据库的关联,进而通过聚类分类、引文分析、知识关联分析等实现高价值学术文献发现、纵横结合的深度知识挖掘、可视化的全方位知识关联,为广大师生教学科研提供信息资源支撑。超星系统除了具有一般搜索引擎的信息检索功能外,其最大的功能是提供了深达知识内在关系的强大知识挖掘和情报分析功能。为此,发现的检索字段大大增加,更具备大到默认支持全库数据范围的空检索,细到可以通过勾选获取非常专指主题的分面组合检索,从而实现了对学术宏观走向、跨学科知识交叉及影响和知识再生方向的判断,具备了对任何特定年代,或特定领域,或特定人及机构的学术成果态势进行大尺度、多维度的对比性分析和研究。超星系统是学者准确而专业地进行学术探索和激发创新灵感的研究工具[2]。
2.1 移动图书馆平台中的知识挖掘对学生的作用
学生利用移动图书馆平台进行知识挖掘写论文和考试,在写论文时,就拿选题来说,以前甚至没用我们系统的学生现在选题大部分都是凭感觉。那么我们怎么样才能选一个恰当的课题去做呢?首先就是要找适合自己的,其次就是要选择导师擅长的。如果自己不适合如何发挥到极致?如果导师不擅长怎么给你做很好的指导,所以选题是要有依据的。
图1 “波斯语”、“泰语”-学位论文学术发展趋势曲线图
图1 显示的是波斯语和泰语两种学术趋势曲线,论文选题一目了然。再看图2,在导师擅长的问题上,比如说如果是这位丁老师学生的话肯定选择建筑史会是很好的选择,因为他可以给你更多的指导。但如果你选择其他的方向,可能指导意见相对要少些了。
图2 导师丁垚学术方向图
论文写作查资料阶段,看图3 查找论文“知识产权融资法律问题研究”,以前就是搜索知识产权,融资,产权融资等;那么现在发现系统可以从除了这几个关键词以外的相关主题突破,比如资产证券化、风险投资等,这些词都是和这个所搜索的关键词关系很密切的一些领域。那么我们在查找资料以前基本是海底捞针,只能根据论文题目拆分查找,由图4 所示,现在通过超星提供的分类聚类功能可以将相关的知识领域呈现出来,检索的路径更多,最终更容易找到所需的资料。通过多种筛选取其精华,依据超星形成的可视图可以很轻松地将某一领域的名家查出来,再检索他的作品。
图3 知识产权融资法律问题资料查找图
图4 分类聚类示意图
2.2 移动图书馆平台中的知识挖掘对教师的作用
老师可以实时了解所研究的课题目前研究现状,如研究学者、已有研究成果、研究成果趋势、数量及发展方向。对进入一些新兴学科或交叉学科,我们可以作一个发展趋势研究,如3D打印技术现在很火,在我们的知识挖掘数据中也会显示出来,我们来看下具体的数据,会发现一个什么事情呢?如果说11年、12年就发现有会火的这个趋势,当时我们去研究这个,对您有什么价值。在做研究的过程中,都想知道在这个领域中,我们中国有谁最早进行研究的。在这里设置出版日期升序排序就可以看到这样的一个搜索结果。比如埃博拉病毒在国内研究最早的90年丁老师关于5000只大猩猩死于埃博拉病毒的报道。除了最早的,我们可能还想知道这个研究领域中最具影响力的人物是谁啊?所以说知识关联图谱就是为了发现人与人,知识与知识,人与知识等的相互关系[3]。
2.3 移动图书馆平台中的知识挖掘对学校的作用
超星可视化图谱是一个强大的知识挖掘工具,集知识挖掘、知识关联分析与可视化技术于一体,能够将发现数据及分析结果以表格、图形等方式直观展示出来。如果我们学校想和兄弟院校做一些学术研究对比,自己学校科研成果发布等等,都可以直观的表现在我们的学术发展趋势图里。比如说我不知道我们学校具体哪个专业强,但通过这个饼状图就可直观的看到,最强专业肯定是偏文化、科学中的。再如我们学校中各个老师发表作品的数量都一目了然。
图5 泰州职业技术学院教师发表作品类目分类表
3 风险控制
3.1 网站安全是移动图书馆平台知识挖掘结果准确的前提
移动图书馆平台的知识挖掘是基于图书馆网站本身的数据,若网站防卫漏洞过多,经常遭受入侵和篡改数据,那么该网站数据显然不能作为决策的依据的。图书馆网站经常会遭受不知意图的探访,这些探访可能是善意的人为测试,也可能是恶意攻击、网上爬虫等,这些事情都会影响网站数据的真实性。一方面,我们要加大防范力度,及时查漏补缺;另一方面,我们数据驱动决策不能简单依靠网站流量数据来决策,对反映访问用户行为的指标也应加大重视力度,如独立访问者统计、页面停留时间、访问时长、访问频率、访问深度、用户产生的阅读行为和使用资源、用户的忠诚度等都是重要的数据分析指标[4]。
3.2 严格把控知识挖掘的各个环节是数据分析结果准确的保证
在数据产生收集到最终分析挖掘得出结果决策,各个环节都要专人负责,认真比对,对影响后续环节的数据要多次验证,尽量将过程中出错率降到最低,为保证最终结果真实有效,必须严格把控所有环节,以科学严谨公正客观的态度来做知识挖掘,才能最终对决策有利,从而实现数据驱动决策的目标。
3.3 多渠道反复验证结果数据减少单一数据知识挖掘结果的风险
对于访问数据尤其是涉及驱动决策的关键数据,必须多渠道反复验证,从而保证数据的精准性,如问卷调查、在线反馈、实时互动等,这些第一手数据与通过数据挖掘分析处理的结果相互验证,保证最终结果更准确,最终充分保障决策的科学性。
3.4 知识挖掘由以网站为中心向以用户为中心转化
一般的数据分析,只是对网站日常访问数据进行分析处理,即凭借用户访问形成LOG 数据分析,而LOG 文件只能对一些网站运行和用户访问做一个简单的统计,这种统计数据对用户行为缺少深度洞察和了解,局限性很大,单纯依靠这些数据显然不足以反映用户需求和移动图书馆运行的真实状态,因此要加强对用户行为收集并最终形成以用户为中心的数据流。当然,对用户访问数据的挖掘,不能侵犯和扩散用户个人隐私,这些方面都要加强立法和规章制度进行管理,保障用户个人权利不受损害。