APP下载

机器学习和信息资源数据库建设与服务重构

2020-08-16高群

兰台世界 2020年8期
关键词:机器学习重构深度学习

高群

摘 要  本文首先简述了机器学习的概念以及在人工智能中所处的地位,然后简介了常见的机器学习的模型和方法,包括目前热门的深度学习方法。最后,以轻工信息资源数据库建设与服务的重构为例,从资源库的重构、购置与建设以及服务这三个角度,探讨了机器学习技术在其中的作用与应用。

关键词  人工智能 机器学习 深度学习 信息资源数据库 重构

中图分类号 G250.74 文献标识码 A 收稿日期 2019-12-03

Abstract In this paper, the basic concept and key role of machine learning is firstly stated, and the commonly used machine learning models and methods are introduced, including the prevalent deep learning techniques. Then, taking the reconstruction of building and service of light industry information resources database as an example, the paper discusses the function and application of machine learning technique from the aspects of reconstruction, design, building and service of database.

Keyword artificial intelligence; machine learning; deep learning; information resources database; reconstruction

一、引言

由于智能算法、大数据、计算机算力的迅猛发展,也由于自2010年来,人工智能特别是AlphaGo的出现,以及深度学习在图像视频处理、语音识别、自然语言处理、机器人等应用领域所取得了突破性进展,人工智能在国内乃至国际上形成了热潮,正深刻改变和引领着社会向智能化发展。可以这么说,人工智能的这次热潮是由机器学习技术催生的。近年来,我们图书馆以我校轻纺特色为面向,自建了轻工信息资源数据库、轻纺研究生论文资源数据库等数种数据库。人工智能将助推智能图书馆的建设与发展,而机器学习技术将成为信息资源数据库建设与服务重构的抓手和核心技术,未来人工智能必将发挥越来越重要的作用。

二、机器学习:模型和方法

众所周知,机器学习是人工智能的重要分支,其目的是依据现有数据,参照和模拟人脑的智能行为或数学手段建立或设计出数学模型,从而实现对未来新数据进行有效预测的过程。经过数十年的发展,目前已出现了数百种以上的机器学习方法。但真正引起社会大众注意的则是围棋机器人AlphaGo。本质上,AlphaGo是运用最新的深度学习和强化学习技术[1]。它从数以万计的围棋训练数据中学习、训练了如何下围棋,故它是最典型的机器学习技术的成功应用。

机器学习的研究目前呈现出统计学、数学、信息论、生物神经网络等多种学科领域相融合的特点,其广为人知的应用领域包括人脸识别以及生物智能识别、自然语言处理、数据挖掘、智能推荐系统等。图书信息资源数据库建设是现代图书馆应有的建设内容,它涉及对现有信息资源的整理、挖掘与再利用[2,3,4,5],从而为读者提供更为智能便利的服务。因而,机器学习在图书信息资源数据库建设中有着不可替代的应用,将助推其向智能化强力发展。为了观察和研究机器学习在图书信息资源数据库建设中的作用,我们首先简要地总结机器学习的模型和方法。

1.监督学习和无监督学习。按照不同的任务需求,机器学习模型可大致分为两大类,即监督学习模型和无监督学习模型,监督学习模型要求训练集聚有类标信息,即给定样本本身及其他的输出信息(称为监督信息),然后从样本集及其输出信息之间学习/训练出相应的决策模型,用以对未来测试样本的输出信息预测,典型监督学习模型主要用于分类和回归,无监督学习模型仅依据样本集本身而挖掘出所需要的结果,典型的无监督学习模型主要用于聚类。经常地,人们将这两种模型综合起来以解决更复杂的问题。

2.Bayes分類器。该学习模型以经典的概率论中的Bayes公式为基础,根据某类别条件下每个特征的条件概率和每个类别的先验概率,来求得某些特征条件下每个类别的条件概率,条件概率最大的类别就是其要预测的类别。近年来,以Bayes概率理论为基础的Bayes网络正受到越来越多的重视和应用,一般地,隐马尔柯夫模型、极大似然熵原理、EM优化算法[6]是其模型求介的基础,并由此拓展出各种新技术。

3.决策树和随机森林模型。作为最典型的机器学习模型之一,决策树模型[7]是一种利用树形结构依据熵计算的分类模型,一个决策树由树的节点和有向边构成。分类时在决策树上的每个内节点上依据熵的值进行判断,其结果得到一个子节点,直到到达一个叶子节点,最著名的算法是Quialan教授的ID3算法。当用若干个决策树随机组合在一起时,则形成了随机森林模型。目前,随机森林已得到了广泛应用,典型的算法是Random Forest,简称RF方法。

4.支撑向量机与统计学习。自20世纪90年代以来,以统计学习技术为代表的机器学习技术一直是机器学习的主流研究方向。支撑向量机[6,7]是统计学习的典型代表,它依据统计学习中最小风险化原理,将原数据空间映射到高维特征空间,运用核技巧,构造一个超平面,将不同类别的数据分割开来,以实现具有泛化能力的分类效果。支撑向量机在文本图像处理,数据挖掘,智能检索中取得显著应用,支撑向量机常称为浅度学习方法。

5.多任务、多视角学习与迁移学习。由于客观世界中,存在着大量的同时完成多个相关联任务,或从多个视角观察或收集数据应用场景,故近年来发展出了多种任务、多视角学习模型。这些模型充分关联共享信息的利用,以提高每个任务的机器学习效果。迁移学习目的是利用历史数据或知识来帮助提高当前相似应用场景的分类效果。迁移学习很好地模拟了人类模仿和利用经验知识解决新问题的能力,是近年来非常热的研究方向,并被誉为下一代机器学习的前沿技术。

6.连接主义学习与深度学习。人工神经网络一直是机器学习的一个重要方向,其基本思想是模拟人脑神经元行为,构造出人工神经网络模型,以用来完成对未知样本的预测。以人工神经网络、模糊系统、遗传优化[6,7]为基础,甚至形成了计算智能子学科。自2010年以来,人们通过将数据的多层表达与分类决策过程分离,依据快速的多层数据表达学习,形成了高达成千上万层的神经网络的深度学习方法。深度学习[1,7]在图像分类、文本分类、语音识别的高效应用中获得了工业界的广泛青睐。典型的工作包括深度置信神经网络和深度卷积神经网络及其学习方法。

三、基于机器学习的图书信息资源数据库建设与重构

人工智能,特别是深度学习为图书情报学带来了新的机遇和挑战。无疑,也为图书信息资源数据库的建设与重构智能注入了新思路、新理念、新功能。我校作为轻工行业的明珠,数十年来的发展已积累了大量的轻工信息资源。近年来,我们学校图书馆围绕轻工信息资源建设,已自建了不少轻工信息资源数据库,在一定程度上为师生提供了教学与研究上的便利。但我们也认为,有必要运用机器学习技术对其进行智能化的建设和重构。

1.基于机器学习的自有轻工信息资源数据库的重构。近年来,我们陆续自建了轻工信息资源数据库、轻纺研究生论文资源等数种数据库。应该说,我们目前的轻工信息资源数据库建设是围绕原有轻工信息资源而进行的二次梳理和利用。在这个过程中,我们认为,下一步可以依据机器学习技术帮助对现有信息资源数据库进行智能化建设。

一方面,首先针对现有的自建数据库以及购买的电子和纸质的轻工信息资源进行充分整理,基于轻工领域化的文本数据,首先构造轻工领域的词汇、术语和实体资源,结合现有各种机器学习模型,特别是支撑向量和深度学习方法,实现对轻工信息文本的分词、词性标记、识别、实体关系表达,从而实现对轻工信息资源的有效组织、整合与挖掘。然后,通过浅层句法关系、深层句法及语义关系、语义自动分析、篇章结构的计算,从而从现有轻工信息资源的文本中智能地挖掘出词汇层面、实体层面、篇章层面等多个层面(侧面)的知识,以构建知识库。最后,利用可视化和虚拟现实技术,对我校现有轻工信息资源进行活灵活现的展现,以轻工信息资源的价值吸引读者使用,提高自建轻工信息资源数据库的服务水平。

另一方面,我们可以运用机器学习技术对先有自建轻工信息资源数据库本身的内容进行不断的智能化调整和优化。我们可以运用于大数据的深度学习技术,精准分析我校轻工学科的用户要求;可以依据图像识别、语音识别、自然语言处理与智能检索等技术对当前轻工文献中的知识内容进行不间断的基于语义的智能标引、智能摘要、学科导航、知识构建等知识组织,从而对先有自建数据库内容进行动态的综合评价,然后根据评价结果,对自建数据库内容安排与格式进行动态优化调整,以便当前这些数据库能更好地面向我校轻工一流学科建设。

2.基于机器学习的轻工信息资源库的购置与建设。应该说,我们图书馆已有的纸质信息资源和电子信息资源是自建轻工信息资源数据库的物质基础。自建的轻工信息资源数据库是在其基础上的再组织和开发。当前,图书馆按照信息资源的采购、组织和书库管理,与用户、出版社、书商、资源商、电商、物流进行业务对接或数据共享。我们可以基于大数据的深度学习技术精准分析我校轻工学科的用户要求,从而协助馆员在选购各种有效的轻工信息资源,并自动完成订购业务管理、验收登记、经费管理等相关的统计分析。还可以基于大数据的深度学习分析技术,探讨轻工信息资源的分析和馆藏的合理布局。

3.基于机器学习的轻工信息资源数据库的服务。一方面,基于我们学校图书馆馆藏的轻工信息资源以及自建的轻工信息资源数据库和轻工学科用户大数据分析及机器学习的知识挖掘,精准策划和举办阅读推广、阅读交流等,提高为师生服务的质量。以读者为中心,构建智能问答系统,即运用机器学习特别是深度学习技术,实现对提问的精准分类和多层面的子句分析,并能根据现有轻工信息资源以及读者行为记录,回答问题和智能推介信息资源,从而推动面向师生的轻工信息资源服务向智能化迈进。另一方面,自建的轻工信息资源数据库服务也要以学科带头人为面向,基于轻工学科老师的服务数据和个人需求及行为偏好,有针对性地建设和丰富现有信息资源数据库;结合馆藏信息资源,开展信息资源整合与集成等个性化检索和智能定制与推送等服务,为学科带头人提供特色服务,节约他们宝贵的时间,提升服务的准确性。

四、结论

本文初步探讨了机器学习在轻工信息资源数据库建设与服务中的应用。事实上,两者的结合点还有很多。对图书馆工作者来说,研究此方面的课题是一项机遇,也是挑战。随着人工智能热潮的演进,我们相信机器学习成果在图书馆学中的应用,将助推图书信息资源数据库的建设与服务迅速地向智能化迈进。

参考文献

[1]Lecun Y, Bengio Y, Hinton G, Deep learning. Nature,2015,521 (7553):436-444.

[2]李莘.国内高校图书馆资源发现服务系统的应用现状及比较研究[J].河南图书馆学刊,2018,38(6):79-81.

[3]曹树金,王志红.高校图书馆资源发现系统创新扩散机制研究[J].图书情报研究,2016(1):23-29.

[4]劉洋.我国高校图书馆资源发现系统现状调查:以“985工程”院校为例[J].河北科技图苑,2016(4):86 -90.

[5]王浩然.面向学科服务的高校图书馆资源发现系统应用研究[J].图书馆学刊,2016(8):49-52.

[6]李航.统计学习方法[M].北京:清华大学出版社,2012.

[7]周志华.机器学习[M].北京:清华大学出版社,2016.

猜你喜欢

机器学习重构深度学习
长城叙事的重构
重构
学科哲学导向的高中历史教学重构
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
基于支持向量机的金融数据分析研究