智慧信息服务大数据分析框架
2018-09-20吴丹陆柳杏
吴丹 陆柳杏
摘 要:智慧信息服务是信息服务与大数据时代紧密结合的表现形式。有效分析信息服务中海量、多样、高速处理、价值大密度低的大数据是促进智慧信息服务研究发展的关键。文章通过对2013-2018近五年收录在Web of Science数据库中图书情报领域发表的有关智慧信息服务的文献进行分析,采用文献研究法和频次分析法对智慧信息服务大数据分析方法与研究主题进行研究,从而构建出了一个主要包括大数据分析层和大数据应用层的大数据分层分析框架。
关键词:智慧信息服务;大数据;大数据分析框架
中圖分类号:G252 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2018019
Big Data Analysis Framework for Intelligent Information Service
Abstract Intelligent information service is a form of interaction between information service and big data. An Effective analysis of volume, variety, velocity and valuable but low density big data is the key to promote the researches and development of intelligent information service. Based on nearly five years (2013-2018) relevant articles which were published in Web of Science by librarians, the big data analysis methods and the research topics of intelligent information service were analyzed. Through literature study and frequency analysis, a layered analysis framework was constructed, which includes big data analysis layer and application layer.
Key words intelligent information service; big data; big data analysis framework
促进物联网、云计算、下一代通信网络(Next Generation Network,NGN)等新一代信息技术发展是国家信息化战略的重要组成部分。习近平总书记在中国共产党第十九次全国代表大会上作的报告提出,要推动互联网、大数据、人工智能和实体经济深度融合,为建设科技强国、质量强国、数字中国、智慧社会提供有力支撑[1]。如今,“互联网+”“大数据”“智慧服务”等既既是促进社会发展的热门话题,也是学术研究中备受关注的研究点。智慧信息服务作为智慧服务中必不可少的部分,也受到了研究者的广泛关注。
为了促进大数据时代下智慧信息服务研究的发展,促使信息服务研究更加顺应时代潮流,本文探讨了智慧信息服务的大数据分析框架,以期从理论上促进智慧信息服务研究与大数据分析的融合。
1 大数据视角下的智慧信息服务概述
1.1 智慧信息服务
正如图书馆用户对图书馆服务的需求从依赖资源、技术和工具向依赖图书馆人的智慧转变[2],对图书馆员提供智慧服务的依赖程度日益增多[3]一样,当下各行各业的用户对智慧服务的需求也越来越高。智慧服务是指建立在知识服务之上的,运用创造性智慧对知识进行搜索、组织、分析和重组,形成实用性知识增值产品,从而能有效支持用户进行知识应用与创新,并能将知识转化为生产力的服务[3]。智慧服务的含义包含“智慧的服务”和“为智慧而服务”两个层次,“智慧的服务”表达了技术智慧和服务智慧,“为智慧而服务”则阐述了智慧服务在激发用户知识创新等方面的作用[4]。
当今社会充斥着大量的信息。依赖于信息,并对信息进行搜集、整理、加工、传播与交流,以产品和劳务等形式向用户提供信息的各项服务称为信息服务[5]。而智慧信息服务是与大数据时代密切结合的信息服务,其是运用人类智慧,从海量的、多样的、高速处理的、价值大密度低的数据中对信息进行处理,并以更智能、便捷的方式向用户提供信息的各项服务。与传统信息服务相比,智慧信息服务更加“智能化”,更加迎合了大数据时代的发展趋势,所提供的信息服务也更加高效便捷。智慧信息服务广泛存在于各行各业中,如智慧政务服务[6]、智慧文化服务[7]等,各领域的智慧信息服务旨在运用该领域或结合其他相关领域的信息,为用户提供智慧便捷的信息服务。
1.2 大数据分析
大数据分析是对海量、异构、高并发的数据进行收集、加工、存储和可视化呈现,并从中提取有价值的信息以辅助决策的过程[8]。袁红,朱睿琪[8]将该过程划分成了数据收集和预处理、数据存储与处理、数据分析、结果呈现四个部分。其中数据收集和预处理为后续分析奠定了基础;数据存储与处理为保存与处理数据提供保障;数据分析是大数据分析过程的核心部分,包括常用的数据分析方法,如数据挖掘(包括聚类分析、分类分析、序列分析、偏差分析、预测分析、神经网络等[9])、统计分析、自然语言处理、机器学习等;结果呈现主要是将分析结果以可视化的方式展示出来。
笔者认为,从广义上看,大数据分析包括了如袁红和朱睿琪[8]所述的整个数据处理过程;而从狭义上看,由于数据分析是数据驱动型研究的核心部分,因此大数据分析也可以指数据分析部分,即使用大数据分析方法对数据进行处理与分析。
1.3 在智慧信息服务研究中运用大数据分析方法的优点
智慧信息服务与大数据时代紧密结合,是运用人类智慧,从海量、异构的数据中对信息进行收集、加工与处理,并以更便捷的方式向用户提供信息的各项服务。在智慧信息服务研究中运用大数据分析方法具有以下优点:
(1)从数据源上看,为用户提供智慧信息服务所需的数据来源广泛,不同领域所需的信息类型各有不同。使用大数据分析方法来分析与研究智慧信息服务,可以获取与信息服务研究相关的大量不同格式或不同类型的数据,如文字数据、音视频数据、图片數据等,从而打破传统数据收集方法(如问卷调查法、访谈法、网络调查法等)样本量小、数据来源单一等局限,扩大研究可用的数据源;
(2)从数据分析上看,常用的大数据分析方法如数据挖掘、统计分析、语义与情感分析等方法可以为智慧信息服务研究提供帮助,有助于研究者深入挖掘、分析或预测智慧信息服务的海量异构信息,帮助研究者对所需数据进行高效统计,探索不同数据之间的关联关系,使智慧信息服务研究更加科学;
(3)从数据呈现上看,大数据分析方法可以帮助智慧信息服务研究者以更直观的方式展现其研究结果,以可视化的方式揭示研究结果内部各要素之间的关系,加深他人对该研究结果的理解。
总之,在大数据时代,运用大数据分析方法进行智慧信息服务研究是十分重要和必要的,其在帮助研究者科学有效深入地挖掘智慧信息服务数据的同时,也有助于他人理解研究成果,使得智慧信息服务研究结果更为浅显易懂。
2 智慧信息服务大数据分析方法
在图书情报领域的研究中,有部分研究与智慧信息服务相关。这部分研究使用了数据挖掘、统计分析等大数据分析方法,利用大数据分析方法的优点,探讨了智慧信息服务的各个方面。为了探讨图书情报领域与智慧信息服务相关的研究所使用的大数据分析方法,本文以Web of Science为数据源,以与“information service”相关的词语为主题词,以SSCI为引文索引,以“information science library science”为限定类别,获取并筛选出2013-2018近五年在图书情报领域发表的与信息服务或智慧信息服务相关的文章共计183篇。在文献研究的基础上,本文依据常用的四种大数据分析方法(数据挖掘、统计分析、自然语言处理、机器学习)来对图书情报领域智慧信息服务的大数据分析方法进行统计分析,并将无法归纳到这四种常用大数据分析方法的研究方法划分为其他类别(见图1)。同时使用可视化分析软件VOSviewer对相关文章的所有关键词(包括Author keywords和keywords Plus)进行可视化分析。
由图中可以看到,在智慧信息服务研究中,研究者使用统计分析方法最多。统计分析运用统计学原理来进行研究,在智慧信息服务的研究中,常用的统计分析方法包括描述统计、相关分析、回归分析等。此外,提出并验证相关模型的有效性是智慧信息服务研究中使用统计分析方法进行研究的一个部分,常用的方式有结构方程模型,其中协方差分析法和偏最小二乘法这两种结构方程模型估算方法在智慧信息服务大数据分析中较为常见。使用结构方程模型可以构建有关的预测模型[10]、分析所收集的数据[11-12];此外,回归分析常被用于测试所构建的信息服务相关模型[13],探索用户对某项产品服务如智能手机服务的满意度[14],以促进不同领域信息服务的发展。统计分析方法一直以来且长期都将是信息服务研究中常用的方法,随着大数据时代的到来,研究者使用的统计分析方法愈发多样化,且更加注重使用多样的统计分析方法来探索与挖掘同构数据或异构数据之间的关联性,从事物的关联中探索新规律或新内容,最终促进信息服务更加智能化。
数据挖掘方法在智慧信息服务的研究中也受到了关注。使用较多的数据挖掘方法有聚类分析和预测分析。数据挖掘方法对智慧信息服务研究具有促进作用,与统计分析方法对信息服务现象进行探索与揭示不同的是,数据挖掘更聚焦于智慧信息服务背后潜在规律与关系的挖掘。数据挖掘方法能帮助研究者深入挖掘信息服务和用户行为背后的关联关系和潜在规律,为用户提升各项相关的信息服务质量,满足用户的需求,最终达到信息服务于用户、用户满意于服务的目的。
自然语言处理是使用计算机对人类语言进行深入挖掘的一种方式。在智慧信息服务研究中,与“用户”和“计算机”相关的研究较常使用到自然语言处理方式。自然语言处理是人工智能的重要组成部分之一,与计算机可以理解的基于0和1的“机器语言”不同的是,自然语言是随文化而演变的人类语言,其多样性与复杂性使得计算机难以“理解”。为了使人机交互更顺畅,计算机需要对用户输出或输入的语言进行语音、词法、语法、语义甚至自然语言所表达的情感等方面的处理与分析,从而促进用户更好地传播与利用信息。
机器学习作为人工智能应用的一个重要研究领域和方法,是人工智能和神经计算的核心研究课题之一[15],然而近几年在图书情报领域智慧信息服务的研究中有关应用机器学习的研究相对较少。机器学习一般来说是指研究机器模拟人类的学习活动、获取知识和技能的理论和方法,以此改善系统性能的学科或方法[15]。为了使计算机能更“懂”用户,且能以更快速度更准确地处理海量数据,以帮助用户进行决策或为用户提供更及时的信息服务,机器学习对于智慧信息服务的发展尤为重要。
在智慧信息服务的研究中,物联网技术、情境感知计算、仿真等其他类型的方式也得到了应用。通过信息传感设备来促进信息交换与通讯,物联网技术能帮助用户获取大数据并将大数据转换为所需要的知识,从而改善特定的服务,促进智慧信息服务的发展;此外,情境感知计算与数字图书馆的结合可以使用户以更简单便捷的方式获取信息服务;仿真可以通过计算机模拟的方式来帮助研究者模拟研究所需要的条件或模型,以实现只能在特定条件下才能进行的研究。
3 智慧信息服务研究主题
对图书情报领域智慧信息服务相关研究的主题词进行可视化分析(见图2)。由图可知,智慧信息服务研究是包含了信息服务者、信息资源、信息服务方式和措施三个部分的研究。值得注意的是,不同部分之间不存在绝对的界限,它们之间是相互关联与交错的。
智慧信息服务的信息服务者既包括服务提供者(如图书馆),又包括服务对象(即用户)。服务提供者与服务对象是相对而言,所有与信息打交道的个人或群体,在特定条件下可以是智慧信息服务的服务提供者,而在另外的条件下又会成为智慧信息服务的服务对象。对智慧信息服务的信息服务者进行研究,涉及到用户需求、行为、满意度、表现等方面,这部分研究对于深入理解用户需求、帮助用户进行信息获取、利用、分享,提升用户对信息服务的感知或忠诚度具有重要意义。与传统的信息服务相同之处在于,大数据时代中的智慧信息服务仍然是以服务对象——用户为中心,服务提供者是基于用户需求而为用户提供其所需服务。然而与传统信息服务不同的是,大数据时代中的智慧信息服务对于用户的挖掘更加深入,服务提供者期望通过对用户行为等各个方面进行深入挖掘与了解,为用户进行精确画像,从而能为用户提供更加精准的信息服务,满足用户自身日益复杂的信息服务需求,提升用户对信息服务的满意度。
智慧信息服务的信息资源是智慧信息服务的基础。智慧信息服务的信息资源来源是广泛且多样的,除了传统的纸质书籍,计算机成为智慧信息服务的信息资源主要来源,数字化信息在智慧信息服务中使用广泛,如因特网的信息、用户与计算机交互产生的数据等。在大数据环境中,智慧信息服务研究聚焦了信息资源的多个方面,如涉及信息资源的模型构建[16]、探索影响获取复杂信息的因素[17]等。而对智慧信息服务中与信息资源相关的多个方面进行深入揭示与探索,可以充分开发与挖掘信息资源的价值,使得信息资源能够更好地被利用,从而促进信息服务更加智能化。
智慧信息服务的信息服务方式和措施是为用户提供信息服务的保障。智能化信息系统开发或便捷的信息技术对于开展智慧信息服务具有重要的促进作用。智慧信息服务相较于传统的信息服务而言更注重使用技术手段来为用户提供便捷的信息服务,而更符合大数据时代的信息服务系统的改进、信息服务技术或算法的完善,也将促进智慧信息服务更好地传播。智慧信息服务区别于传统信息服务的重要标志之一就是前者善于使用技术等措施或方式来为用户提供智能化的信息服务,使用户能感受到获取信息服务的便捷性。
4 智慧信息服务大数据分析框架
在进行智慧信息服务的研究时,是否能正确选择与使用大数据分析方法是决定大数据环境下智慧信息服务研究是否有效的关键;而智慧信息服務研究能够真正发挥其研究价值与应用价值是大数据时代下智慧信息服务研究的目标。因此,基于上述研究与探讨可以得出,智慧信息服务大数据分析框架主要包括两层:大数据分析层与大数据应用层(见图3)。
智慧信息服务研究的大数据来源可以分为结构化数据、半结构化数据和非结构化数据三种类型。这些数据包括机器传感数据、计算机产生的数据(如因特网信息、用户与系统交互产生的日志数据)、用户自身产生的数据(如邮件、短信、社交网络购物、电商购物数据)、专业机构数据(如文本、音视频、符号)等。通过采用数据采集方式或技术如网络爬虫、用户实验、采集日志等可以帮助智慧信息服务大数据的获取。
大数据分析层是智慧信息服务研究的核心。通过运用统计分析、数据挖掘、机器学习、自然语言处理等方式来对数据进行深入分析,研究用户行为特征、预测用户对信息服务的满意度、探索促进信息传播的方式等。值得注意的是,在对智慧信息服务进行大数据分析时,各类型的大数据分析方式不是孤立存在的,不同的研究方法会相互结合,如统计分析与数据挖掘下的聚类分析、预测分析相结合、定量分析方式与定性分析方式相结合等。智慧信息服务的相关研究不局限于使用单一的分析方法,而是结合使用多种大数据分析方式来深入挖掘多样化的数据,这也体现出了大数据时代下智慧信息服务数据海量、多样的特点。
大数据应用层体现了智慧信息服务研究的目的。使用大数据分析方法来对信息服务者、信息资源、信息服务方式和措施等三个方面进行深入研究,可以挖掘与精确了解用户的信息需求,帮助用户获取、利用、分享信息资源,实现信息资源的有效控制,保护用户隐私,最终实现为用户提供智慧信息服务的目的。研究成果可以在各个领域如智慧政务、智慧“五馆”(即图书馆、博物馆、档案馆、美术馆、科技馆)、智慧教育等得以具体应用,使得研究能发挥实际的应用价值并受益于用户,以促进不同领域信息服务的智能化、便捷化、友好化。
总之,选择与使用适合研究数据特点的分析方法、围绕智慧信息服务的具体方面进行深入挖掘与探讨、最终实现为用户提供智慧信息服务的目的贯穿着智慧信息服务大数据分析和研究的始终;配合使用不同的大数据分析方法来进行研究,是智慧信息服务研究有别于传统信息服务研究的关键。
5 结语
大数据时代下,海量、异构、高并发的数据为智慧信息服务研究带来了机遇和挑战,其一方面能促进智慧信息服务研究更加科学和以用户为中心,促进信息服务研究与其他方面研究的交叉与渗透,另一方面也为信息服务研究方法的合理选择带来了挑战。大数据分析方法众多,如何有效使用适合的研究方法来对信息服务进行深入研究,是保证智慧信息服务研究科学性和有效性的前提。本文探索了智慧信息服务大数据分析方法和研究主题,在此基础上构建了智慧信息服务大数据分析框架,以期对后续研究提供参考,从而进一步推动智慧信息服务的研究及其应用。
智慧信息服务研究是顺应大数据时代发展潮流和趋势的研究,是与大数据时代紧密结合的研究。只有把握机遇,迎接挑战,顺应时代潮流,才能更好地为用户提供更智慧更人性化的信息服务,才能真正达到信息服务于用户、用户满意于信息的目的。
参考文献:
[1] 习近平:决胜全面建成小康社会,夺取新时代中国特色社会主义伟大胜利——在中国共产党第十九次全国代表大会上的报告[R/OL].[2018-02-19].http://www.gov.cn/zhuanti/2017-10/27/content_5234876.htm.
[2] 柯平.当代图书馆服务的创新趋势[J].高校图书馆工作,2008,28(2):1-7.
[3] 梁光德.智慧服务——知识经济时代图书馆服务新理念[J].图书馆学研究,2011(11):88-92.
[4] 陈远,许亮.面向用户泛在智慧服务的智慧图书馆构建[J].图书馆杂志,2015,34(8):4-9.
[5] 贺德方.数字时代情报学理论与实践:从信息服务走向知识服务[M].北京:科学技术文献出版社,2006:39-41.
[6] Lane J.Building an Infrastructure to Support the Use of Government Administrative Data for Program Performance and Social Science Research[J].Annals of the American Academy of Political & Social Science,2018,675(1):240-252.
[7] Lin L.Application of Data Mining in Library-Based Personalized Learning[J].International Journal of Emerging Technologies in Learning,2017,12(12):127-133.
[8] 袁红,朱睿琪.用户信息搜索行为大数据分析框架及其关键技术[J].图书馆学研究,2016(24):39-46.
[9] Ramesh B.Big Data Architecture[M].Big Data.Springer India,2015:29-59.
[10] Park E,Kim K J.An Integrated Adoption Model of Mobile Cloud Services:Exploration of Key Determinants and Extension of Technology Acceptance Model[J].Telematics & Informatics,2014,31(3):376-385.
[11] Turel O,Connelly C E.Too busy to help:Antecedents and outcomes of interactional justice in web-based service encounters[J].International Journal of Information Management,2013,33(4):674-683.
[12] Dong X,Chang Y,Wang Y,et al.Understanding usage of Internet of Things(IOT) systems in China:Cognitive experience and affect experience as moderator[J].Information Technology & People,2017,30(1):117-138.
[13] Shin D H.Effect of the customer experience on satisfaction with smartphones:Assessing smart satisfaction index with partial least squares[J].Telecommunications Policy,2015,39(8):627-641.
[14] Bae S J,Lee H,Suh E K,et al.Shared experience in pretrip and experience sharing in posttrip:A survey of Airbnb users[J].Information & Management,2017,54(6):714-727.
[15] 蔡自興.人工智能及其应用[M].北京:清华大学出版社,2016:251-253.
[16] Lowry P B,Wilson D.Creating agile organizations through IT:The influence of internal IT service perceptions on IT service quality and IT agility[J].Journal of Strategic Information Systems,2016,25(3):211-226.
[17] Park M.Human multiple information task behavior on the web[J].Aslib Journal of Information Management,2015,67(2):118-135.
作者简介:吴丹,女,武汉大学信息管理学院教授,博士生导师,研究方向:信息检索、人机交互、用户信息行为;陆柳杏,女,武汉大学信息管理学院硕士研究生,研究方向:人机交互。