APP下载

大数据时代图书馆数据可用性:价值、挑战和保障

2014-02-11兰州商学院信息工程学院兰州730020

图书馆理论与实践 2014年10期
关键词:用户服务可用性价值

(兰州商学院信息工程学院,兰州730020)

大数据时代图书馆数据可用性:价值、挑战和保障

●马晓亭(兰州商学院信息工程学院,兰州730020)

大数据时代;图书馆;可用性

大数据时代已经来临,大数据给图书馆带来的不仅仅是机遇,也带来了挑战。文章就大数据时代图书馆存在的数据浪费、数据污染和数据利用难等问题,以及大数据时代给读者行为、读者洞察力和图书馆服务策略带来的影响进行了研究,同时,讨论了大数据时代图书馆如何更好地管理和利用大数据。

大数据环境下,图书馆数据具有数据体量巨大、类型繁多、价值密度低和处理速度快等特点。根据维基百科对大数据定义:“大数据是由于数据规模、复杂性、实时而导致的,使之无法在一定时间内用常规软件工具对其进行获取、存储、搜索、分享、分析、可视化的数据集合。”由此可见,大数据环境下图书馆数据的价值密度、价值数据的可提取性、已提取价值数据的可用性,成为图书馆数据整合、分析、探索和挖掘的重要内容。同时,也是图书馆有效变革用户服务模式和服务内容,不断提高新业务价值、服务竞争力、读者忠诚度和扩展读者群数量的关键。[1]

1 图书馆大数据环境特点与价值可用性定位

(1)数据结构呈现异构和低价值密度性。大数据时代,图书馆数据的结构类型从传统的以结构化数据为主,转向结构化、半结构化、非结构化三种数据的融合。数据结构的复杂性伴随数据量的增长而不断增加,对图书馆数据中心数据处理的模式和效率提出了较高要求。同时,数据源由单一性向多样性转变。数据产生、采集、存储和处理的方式,与图书馆对数据的复杂度、价值性、处理效率和时限性需求相适应,具有较强的灵活性、多样性和易变性。此外,大数据时代图书馆虽然拥有庞大的数据量,但整体上数据具有较低的价值密度,导致图书馆数据存储、处理和挖掘成本较高,对图书馆大数据环境有用数据的挖掘、过滤和价值发现提出了较高要求。

(2)图书馆大数据环境数据清洗难度大。大数据时代,图书馆数据呈现海量激增、垃圾数据多、污染重和利用难的特点。从数据价值和可用性角度分析,这种海量激增的数据,不一定代表图书馆有用信息量或者价值数据的增加,有时候则意味着信息垃圾的泛滥。

图书馆通常会从多个数据源采集数据,多个数据源所采集数据的价值性、可用性、可管性和价值密度可能会具有较大差异。如果对海量数据不进行价值挖掘和数据清洗就直接使用,则会导致数据分析与处理难度增大、可用性降低和使用成本激增。此外,在数据的信息清洗和价值过滤过程中,过滤标准的价值颗粒度大小也是决定过滤有效性的重要因素。如果价值过滤颗粒度过小,则有可能会将有价值信息过滤掉,造成价值数据浪费。如果过滤颗粒度过大,则达不到数据的信息清洗和价值过滤需求,无法按照图书馆用户服务需求提供有价值数据。第三,图书馆大数据环境数据价值密度低的实际特点,也对图书馆数据中心计算性能、数据库存储与管理能力和数据处理方法提出了更高要求。[2]

(3)读者保密数据和个人阅读隐私容易泄露。大数据时代,原始数据采集的数量、种类、速度和处理能力,是图书馆更好地利用数据价值提高服务能力和市场竞争力,不断增强客户群忠诚度和优化图书馆信息管理的关键。图书馆必须极大扩展数据来源,并对所过滤的价值数据进行科学处理和分析,才能通过科学决策来提升读者阅读体验愉悦感。[3]读者数据主要分为两类:一种是读者阅读活动所涉及的服务数据信息、读者在微博或博客上发表的文章、读者向图书馆发送的阅读服务请求等公开信息。第二种是读者阅读活动的行为数据。比如,读者开展移动阅读等增值服务的内容、阅读活动的周期规律与行为分类、阅读需求评估数据等。图书馆可通过对读者阅读活动行为数据的分析,而获取读者阅读活动的内容、个人爱好、未来需求,以及与其他读者、微博或博客服务器交换的数据信息,这些数据可能会导致个人隐私和保密信息泄密。因此,图书馆在加强读者群体阅读行为和内容分析的同时,应努力消除对读者个人阅读行为数据分析的针对性,是保护读者保密数据与阅读隐私的关键。

(4)增强图书馆不同数据之间的价值相关性。首先,从图书馆的运营与服务职能出发,大数据的价值应通过对海量数据的采集、处理和分析,科学、准确地预测图书馆用户服务的需求和所面临的安全威胁、服务瓶颈,并对云数据中心的故障进行分析、判定与定位。同时,可精准地对图书馆营销服务与业务进行分析,并制定安全、高效的管理与运营策略来提高图书馆的系统运营效率和服务保障性能。其次,图书馆大数据的另一个价值体现,是通过海量数据的开放和聚合,大幅度提高图书馆海量无关数据的表面相关性,进一步增强大数据价值生态圈数据的整体价值。第三,图书馆应通过对海量无关数据的进一步处理、分析和判断,将数据隐藏价值和不同数据之间的相关信息价值进行再挖掘,不断提高大数据平台的数据价值增益。

(5)对图书馆大数据进行准确的价值定位。随着大数据时代图书馆数据量的飞速扩展,读者服务对图书馆海量数据采集、存储、处理和分析的能力提出了较高要求。然而,受大数据系统平台建设资金与设备使用、更新周期等因素影响,图书馆数据中心系统的计算、存储、网络和管理性能增长的速度,远远低于大数据处理过程对系统性能需求的增长量。因此,在加强图书馆云数据中心系统资源调度、管理与分配的同时,应重点加强对关系图书馆安全管理与高效运营、图书馆管理系统与用户服务系统的优化、读者个性化阅读服务保障、用户服务标准未来发展与内容变革等重要数据的采集、处理与分析。

首先,应通过对数据驱动流程的科学管理、详细划分和优化,明确影响图书馆管理与运营流程科学性、用户服务系统整体运营性能、服务内容的有效性、用户服务效率与质量的评估指标,以及不同评估指标对评估结果的影响因子比例。其次,应加强对读者群阅读行为数据的分析,明确用户阅读需求和阅读习惯,为读者提供高效、经济的个性化推送式服务。第三,利用大数据与云计算技术对已采集的数据进行科学分析,得出关系图书馆运营、服务市场动态、读者群忠诚度评估数据,以及分析图书馆运营、管理过程所面临的安全威胁,制定出准确、细致的服务系统管理与用户服务策略。

2 图书馆大数据可用性面临的挑战与保障

(1)图书馆大数据应用的价值定位。图书馆大数据具有生产要素性、数据恒温性、价值潜在性三个主要属性。数据已成为关系图书馆个性化服务产品生产、服务供应与推送、服务风险预测与规避、服务融合与变革的重要因素。同时,如何高效、合理地清洗数据,发现、挖掘数据的潜在价值,已成为图书馆大数据价值准确发现的前提。此外,数据结构复杂化和非标准化是图书馆数据环境发展的一个大趋势,如何有效整合结构化与非结构化数据、标准化与非标准化数据、单渠道与跨渠道数据,是增强图书馆数据开放性、可用性和准确价值定位的前提。

(2)实现图书馆大数据平台价值数据的全面融合。图书馆必须加强与第三方增值服务商的数据共享,保证自身数据与其它数据源数据的有效融合,并不断增强数据对服务的需求分析和服务质量判定,才能实现图书馆大数据的全面融合,才能更有效地发现与挖掘大数据的价值。

图书馆数据源的广泛性和可共享特性,是数据价值有效性和高可用性的保障。首先,大数据环境下,图书馆将逐步改变传统IT环境下单一为用户服务的模式。通信运营商、第三方增值服务商和图书馆共同为用户提供大数据增值服务,成为大数据时代图书馆用户服务模式发展的主要趋势。图书馆会通过与通信运营商、第三方增值服务商大数据平台的融合与共享,在大数据用户服务和市场竞争中占领制高点,为读者提供满意、持久和个性化的服务。其次,图书馆应加强大数据与读者服务的融合。管理员应根据图书馆大数据平台数据的类型、内容和价值特点,与图书馆用户服务业务需求、市场特点相融合,确保图书馆的大数据采集、存储、处理、分析和决策平台接口标准化,不断提高大数据价值发现、挖掘和使用过程的灵活性和可控性。第三,必须科学、高效、准确、快速地划分主数据。按照图书馆数据的重要性和信息流向划分,图书馆数据可分为读者服务交互数据、系统管理数据和主数据三种类型。主数据主要关系图书馆核心系统管理、运营战略规划、账户与重要信息保密等,具有多系统共享、数据价值密度大和可处理性要求高的特点。因此,应提高主数据的价值性、可控性、可用性和经济性,才能确保读者服务安全、高效、易控和可扩展。

(3)强化云计算对图书馆大数据平台的服务支撑与保障作用。图书馆大数据普遍具有的海量、数据结构多样性、价值密度低和处理实时性特点,导致图书馆大数据在存、管、用三个方面矛盾突出。因此,如何有效利用云计算技术在海量数据存储、管理、计算和网络传输中的技术优势,提高图书馆业务分析、管理和决策的科学性与有效性,是大数据时代云计算技术在图书馆应用需要重点关注的问题。

云资源多用户共享和动态分配是图书馆云数据中心的主要特点。首先,图书馆应利用云计算技术分布式的计算方式,提高数据在挖掘、存储、处理、分析、决策过程中的效率和精确度,为图书馆管理、运营和未来发展提供决策数据支持。其次,图书馆应利用云计算技术较高的服务可用性与服务快速交付特点,在大幅度降低大数据管理复杂度的同时,不断提高大数据资源的利用效率、价值可用性和数据清晰度。第三,图书馆必须建设具有较强安全性、可用性、可控性和经济性的云计算平台,为图书馆大数据的应用提供可靠的实现环境。同时,应不断增强图书馆大数据环境的智能化管理水平,保证管理员可凭借图书馆业务数据的完整视图,而获得敏锐的图书馆用户服务未来发展洞察力,将数据信息价值有效转化为读者服务保障力。

(4)大数据应重点关注读者的个性化阅读需求。根据读者阅读需求,为读者提供具有较高精细度和精确度的个性化阅读服务,是图书馆运营方式转变和服务模式变革的一个重要目标。大数据时代,图书馆数据获取具有极大的分散性和不确定性,如何准确划分用户数据类别和信息颗粒度大小,是准确掌握服务系统服务能力、读者阅读活动需求、图书馆与读者信息交互反馈效率和读者忠诚度,提高用户个性化阅读准确度和满意度的关键。

首先,图书馆在大数据平台建设中应避免数据孤岛现象发生,可通过与其他服务商数据共享而提高大数据判定与决策的准确性。依据大数据分析所获得的读者阅读需求信息,将所提供的服务产品与读者需求紧密结合起来,并根据用户需求变化对产品内容进行动态调整。其次,图书馆应通过用户行为监测、服务商之间数据共享、问卷调查、论坛微博等方法,不断改进用户数据搜索和信息分析的方式,提高服务对读者群覆盖的广度和深度,确保图书馆个性化服务的判定、决策和推送过程的智能、即时。第三,在对读者阅读行为数据和保密信息采集、分析时,加强对读者阅读隐私和重要数据的保护,是提高用户对图书馆信任度的关键。此外,在加强读者隐私数据访问权限和内容管理的同时,图书馆还应重点关注服务系统的安全和重要数据的加密工作,防止隐私数据被窃取、截获和篡改。

(5)利用大数据技术预测和降低图书馆运营风险。随着图书馆读者阅读需求的发展和服务模式变革,数据中心IT基础设施的运营、管理复杂度快速增长,读者阅读活动和图书馆运营服务面临着较大的风险。如何有效利用大数据技术,对读者和图书馆采用模式识别、回归分析、文本分析、社会数据聚集和情感分析等方法,开展全方位的阅读与运营活动风险监控、预测和防范策略制定,是提高图书馆运营与读者阅读活动安全性的前提。[4]

伴随着IT新技术的应用和服务模式变革,图书馆服务运营商和不同地区集团联盟之间的竞争与合作将进一步增强,专业化和垄断经营成为未来图书馆服务发展的主要趋势。因此,如何利用大数据分析算法准确分析竞争对手在图书馆管理方法、服务内容、运营模式和成本控制方面的优势,并防止核心数据被非法用户和竞争对手获得,是图书馆管理者提高自身服务能力和市场竞争力的关键。此外,在图书馆建设与服务过程中,利用大数据技术提高用户服务效率和降低运营成本,是增强图书馆市场竞争力的又一重要内容。管理员可利用大数据技术有效整合图书馆服务资源和优化服务流程,详细分析每一位读者的阅读习惯和需求,根据客户需求为用户提供个性化定制的服务项目,确保图书馆运营和读者阅读收益最大化。[5]

3 结束语

随着大数据信息浪潮的到来,图书馆也迎来了读者的大服务时代,用户服务的内容从数据集成、管理向数据挖掘、分析与展现等方向全方位延伸。同时,图书馆业也面临着严峻的挑战与威胁。如何加强图书馆数据中心IT基础设施建设,提高数据的采集、挖掘、处理、整合、分析和决策能力,将数据资源高效转化为图书馆信息资产和生产力,已成为大数据时代图书馆业面临的重要问题。[6]

因此,图书馆必须树立以读者个性化服务质量和客户阅读满意度保障为中心的价值理念,以大数据应用和价值挖掘为中心,不断强化大数据管理平台的安全性、高效性、模块化和可扩展性建设。同时,应努力提高数据生命周期管理的智能化、自动化水平,确保图书馆具有较强的业务绩效洞察力和运营服务风险控制能力,才能有效降低图书馆大数据环境复杂度和提高数据的利用效率,才能真正为读者提供大数据环境下基于定制的个性化阅读推送服务。[7]

[1]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-15.

[2]黄伯仲,等.超大规模数据可视分析十大挑战[J].中国计算机学会通讯,2012,8(9):38-43.

[3]王树良,等.大数据下的空间数据挖掘思考[J].中国电子科技研究院学报,2013,8(2):8-17.

[4]李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.

[5]BryantR E,etal.Big Data computing:Creatingrevolutionary breakthroughs in commerce,science,and society[EB/OL].[2013-06-19].http://www.cra. org/ccc/docs/init/BigData.pdf.

[6]Malewicz G,et al.Pregel:A system for large-scale graph processing[C]//Proc of SIGMOD 2010.New York:ACM,2010:135-146.

[7]Nature.BigData[EB/OL].[2013-06-17].http: //www.nature.com/news/specials/bigdata/index.html.

[责任编辑]菊秋芳

G250.73;G252.8

A

1005-8214(2014)10-0005-04

马晓亭(1974-),女,硕士,兰州商学院信息工程学院副教授,研究方向:大数据、数字图书馆建设。

2013-10-09

猜你喜欢

用户服务可用性价值
基于辐射传输模型的GOCI晨昏时段数据的可用性分析
新媒体时代老年类报刊的用户服务转型与升级对策
医疗器械的可用性工程浅析
一粒米的价值
科学数据共享平台的建设与服务探讨
“互联网+”时代学术期刊的转型路径分析
大数据时代图书馆用户服务保障模式探讨
“给”的价值
黔西南州烤烟化学成分可用性评价
端到端多路径技术——下一代“分组交换”列车信号系统技术将提升可用性和可靠性