APP下载

高校档案大数据云平台的构建方案研究

2018-08-30张倩

办公室业务 2018年7期
关键词:高校档案云平台大数据

张倩

【摘要】本文结合高校档案信息化建设的发展需要和现实条件,通过选择平台的开发目标,构建“云风格”的开发与应用环境,并组合应用大数据“掘金”工具来构建平台的应用系统与功能模块,提出初步研究的设计重点与部署建议。

【关键词】高校档案;大数据;云平台

数据专家认为,在大数据战略从顶层设计到底层实现的“落地”过程中,治理是基础,技术是承载,分析是手段,应用是目的。这一见解给我们的启示是:創建高校档案大数据云平台,是现代高校建设所需的重大信息化工程,具有非常重要的战略意义,必须厘清发展思路、明确发展目标、找准发展定位,不仅要高度注重做好档案大数据在线上与线下无缝对接应用策略的统筹规划与科学部署,而且要慎重选择平台承载档案信息数据管理、控制与服务等不同功能模块的技术设计方案。本文结合高校档案信息化建设的发展需要和现实条件,对构建高校档案大数据云平台,提出初步研究的设计重点与部署建议。

一、选择平台开发目标

鉴于现阶段各高校档案管理机构的基础条件存在着较大的差异,因此我们认为,借鉴管理学大师Peter Drucker提出的“SMART”(目标管理)原则,对选择高校档案大数据云平台的开发目标,具有非常重要的参考价值。

所谓“SMART”原则的涵义是指:S=Specific(明确性),即:应当制定明确的建设目标与行为标准;M=Measurable(衡量性),即:对项目建设的目标任务应当制定综合评价指标体系及其评价方法,做到目标任务指标化、指标内容量值化、量值性态权重化、权重构成层级化;A=Attainable(可实现性),即:建设目标的规划部署与实施措施,应当充分论证其必要性、可行性与灵活性,既要注重长远目标与阶段性目标的有机衔接,又要确保具体措施的可操作性;Relevant(相关性),即:注重分析评估建设目标与其他关联事项的支持度、可信度与提升度。支持度是指:可分析关联档案借阅人数占总人数的比例及其用户同时借阅A和B档案的百分比;可信度是指:可分析出用户在借阅了一份档案之后,是否借阅另外一份档案的可能性;提升度是指:可分析用户在已借阅A档案这个条件下借阅 B档案的可能性与没有这个条件下借阅 B档案的可能性之比。T=Time-bound

(时限性),即:应当对项目建设任务制定明确的时间考核目标,既要将财力、物力、人力的投入成本与项目质量作为绩效评价内容,也要把建设任务的时间期限作为绩效评价内容。

通过深入研究可以发现,“SMART”原则不仅有助于科学确立高校档案大数据云平台的开发目标,而且可作为制定绩效考核指标内容与标准值的科学评估方法,确保做到项目建设的成本投入有据可依,技术措施的遴选评估有章可循,绩效优劣的风险应对有招可控。

二、构建“云风格”开发与应用环境

应当看到,高校档案大数据本身就是一个“问题集”,对开发环境和应用环境均具有较高的技术要求。徐继华等学者指出,构建一套大数据系统需满足三个必备条件:天上有云

(云平台),地上有网(物联网、泛在网),中间有数(数据)。

经考察评估,我们认为,具有“云风格”的大数据处理平台,是解决目前档案大数据诸多问题和矛盾的有效手段。涵盖IaaS、PaaS和SaaS的三种云计算模式,是当前具有完整生命周期闭环的“云服务”,这对既需盘活大数据又想节约成本的高校档案管理机构而言,无疑是非常理想的选择。

(一)选用符合自身需求的云服务产品。借助云技术高校档案管理机构可以忽略预测分析手段的所有技术方面的困惑,聚焦于如何更好地领会定量分析,使用户能够成为更富有经验的数据消费者。借用哈佛大学孟晓力教授的话来说就是:你不需要先成为一名酿酒师才能欣赏酒。因此,高校档案管理机构可通过第三方“数据中间人”的技术支持,来构建“高校档案大数据云”。据市场调研发现,中国版的云服务“QS认证”已在国内市场面世,就是“可信云服务认证”(TRUCS),它是基于国外先进经验和本土市场特殊性专门针对云服务可信性的权威认证体系(目前是我国唯一针对云服务的权威认证体系),可提供云主机服务、云对象存储服务、云数据库服务、云引擎服务和云块存储服务5类基于云计算技术的35项云服务。2014年已有19家云服务商成为首批通过国家云服务权威认证体系认证的成员,这意味着中国云服务正式迈向“领证”时代,从而打破了“云服务商无上岗证”的局面。可信云服务认证工作,以专业和信誉为云服务安全“背书”,化解了推广高校档案云服务的最大障碍。目前,鉴于所有的云服务均为开源提供,高校档案管理机构可在购买之前进行试用,以利找到符合自己校情发展所需的大数据服务产品与应用方案。若需了解云服务的相关参考标准,只要登陆可信云官网(www.dca.org.cn),就能便捷地查看通过认证厂商的各项技术指标,并根据这些评估认证结果来选择优质的云服务提供商,进而推动“高校档案大数据云”的顺利建设。需要指出的是:“可信云服务认证”目前尚存在一定的局限性。例如,认证实现的只是云主机和PaaS的服务监测,更多类型的服务还有待于扩展。但我们相信,随着可信云服务等云计算认证市场机制的完善和云服务商能力的提升,云服务产品的安全性和稳定性将越来越高。

(二)评估云项目的投资回报率。云项目投入能给高校信息化建设带来什么回报,这是决策者在作投入决策时应当关心的事情。但遗憾的是,不少高校档案管理者在被校领导追问IT投资的效益时,一般只能笼统地以提高档案管理效率、提高用户满意度等模糊的回答来搪塞,且只能以档案管理方面的投资回报是难量化的、长期的等理由作为托词。对此,我们认为,评价云项目投资回报率既是项目立项的科学依据,也是检验项目运作绩效的重要手段。所谓“云项目投资回报率”(ROI,Return on Investment),是指通过投资而应返回的价值。即:把资金、时间或精力等资源投入到云项目建设中后,期望其对构建高校档案大数据云平台能够获得令人满意的绩效。所谓“ROI定量效益”,是指可以数量化的效益,如库存占用比、盘点误差率、采购成本比等。所谓“ROI定性效益”,是指非数量化的定性指标,如用户忠诚度或高校档案馆(室)形象的提升、管理流程的规范化等。由此可见,高校档案管理机构通过开展ROI的绩效评估,不仅可为优化资源配置、提高资产利用效率等降本增效措施提供精准依据,而且对改善和提升自身形象具有积极的推动作用。

三、组合应用大数据“掘金”工具

当前,大数据处理技术层出不穷,如IBM的IBMPower大数据和分析应用系统、Intel的Spark开源集群计算环境、华为的OceanStor 9000大数据存储系统,等等。一些学者预言:大数据时代将没有通用的底层平台产品,而只有符合创新应用需求和全数据处理的大数据基础架构。面对大数据技术应用这种遍地开花之势,高校档案管理机构应当根据自身的应用需求,慎重选择成熟厂商的大数据技术产品及应用方案完善非结构化档案信息数据“存储、分析、开发、利用”的一体化集成运作机制。

(一)ODPS的应用功能(阿里云开放数据处理服务)。鉴于传统的IT构建方案起步门槛太高,中小型高校档案管理机构多数因难以承受其巨额投资而受阻,但阿里云ODPS服务面世后,现只需花几百元就可获得从海量数据中“掘金”的功能。

“阿里云开放数据处理服务”(ODPS),是构建在大规模分布式计算系统上的一种海量数据处理技术,其以REST API的形式支持描述性查询语言SQL的数据处理,适用于海量数据统计、数据模型、数据挖掘等诸多互联网应用。目前,高校档案管理机构若需应用这项服务技术,只要登录阿里云官网就可直接申请开通ODPS。ODPS应用现采取按流量收費的商业模式,其现行定价为0.3元/GB,即开即用,一个月内免费。经考察和测算,我们认为,ODPS应用所需的这一成本,对中小型高校档案管理机构而言,不仅是绝对用得起的,而且一下子就可让“高大上”的大数据分析应用技术接上地气。

(二)Amazon EMR的应用功能(亚马逊大数据分析云服务)。

Amazon EMR(Amazon Elastic MapReduce)是亚马逊提供的大数据分析云服务。这种商业化的Hadoop基础设施服务,它所提供的分布式计算能力,能够让高校档案管理者方便地根据自身需求来处理和分析海量数据,完成Web索引、数据挖掘、日志文件分析、机器学习、信息研究等智能处理任务。需要指出的是,这些Web服务的集成,目前大多需要支付单独的使用费用。从EMR目前的市场定价来看,基本上是按照计算时间来付费的,应用项目的具体价格可在官网查询,档案部门可按需定购。

(三)BigQuery的应用功能(谷歌大数据分析云服务)。

BigQuery是谷歌基于Dremel和Hadoop集群所提供的大数据分析云服务。用户可将自己的大数据集上传给谷歌的存储器,开发者可使用BigQuery来运行SQL语句,对大数据集进行查询和交互式分析。此外,用户不但能将BigQuery用于自身的业务分析,还能在其基础上开发对外的商业大数据分析服务。例如,大型高校档案管理机构可采用BigQuery,向中小型档案馆

(室)提供大数据分析服务。

四、构建平台的应用系统与功能模块

高校档案大数据云平台设计的终极目标是“应用”,无论是平台建设规划与实施策略的制订,还是IT技术产品与服务的选择,都必须紧扣“应用”之需进行统筹谋划与部署。通过调研考察发现,采用垂直整合、提供“平台+应用”的一体化设计方案,不仅是开发建设高校档案大数据云平台的明智选择,而且将成为创建高校智慧档案馆(室)的必由之路。

垂直整合、提供“平台+应用”的一体化设计方案,能够将若干极具可行的切入点作为平台构建的组成部分,并让这些子系统集成在一起形成一个高校档案大数据云平台,为高校档案大数据开发和应用提供强有力的技术支撑。该平台主要包含三层结构,不仅每个系统可下设不同的功能模块,而且功能模块可设计成“轻应用”(LAPP,Light App)的形式。即:所有应用都镶嵌在网页中,用户无需下载安装任何程序。采用这种“即搜即用”的全功能APP,用户通过网页可直接完成各项交互性的工作。 高校档案大数据云平台构架图如下:

在该平台构建过程中,有以下几个关键点需要特别注意:一是要高度重视高校档案大数据资源的优化集成。对馆藏现有的“小数据”进行转型升级,不仅要为其搭建整理、挖掘、分析等各方面应用的融合协作平台,而且要采取“滚雪球”方式不断健全和优化档案信息的大数据资源集成库。二是要着力打造高校档案大数据资源的精加工车间。通过不断整合优化内外部档案信息资源的数据构架,努力将“核心资源数据库”打造成“精加工车间”,使之能够尽快投入到高校档案大数据云平台的实际运营之中去。三是要注重收集社会化、非结构化的档案大数据资源。大数据具有明显的社会化(Socialization of data)特征。因此,建立汇聚社会化、非结构化的高校档案信息大数据资源知识库已是当务之急。平台构建时需建立社会化媒体信息大数据扩展数据库,并将它作为高校档案馆藏大数据资源的有益补充。

【参考文献】

[1][美]朱迪丝·S.赫尔维茨.写给大家看的大数据[M].北京:人民邮电出版社,2014:206.

[2]徐继华等.智慧政府大数据治国时代的来临[M].北京:中信出版社,2014:182.

[3][美]Lawrence S.Maisel等.大数据预测分析:决策优化与绩效提升[M].北京:人民邮电出版社,2014.

[4]孙艺娟,大数据推动IT基础架构的创新[N].计算机世界, 2014-1-20.

猜你喜欢

高校档案云平台大数据
探讨高校档案管理工作的创新策略
高校档案信息化建设存在的问题及有效策略
高职院校开展基于云平台网络教学的探索与思考
企业云平台建设研究
高校档案服务大学文化建设的探讨
基于大数据背景下的智慧城市建设研究