大数据时代下的档案信息化建设研究
2017-09-02韦艳玲
韦艳玲
摘 要:大数据时代下,档案信息化建设成为了档案事业发展的重要方向,对档案信息化建设展开探讨具有十分重要的意义。本文分析了大数据时代下,交通规划勘察设计行业档案信息化建设面临的机遇和挑战,并对大数据技术在档案信息化建设中的应用进行了详细的介绍。
关键词:大数据;交通规划勘察;档案信息化;建设
1 引言
交通规划勘察设计行业是可以承接公路、桥隧、交通工程、水运勘察设计、工程咨询、建筑等多种建设项目的综合型企事业单位。就交通规划勘察设计部门来说, 在项目建设过程中所形成的具有保存价值的设计图纸、文字材料、数据、声音图像等均应归入科技档案。在大数据时代下,档案信息化建设成为了经济与社会发展的必然趋势,各项先进技术的发展为档案信息化建设带来了巨大的机遇,同时也对档案信息化建设提出了新的要求。如何做好交通规划勘察设计档案信息化建设,提高档案资源的利用效率是当前的一个重要课题。
2 大数据给档案工作带来的机遇和挑战
大数据是时代发展的必然趋势,它作为一种技术、一种理念,其出现对交通规划勘察设计行业档案部门来讲既是机遇又是挑战。
(1)利于档案价值的挖掘。随着全国各级各类档案馆馆藏档案数字化的快速推进以及数据的增加,可供分析与利用的档案数据正在汇聚成数量宏大的海量信息。大数据技术的应用,更利于从中挖掘出蕴藏的巨大知识宝藏。
(2)有利于档案资源共享。大数据技术的应用为真正实现资源共享提供了条件。大数据技术可以将交通规划勘察设计行业档案間的共享数据资源进行整合,共同构筑信息共享空间,这样各地的档案馆就可以分享由大量系统连接在一起而形成的信息。
(3)档案数据存储能力的挑战。档案行业直接面对着对社会原始记录的收集、整理、鉴定、保管、检索、利用等任务。在大数据时代,系统将会面对TB级的数据集,急速增长的数据对交通规划勘察设计行业档案的存储能力提出了极大的挑战。
(4)档案数据安全问题的挑战。数据安全对交通规划勘察设计行业档案来说至关重要。档案信息资源的开发和利用会涉及档案信息的泄密、档案信息的丢失和篡改等问题。因此,档案馆在应用大数据技术时需要注意这些潜在的风险,通过采取新的措施来应对这些风险的发生。
3 大数据技术在档案信息化建设中的应用
随着现代科学技术的不断发展,信息技术在各行业的运用促进了生产效率的极大提高。
因此,在交通规划勘察设计行业档案管理工作中,相关部门要加快交通档案信息的数字化设计,提高交通档案工作的质量,交通规划勘察设计行业档案信息化建设不仅包括无纸化办公模式,还包括对当前各种室内纸质档案的数字化建设。
3.1 高质量档案数据采集及存储,为档案管理精细化奠定基础
交通规划勘察设计行业档案资料数据类型繁多, 有Office 文档、纯文本、图片资料以及包含基础地形图、现状专题图、规划设计成果图等多种图件的AutoCAD 文件, 并且数据量巨大, 文件数目极多。因此要保证新系统能够高效安全地管理档案资料, 良好的数据库设计成为关键之所在。高质量的数据是大数据技术发挥效能的前提,大数据技术只有在高质量的大数据环境下才能提取出隐含的、有用的信息。数据采集层要收集不同数据源产生的数据,为交通规划勘察设计行业档案数据挖掘的后续工作做好准备。同时,数据存储是为数据处理和计算、特别是为应用服务的,交通规划勘察设计行业档案数据存储和管理必须研发高效的数据存储模型、存取技术与交换算法,尽可能大地提升数据存取的速度、效率以及存储管理的灵活性和适应性。
3.2 基于语义本体和静态离线排序策略,凸显档案管理模式精细化
经过各种渠道获取的档案数据种类繁杂、结构多样,而传统的档案著录和标引难以适应数字化档案信息描述和利用的要求,成为制约档案信息资源开发利用的瓶颈。当前,交通规划勘察设计行业档案数据管理中所遇到的手工著录标引工作效率极低、机器自动标引精确度无法保证,以及其内容查询的智能化程度不高,无法同时保证较高的查全率和查准率等当前亟待解决的关键问题。
3.2.1 基于语义本体的档案数据结构转换 现代互联网应用呈现出半结构化和非结构化数据大幅度增长的趋势,这些资源将成为馆藏的重要来源,在传统的信息检索技术基础之上,利用语义处理技术可以进一步实现:①查询扩展,使用误导词义消歧技术对查询词汇进行词义判定;②查询优化,避免扩展查询词的“主题偏移”,采用词汇语义相关性度量;③结果评价,基于向量空间模型计算检索返回文档与用户查询的语义相关性;④个性化推荐,综合利用多项数据源(语义数据,历史评分数据)和数据挖掘方法(如图1所示)。由此使得人们需要将结构复杂的数据转换为单一的或便于处理结构的数据,如对档案系统运行日志资料等数据,就需要转换成结构化数据,形成档案统一的语言。
从技术层面上分析探讨在人工智能领域中得到应用的本体理论以及档案数据本体构建过程中的原则、目标、主要技术等问题,实现对档案数据内容信息资源描述的结构化、有序化、规范化以及管理利用的自动化、智能化和动态化。
3.2.2 基于静态离线排序策略的档案智能检索 面对大量的档案信息,对档案进行有效搜索是建立档案数据过程中的关键步骤。使用基于语义的智能检索方法有效解决检索精度低、个性化程度不高、检索召回率低、返回文档太多、排序不合理等问题,实现档案数据的智能检索。基于该方法研发语义智能检索系统,能够检索到与关键字相关的信息,如同义、近义及上下位关系,从而提高了检索的査全率和查准率,并在一定程度上解决“信息过载”間的问题。
3.3 档案数据深度挖掘分析,反映档案管理精细化思维模式
为了使交通规划勘察设计行业档案数据深度挖掘与用户需求双向控制达到最优,档案数据挖掘需要从包括对用户档案数据的挖掘及档案数据同用户的多种相关分析两方面着手。
3.3.1 基于用户的档案数据挖掘 通过对用户数据深度挖掘做到精确洞察,精准服务,提升档案用户认同感,实现档案服务价值。一是对用户信息进行数据挖掘。提取用户的信息需求,查看用戶访问服务器时留下的日志文件,跟踪用户行为,推测用户兴趣,提供个性化利用服务。二是对用户统计检索和浏览记录进行挖掘。例如,利用统计分析的方法,通过分析用户对档案目录的点击率,选取点击率高的档案进行数字化;通过分析用户检索时使用的档案检索词,充实和完善数据仓库中的检索关键词,以提高查准率;通过统计分析用户对网页的访问频率,进而开展深层次的信息服务。
3.3.2 数据相关关系洞察及趋势分析 无论是档案资源和用户数据,通过挖掘得到的仅是某一方面的数据,这些数据往往是孤立的数据点,因此,要使这些数据集成为一个完整的网络,必须对数据网络后面的数据关系进行深人分析。如单对档案收集情况进行挖掘,得到的仅是档案人员与档案之间的关系;对档案利用情况进行挖掘,得到的仅仅是档案与用户之间的数据关系。然而,要想精准洞察档案之间、用户之间及档案与用户之间的关系,必须将以上各个孤立的数据点进行整合,得到一个完整的档案数据网络,这样才能对档案发展、社会服务等趋势做到更为准确的预测。
3.4 档案管理系统三维可视化,提升档案数据管理应用价值
所谓数字档案馆实物档案可视化,就是运用计算机技术,在展示实物档案显性信息的基础上兼顾隐性信息的挖掘,实现实物档案的数字化和实物档案管理、实物档案利用的可视化。实物档案数字化属于档案信息采集,在此不做赘述。下文笔者从以下两个方面进行讨论:其一,运用物联网技术实现实物档案管理的可视化;其二,通过互联网平台实现实物档案利用的可视化。实现数字档案馆的可视化,需要应用虚拟现实技术。
通过虚拟现实技术在计算机网络上对交通规划勘察设计行业档案馆进行真实的模拟,以营造出类似实体档案馆的功能和氛围。虚拟档案馆模拟类似于传统档案馆的真实环境,其宗旨是为网上用户创建比传统档案馆更为舒适方便的阅览及检索利用的环境和条件,更好地实现档案馆的网上服务功能。
4 结语
综上所述,大数据时代下,交通规划勘察设计行业档案信息化建设对提高档案信息化水平,确保档案信息的安全,提高档案资源的利用率具有十分重要的作用。因此,相关档案工作人员要合理应用大数据技术,完善档案信息管理体系制度,加强档案信息化建设工作,从而促进档案事业的健康、可持续发展。
参考文献
[1]叶丹丽.大数据时代企业档案信息化建设[J].黑龙江科技信息.2017(01)
[2]关绍鹏.大数据时代事业单位档案信息化建设的现状与发展途径探讨[J].赤子(上中旬).2016(23)