APP下载

论互联网新媒体档案信息资源的建设与服务*

2014-12-28王兰成刘晓亮黄永勤

档案与建设 2014年1期
关键词:档案文件档案馆语义

王兰成 刘晓亮 黄永勤

(中国人民解放军南京政治学院上海校区信息管理系,上海,200433)

1.引言

当前,全球迈入大数据时代,数据的重要性已引起整个社会的极大关注,成为应用服务创新的重要源泉[1,2]。其主要原因是可以广泛挖掘利用的数据量巨大,并迫切需要将这些数据转换为可用的信息与知识。与以往相比,大数据背景下要求从数量更为巨大、结构繁多的数据中挖掘出隐藏在背后的规律,揭示数据的真实价值,发挥数据的最大化价值。以互联网为代表新媒体中的网站、论坛、博客、微博等提供的海量数据,同样受到广泛关注,成为档案开发与利用的新型资源。

档案信息化初期,档案馆主要通过档案网站发布数字化加工的档案信息实现信息服务,这种方式存在信息资源匮乏,服务方式单一,资源利用效率不高,编研工作缺乏成效的缺点[3,4]。仅利用档案网站发布原生信息的工作服务模式已难以有效满足用户的信息需求。同时,Web信息激增,搜索引擎应运而生并快速发展,虽然在一定程度上缓解了查阅档案信息不便的矛盾。然而,从档案利用的角度,大多搜索引擎的信息组织与标引缺乏控制,冗余重复信息过多,各类信息容易混杂无序;信息涉及面过广,缺乏信息深度挖掘;分类标准缺乏系统性与规律性,都会造成用户使用不便,并不能有效满足档案用户与工作者的需求,特别是档案研究者的需求。所以,大数据背景下开发利用互联网信息资源既是档案信息化建设中的战略性步骤,也是新媒体环境下有效建设与利用档案信息资源的必然选择,亟需对互联网档案信息资源的开发利用进行理论研究与应用探索。文章面向新媒体档案资源建设,对互联网档案信息资源整合与利用过程中的方法技术等相关问题进行研究与分析,为有效开发利用互联网档案资源,改进与完善现有档案信息化工作的方法模式提供参考与启示。

2.新媒体环境的数字档案馆建设

传统档案服务工作通过对档案进行收集、整理、编研等过程,将档案及档案相关产品提供给用户,实现档案信息共享。档案馆作为档案事业的主体,在档案文献(纸质或是电子)的组织与服务方面积累了丰富的经验,为社会服务、科研活动和学术交流提供了有力支持。随着信息交流方式的不断演进,以互联网为代表的新兴媒体涌现出海量的网站、论坛、微博等数据资源。这就要求档案馆构建新型的、分布式的和整合式的具有新媒体信息资源开发与应用功能的数字档案馆。新媒体下的数字档案馆既包括传统数字档案馆的各类处理、管理、检索等服务功能,又包括数据采集、数据可视化、数据抽取、数据集成、信息标引、文本分类聚类等数据分析挖掘服务功能,其基本结构如图1所示。一定程度上,新媒体数字档案馆表现为互联网档案信息资源开发系统及服务平台,并不断向着数据密集型服务范式转换发展,数据的服务支撑作用始终作用于整个档案信息服务。

图1 数字档案馆系统结构

互联网档案信息资源开发系统及服务平台,一般由档案信息采集工具、档案信息分析工具、档案信息发布平台和档案信息服务引擎 AIS(Archive Information Server)、档案信息集成接口等五部分组成。其系统架构如图2所示。整个系统的工作流程是:(1)信息采集器从互联网大型(档案)网站、论坛、博客等信息源采集信息,并存储到AIS;(2)档案信息分析工具对AIS中的档案信息进行智能分析和加工;(3)档案信息发布平台将经过加工处理的档案信息发布至Web界面;(4)信息集成接口提供AIS与已有档案信息网信息资源间的访问、整合与交互。

3.新媒体档案资源数据中心的构建

数据是档案服务的核心资源,数字档案馆必然是以数据为基础的数据服务系统。档案馆的核心竞争力不仅仅是对档案文件信息的竞争,多种类型数据的拥有、融合、挖掘与利用水平也是档案行业内部以及与其他行业之间竞争的关键因素。新媒体创造了前所未有的数据资源,加强新媒体数据资源的采集与拥有必然是档案馆资源建设的重要工作内容。新媒体的信息数量是海量的,信息类型、来源渠道和获取方式是多元的。面向档案馆信息资源开发利用,这些数据资源主要可分为业务数据、用户数据和语义数据等三种类型。

3.1 业务数据

档案形成的根本目的是为了对已经发生的事物进行记录,其根本属性体现为历史记录性,是历史的凭证。不仅档案本身包含着一定特征信息,而且与形成档案文件所描述的活动、事件等历史活动一样,它是与其他档案文件密切联系在一起的。单靠一个档案馆的人力、物力、财力,难以形成具有完备性、系统化的资源体系。比如,上海档案信息网的档案政务中,上海地方政府的档案文件相对较多,但不包含制订这些政策法规依据的各类国家级文件,并且这些文件也只是包含上海地区的部分公开政务文件。档案馆需要借助互联网不断丰富与自身业务服务目标相关的各类信息资源,扩展各类档案业务数据。这些信息资源可以来自国家、军队、地方政府的官方网站,也可以是大型的知名商业网站、新闻网站、论坛与博客等。

3.2 用户数据

图2 新媒体档案信息服务平台系统结构

通过对用户使用、行为数据的分析不仅可以了解用户行为、意愿、业务需求、知识应用能力,更可以对用户的信息需求与行为过程进行分析和预测,从而获得档案馆所需的决策参考,帮助档案馆应对当前所面临的用户流失、服务方式匮乏等实际问题。用户数据主要是指用户的身份标识、查询关键词以及各种输入流与点击流。这些数据是档案利用者的个人信息与使用记录,体现着用户的信息需求与使用习惯。通过分析这些数据能够发现档案利用者的访问模式,有针对性地进行用户推荐,构建与优化档案资源及各种服务功能。新媒体的不断应用与普及,使得用户数据的来源不单是调查问卷、档案网站,而且包含各类可访问的搜索引擎、微博等社会化媒体中提供的直接与间接用户数据。比如,谷歌全球热门搜索关键字排行榜、百度风云榜等发布的用户搜索关键词与用户行为记录,微博用户关注的信息类别、社群关系等等,都可用于档案信息资源建设中的主题信息决策,查询优化、用户推荐服务的优化与改进等等。

图3 新媒体档案信息的开发处理流程

3.3 语义数据

任何一个计算机系统,如果希望能够理解人类自然语言,就必须与人一样具备语义知识。利用语义知识提高计算机的语义理解能力,就显得非常必要[4]。现有的档案信息化研究与实践工具中,语义支持的缺失是一个普遍问题,应用语义资源存在广泛需求。当前著名的有本体知识库有WordNet、FrameNet等,面向中文的知网HowNet。虽然这些语义知识准确程度较高,但存在构建成本高、数量有限、更新慢的问题。互联网时代,信息的来源、数量和形式发生了根本性变化,完全人工方式获取语义知识已经不能满足实际应用的要求。

维基百科、百度百科、互动百科等免费的新媒体资源由于覆盖面广、准确度高、结构化信息丰富、获取成本低、动态更新等特点,已经成为知识挖掘、自然语言处理研究以及各种信息处理任务中可替代传统语义知识库的语义知识来源。从百科知识中,能够自动抽取同义词、近义词、相关词、上下位以及属分关系,可广泛运用于信息检索、词义消歧、文本聚类与文本分类等诸多信息处理任务,有效增强信息分析处理的智能化程度,提高用户获取知识的效率。

4.档案信息资源开发处理中的关键技术

数据资源中心的建立为档案信息资源的开发利用提供基础。新媒体数据中蕴含的档案价值需要利用一定的技术进行分析、处理与重组,才能从中获取数据再利用与创新的价值。新媒体数据来源广泛,应用需求和数据类型也都不尽相同,但是最基本的数据处理流程基本一致。档案信息资源的开发利用处理主要包括以下部分,如图3所示。

图4 新媒体档案信息加工分析中的主要技术

首先,从广泛异构的数据源进行清洗、抽取和集成,按照一定标准存储数据,构成可用于数据分析的原始数据;接着,组织和提取数据及其属性特征,转换数据为易于分析的形式并载入文件系统、数据仓库或分布式存储与处理模型;接着,对数据进行挖掘分析,从中提取有益的模式或知识。同时,结合语义知识库实现数据的语义处理,提高分析质量;最后,在系统与用户之间进行交互评估,并以不同的形式对挖掘结果进行可视化,为终端用户服务。

这一处理流程需要综合多种信息技术,利用各种分析挖掘技术处理各类信息,将各种加工分析结果存入档案信息服务引擎,为用户提供信息浏览检索服务以及各类分析挖掘结果,其中的主要技术如图4所示。

4.1 数据集成

数据集成把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从中提取出关系和实体,并经过关联和聚合之后采用指定的标准来存储数据,从而为应对数据来源广泛、类型繁杂而给数据处理带来的挑战[3]。为保证数据质量,同时需要对数据进行清洗。档案信息资源集成的现实目标主要是,将采集开发建设的互联网档案信息与现有在线的档案信息网进行对接,整合和规划互联网采集的档案信息资源与现有档案信息网中的数据,使其成为内容集中准确、查询快速简捷、利用方便系统的档案信息资源整体,提高档案工作者研究交流的水平和实现档案网站信息的增值服务。目前较成熟的数据集成方案有:联邦数据库、基于中间件模型和数据仓库等方法[5]。数据集成技术不是一项全新的技术,已有较多且成熟的解决方案,这里不作赘述。

4.2 数据存储

传统的数据库比较适合结构化数据的存储,融合新媒体的档案信息资源会远超单机容纳的数据量。并且,在实际的存储处理中几乎不可能“One size fits one”,即一种统一的数据存储方式能够适应所有应用。因此,必须在传统数据库的基础上融合分布式存储方式。比如,典型的Hadoop和NoSQL(Not Only SQL)都属于分布式存储技术的范畴。与传统数据库相互补充,能够更好地适用于不同应用场景[6,7]。在存储格式上,根据档案文件特点,尽量采用档案界通用的EAD(档案编码著录,Electronic Archival Description)著录标准。按照EAD对档案的各种特征进行记录,将题名、形成时间、文种、载体、秘级、主题词、正文等描述特征以元数据格式存储,对于照片、声像档案尽量描述其记录的内容。

4.3 信息分析

围绕档案信息资源开发利用的信息分析挖掘任务主要有:

1.档案信息聚类。文本聚类是在未知分类的情况下,使文本自动组成有意义分组的数据挖掘技术。通过聚类算法,以档案不同的属性作为聚类特征,使档案文件形成多个不同类别的档案。通过统计档案文件的共性特征、分布模式和频度,帮助用户快速发现档案信息中有价值的信息,提高对档案记载内容的客观认识程度。比如,根据时间、人物、地点、事件、活动、学科等档案特征及其组合聚集为不同的文件集合,对档案知识间的逻辑联系进行重组,有助于发掘隐藏在档案文件间的逻辑联系与隐性价值。

2.档案信息分类。按照已有分类标准,比如《中国档案分类法》、《中图法》等,利用分类算法使采集到的互联网档案信息自动划分入不同类别,自动建立档案资源分类体系;以用户指定关键词组合或者自动抽取的档案信息中的关键要素作为类别标签,标引采集的档案信息。同时,在档案聚类分类时,充分利用语义知识减少语义特征稀疏对聚分类所带来的影响。

3.关联分析。档案文件之间存在紧密的关联关系(泛指各种逻辑关系),利用关联分析挖掘档案文件中的大量相关联系,发现档案中记录事物间的相互关联性或相互依赖性。自动将档案的相关文件关联在一起,帮助用户多方位、多角度地掌握档案记录的各种信息。这些关联分析主要包括:文件注解,按记录事物的发生顺序、因果关系、引用关系、人物关系等有序组织档案文件,从不同角度展现档案文件的内在联系。比如,将某项地方政策法规的形成依据、变化发展相关文件关联起来,为用户提供档案内容上的系统化知识。为档案文件内容中的事件、引用的法规条例进行注解,并与相应概念描述文件进行关联;文件内容关联,按照内容相关程度显示关联文件;要素关联,主要处理与显示档案文件记录的地点、人物、机构等要素间的关联关系。

4.专报处理。综合以上功能形成经过分析、筛选过的各种档案专题或主题信息,为档案研究工作提供强有力的数据支持。

数据分析挖掘是档案信息资源开发处理中的核心业务。然而,数据的超高维问题对现有的数据分析挖掘技术造成很大的挑战。MapReduce是Google最早采用的应用于批处理大数据的计算模型,实际中可以将一些经典算法,如决策树、K-Means等移植在MapReduce框架,提高处理海量数据与高维计算的效率[9]。同时,新媒体环境下的档案数据体量大、类型复杂且混杂噪音,容易增加分类等计算结果的不稳定性。组合方法对于不稳定的分类器是一个较好的解决方法。比如,聚集多个分类器的装袋和提升方法的计算结果优于单个分类器的性能。同时,这种组合方法易于并行处理,为处理海量数据时提高训练和测试速度提供了一定便利。

4.4 查询处理

信息检索是档案信息化服务的最基本功能。档案信息检索需要满足精确性和便捷性的目标需求。比如,提供多种检索入口,能够按照属性字段检索、关键词检索、布尔逻辑组合检索、二次检索(渐进检索)等等。同时,实践中需要充分利用查询转换与语义资源提高检索性能与用户体验。

查询转换包括一系列技术,这些技术用于在生成排序文档之前和之后改善初始查询结果,主要包括拼写检查、查询推荐、查询扩展等等。拼写检查、查询推荐主要是生成与用户初始查询相似的输出,提供一些候选查询词,这些候选查询是纠正错误或者是对用户信息需求的更规范描述。这些词语的来源可以是查询日志、语义知识库中的同义词等等。查询扩展是在用户查询词中增加一些额外的词汇的技术。语义知识是查询扩展的有效智力资源。解决同义词、近义词问题的一个有效方法就是利用语义知识。利用查询词的同义词、近义词,能够提高查询结果的召回率;同时,添加查询的强相关词以限定查询主题范围,并指定扩展查询词各项的权重系数,能够提高查询准确率。这些都是对语义知识的典型应用。另外,相关反馈也是一种常用的扩展方法,利用用户点击的相关文件中出现的词语对查询进行扩展[10]。

4.5 分布式索引

超大规模文档集的索引,需要考虑分布式处理框架。比如,MPI、OpenMP等计算平台,其中最典型的计算平台MapReduce为并行计算提供了简单、高效的计算模型和运行环境,实际中也较为易用[11,12]。大规模数据的分布式计算可能需要将一些单机应用的串行算法进行并行化改造,使其能够并行地运行于计算机集群中,加快查询文档结果相关性排序方面的速度,提升对大规模数据的处理能力。另外,文件索引与内存索引的分布也是影响查询速度的重要原因。分布式索引包含文档式分布与词项分布式,前者每台索引服务器只索引部分文档集,但共享一些词项的全局信息。比如,共享词项在整个文档集合出现的频率信息;后者则在整个集群建立单一索引,每台服务器包含整个文档的部分词项索引信息。词项分布式较为复杂,并且一些研究已经证实词项分布式对于提高检索效率的贡献不大。同时,分布式的存储与索引也符合档案灾备体系的构建要求[10,13]。

4.6 交互式数据可视化

数据分析与处理机制对用户来讲是一个黑匣,用户无法了解分析方法、分析结果的局限性或者有效性。而用户往往更关心数据分析的结果,如果没有采用适当解释方法或形式,处理的结果可能让用户难以理解。这类情况会影响档案信息的使用效能,甚至误导用户对各种结果的理解。数据可视化是以图形或表格的形式显示信息,有助于用户直观理解各类数据分析结果。然而,海量数据处理时,分析结果中的关联关系可能会极其复杂,数据可视化的功效会受到一些制约。比如,文件关联网络太大,并且包含复杂和稠密的链接,用户仅仅利用可视化的网络结构图从中发现感兴趣特征并不是一件容易的事情。

交互式数据可视化是进行知识发现的一种方法,包括数据可视化、挖掘结果与过程可视化和人机交互功能。在一定程度上,让用户了解和参与具体的数据分析过程,利用交互式的数据分析过程来引导用户逐步开展档案查询与分析任务。通过数据立方体、趋势图、标签云等图形、图标等可视化方式使分析过程和结果与用户交互,便于用户定制处理任务,理解挖掘结果。比如,限制文档网络图中节点的数量,显示用户指定的高权重节点,使可视化图形简化趋于用户要求并帮助用户理解。

5.结语

本文围绕互联网新媒体档案信息资源建设与服务,介绍了新媒体数字档案馆的主要特征,阐述了新媒体档案信息资源建设的来源构成与特点,分析探讨了新媒体网上档案信息资源开发建设中的信息采集、信息处理和信息服务等相关方法、技术及其研究重点,有助于推进档案信息化理论与应用创新发展,为档案信息化建设中应用新媒体数据资源与相关服务提供借鉴与指导。

*本文系国家档案局2013年科研项目“基于大数据分析平台的档案资源整合与模式研究”(项目编号:2013-X-38)的研究成果之一。

[1]Viktor Mayer-Schönberger,Kenneth Cukier.大数据时代:生活、工作与思维的大变革[M].浙江:人民出版社,2012.

[2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[3]王运彬,王小云,陈燕.档案信息资源配置的目标定位研究[J].档案学研究,2012(6):36-38.

[4]戴中秋,赵宁燕.档案信息化建设中的数据管理[J].档案与管理,2012(3):23-25.

[5]王兰成,刘晓亮.维基百科知网的构建研究与应用进展[J].情报资料工作,2012(5):56-60.

[6]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.

[7] Hadoop[EB/OL].http://hadoop.apache.org/index.html,2012-10-02.

[8]黄哲学,曹付元,李俊杰,等.面向大数据的海云数据系统关键技术研究[J].网络新媒体技术,2012(6):20-26.

[9]陈康,向勇,喻超.大数据时代机器学习的新趋势[J].电信科学,2012(12):88-95.

[10]刘兵.Web数据挖掘[M].北京:清华大学出版社,2010.

[11]Yasin N.Silva,Jason M.Reed:Exploiting MapReduce-based similarity joins[C].Proc of SIGMOD 2012.New York:ACM,2012:693-696.

[12]He Yongqiang,Lee Rubao,Huai Yin,et al.RCFile:A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems[C].Proceeding of the 24th International Conference on Data Engineering.In Hannover,Germany.2011:1199-1208.

[13]唐跃进,万丽娟.数字档案信息存储与灾难恢复研究[J].档案学通讯,2011(2):16-19

猜你喜欢

档案文件档案馆语义
档案文件的数字化管理在企业中的相对重要性
探析档案文件资料收集工作面临的问题及对策
语言与语义
档案信息化建设在医院档案文件管理中的积极影响
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
全省部分档案馆新馆掠影
“上”与“下”语义的不对称性及其认知阐释
when与while档案馆
认知范畴模糊与语义模糊
语义分析与汉俄副名组合