APP下载

电子文件元数据智能分析与可视化呈现

2015-05-30姜伟王健班翊坤马春茂冯晓佳

北京档案 2015年7期
关键词:主题词课题组数据挖掘

姜伟 王健 班翊坤 马春茂 冯晓佳

摘要:本文提出将元数据智能分析的理念引入电子文件的开发利用工作中的创新思路,通过数据挖掘流程与技术创新的有机结合,自动化、智能化、高效率、低成本地将电子文件中的浅层信息变为深层信息,将隐性知识转化为显性知识,力求加速知识创新,为电子文件的深度开发与利用奠定基础。

关键词:电子文件元数据数据挖掘智能分析可视化

本文将从社会关系的角度探讨电子文件元数据智能分析的思路、对象和方法,继而以可视化的形式展示这一思路的系统实现,以期为电子文件的深度开发和利用奠定基础。

一、电子文件元数据智能分析的理念与思路

(一)电子文件元数据智能分析的基本理念

电子文件元数据智能分析是指在有噪音、模糊的大量非结构化电子文件中,基于《文书类电子文件元数据方案》(DA/T46-2009)中元数据(本文称之为标准元数据)及本课题组提出的扩展元数据,通过图形直观地显示、比较数据中的复杂关系,识别出有效、新颖、可用的数据分析模型,并发现隐藏于数据之中知识的过程。

电子文件元数据智能分析的目的在于向利用者屏蔽原始数据的噪音,洞察、解释错综复杂的数据关系,从原始数据中提炼出有意义的知识,并用可视化的图形简洁、生动地展示出来,以便为业务提供经过挖掘、提炼、梳理并能反映规律和本质的信息,有效辅助决策。由于电子文件元数据中包含了社会关系的主体(人物、组织),因而在可视化智能分析中特别重视分析并显示个人与个人的关系、个人与组织机构的关系、个人与主题的静态和动态关系。通过数据挖掘方法揭示上述关系有助于量化人物、组织、主题之间广泛、深入、直接的联系,从而为决策提供数据支撑。

(二)电子文件元数据智能分析的核心对象

电子文件元数据智能分析的对象主要是《文书类电子文件元数据方案》中列为“内容描述元数据”的主题词、关键词、人名以及“业务实体元数据”中的行为依据。在此基础上,课题组基于上述社会关系研究,又拓展了其他命名实体元数据,包括空间、组织、引语等“内容描述元数据”的扩展项,其中“组织”是指电子文件内容涉及的所有组织机构,主要分析存在于电子文件中的各种社会组织关系。特别予以说明的是,将主题词作为分析对象,主要基于以下考虑:

1.主题词地位至关重要。主题词是内容描述元数据的核心,是电子文件核心内容的概括和提炼。国家电子政务标准化总体组制订的首批6个电子政务标准项目中,《基于XML电子公文格式规范》《电子政务数据元和电子政务主题词表编制规则》都包含了主题词的内容;以主题词为代表的内容描述元数据在《文书类电子文件元数据方案》中也占据重要地位。尽管2012年国家标准《党政机关公文格式》(GB/T9704-2012)在格式要素中取消了“主题词”,但课题组认为全文检索的原理无法展现主题词之间运用“用、代、属、分、族、参”等参照项所建立起来的隐蔽的分类体系,因此不能深刻揭示公文中的语义关系。语义关系无法揭示,电子文件的数据挖掘也无从谈起。

2.主题词方面的研究成果在实践中已得到很好的验证。课题组的前期研究成果《电子政务主题词表编制及应用系统》获2005年度“北京市科学技术二等奖”,基于上述主题词研究成果开发的“北京外事网站内容分析和发布系统”实现了友好城市新闻自动采集、分析和发布,较大提高了北京外事网站内容的更新效率;基于上述研究开发的“全球最新科技情报数据挖掘系统”在专利、期刊、论文、科技新闻的元数据整合中发挥重要作用。

(三)电子文件元数据智能分析的方法

智能分析法中的相关关系法、回归分析法和时序分析法在数据挖掘、信息分析、趋势预测等领域应用比较广泛,所以课题组将之选为电子文件“内容描述元数据”和“业务实体元数据”的智能分析方法,其中相关分析法是核心。相关分析法侧重探讨变量间关系的密切程度,回归分析法侧重探求变量间的因果关系,时间序列分析法则考虑研究对象与时间之间的相关关系,即将时间作为自变量来看待。同时,本文还以词语同现概率理论为基础引入主题词智能标引技术,从词语的角度研究并度量社会关系,用可视化技术显示“内容描述元数据”和“业务实体元数据”在社会影响力、社会发展趋势、社会热点问题等方面的影响。

通过技术手段自动采集出目标分析对象的主题词、关键词、人名、行为依据、空间、组织、引语等元数据并以此作为分析对象,运用相关分析法以上述元数据在电子文件集合中出现的频次作为第一个变量进行研究,以上述元素在电子文件集合中同时出现的概率作为第二个变量进行研究。在回归分析中,为探求变量间的因果关系,例如以“世界城市”的相关内容元数据作为第一项多个变量,以公认的世界城市“纽约”的相关内容元数据作为第二项多个变量,通过寻找这两项多个变量的交集,发现世界城市的自变量。在此基础上,提出时序数据随时间推移而变动的四种类型:趋势变动、周期变动、季节变动和随机变动。

二、电子文件元数据智能分析的系统实现

电子文件元数据智能分析的系统实现包括:电子文件元数据自动采集体系和系统开发、电子文件元数据智能分析与实际业务需求的无缝对接、电子文件元数据智能分析及其可视化展示。其中,电子文件元数据自动采集体系主要描述如何根据大数据特点设计电子文件扩展元数据以及如何通过流程、模板、技术这三种方法在电子文件中自动采集元数据及扩展元数据,这部分内容是将非结构化文本半结构化处理的关键环节;对电子文件元数据智能分析与实际业务需求的无缝对接,课题组将通用的数据挖掘流程与北京市人民政府外事办公室的具体业务需求进行对接,围绕电子文件元数据智能分析系统的设计展开对业务的需求分析,这是将技术与业务结合的关键;在电子文件元数据智能分析系统设计过程中,课题组根据数据挖掘原理,围绕社会关系,对电子文件元数据和扩展元数据进行了智能分析,这是课题组研究的核心内容,目的是探索一条开发和利用电子文件的新思路和新方法;在电子文件智能分析结果的可视化展示研究中,课题组根据视觉认知原理,对电子文件标准元数据和扩展元数据的表现形式以及智能分析结果的表现形式进行创新设计,将枯燥的数据分析结果予以直观展示。

(一)通过建立业务需求对接流程实现电子文件元数据智能分析

在研究过程中,课题组专门开展了元数据智能分析与实际工作需求实现对接的流程研究,实现科学理论——技术实现——实际应用的跨越。流程主要包括:业务理解、数据理解、数据准备、智能分析、测试评价、项目实施六个环节,后续环节的知识发现会从前面环节的经验中受益。需要指出的是,电子文件智能分析各环节的顺序不是刚性的,经常会出现环节反复、重复的现象,特别是测试评价与其他环节之间往往大量反复交互,这是电子文件智能分析能够应用于业务实际、辅助领导决策的根本保证。

在实践过程中,课题组分析、梳理了业务职能部门对电子文件智能分析的实际需求,包括发现与重大事件相关的机构、人物、主题;显示特定人物的人际交往关系和范围分布;发现国外主流媒体报道的主要特征和倾向;显示重大国际事件的发展趋势及关联特征;发现国际著名城市的发展路径及优势领域;显示国际非政府组织的活动领域或地域;发现世界著名企业的投资领域和活动特点等。根据上述需求,通过技术手段对高端人物特征(政治、经济、军事、文化、体育等)、国际活动特征(国际会议、展览、体育赛事、文化演出等)、国际组织特征(政府组织、非政府组织、知名跨国企业等)、文化产业特征(影视、出版、传媒等)、高新技术特征(电信、网络、环保、能源等)进行了语言方面的统计分析和优化处理,提高了分析维度的精确性。

(二)通过可视化数据挖掘系统实现电子文件元数据智能分析

可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示以进行人机交互的方法和技术。电子文件元数据智能分析的可视化系统指基于电子文件标准元数据和扩展元数据,引入数据挖掘理论和方法,从社会关系角度入手,数量化、图形化地揭示人物、组织和主题之间的静态和动态关系,从而辅助各级领导开展决策的系统。将可视化技术运用于电子文件元数据智能分析的目的在于,便于用户更好地理解和掌握信息,提高科学决策的效率。电子文件元数据智能分析的可视化系统的主要功能包括:

1.关联强度分析。主要用于显示电子文件内容描述元数据之间的关联强度。图1展示的是围绕“国际合作”这一主题进行的关联强度分析,圆形直径大小表示特定实体内容在数据集里面的绝对数量,绝对数量越多,圆形直径越长。圆形之间的链接线表示关系强度,两个圆形之间的链接线越短,代表两个实体内容的关系越紧密。

2.时序演变分析。主要用于显示电子文件特定内容在整个预测时间内呈现出的递增或递减的总趋势。图2展示的是在“国际组织”主题之下,“美国”和“中国”这两个不同空间概念在2013年1~6月间的趋势变化(下面的曲线代表美国,上面的曲线代表中国)。

3.综合比对分析。这是关联强度分析和时序演变分析的综合。其中,纵向比对用于揭示相同时间段不同对象的比较和分析(图3-1);横向比对用于不同时间段相同对象的比较和分析(图3-2)。图3-1显示了在2013年1~6月期间,奥巴马和默克尔关注的主题异同情况,上半部分是奥巴马关注的主题,下半部分是默克尔所关注的,中间部分为二者同时关注。图3-2显示了奥巴马分别在2012年1~6月和2013年1~6月期间关注主题的异同。

4.当前热点分析。当前热点分析主要根据电子文件内容描述元数据中的实体名词在电子文件中出现的频次,计算统计后,以数量多少为主要依据,用图形显示出结果,可视化可展示特定时间不同热点的实体数量。

在实践过程中,课题组也深感需要研究的理论内容和需要克服的技术难点还有很多。比如,如何进一步提高内容描述元数据自动采集和分类聚类的准确率,如何结合业务实际需求研究新的数据分析模型;如何进一步提高人机交互设计水平以提高系统的易用性等。

参考文献:

[1]王健等译.电子办公环境中文件管理原则与功能要求[M].北京:中国人民大学出版社,2012

[2]中华人民共和国国家档案局.DA/T 46-2009文书类电子文件元数据方案[S]. 2009

[3]Julie Steele,Noah Iliinsky.数据可视化之美[M].北京:机械工业出版社,2011

[4]苏新宁,杨建林,邓三鸿,周军.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003

猜你喜欢

主题词课题组数据挖掘
原科技大学新能源开发与应用课题组介绍
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引
《疑难病杂志》2014年第13卷主题词索引
基于GPGPU的离散数据挖掘研究
“做”与“作”的推荐用法“做”与“作”的用法研究课题组