结构化数据在信息编辑系统中的应用实现
2015-03-15梁静
文|梁静
1 前言
结构化数据的应用尚处于尝试初期,业务流程和业务应用尚不成熟,需要技术与业务紧密结合、循序渐进,即技术系统滚动开发与业务流程逐渐成熟之间相互促进,以利于开发出更加贴进应用、贴近用户体验的功能和展示效果。
2 结构化数据的应用实现
2.1 结构化数据需求描述
新华社自上世纪80年代实现计算机系统发稿后,计算机发稿系统随着技术手段的不断创新而不断进行着升级改造。值此新华社实施战略转型的重要时期,信息编辑部对现有计算机发稿系统提出新的应用升级要求,其中需要增加经济类型的数据用做编辑素材及市场应用展示。
结构化数据的总体需求是对于各种渠道引入的数据分别按照内部的使用要求和外部用户的使用要求提供使用功能和效果展示。根据引入渠道的不同,将数据源分为三类:一是从社外采购的整块数据源,二是网页上实时自动抓取的数据源,三是手工填报的数据源。
能够将整块采购的结构化数据源提供给信息部的编辑和市场用户使用,能够实现网页数据自动抓取、转换、聚类分类,按照不同的使用者提供个性化应用展示功能,能够提供手工填报数据功能并将数据整理汇总、加权计算及效果展示。
2.2 结构化数据系统设计
针对应用需求和数据展示要求,结构化数据系统设计是根据数据流向定义出三个主要层次。一是面向数据源采集的,称为数据源采集层。二是面向系统核心的,称为数据仓库层。三是面向数据应用展示的,称为数据应用层。
2.2.1 数据采集层
数据源层是数据来源的集中处理层。手工采集数据、互联网采集数据、外部购买数据、社内其它系统数据的引入均在这层完成,所有外部引入的数据不做任何处理和加工,一一对应存储在这一层的数据表中,引入的数据通过数据接口加载到数据仓库中。
2.2.2 数据仓库层
在结构化数据系统设计中,数据仓库层是核心,其对于数据展示效果及使用效率至关重要。数据仓库层内部又划分为四个层次:STAGE层、ODS层、DWD/DWA层、DM层。STAGE层的数据表与数据采集层的数据表一一对应,通过数据接口的处理工具或专门的机器语言将数据从采集层引入到数据仓库的STAGE层。STAGE层的数据经过分析处理、加工分类后引入到ODS层。ODS层的数据是细粒度数据,类似于产品加工过程中的原材料,其可按照使用要求任意组合。DWD/DWA层是将ODS层的数据按应用要求进行组合后的数据,该系统按照信息编辑部的需求划分为宏观数据、行业数据、进出口数据、证券数据、上市公司数据、大宗商品数据、市场统计数据、指数数据等。DM层是按照应用展示需要的数据从DWD/DWA层按照计算的结果存储在DM层。
图1
2.2.3 数据应用层
数据应用层主要完成基于结构化数据的展示、应用、分析。功能包括:报表中心、图表中心、主题分析、专题分析、自动发稿、即席查询、数据下载、接口服务等。
系统架构设计的示意图如图1所示。
2.3 结构化数据管理
2.3.1 元数据管理
元数据是描述数据及其环境的数据。这里分为业务元数据和技术元数据。
业务元数据是编辑部业务术语对应到机器可识别属性的说明,用户能够对照说明方便的查询、使用。技术元数据是对数据仓库中的所有数据进行描述的数据。比如,一篇新闻稿,可能会按照标题、正文、作者、时间等拆分存储到数据库中,元数据就是要对标题、正文、作者、时间等进行描述,描述其存储在数据库中的数据表名称、字段名称、数据格式(机器语言定的)、长度等。技术元数据管理是方便技术人员使用的。
2.3.2 ETL流程管理
ETL流程管理是专为技术人员提供的,是结构化数据最重要的处理流程。ETL流程的主要任务是完成数据的抽取、转换和加载的工作。通过ETL,完成从数据源层、数据仓库层、到数据应用层的逐级抽取,并对数据按照一定的规则进行清洁、集成、转换、汇总等处理工作,最后将处理完的数据加载到数据应用层。
2.3.3 结构化数据图形展示
结构化数据图形展示是对结构化数据的一种呈现方式,通过图库技术、模板技术支持图形动态在线生成,代替手工操作,减少用户搜集整理数据的成本,自动为用户生成图形,节省时间,提高工作效率。
结构化数据图形展示的数据来源于数据仓库层中的DM层,通过权限分层的管理,使不同权限的用户只能访问其权限的数据,由这些数据组合生成图形。
2.4 结构化数据已实现的功能
针对三大类数据源的使用要求,对引入方式的不同分别开发了自动采集系统、手工填报系统和整块数据批量倒入功能。其中结构化数据自动采集系统可以实现从互联网上抓取特定网页内容,网页可进行灵活定制,对99类互联网数据连续抓取一年半,累计近30万条数据,这些数据通过技术手段自动转换为结构化数据并保存在本地数据库中。结构化数据手工填报系统提供个性化填报模板的自定义及在线填报功能,可完成填报内容的定义、填报、审核、导出等功能,可以个性化填报数据信息。整块数据源有近3年约1.8亿条数据,每月需要处理倒入数据200多万至500万条不等。对现有数据形成了集中整合平台。对信息部的三个专线提供了个性化数据服务,有数据图形展示(来自三大商品期货交易所的数据进行加工处理后,提供饼图、柱状图、组合柱状图、K线图、组合K线图等)和导出下载等功能,取得了一定的效果。为编辑系统提供结构化数据建稿服务,可将静态展示图表嵌入分析报告文字说明中。
3 结构化数据建设展望
信息部对已建成系统进行实际操作使用后,提出了进一步的需求。另外还可以结合新华社分社用户、新华社内部编辑用户、新华社财经专线机构用户的使用要求,整合开发建设几项应用功能。它们是(1)丰富互联网数据的采集内容,在互联网中的结构化数据资源非常丰富,并且具有公开、免费的特点,可根据用户的实际需要进一步丰富从互联网采集数据的数量。(2)完善整块数据源的引入,完成海关数据等整块数据源引入,将该数据集成在结构化数据库中,并提供数据的展示、分析、导出功能。(3)提高对分社的结构化数据服务水平,在总社外网部署结构化数据的展示系统,采取用户分级的机制,为分社用户提供结构化数据的服务。(4)提高对机构用户的结构化数据服务水平,结合财经专线产品的要求,开发针对机构用户的结构化数据展示系统,可依据用户的不同,为不同类别的用户建立差异化的数据集市。