APP下载

基于本体的网络大数据信息处理

2015-01-17王新颖

电脑与电信 2015年3期
关键词:数据量信息处理知识库

王新颖

(湖北文理学院数学与计算机科学学院,湖北 襄阳 441053)

基于本体的网络大数据信息处理

王新颖

(湖北文理学院数学与计算机科学学院,湖北 襄阳 441053)

针对大数据体量巨大、种类多样、速度极快、价值稀疏的特点,提出了基于本体的网络大数据信息处理架构。该架构通过历史大数据对本体模型不断丰富,在形成面向大数据主题知识库的基础上,对网络大数据进行语义分析,实现价值服务。

大数据;第四范式;本体

1 引言

随着云计算、物联网等技术的快速发展,数据洪流以不可阻挡之势滚滚而来,我们已经进入大数据(Big Data)时代。数据的角色也不再仅仅是计算机处理的对象那么简单,它已经演变成为一种基础性资源,具有巨大的应用价值。目前,大数据已经引起学术界、工业界以及政府机构的高度重视,然而,如何利用好大数据这种基础性资源,是一个大问题。对大数据而言,以前传统的计算、数据处理等技术已经不再适用,我们有必要研究新的范式、技术来解决在大数据信息处理中遇到的挑战。

2 网络大数据的特点

2.1 数据量大

近年来,数据的规模急剧扩大,数据的计量单位已经从GB发展到了ZB。根据国际数据咨询(IDC)公司预测,到2020年,全球将拥有35ZB的数据量。物联网、社交网络、科学研究、电子商务、移动设备、工业领域等都是网络大数据的主要来源。在物联网中,不计其数的传感器节点时时刻刻采集数据,汇总到服务器等待分析处理。在社交网络中,上亿的用户不断发布自己的数据信息。在电子商务领域,用户的交易数据信息可谓海量,截止2014年3月阿里巴巴数据量已超过100PB,这也使得阿里巴巴成为大数据资源的拥有者,在大数据领域的地位举足轻重。在工业领域,以钢铁工业的轧制过程为例,光学传感器对表面质量的检测,每天一道轧线就产生大约1TB检测数据。随着工业4.0时代的到来,工业领域大数据的规模将会急剧增加。

2.2 种类多样

网络大数据不仅仅包括结构化数据,还包括半结构化和非结构化数据。随着互联网的快速发展,非结构化数据快速增长,据估计,到2020年,非结构化数据将占数据总量的80%,这也增大了网络大数据处理的难度。

2.3 速度极快

大数据主要以流式数据快速增长,速度极快,具有很强的时效性。比如,Facebook每天分享的内容条目超过25亿个,每天增加的数据量超过500TB。据阿里大数据平台显示,淘宝和天猫两个子公司每天新增的数据量,就足以让一个人连续不断看上28年的电影。

2.4 价值稀疏

数据量在快速增长的同时,隐藏在大数据中的有价值的信息却并没有成比例增加。相比传统的数据集,大数据语义稀疏[1],有价值的信息也更加稀疏,而且,有价值的信息和冗余的垃圾信息混淆在一起,真伪难辨,要从大数据中找出有价值的信息,犹如从一个稻草堆中找金针一样困难。如何从价值稀疏的大数据中获取大的价值,是目前迫切需要解决的问题,当然,面对数据量巨大、种类多样、速度极快的大数据,有必要采用新的模式,新的处理技术。

3 网络大数据科学研究第四范式

大数据出现以前,在科学研究的历史长河中,存在三种范式:科学实验、模型归纳、模拟仿真。上述三种范式在科学研究中都起到了关键的作用,然而,它们在数据密集型的大数据面前却显得无能为力。在科学研究界,迫切需要一种新的范式来指导大数据的研究。2007年,已故的图灵奖得主吉姆·格雷(Jim Gray)在他最后一次演讲中描绘了关于数据密集型科研发现的“第四范式(Fourth Paradigm)”愿景[2],为科学研究者研究大数据指出了一条新路。绍洛伊(Szalay)和布莱克利(Blakeley)则描述了吉姆·格雷提出的以数据为中心发展的非正式法则,并在法则的指导下,实现了数据库处理大规模数据集的案例[3],为后人处理大数据提供了借鉴。

4 基于本体的网络大数据信息处理架构

由于早期的数据量比较小,可以方便地移动,因而传统的数据分析策略往往把数据推向方法。然而,对于大数据而言,由于数据体量巨大,不可能在容忍的时间内移动,传统的策略不再适用。结合大数据体量巨大的特点,把算法推向数据是一个可行的方法,基于该思想,本文提出了基于本体的网络大数据信息处理架构,如图1所示。

图1 网络大数据信息处理架构

4.1 本体模型的构建

面向大数据领域,领域问题专家根据自身的专业知识,基于RGPS需求元建模框架[4](角色(R)—目标(G)—过程(P)—服务(S)),设计顶层的本体模型,作为进一步扩展生成主题知识库的基础。

4.2 主题知识库的构建

通过历史大数据对顶层的本体模型进行细化和丰富,形成面向大数据主题的知识库。采用的方法包括分类、聚类、聚合等。

(1)分类

分类的目的是构造一个分类模型,从而对大数据进行类别划分。决策树是一个重要的分类模型,采用树形结构,它的构建过程也就是机器学习的过程,最终形成分类器,当然,在整个过程中要防止过拟合的情形。

(2)聚类

聚类的目的是进行分簇,使问题得到必要的简化。从机器学习的角度来讲,聚类就是找出隐含在大数据中的隐含模式,整个过程是一个无监督学习的过程。常见的划分方法包括K—均值方法和K—中心点方法。

(3)聚合

聚合就是在分类、聚类之后,对本体模型的丰富过程,该过程本质上是一个迭代式的整合过程。本文借鉴文献[5]的本体构造方法,不断丰富,形成面向大数据主题的知识库。

4.3 价值服务

根据得到的面向大数据主题的知识库,我们可以对网络大数据进行语义分析,实现价值服务。首先,我们可以感知现实的情况,了解现状。比如,我们可以通过对网络中的历史大数据和在线流式大数据进行综合分析,掌握现在的CPI (Consumer Price Index物价指数),作为政府实施货币政策的一个重要参考指标;也可以实现网络舆情监控,掌握群众思想动态,做出正确舆论引导。其次,通过对流式大数据进行时空分析,可以掌握某一数据的变化过程,预测未来的形势走向,或导致一个事件发生的概率。比如,医务研究者可以利用Twitter数据预测某一地区何时爆发某种疾病,从而提前向该地区发出预警,防患于未然。

5 结语

本文介绍了网络大数据的特点,分析了网络大数据科学研究第四范式,提出了基于本体的网络大数据信息处理架构。在今后的工作中,要建立基于网络大数据信息处理架构的原型系统,实现价值服务,真正做到“感知现在,预测未来”。

[1]Barwick H,The“four Vs”of Big Data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].Http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data.

[2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[3]潘教峰,张晓林.第四范式:数据密集型科学发现[M].北京:科学出版社,2012.

[4]Wang J,He K Q,Peng R.RGPS:a unified requirements metamodeling frame for networked software[C].Proceedings of the 3rd InternationalWorkshop on Advancesand ApplicationsofProblem Frames (IWAAPF'08)at 3oth International Conference on Software Engineering (ICSE'08).Leipzig,Germany,2008:29-35.

[5]Segev A,Sheng Q Z.Bootstrapping ontologies for web services[J].Services Computing,IEEE Transactions on,2012,5(1):33-44.

Information Processing for Network Big Data Based on Ontology

Wang Xinying
(School of Mathematics and Computer Science,Hubei University ofArts and Science,Xiangyang 441053,Hubei)

act】Aiming at the big amount of big data with species diversity,high speed and value sparse,this paper proposes information architecture for network big data based on ontology.It enriches the ontology model through the history big data to form subjectoriented knowledge base for big data.This information architecture realizes the value of service through semantic analysis.

big data;fourth paradigm;ontology

TP311

A

1008-6609(2015)03-0047-02

王新颖,男,河南平顶山人,硕士,讲师,研究方向:Web服务和云计算。

湖北省高等学校青年教师深入企业行动计划项目,项目编号:XD2014243。

猜你喜欢

数据量信息处理知识库
东营市智能信息处理实验室
基于Revit和Dynamo的施工BIM信息处理
基于大数据量的初至层析成像算法优化
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
地震烈度信息处理平台研究
CTCS-3级列控系统RBC与ATP结合部异常信息处理
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究