基于大数据的网络信息资源社团的研究
2014-07-27冯秋燕
冯秋燕
(河南财经政法大学,河南 郑州 450002)
基于大数据的网络信息资源社团的研究
冯秋燕
(河南财经政法大学,河南 郑州 450002)
本文首先讲述大数据时代的概况,大数据时代下网络信息资源的概况,然后以“文献”为例,提出相关概念,最后介绍大数据时代下“文献”网络信息资源社团及其模型。
大数据;网络信息资源;文献;网络信息资源社团;模型
大数据有着巨大的经济价值、科研价值。Gartner估算全球大数据相关产业的规模2012年达到了2320亿美元;2010年,CardioDX基于1亿个基因样本,分析出23种能够预测冠心病的主要基因;011年,Mckinsey发布了相关报告,阐述了大数据对创新、竞争和生产率的影响,并对大数据的关键技术、应用领域进行了深入分析。2012年,联合国项目“Global Pulse”发布报告,阐述了大数据驱动下,各国在面对数据洪流(data deluge)时所遇到的机遇和挑战。
随着物联网、社交网络、移动图书馆等新型服务的出现,大数据时代的到来,现代社会的数据种类、数据规模正以前所未有的速度不断地增长和积累。网络信息资源的急剧暴增,使得如何挖掘有效的网络信息资源为用户所用成为当下研究的热点。本文主要研究网络信息资源的模型,为有效的挖掘网络信息资源奠定基础。
1 大数据的概况
大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过了可容忍时间的数据集[1]。大数据具有规模性、多样性、高速性、价值性、真实性等特征[2,3]。数据从描述对象演变为一种基础性资源。如何从数据中提取出所需知识,并具体应用于工业、工程和学术等领域成为研究数据的根本目的。大数据的产生大致经历了3个阶段:运营式阶段、用户原创内容阶段、感知式系统阶段。
由于大数据时代下数据结构、数据规模、数据类型、数据模式和数据的关系、处理对象等的变化,旧有的数据处理方式已不能直接应用于大数据,需要采取新的数据思维、数据措施来应对。表1列举了7个数据量均在GB级及以上的典型大数据在用户规模、反馈时间、数据规模、可靠性、准确性方面的应用对比情况。表1中涉及有科研、金融、社交、网络、多媒体等多个领域,可见,现在的信息已经从原来的数据库(Database,DB)演化为大数据(big data,BD)。
表 2 大数据时代下网络信息资源的特征
2 大数据时代下网络信息资源的概况
网络信息资源是指计算机或信息终端等以通信为手段通过网络再现出来的集声音、文字、图像于一体的各类信息资源的总和,其实质是电子出版的高级形式,大数据的到来构成了网络信息资源的多个来源,特征如表2所示。
由于我国网络信息资源建设相对较晚,虽着手进行资源调优,但在挖掘有效的网络信息方面,还存在着诸多问题,如:数据结构的处理不健全、缺乏深层挖掘研究、度量模型的不健全或缺失等。
3 相关概念
本节以“文献”为例,介绍大数据时代下网络信息资源所呈现的社团模式及其概念。
定义1.文献网络信息资源(LNIR)LNIR=<ArtID,ArtN,AutN [],Abst,Keys[],Clc,Doc>,其中,ArtID是文献编号,具有唯一值;ArtN是文献名字;AutN[]是文献作者及其相关信息,可具有多个值;Abst为文献摘要;Keys[]为文献关键词,可具有多个值;Clc为文献的中图分类号;Doc为文献的标识码。
定义2.作者社团(LNIRAS)设LNIRi与LNIRj组成一个作者社团当且仅当(LNIRi.ArtID≠LNIRj.ArtID)∩(LNIRi.AutN[]∩LNIRj.AutN[]≠NULL)。
定义3.关键词社团(LNIRK) 设LNIRi与LNIRj组成一个关键词社团当且仅当(LNIRi.ArtID≠LNIRj.ArtID)∩(LNIRi.Keys []∩LNIRj.Keys≠NULL)。
定义4.主题社团(LNIRAN) 设LNIRi与LNIRj组成一个主题社团当且仅当(LNIRi.ArtID≠LNIRj.ArtID)∩(Compare(LNIRi.ArtN.getString(),LNIRj.ArtN.getString())≠NULL)。
定义5.分类号社团(LNIRCL) 设LNIRi与LNIRj组成一个分类号社团当且仅当(LNIRi.ArtID≠LNIRj.ArtID)∩(LNIRi.Clc. trimNums()=LNIRj.Clc.trimNums())。
4 网络信息资源社团及模型
由于大数据时代网络信息资源的急剧暴增,使得网络信息资源的价值密度备受关注。将网络信息资源分类整理,不仅信息量过于庞大,而且由于学科之间的交织或科研需要,各个分类之间也是紧密联系的。现本文就文献网络信息资源所形成的模型做简要介绍。假设有5篇文献,根据定义1,设这5篇文献如图1所示;可分别形成作者社团(见定义2)、关键词社团(见定义3)、主题社团(见定义4)、分类号社团(见定义5)。本节列举作者社团与关键词社团,其中,设作者社团的度为1,即可以形成以1个或以上的作者为中心的社团;设关键词的社团为2,即可以形成2个或以上的关键词为中心的社团。图2列举了图1中A1、A2、k1、k2、k3形成的社团如图2所示。
图 1 文献网络信息资源实例
图 2 图1中的社团样例
由图1可得,作者社团有:LNIRAS(A1,A2)={LNIR1,LNIR4};LNIRAS(A1)={LNIR1,LNIR2,LNIR4};LNIRAS(A2)= {LNIR1,LNIR3,LNIR4,LNIR5};关键词社团有:LNIRK(k1,k2,k3)={LNIR1};LNIRK(k1,k2)={LNIR1};LNIRK(k2,k3)={ LNIR1,LNIR5};LNIRK(k1,k3)={LNIR1,LNIR3}。由此可以清晰得看出各个网络资源及其之间的关系,为海量数据的挖掘提供了便利。
5 结语
本文首先介绍了大数据的概况与网络信息资源目前的概况,然后提出了本文所描述的相关概念,最后举例说明了大数据中网络信息资源的社团模型,为后续对大数据中关联数据的处理及有效信息的挖掘提供了模型。
[1]Barwick H.The“four Vs”of Big Data.Implementing In⁃formation Infrastructure Symposium[EB/OL].[2012-10-02].http:// www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[2]IBM.What is big data?[EB/OL]. [2012-10-02].http:// www-01.ibm.com/software/data/bigdata.
[3]Big data[EB/OL].[2012-10-02].http://en.wikipedia.org/wi⁃ki/Big_data.
G250
A
1671-0037(2014)07-54-1.5
冯秋燕(1988-),女,硕士,助理馆员,研究方向:现代软件工程技术、数据挖掘、大数据。