Web大数据环境下的P-信息聚合及动态分离
2018-09-26尤垂桔邱锦明
尤垂桔,邱锦明
(三明学院 信息工程学院,福建 三明 365004;数字福建工业能源大数据研究所,福建 三明 365004;工业大数据分析及应用福建省高校重点实验室,福建 三明 365004;物联网应用福建省高校工程研究中心,福建 三明 365004)
随着Web2.0的广泛应用,数据开放、共享和聚合已成为网络发展的一大趋势。 在开放的Web环境下,网络信息资源海量增长、用户贡献内容不断扩充,形成数据量大、来源分散、类型多样、噪声大、异构无序的Web大数据。Web大数据给用户带来资源选择多样化和自主化的同时,也面临着信息选择过程中主题不明确、特征不清晰的的困境。如何将离散分布、动态的、不确定的“信息碎片”根据主题特征属性进行筛选、过滤、识别、聚合,形成动态的信息聚合系统,有效提供服务并促进知识共享,成为当前研究的重点领域。
如果把影响信息聚合的因素看作信息元特征(属性)α,那么信息聚合系统A的信息聚合过程就可抽象为A的特征属性α通过迁移f函数作用于信息聚合系统A的过程。显然,信息聚合系统的信息元的变化规律与特征属性之间存在着某种关系,人们希望通过这个关系掌握信息聚合系统的信息元与特征属性之间的动态规律,为Web大数据的应用提供理论依据和技术支持。
设 U={u1(x),u2(x),…,un(x)}是信息聚合系统 A 的信息元集合,α={α1,α2,… ,αk}是 U 的特征(属性)集,如果在α内补充(增加)某些属性,使α变成αf,那么信息元集合U变成Uf,或者对U的特征属性集α的f迁移生成了信息元集合Uf。显然U与Uf存在某种关系,这个过程等价于集合 S 的属性集 α={α1,α2,… ,αk}受到属性迁移f的干扰,使得S中的元素发生变化,生成S的内P集合(集合中元素减少)或S的外P集合 Sf(集合中元素增多),(,Sf)称为集合 S 生成的P-集合。P-集具有动态特征,把这一特征拓展应用到信息聚合管理,那么特征属性的迁移对信息聚合系统的影响,等价于信息聚合系统受到f-属性的入侵,引起信息聚合系统的信息元变化。自然产生以下几个问题:f-属性迁移与信息聚合系统的信息元变化之间存在什么关系?在f-属性迁移作用下,信息聚合系统的信息元变化是否存在规律?这样的关系和规律如果存在,能否被识别?
本文基于P-集理论,利用MapReduce研究Web大数据环境下信息聚合系统的信息元与其特征属性的变化规律,对f-属性迁移与信息聚合系统的信息元的变化关系,在f-特征属性迁移作用下的信息聚合系统信息元的聚合和分离规律展开讨论。
1 P-信息聚合与动态分离定理
1.1 P-集[1]
约定 U是有限元素论域,V是有限属性论域,S={s1,s2,… ,sm}⊂ U 是 U 上的有限普通集合,α={α1,α2,… ,αk}是 V 上的有限属性集,f={f1,f2,… ,fn}是元素迁移族。
给定有限元素集合 S={s1,s2,…,sq}⊂ U ,α={α1,α2,… ,αk}⊂V 是 S 的属性集,f={f1,f2,… ,fn}是元素迁移族。α在 f迁移下变成αf,元素集合S变成Sf,称Sf是S的属性集α在f迁移下生成的内P-集合(internal packetset),而且
S-称作 S 的-元素删除集合。这里,αf⊇ α,Sf⊆ S。
给定有限元素集 S={s1,s2,… ,sq}⊂ U ,α={α1,α2,… ,αk}⊂ V 是 S 的属性集,f={f1,f2,… ,fn}是 α的迁移族。α在f迁移下变成,元素集S变成Sf,称Sf是S的属性集α在迁移下生成的外P-集合(outerpacket set),而且
S+称作S的f-元素补充集合。这里⊆α,Sf⊇S。
P-集的动态特征:P-集是以集合S为原点,由于集合S的属性集α受到f的迁移影响,引起集合S的动态扩充和收缩。
1.2 P-信息聚合体
约定U是有限信息元论域,V是信息元有限特征(属性)论域,F 是信息元特征(属性)迁移族。α={α1,α2,… ,αm}⊂ V 表示 X 对应的特征(属性)集;f={f1,f2,… ,fn}⊂ F是属性迁移族。
定义 1 设 X={x1,x2,… xk}⊆ U 是信息聚合系统 A的信息元集合,α是信息元集合X的属性集,称在α内形成的信息元集合[x]是X在α上形成的α-信息聚合体,记为[x]α。
定义2 设 [x]α⊆U是信息聚合系统A的α-信息聚合体,α在迁移 f下变成是X在f下生成的内P-信息聚合体。
定义3 设 [x]α⊆U是信息聚合系统A的α-信息聚合体,α在迁移下变成 af,[x]α变成是X在下生成的外P-信息聚合体。
1.3 P-信息聚合体性质
若 αf和 α分别是和[x]α的属性集,存在 Δα≠φ ,使得 αf=α∪ Δα,由定义 2,有:。根据定义 5,可得:▽[x]是在属性迁移f作用下的[x]α的P-分离。
定理3的证明是直接的,证明略。
2 P-信息聚合体生成
定义 7 设 x={x1,x2,… xn}⊆ X 是 X 上的信息聚合体,α={α1,α2,… ,αm}是 x 的属性集,μij(x)为信息元 xi在其属性 αj的特征值,i=1,2,… ,n,j=1,2,… ,m ,称 C(x)是信息聚合体x上的信息元特征矩阵,如果
定义 8 设信息元 xi,xj,称 R(xi,xj)是 xi关于 xj的信息元关系测度,如果
其中,μik,μjk分别是信息元 xi,xj在其属性 αk上的特征值,且
定义9设是信息元集合[x]的属性集,δ(α)是信息元集合[x]的信息元关系测度阈值,称[x]δ(α)是[x]基于δ(α)的信息聚合体。
Web大数据环境下的P-信息聚合体生成过程如图1所示。
图1 P-信息聚合体生成过程
Web大数据环境下P-信息聚合体生成算法如下:
1.划分大数据集X为n个子集
2.特征矩阵构建
对数据子集 [x]i以及数据子集 [x]i的特征属性α进行汇总规约,构建数据子集[x]i的特征矩阵C([x]i)。汇总所有的C([x]i),形成数据集X的特征矩阵C(X)。
3.特征矩阵C(X)变换,使得C(X)的非零元素值往矩阵的左上角集中。
4.在特征矩阵 C(X)中,选取特征属性集 α={α1,α2,… ,αk}。
5.在特征矩阵C(X)中,选取与特征属性集α相对应的特征值非零的信息元集合[x]j。
6.应用 R(xi,xj)计算信息元集合[x]m中信息元 xi,xj之间的关系测度。
7.根据设定的信息元关系测度阈值δ(α),对信息元进行聚合操作,生成信息聚合体[x]δ(α)={x1,x2,… ,xn}。
8.往特征属性集α增加特征属性Δα,形成新的特征属性集 α'=α∪ Δα={α1,α2,… ,αk},k>m 。
9. 重复步骤 5-7,生成信息聚合 体[x]δ(α')={x1,x2,… ,xm},m <n。
10.往特征属性集α减少特征属性集▽α,形成新的特征属性集,α"=α-Δα={α1,α2,… ,αk},k<m 。
11.重复步骤 5-7,生成信息聚合体[x]δ(α")={x1,x2,… ,xl},l>n。
12.根据定义4-6,由于特征属性的迁移,形成P-信息聚合体([x]δ(α'),[x]δ(α"))。
由于特征属性Δα的迁入,不具有Δα特征属性的信息元从[x]δ(α)中分离出来,▽ [x]=[x]δ(α)-[x]δ(α');由于特征属性▽α的移出,不具有特征属性▽α但具有特征属性 α"=α-Δα的信息元被聚合到聚合体[x]δ(α)中。
3 P-信息聚合及动态分离的应用
本部分以搜狗实验室的新闻数据(SogouCA)的部分数据源为例分析讨论P-信息聚合体的生成及应用。数据来自若干新闻站点2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,分为三个数据子集[x]1、[x]2、[x]3。数据格式如下:
3.1 数据预处理
(1)为每篇新闻文档增加序列号docid。
(2)采用结巴分词器(Jieba)对文档进行分词,根据停用词表进行停用词过滤,即去掉在语料库中大量存在,但是与主题特征信息没什么关联性的词。
3.2 特征提取及特征值计算
根据TF-IDF对每个数据子集 [x]i的每条数据进行特征词提取,其中TF(Term Frequency)是词频,表示某个词在文章出现的频率,计算公式为:
其中:count表示某个词在文章中出现的次数,words表示文章的词的总数
IDF(Inverse Document Frequency)是逆文档频率,计算公式为:
其中:D表示语料库的文档总数,Dw表示包含该词的文档数。
特征值计算公式:
形成特征属性集 α([x]1)、α([x]2)、α([x]3)。
3.3 构建特征矩阵
根据TF-IDF的计算结果,对所有的属性集α([x]1)、α([x]2)、α([x]3)进行汇总,构建特征矩阵。对特征矩阵的非零元素按照左上角集中化处理,形成如表1所示矩阵C(X)。其中列属性αi表示主题特征属性,行xj表示信息元,i=1,2,… ,n,j=1,2,… ,m 。
表1 信息元特征矩阵C(x)Table 1 Information element feature cerfificate C(x)
3.4 信息元聚合处理
实验结果如表2所示。
表2 信息聚合体生成结果表Table 2 Information clustering results
在Web大数据环境下P-信息聚合体的生成提高了信息利用的精准性,其基于属性的聚合与分离在信息精准推送方面具有广泛的应用意义。
4 总结
Web大数据环境的开放性,数据类型多样化、信息来源分散、噪声大等因素的干扰使得人们在应用Web大数据的过程中面临巨大的挑战。P-信息聚合体揭示了信息元与信息元特征属性的动态关系,为信息分类、快速检索、精准推送提供新的方法,为在Web大数据环境下应用数据价值提供新的理论支撑。