学科视域下的网络信息粒度表达研究
2017-02-17周红炜
周红炜
(惠州学院图书馆,广东 惠州 516007)
学科视域下的网络信息粒度表达研究
周红炜
(惠州学院图书馆,广东 惠州 516007)
粒度理论借鉴物理学的“粒子”概念,融合了计算科学、信息科学和认知科学,着眼于运用信息粒及粒度分析方法,从认知科学角度解析和模拟人脑对复杂信息的处理和加工过程,为机器智能信息处理找到模拟人类信息思维自然过程的计算分析方法。文章将信息粒及粒度理论引入体育这一特定学科领域,针对体育网络信息的不同类型及需求,运用相应的信息粒度分析法探索研究该学科网络信息的粒度表达方式,为开展网络学科信息人工智能计算提供粒度分析支持。
学科信息;网络信息;信息粒;粒度;粒计算
近年来,随着互联网上的信息和数据日益增多,知识激增已成为时代特征,对庞大信息进行基于自然语言的分析和基于人类思维的重组提出了挑战,网络信息和数据进行快速地定向处理和有效分析成为热门研究领域。融合计算科学和信息科学,让计算机模拟人类思维和解决复杂问题的理念和方法受到人们更多的重视,谷歌人工智能“阿尔法”(AlphaGo)正是当前的佼佼代表。然而,由于人类思维的载体是自然语言,而且语言载体的形式多样,并不能用纯数学的方式实现完全表达。为了充分模拟人类智能和思维进行复杂系统信息处理,人们从物理学中借用了“粒”的概念,创造了“信息粒”概念引入信息科学,通过对不同层次的信息粒的分析来简化并求解复杂的系统信息问题,从而形成信息科学中的粒度理论。
文章在探寻信息粒及粒度分析特性的基础上,尝试在体育这一特定学科中运用信息粒和粒度理论,针对该学科的网络信息和数据资源展开粒度表达方式的探索性研究。
一、国内外的相关研究
粒度理论的研究从上世纪60年代开始,围绕粒度概念和理论、粒计算等领域,学者们取得了许多研究成果。
关于信息粒及粒度的理论研究,1979年美国著名数学家Zadeh第一次提出并讨论了模糊信息粒度的概念[1]2,这是信息科学中的首次提出“粒”的概念。1982年美国Hobbs教授提出了粒化理论及其基本特征,认为以不同的粒度来刻画世界,以粒子间的交换来处理问题;1985年又进一步提出了粒度(Granularity)的概念,讨论粒的分解和合成[1]2。1997年Zadeh和Lin正式提出粒计算(granular computing)的概念[2]2。自此粒度理论的概念体系基本建立。
粒度理论的主要研究集中在人工智能学科的粒计算研究领域。二十世纪六十年代Zadeh提出模糊集合理论[2]2。1985年Hobbs提出了产生不同粒的方法和模型。1988年Lin提出了基于邻域系统的扩展粗糙集粒计算模型。1990年张钱和张玲提出了基于商空间的粒计算模型。1998-2001年,Skowron以包含度概念来研究粒近似空间上的Rough下近似和Rough上近似,用模糊集合论的方法描述了信息粒及其粒计算[1]2。2002年,姚一豫用基于逻辑的方法定义一个基本粒[1]2;苗夺谦等研究了知识的粒计算模型,定义了属性的重要度。2009年,李鸿给出了粒的四元组形式化表示[1]2。2012年,苗夺谦,徐菲菲等用集合论表述粒计算[1]2。还有一些粒度理论在知识管理应用的研究成果。
二、信息粒与粒度
信息粒和粒度是信息科学粒度理论研究领域的两个基本概念。
(一)信息粒
在物理学研究中,大的物体可以被分解为不同大小的粒子进行分析和重组。信息科学引入物理粒子的理念,提出了“信息粒”概念,并将其定义为人类认知过程中最基本的知识单元,是一些信息元素的个体通过不分明关系、相似关系、邻近关系或功能关系等关联因素形成的信息或知识块[2]9。一个包含特定的概念事物的集合就形成了一个信息粒,因此信息粒也可以被认为是满足一定的描述条件的元素的集合,构成粒计算模型的基本元素。
随着认知科学对人类思维过程认识的不断加深,透过模糊逻辑理论,信息科学对于信息粒的研究与计算应用,从精确信息粒已经推广到模糊信息粒,从而通过不同侧面和角度对事物的观察来了解事物的本质性质和结论,求解人类认识复杂的系统问题。因此,信息粒的表现形式既有真实粒,也有可能粒及概率粒。
(二)粒度
粒度是度量粒子大小的概念,是粒的一个基本属性,表示粒子进行粒化程度时的量化指数。从集合论的观点理解,粒度是集合的势;从分层理论的观点来看,粒度是表示粒之间的顺序、包含关系和控制关系。根据所研究的实际情况,可以表述为:复杂度、详细程度和抽象度等。在人类认知过程中,往往根据复杂事物的性质和特征将整体分解为不同的信息粒,一般先通过对事物粗略、总体的判断之后,再进行个体的分析,从全局去分析和处理时会抽象并归纳成比较简单的概念,即对研究的对象取较粗的粒度;反之,从细节角度则会提取更为精确的、甚至复杂的概念,即意味着对研究对象取较细的粒度。
三、信息的不同粒度表达
信息的粒度表达是在信息粒化过程中对于信息粒之间存在和关系的描述。在实际问题求解中,粒度的划分是动态的,针对不同的问题,人们需要对不同的信息粒度世界进行描述;当人们在求解同一问题时,也可能使用不同的方法描述不同信息粒度世界,因此,信息的粒度表达会随着研究对象和求解问题或方法的不同而呈现动态。目前信息粒度表达方法主要是在粗糙集理论基础上发展起来的,包括问题归约、状态空间、频数约集等方法。
体育学科是一门与我们每个人的生活、健康、娱乐都密不可分的学科,对于它的研究在不断深入和广泛,交叉性、融合性研究尤为突出,其学科网络信息数量大、类型多,既包括一般信息(即新闻报道、竞赛直播(录播)声视频、活动报道等),也包括专业信息(即赛事分析、竞技体育教学、学术研究论文、科研立项和成果等)。下文探究使用不同的粒度表达方法描述和表达不同类型的体育学科网络信息。
(一)信息粒度的问题归约表达法
数理逻辑认为,信息粒子是所研究问题的一个子集,可以用逻辑的方法来形式化表示粒,用对象、特征、关系和约束条件四元要素集合来进行粒的内部结构描述。如果用G用来表示一个粒子,那么粒子G=(O,F,R,J),图1反映了四元要素构成的信息粒。
图1 信息粒的四维要素构成
在图1中,O表示所研究信息粒的对象集,可以是普通的集合或模糊集,其特性也许是有限的或是无限的;F代表信息粒的所有特征集合,体现了粒的内在、外在、环境等基本特征;R表示信息粒中所有关系的集合,既包括各元素(对象)之间的关系,也包括特征之间的各种关系,还包括对象与特征之间的各种关系等;J则是所有如时间、距离、空间、规则等不同方面的约束条件的集合,用来描述信息粒的动态性和统一性。[3]22这四个要素互为向量,无论对象O、特征F、关系R、约束条件J中某一个向量发生变化,不仅G的论域和所属关系会因此进行粒度变化,而且G所属问题空间的结构也会一并发生粒度变化。
信息粒G=(O,F,R,J)的四元要素表达是一种问题归约方法。这个四元组具体运用于分析某体育学科信息的粒的形式化过程的形态呈现将是如何?选取体育学科中最为人熟悉的体育赛事作为分析对象,根据体育赛事的特性列出如下信息表:
表1 体育赛事信息表
设这8个体育赛事构成了一个对象集合O,记为:O=(X1,X2,X3,X4,X5,X6,X7,X8)。每个体育赛事都具有5种特征,每一特征记为A,A={赛事名称,类型,举办周期,规模,参赛主体};赛事的特征构成一个特征集K,在表1中每一个体育赛事各个特征项的值,则可记为KA,所有体育赛事的KA值并不完全相同,各自具有区别与其它体育赛事的特征。体育赛事的特征集合F,标记为:F=A×KA。那么根据给定的约束条件J将元素集合O中的元素进行分类,选取相应的特征和特征值,从而映射R:F→O信息粒化。
例如,按赛事名称来粒化原始粒,可以得到R1={奥运会,大运会,世界杯足球赛,全国田径锦标赛,CBA,全国青少年足球联赛,***马拉松邀请赛,全球电子竞技邀请赛},这其中还可按区域细分为世界、中国和跨国三个更细的集合;按类型粒化:R2={综合,单项};按举办周期粒化:R3={周期性,联赛,临时性};按规模粒化:R4={超大,大型,一般};按参赛主体粒化:R5={成人,青年,青少年,未限定}。通过以上分析,可以得到一组用四元组G=(O,F,R,J)来表示的粒化公式:
以上是对粒子单一特征的粒化形式过程,每一组划分就表达了一种属性的分类,可视为一种粒度分析结果的描述。不同组别的属性分类,代表着不同粒度选择的结果。同组属性分类序列组合,则代表着粒度选择的粗细属性。粒度选择越粗,粒子包含的元素就越多;反之,粒度选择越细,粒子包含的元素就越少。
然而在现实问题求解时,往往不会仅限定一个或一种约束条件,例如求解“世界级单项超大型成人周期性体育赛事”,就需要在粒度分析的基础上运用集合论,通过采用O/R1∩O/R2∩O/R3∩O/R4∩O/R5运算来解决。这个问题求解过程,就是一个人工智能对人类思维和解决复杂问题的简化模拟过程。上述实例,同样也从一方面说明用粒子的四元组G=(O,F,R,J)不仅可以来表述粒,而且可以从全局和部分、精确和模糊等不同角度来分析粒,用以表述粒子的四元组G=(O,F,R,J)是符合人类智能思维和运作特点的。
(二)信息粒度的状态空间表达法
体育学科中的许多信息是声视频信息,在当前人工智能尚不能仅利用声波和画面就能完整标记声视频信息,因此,对体育声视频信息的标记还需要借助状态空间法来进行信息分解和表达。首先对视频进行一定的编辑,通过融合视觉、听觉和文本等多模态信息来表征特定的故事情节,再从语义、内容和层次三类因素的去粒度分解、组合为每一个模态。而语义、内容和层次则又分别可分为不同的粒度元素。通过建立一个融合多模态信息的通用体育视频分析框架(见图2),就可以对任意视频从结构化、内容和语义上进行粒度分析,从而建立视频的有效索引。
图2 通用体育视频分析框架
以一段体育教学视频为例,从结构化、内容和语义上进行粒度分析。通过提取通用特征对视频片段实现语义粒度标注:目的——教学,类别——球类,子类——篮球,逻辑单元——中学体育篮球教学单元,事件——校园体育教育;在进行视频内容粒度分析和表达时,可综合利用一些视觉特征(如参与人物、场地、设施、广告、海报等)和音频特征(如口令、解说、音乐等)进行分析和理解:场景——某中学篮球场,目标——三步上篮动作训练,人物——某中学体育教师和初中学生;根据视频编辑手法进行视频结构层次的粒度分析,基本结构单元——环行句型,物理结构单元——全景+中景+近景+特写,镜头的过渡——多角度动作重现+动作要领解说过渡,特效编辑手法——不同角度多次展示同一动作+减速录播等。整个分解过程如图3所示:
图3 体育视频空间状态粒度分析与一般表达
(三)信息粒度的频数约集表达法
在上文信息粒度的问题归约表达和状态空间表达中,不同粒度之间都会存在着某种逻辑关联。而运用频数约集表达法的粒度间的关系联接则表现为频率问题,同一频数的对象归为同一粒度。通过测算不同粒度的占比,以判定信息粒度所具有的类别区别力。
例如,当人们需要了解某网络媒体对NBA和CBA在中国发展的喜好和倾向性时,就可以采取粒度的频数约集表达法,选取该网媒某时间区间内与主题相关的报道,计算关键词“NBA”、“CBA”、“中国”在文中的词频,通过对比不同频数粒度的占比从而判别网媒态度。假定分别以两篇1000个字汇的报道(分别标记为A文、B文)和一篇2000个字汇的报道(标记为C文)为样本,析出三个关键词在文中的词量和词频占比(如表2)。
表2 信频息粒度的数约集表达词频模拟
表2数据显示,在三个样本报道中词频最高的分别是NBA、CBA、NBA,词频最低的分别是中国、中国、CBA,词频居中的分别是CBA、NBA、CBA。假设这三组词分别构成粒度α、δ、β,则:在高频粒度α中关键词“NBA”出现频率多于其它关键词,说明该网媒对“NBA”的关注度很高;低频粒度δ中关键词多是“中国”,说明该网媒比较单纯关注NBA,而并不太关注NBA与中国之间的关系发展。
当然在实际的信息粒度求解时,如此的信息关键词选取法是不完全的,还应包括“美国篮球联赛”、“中国篮球联赛”等关联词汇。
四、信息粒度表达实例
学科网络信息的粒度表达形式与信息类型、分析需求等主客观因素有密切关联。笔者做了下述表3中的实例研究。
表3 学科网络信息粒度表达样本表
国家体育总局在这十年间,共立项1356个体育哲学社会科学研究项目,对这些信息进行粒度分析时,可从立项时间、项目类型、项目承担单位性质、项目负责人来自地区等要素进行不同粒度集约,分别形成“时间粒度(S)”、“类型粒度(X)”、“单位粒度(T)”、“地区粒度(L)”等粗分信息粒子,粗分信息粒子中则可遵循一定规划进行层层细分,形成不同粒度的细分粒度信息粒子。图4选取“单位粒度”进行了三次粒度细分,视情况还可作更进一步的粒度细分,获得更细粒度的信息粒子。
图4 信息粒度细分示意简图
每一种粗分信息粒子都可以如图4所示,进行一次、二次、三次……乃至N次的细分,从而获得Sn、Xn、Tn、Ln细信息粒度集约,Sn、Xn、Tn、Ln中每个信息粒度集约都可能存在交叉的逻辑关系,由一定逻辑关系交叉存在的信息粒子就是满足粒度分析需求的结果。
五、结语
在人类的思维过程中,会采用概括的多粒度分析法,将复杂的或是难于准确把握的问题进行由粗到细地分解,通过不断地尝试去求得问题的最佳解[4]1611,而且能从极不相同的粒度上观察和分析同一问题,拥有处理不同粒度世界的能力。目前,虽然人们对信息粒度理论和表达方式的研究在不断深入,但如上文对特定学科网络信息的粒度表达一样,大多仍是尚处于单一粒度世界中的研究探索,对人脑思维活动和认知过程模仿处理存在着不精确、不确定和不完全信息的缺陷。因此,信息粒度的研究应突破单一粒度的局圄,更深入地融合认知科学和信息科学,研究多粒度世界转换的思维特征和性能,发展模拟人类智能在不同的粒度世界上进行问题求解的理论和应用工具。
[1]王昆.基于逻辑方法的粒化理论[D].北京:首都师范大学,2014:2-10.
[2]贾秀芳.基于粒计算模型的知识推理理论与方法[D].合肥:中国科学技术大学,2014:2-9.
[3]李鸿.粒的形式化表示研究[J].宿州学院学报,2011,26(5):21-24.
[4]周军,林庆,胡瑞瑞.基于动态粒度商的属性约简算法[J].计算机应用,2009,29(6):1608-1611.
【责任编辑:赵佳丽】
The Granularity Expression of Subject Network Information
ZHOU Hongwei
(Library,Huizhou University,Huizhou 516007,Guangdong,China)
Based on the"particle"concept of theory of particle physics,the granularity theory integrates the computing science and information science with cognitive science.It focuses on using information granules and granularity analysis method from the perspective of cognitive science,which is for the analysis and simulation of the complex information processing of human brain.The paper elaborated the basic concepts of granularity theory,the properties of information granules,and introduced the information granularity and granularity theory into the field of sports disciplines.It further explored the use of the corresponding information granularity analysis method for the study of the sports network information granularity expression for different types of sports network information and needs.
subject information;network information;information granule;granularity;granular computing
G353
A
1671-5934(2017)01-0101-05
2016-06-22
广东省哲学社会科学规划项目(GD13XTS03)
周红炜(1970-),女,湖南长沙人,副研究馆员,管理学硕士,研究方向为情报分析与文献信息处理。