APP下载

物理知识网络的特性分析

2013-09-28崔雪梅李凤月SeungKeeHan

复杂系统与复杂性科学 2013年2期
关键词:幂律用语教科书

崔雪梅,李凤月,Seung Kee Han

(1.延边大学师范学院学科教育教研部,吉林 延吉 133002;2.韩国忠北大学校物理系,清州361- 763)

物理知识网络的特性分析

崔雪梅1,李凤月1,Seung Kee Han2

(1.延边大学师范学院学科教育教研部,吉林 延吉 133002;2.韩国忠北大学校物理系,清州361- 763)

为了研究由物理用语组成的物理知识网络的特性,利用复杂网络理论构建了物理知识的二元网络,通过分析发现物理知识二元网络具有复杂网络的特点:物理用语间的平均距离较短;物理知识网络的度分布满足幂律分布;物理知识网络具有层次性模块结构。因此,通过分析物理知识的二元网络特性,可以理解物理教科书所隐含的抽象的物理知识的结构特征。

物理用语;物理知识网络;幂律分布;层次性模块结构

0 引言

人类发明文字和印刷术后,书在各个领域作为记录和传递信息的载体,发挥着重要的作用。随着计算机和网络技术的飞速发展,书以多样的形式和更加系统化的建构方式,发展成为让读者更加易于理解的学习媒体。经过人类长时间经验的积累,写书的模式逐渐固定了下来。在书中,为了描述指定的内容,作者有目的、有意图地选择词语,之后将这些词语系统地罗列,将知识从简单的水平推向更高水平。虽然书中所使用的词语是由作者选择的,但还是受内容的限制,并且也受前人经常使用的或规定的词语的影响,为的是通俗易懂。某个行业或专业的专门术语称为用语,这些用语是人类为了表示相同知识而做的约定。描述一个现象只用一个用语是远远不够的,要用相关的若干个用语,而且有些特定的用语使用次数还特别多。关系最密切的用语在书的基本单位(句子)中同时出现,说明简单的现象,句子构成段落、段落构成节、节构成单元、单元构成书,并形成最大单位的知识。从这种观点看,在书中使用的用语,互相有联系,并共同产生新的知识。可以说,知识是由组成这些知识的用语和用语间的关系构成的。因此,可以基于复杂网络理论建立物理用语间的连接图,这个连接图又称网络。通常,网络是由有关联的要素间的连接来构成,要素越多就越复杂。为了解释自然现象或社会现象的复杂性,近年来学者们进行了非常多的研究[1-9],计算机和网络技术的发展为社会网络、生物网络、Internet网络等各个领域的复杂性研究提供了可能性。

在本研究中,着眼于书中的知识是以物理用语之间的关系组成的观点,对3本普通物理教科书构建了物理知识网络,并进行了网络特性的分析。在这里,知识网络的节点是物理用语,网络的连边是物理用语间的关系。

1 研究资料及方法

本研究的研究对象为 Griffith[10]、Hewittt[11]和 Knight[12]编写的3本普通物理教科书,物理用语的界定是以牛津的物理用语词典[13]中定义的物理用语为依据。提取物理用语时将单数和复数形式的英文单词视为相同的物理用语,由两个以上单词组成的物理用语以合成词提取,组成合成词的单词不再作为物理用语提取。比如“magnetic force”只提取合成词用语,“force”就不再提取。有多种语义的用语,比如“second”在提取物理用语后,人工进行核对后将未以物理用语的意思使用的部分予以删除。

将一个物理用语在整个书中出现的次数称为该物理用语的使用频率,以f表示。表1中列出了3本教科书中有关物理用语的基本数据。3本教科书的系统大小不同,这有助于发现与系统大小无关的物理知识网络的固有特性。

表1 3本教科书的基本统计数据Tab.1 Basic statistical data for 3textbooks

物理教科书中的物理知识由最基本的物理用语构成句子,由多个句子组成段落、小单元,依此类推进行有关自然现象的说明。因此,可以认为出现在同一段落中的物理用语是相互联系的,而且出现在同一句子中的物理用语间的关系更为密切。基于这种观点,按照如下假定构建知识网络:1)将教科书中出现的物理用语作为网络的节点;2)两个物理用语在同一句子中出现,则认为两个物理用语间有连边,并且连边没有权值;3)形成知识网络时连边不考虑方向。以这种方式建构的知识网络是连边没有权值、没有方向的二元网络,构建知识网络的具体方式如图1所示。图1中force的度为5,mass的度为3,vector的度为2。

2 研究结果

2.1 物理用语的统计特性

表2中列出了3本教科书中使用频率最大的前20个物理用语。

根据教科书的侧重点不同,各个教科书中使用的物理用语会有区别,但从表2中可以发现,在3本教科书中使用频率最大的都是“force”,另外“energy”,“light”,“time”,“mass”,“charge”,“motion”,“speed”,“wave”,“current”,“atom”等物理用语在3本教科书中使用频率都比较大,这说明这些物理用语在物理知识体系中占据着比较重要的地位。

为了了解教科书中物理用语使用频率的分布情况,图2中列出了物理用语使用频率的分布图。虽然有使用频率超过1 000的物理用语,但使用频率大的物理用语个数不多,大部分物理的使用次数在1~10之间,物理用语使用频率的分布呈现典型的幂律分布P(f)~f-α,而且3本教科书的指数α都约为1.0,这表明3本教科书在物理用语使用频率特性上具有相似性。

图1 构建物理知识二元网络示例图Fig.1 Illustration of binary network of physics knowledge

表2 3本教科书中使用频率最大的20个物理用语Tab.2 20most frequent physics terms in 3textbooks

哈佛大学的语言学专家Zipf通过研究发现,在一个有相当长度的语篇中如果把单词出现的频率(f)按由大到小的顺序排列,则每个单词出现的频率与它的名次(rank)的常数次幂存在简单的反比关系,这种分布就称为Zipf定律,又称频分布定律。这个定律后来在很多领域得到了同样的验证,包括网站的访问者数量、不同姓氏人数的数量和每个国家公司的数量等等[14]。为了确认物理教科书中的物理用语是否满足Zipf定律,图3中画出了3本物理教科书中的物理用语的频率与其名次间的关系,因为3本教科书的物理用语数有限,所以将其结果以幂律指数截止函数f(r)~r-ηe-rδ拟合,幂指数η=0.5,时间常数δ=0.002,r在1~1/δ(约500)之间呈现幂律分布,r大于1/δ的区间内由于数据量有限,所以呈现指数分布。因此,总体上3本教科书的物理用语也满足Zipf定律。

2.2 物理知识网络的特性

图4是借助于Pajek[15]软件画出的对Griffith教科书建构的二元网络,由于教科书中出现的物理用语较多,所以把所有的物理用语都显示在图中,将无法看清网络的特性,为此在图中只列出了同时在相同句子中出现10次以上的114个物理用语。从图中看出,存在使用频率大的物理用语,相应地这些物理用语的度也大,并且组成了模块结构。物理知识网络以教科书的各个单元为单位组成了模块,在模块中充当中心的是那些使用频率较大的物理用语,也说明使用频率较大的物理用语在物理知识网络的形成中发挥重要的作用。成为各个单元中心的物理用语分别是:“force”,“velocity”,“time”,“charge”,“current”,“heat”,“temperature”,“light”,“wave”,“atom”,“electron”等,可以说这些物理用语是代表该单元的核心用语,因此可以用知识网络的形式把隐含在教科书背后的知识结构呈现出来。

表3中列出了代表物理知识二元网络特性的统计数据。

3本教科书的二元网络的节点个数N分别为654,562和772,Knight书的系统大小比其他两本大,所以网络的节点数也更多。平均度〈k〉的大小分别为17.6,15.9和20.1,3本教科书的平均度比较大,说明3本教科书的二元网络是节点间连边较多的网络,也表示说明一个物理概念时有很多相关的物理用语参与其中。度分布特性的分析是分析网络结构特性的典型的方法,在1999年BA万维网结构研究和网络模型[16-17]中出现的一般的特性是度k的分布函数P(k)以幂函数的形式随着k的增加而减小,即P(k)~k-β,这里指数β是呈现网络特性的标度指数。度分布满足幂律分布的网络称为无标度网络。万维网[17]、internet[18]、代谢网络[2]等很多种网络的度都呈现幂律分布。图5中列出了3本教科书的二元网络的度分布函数,在本研究中3本教科书的度分布更接近于漂移幂律分布P(k)~(k+a)-β[19],并且a=10,β=2.0,度分布接近于幂律分布,这说明3本教科书的二元网络具有无标度网络的特性。

图3 3本物理教科书中的物理用语频率(f)与其名次(r)间的关系(双对数坐标)Fig.3 Relation between physics term using frequency(f)and its rank(r)for 3textbooks(log-log plot)

图4 Griffith教科书的二元网络Fig.4 Binary network for textbook by Griffith

关于度分布满足幂律分布的内部机制,Barabási和 Albert提出了两条原则[20],一是网络的增长性;二是偏好连接机制。但幂律度分布的来源不只是BA生长网络的偏好连接机制,还有很多机制也将会导致幂律度分布[21]。比如,经济网络的幂率长尾的原因是成本,地震网络中由于一次强力地震可以引发一系列强度较弱的余震,因此呈现地震强度的幂率分布,在这些网络中似乎看不到偏好连接的特征[22]。对物理知识网络的幂律度分布的起源要进行更加深入的研究,并在后续研究中揭示其内在机制,这对进一步了解物理知识网络的特性、提高物理学习效果、提高物理教科书编写水平都会有积极的推进作用的。

网络中两个节点之间的距离定义为连接这两个节点的最短路径上的边数,在表3中可看到3本教科书的节点间的平均距离〈D〉在2.7~2.9之间,即节点之间的平均距离在3.0以内。聚集系数是表示一个网络中的节点的聚集程度的系数,代谢网络(C=0.7)[2]和演员网络(C=0.79)[23]等网络的聚集系数较大,说明这些网络中节点之间聚集程度较高。表3中的〈C〉在0.2~0.3之间,说明3本教科书的二元网络也具有一定的聚集程度。从3本教科书的平均距离〈D〉小于3.0,并且聚集系数〈C〉在0.2~0.3之间,可以看出教科书的二元网络具有小世界网络的特性。

表3 3本教科书的二元网络的统计数据Tab.3 Statistical data for the binary networks of 3textbooks

图5 3本教科书知识网络的度的分布图(双对数坐标)Fig.5 Degree distribution for knowledge networks of 3textbooks(log-log plot)

图6的聚集系数分布图中聚集系数C(k)与度k之间呈现幂律分布关系C(k)~k-γ,并且γ在0.4~0.5之间,虽然比代谢网络的γ(≈1)值小,但也可以说3本教科书的二元网络具有层次性模块结构,即,由若干个有密切联系的物理用语组成小规模的概念模块,由这些小规模概念模块再组成更大规模的概念模块,以这种层次性模块结构建构整个物理知识网络。

图6 3本教科书知识网络的聚集系数分布图(双对数坐标)Fig.6 Clustering coefficient distribution for knowledge networks of 3textbooks(log-log plot)

3 结论

以牛津物理用语辞典中定义的物理用语为依据,对3本英文版的普通物理教科书进行了分析。物理用语的使用频率分布满足幂律分布P(f)~f-α,α≈1.0,表明存在“force”、“energy”等多次重复使用的物理用语,但其个数不多,大多数物理用语的使用频率是较小的,这与对普通生活用语分析的结果相一致[24]。对3本教科书构建的二元网络中,度分布满足P(k)~k-β,0.8<β<1.0,表明教科书的二元网络具有无标度网络的特性,并且具有生长网络的特性[15]。3本教科书的二元网络的节点间的平均距离小于3.0、并且聚集系数在0.2~0.3之间,表明网络具有小世界网络的特性。另外,聚集系数的分布满足幂律分布C(k)~k-γ,0.4<γ<0.5,还表明网络具有层次性模块结构特性。这说明,物理知识与相关的物理用语紧密连接,并且这些物理知识间又有联系。

本研究提供了将教科书中出现的物理用语收集到数据库后构建基本统计资料的方法,利用知识网络的建构发现了物理用语间的基本关系。这种收集数据和分析数据的方法,在其他学习领域中也可以广泛利用,具有借鉴意义。

[1]Barabási A-L,Albert R,Jeong H,et al.Power-law distribution of the world wide web[J].Science,2000,287(5461):2115.

[2]Jeong H,Tombor B,Albert R,et al.The large-scale organization of metabolic networks[J].Nature,2000,407(6804):651-655.

[3]Jeong H,Mason S P,Barabási A-L,et al.Lethality and centrality in protein networks[J].Nature,2001,411(6833):41-42.

[4]SoléR V,Montoya J M.Complexity and fragility in ecological networks[J].Proc R Soc Lond B,2001,268(1480):2039-2045.

[5]Barabási A-L,Jeong H,Neda Z,et al.Evolution of the social network of scientific collaborations[J].Physica A,2002,311(34):590-614.

[6]Goh K-I,Cusick M E,Valle D et al.The human disease network[J].PNAS,2007,104(21):8685-8690.

[7]Hidalgo C A,Rodriguez-Sickert.The dynamics of a mobile phone network[J].Physica A,2008,387(12):3017-3024.

[8]周涛.在线电影点播中的人类动力学模式[J].复杂系统与复杂性科学,2008,5(1):1-5.

Zhou Tao.Human activity pattern on on-line movie watching[J].Complex Systems and Complexity Science,2008,5(1):1-5.

[9]王福生,杨洪勇.图书管理系统中的借阅行为分析[J].复杂系统与复杂性科学,2012,9(1):55-58.

Wang Fusheng,Yang Hongyong.Books-borrowing behavior in library management system[J].Complex Systems and Complexity Science,2012,9(1):55-58.

[10]Griffith W T.The Physics of Everyday Phenomena[M].New York:McGraw-Hill,1998.

[11]Hewitt P G.Conceptual Physics[M].New York:Addison-Wesley,1997.

[12]Knight R D.Physics[M].New York:Addison-Wesley,2003.

[13]Daintith J.Oxford Dictionary of Physics[M].New York:Oxford University Press,2005.

[14]百度百科.Zipf定律[DB/OL].[2010-09-10].http://baike.baidu.com/view/1519158.htm.

[15]Batagelj V,Mrvar A.Pajek:program for large networks analysis[DB/OL].[2010-09-10].http://vlado.fmf.uni-lj.si/pub/networks/pajek/.

[16]Barabási A-L,Albert R,Jeong H.Mean-field theory for scale-free random networks[J].Physica A,1999,272(3/4):173-187.

[17]Albert R,Jeong H,Barabási A-L.Diameter of the world wide web[J].Nature.1999,401(6749):130-131.

[18]Faloutsos M,Faloutsos P,Faloutsos C.On power-law relationships of the internet topology[J].Comput Commun Rev,1999,29(4):251-263.

[19]何大韧,刘宗华,汪秉宏.复杂系统与复杂网络[M].北京:高等教育出版社,2009.

[20]Barabási A-L,Albert R.Emergence of scaling in random networks[J].Science,1999,286(5442):509-512.

[21]Zhu CH P,Zhou T,Yang H J,et al.The process of coevolutionary competitive exclusion:speciation,multifractality and power-laws in correlations[J].New Journal of Physics,2008,10(2):023006.

[22]王林,戴冠中.复杂网络的Scale-free性、Scale-free现象及其控制[M].北京:科学出版社,2009.

[23]Watts D J,Strogatz S H.Collective dynamics of‘small-world’networks[J].Nature,1998,393(6684):440-442.

[24]Cancho R F,SoléR V.Two regimes in the frequency of words and the origins of complex lexicons:Zipf's law revisited[J].J Quan Ling,2001,8(3):165-173.

Analysis of the Characteristics of Physics Knowledge Network

CUI Xue-mei1,LI Feng-yue1,Seung Kee Han2
(1.Teaching and Research Department of Discipline Education,Normal College,Yanbain University,Yanji 133002,China;2.Department of Physics,Chungbuk National University,CheongJu 361-763,Korea)

To research the characteristics of physics knowledge network which is composed of physics terms,a binary network of physics knowledge was constructed based on complex network theory.Furthermore,by analyzing the binary network of physics knowledge,it was discovered that the binary network of physics knowledge possesses the characteristics of complex network:The mean distance between any two nodes is very small,Degree distribution of physics knowledge network follows the power-law distribution,Physics knowledge network has hierarchical modular structure.Therefore,based on analysis of the binary network of physics knowledge,the structure characteristics of abstract physics knowledge implied in the textbook would be understood.

physics terms;physics-knowledge network;power-law distribution;hierarchical modular structure

N94

A

1672-3813(2013)02-0030-07

2012-12-05

延边大学科技发展计划项目2012(12号)

崔雪梅(1969-),女,吉林延吉人,博士,副教授,主要研究方向为物理课程与教学论和复杂网络。

(责任编辑 李进)

猜你喜欢

幂律用语教科书
深度思考之常用逻辑用语
《备急千金要方》:中医急诊教科书
常用逻辑用语的八个易错点
藏起来的教科书
对一道教科书习题的再探索
四川地区降水幂律指数研究
被藏起来的教科书
幂律流底泥的质量输移和流场
礼貌用语大家学!
幂律谱模型原子钟钟差仿真与噪声类型辨识